某大厂it运维聊下120中心的事情

a-Totemo-avatar

a-Totemo

2022-06-02T18:06:43+00:00

120这事很像it运维监控中心的场景,做了这么久运维,对监控中心的运作还有些了解。
首先,在整个运维体系中,监控中心人员作为一线7*24值班人员,收入和技能要求是最低的。
在这个前提下,你的运维设计就必须承认这个前提。
如果认识不清,二线运维会倾向于把越来越复杂的判断条件放给一线监控人员。
比如,时间纬度:几点到几点,告警电话打给A,几点到几点电话打给B,甚至还要区分周末,假期,闲时,忙时等等
产品纬度:本来A产品打给A,B产品打给B,随着产品复杂性提升,A产品的1号模块打给A1,复杂度继续提升。
屏蔽规则:就是对误告警的判断。本来80%cpu就要告警,因为最近有活动,二线说最近一周到90%再打电话,诸如此类。
最后的结果就是,一线值班人员需要面对拿着越来越厚的监控规则,后果就是意识麻痹。或者响应时间增加。
最后的解决方案就是判断条件必须降到最低,才能高效运转。
任何服务质量的提升,都是需要成本的,区别只是这个成本由谁来负。
Jacc-avatar

Jacc

事情上是这么个理。但是人心所向之处呀~
thatboivampxs-avatar

thatboivampxs

来干这活的基本都是自身能力不强的,强一点肯定不会做着活要么早升职了。就和流水线一样,就记那么几个话术你让他稍微变通下就不会了。
papiQ-avatar

papiQ

Devops难道不应该自动监控自动报警通知service team,报警规则由程序设定吗?你这个一线值班人员有什么用,人工监控不能设置复杂规则,监控的指标太少,容易出错,成本还高。你们所谓大厂的自动化水平也太低了吧?
Blazin-_-Panther-avatar

Blazin-_-Panther

[quote][pid=615803674,32194252,1]Reply[/pid] Post by [uid=42895313]wukangave[/uid] (2022-06-05 03:03):

Devops难道不应该自动监控自动报警通知service team,报警规则由程序设定吗?你这个一线值班人员有什么用,人工监控不能设置复杂规则,监控的指标太少,容易出错,成本还高。你们所谓大厂的自动化水平也太低了吧?[/quote]大部分是报警服务处理不了的报警,能自动消除的报警都不叫事。
而不能自动消除的报警,就有麻烦了,比如设备离线,集群离线,服务重启失败,这些问题的根因太多了,有人为,有设备本身质量问题,有网络问题,有数据库定时任务导致写入问题。
这些是很难通过告警恢复手段消除告警的,有时候运维自己也很难手动消除,还要升级问题传递到研发这边。
papiQ-avatar

papiQ

[quote][pid=615804363,32194252,1]Reply[/pid] Post by [uid=38881123]朝云改二[/uid] (2022-06-05 03:17):

大部分是报警服务处理不了的报警,能自动消除的报警都不叫事。
而不能自动消除的报警,就有麻烦了,比如设备离线,集群离线,服务重启失败,这些问题的根因太多了,有人为,有设备本身质量问题,有网络问题,有数据库定时任务导致写入问题。
这些是很难通过告警恢复手段消除告警的,有时候运维自己也很难手动消除,还要升级问题传递到研发这边。[/quote]负责数据中心运维的应该是sre,对技术水平和经验的要求不亚于同级sde,而不是楼主描述的缺乏专业能力和训练的接线员这样的角色