a-Totemo
2022-06-02T18:06:43+00:00
120这事很像it运维监控中心的场景,做了这么久运维,对监控中心的运作还有些了解。
首先,在整个运维体系中,监控中心人员作为一线7*24值班人员,收入和技能要求是最低的。
在这个前提下,你的运维设计就必须承认这个前提。
如果认识不清,二线运维会倾向于把越来越复杂的判断条件放给一线监控人员。
比如,时间纬度:几点到几点,告警电话打给A,几点到几点电话打给B,甚至还要区分周末,假期,闲时,忙时等等
产品纬度:本来A产品打给A,B产品打给B,随着产品复杂性提升,A产品的1号模块打给A1,复杂度继续提升。
屏蔽规则:就是对误告警的判断。本来80%cpu就要告警,因为最近有活动,二线说最近一周到90%再打电话,诸如此类。
最后的结果就是,一线值班人员需要面对拿着越来越厚的监控规则,后果就是意识麻痹。或者响应时间增加。
最后的解决方案就是判断条件必须降到最低,才能高效运转。
任何服务质量的提升,都是需要成本的,区别只是这个成本由谁来负。
首先,在整个运维体系中,监控中心人员作为一线7*24值班人员,收入和技能要求是最低的。
在这个前提下,你的运维设计就必须承认这个前提。
如果认识不清,二线运维会倾向于把越来越复杂的判断条件放给一线监控人员。
比如,时间纬度:几点到几点,告警电话打给A,几点到几点电话打给B,甚至还要区分周末,假期,闲时,忙时等等
产品纬度:本来A产品打给A,B产品打给B,随着产品复杂性提升,A产品的1号模块打给A1,复杂度继续提升。
屏蔽规则:就是对误告警的判断。本来80%cpu就要告警,因为最近有活动,二线说最近一周到90%再打电话,诸如此类。
最后的结果就是,一线值班人员需要面对拿着越来越厚的监控规则,后果就是意识麻痹。或者响应时间增加。
最后的解决方案就是判断条件必须降到最低,才能高效运转。
任何服务质量的提升,都是需要成本的,区别只是这个成本由谁来负。