有同学在知乎上提问:“线上无事故,运维还重要吗?”,描述如下:
本人运维行业,本部门在近几年一直保持效率增长且极少出现重大saas生产事故,并且为其他部门输出提升方法以及友好协同提升,但是最近从各层面接到反馈说对运维的投入减少,着实想不通,线上出了事故要运维背锅,产品出了bug要运维陪着到最晚,为什么把线上环境搞得稳定了,却不重视运维岗了?
这是原贴:https://www.zhihu.com/question/497361582
以上提问的是一个运维的同学。言下之义是不出事故,没有人知道运维重要。
这位同学的的感受,过去几年,我感同深受。我相信因为这个标题而点进这篇博客的同学,也有同样的感受。
但是,为什么出事故后,是运维重要呢?而不是测试、开发或者手机端开发呢?
通常是因为运维这个角色:
- 线上环境,他们最清楚,通常也只有他们有权限操作线上环境,可以紧急加一个数据库索引;
- 他们掌握了部署能力,可以发起回滚操作;
- 有权限查看各个组件的情况,并诊断根因;
- 为团队准备基础设施能力,如金丝雀发布能力;
- 搭建告警监控系统、CMDB、DevOps平台等。
- 等等
但是,这些与是否出事故,有多大的关联性呢?我们应该统计各种事故的根因的类型的比例,才有答案。
就目前而言,我们并不能说因为我们看重运维,就不出事故。
以上的问题是从个人感受出发的提问。只是更深层次问题的表象。
从企业层面上,我的疑问是:为什么在企业里,稳定性建设通常都是一阵阵的。即出一次事故,就立个项,就加班加点去完成“稳定性”项目。
比起讨论个人感受,从企业层面讨论这个问题,似乎更有趣。
其实,除了稳定性,软件的质量建设也是一阵阵的。想想,不是吗?不出Bug,没有人知道测试重要。
也许这是所有企业的正常表现。就像人的身体,痛风(一种慢性病)不发作时,你是不会感受它的存在,也自然就不会想到要去治疗或者预防它。然而,如果平时不注意饮食和锻炼,痛风经常复发。
线上事故就如同企业的痛风。企业应对“痛风”,容易好了伤疤忘了痛。
虽说可能是所有企业的正常表现,但不是一种健康的表现。
预防痛风,只能通过健康的生活方式如:
- 限制或避免饮酒,尤其是啤酒。
- 限制或者避免饮用含糖饮料,尤其是含高果糖玉米糖浆的饮料。
- 限制肉类摄入量,尤其是红肉、内脏和海鲜。
- 保持健康的体重。如果您需要减肥,请避免断食或过快地减肥,因为这可能会暂时增加尿酸水平。
- 增加水和低脂乳制品的摄入量。这些有预防痛风的作用。
一个人应对痛风的健康表现应该是采用健康的生活方式。
说回企业的稳定性建设,也是一样的道理。
稳定性不是通过“一阵阵的运动”或者“一阵阵的表演”来建设的,而是通过平时健康的企业活动来实现(我无意指导别人的企业,这只是我个人的思考)。
当然,现实中,对于有些人,要维持健康的生活方式是一件很难的事情(想想有身边有多少人做到早睡早起),而另一些人是一件很自然的事。为什么呢?
相同的,一家企业为什么无法自然地做到健康的企业活动?一定要出事故,才知道X的重要性呢?(X代表任何东西)
这个问题就很大了。希望对各位读者有启发。
Last modified on 2023-11-21