高“效”运维已死,高质运维永生

作者:Sender Su  来源:本站原创  发布日期:2024-08-22  最后修改日期:2024-08-22

本周 P0 级别运维事故不断,前有8月19日的网易云音乐[1],后有8月21日的 WPS 云[2]。虽然具体原因众说纷纭尚未有个究竟,但很显然,矛头都对准了运维。

article banner

笔者:国际认证信息系统审计师、软考系统分析师、软件工程硕士

犹记得去年腾讯云广州电信机房的一把“火”,不仅烧掉了好几个管理者的职位和绩效[3],还连带把客户那边管理者的饭碗也砸了[4]。

出故障的都是有着过亿用户的大厂云产品,从常理推断,大厂应该都有良好的 IT 运维管理体系、制度、流程和执行过程记录,但故障依然前赴后继,原因何在呢?

一种可能的原因,在于业界长期片面地强调运维效率,甚至喊出“降本增效”这种典型的马儿好马儿不吃草的口号来,这是彻头彻尾的方向性错误。

所以高“效”运维已死。唯高质运维,方可立于不败之地。

笔者虽然不是在什么大厂从事IT工作,但在职业生涯中远早于 DevOps、敏捷开发等理念成形之前,就已经在自己职能的范围内进行了充分的实践。

所以什么是高质运维?

除了人的技术能力这个因素不可忽视之外,还有一个关键因素:

运维文档的质量。

这也是这次关于网易云音乐故障的其中一个传言:按操作规程执行运维,结果却是把存储给干下线了。

如果这个传言最后确证为真,那么可想而知,这操作规程必定是没有及时按实际环境的变更同步更新。

笔者认为,运维文档的质量高低,应该至少基于:

1、可用性(或有效性):文档内容真实有效,按文档进行的操作产生的结果符合文档本身的预期。

2、准确性(或及时性):文档内容紧跟IT环境实际情况,在IT环境发生变更时及时进行变更,且保留历史档案。

3、完整性(或充分性):文档内容足够完整,不仅包括对正常操作流程的详细描述,还包括对异常情况的提醒、警告和应急处置措施的详细描述。

而这三个属性能否达到具有高质量的水平,主要取决于:

1、管理者的技术水平高不高,懂不懂具体IT技术,能否判定相关文档的质量高低。

2、文档编写者的责任心强不强,能不能及时更新文档,使文档始终符合IT环境实际情况。

3、操作执行者的严谨度够不够,会不会浑浑噩噩地无脑执行规程描述的操作而无视任何。

如果企业片面地追求“降本增效”,总是想3个人能干5个人的活却只拿4个人的工资,就必然会导致以上三个决定性的因素转入下行趋势,正所谓:

“饥饱劳役,焉得其力”

这个时候,事故就必然在前面等着。

其他必不可少的技术因素,比如应该配置和生产环境始终一致的模拟测试环境,不可逆操作应先在模拟测试环境测试通过后再在生产环境操作,所有操作都应留有充足的日志记录等等,这些基本上就是 COBIT 和 ITIL 的内容,笔者认为已经不需要啰嗦了。

相关参考:

[1] 网易云音乐已经恢复

https://t.cj.sina.com.cn/articles/view/2022252207/78891eaf04001g9hs

[2] WPS回应“崩了”

https://finance.sina.com.cn/tob/2024-08-21/doc-inckkqse2677934.shtml

[3] 腾讯 329 故障(一级事故)

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html

[4] 唯品会公告329机房宕机故障处理结果

https://finance.sina.com.cn/wm/2023-06-05/doc-imywfxyf2156048.shtml

本栏目相关
  •  2024-08-22 高“效”运维已死,高质运维永生
  •  2024-09-08 CISecurity.org 已经拒绝中国大陆 IP 地址访问
  •  2024-09-26 WSUS 行将就木:微软决定放弃这款差强人意的更新管理工具
  •  2024-10-10 网络安全日志保留6个月?可能要三年。
  • 本站微信订阅号:

    微信订阅号二维码

    本页网址二维码: