成长之路—对线上心存敬畏

最近遇到一个事,小同学上线出了bug,导致线上出现了一个case,说大不大,说小也不小,因为是半夜12点左右被发现的,晚上紧急上线是需要发邮件找两边经理审批才能上,这位同学担心大家都睡了,不好意思打扰,就打算第二天再上。

这个事让我想起来的一句话:“对线上要心存敬畏”。

线上无小事,每天上百亿的流量,一个不小心,都可能造成重大损失,所以如果不心存敬畏,这次影响可能是几万pv,下次可能就是一次严重事故,造成用户流失及收入损失!

怎么才算敬畏线上呢,我总结了一下大概是以下几点:

一、上线前/中/后,把控质量

1.上线前:

在产品和架构设计阶段考虑要全面

在开发阶段确保代码质量

在联调和测试阶段覆盖所有的分支场景;

只有这样,太会有信心顺利上线。

2.上线中:

上线过程中一定确保在灰度各阶段验证上线效果是否符合预期,遇到问题及时回滚止损,避免全流量后才发现问题导致损失扩大。

3.上线后:

上线后同步pm等相关人员,对灰度阶段无法验证的部分进行recheck,确保上线结果符合预期,原功能也未受到影响。

二、发现case后,尽快止损

一旦发现线上case,必须快速定位原因,一旦判定对用户体验有较大影响或商业有损,应立即止损,无论是半夜还是凌晨。

需要找相关人员申请紧急权限的,不用觉得不好意思,跟每分每秒不停的在造成损失相比,这不算什么。

三、总结原因,避免再次发生

每次的case都需要总结,否则就会陷入反复的紧急上线修复循环。

我们需要做以下几件事:

  1.根据出现的线上问题,审视现有流程机制,制定长效解决方案并实施;
  2.线上问题可以作为考核参考,引起重视,提升意识;
  3.需要有自动化的监控机制及时自动发现问题;
总之,我们要心存敬畏,积极预防;遇到问题后足够重视,充分沟通,充分的review ,积累经验和教训,线上也将变得更加稳定,个人也能获得不断的成长。
yan 2018.7.23 21:45

发表评论

电子邮件地址不会被公开。