程序员必看系列一之如何应对云厂商底层故障对业务的影响

各家的运维接到报警然后介入自查自家服务，一通自查之后，发现不是自家服务的问题，是外部问题，这个时候可能客户的投诉电话已经打到公司客服部了，如何做好和其它部门做好沟通，尽早给用户一个合理的解释，首先是发布故障报告，让用户明白故障的原因以及解决方案。二是做好技术的解决方案。尽快恢复服务。

这个时候是最考验一个公司流程的时候。

看来混合云以后会不错的把业务放在一个云服务商说不定哪天又搞个大事故做不到多云厂商的容灾至少可以做个跨az的容灾，也不至于某个区域挂了影响服务，从阿里云部分区域故障来看，我们内部的监控容灾难道没有问题吗？如何做好容灾本来就是个老生常谈的问题了，区域服务不可用通过监控发现问题，并定位问题服务器，迅速找到对应替代方案。比如服务分钟级的故障转移，等区域故障恢复，是否自动恢复服务，这里面牵涉到太多的技术实现，和跨部门系统的交付。光是应用的故障转移，目前各家应该做的都比较好了，DB的故障转移目前还是个业界难题，所以在资源允许的情况下，尽量做好多区域容灾。