程序员必看系列二之如何应对云厂商底层故障对业务的影响

2020-12-10 凌晨阿里云华东区网络故障有感，去年我写过类似的文章，文中也提到过解决方案，这里我们来重温下。

近期没有时间对上次的事故进行总结，今天刚好抽出一点时间总结下。

从阿里云发布的故障报告单上来看，此次故障归结为isp和核心网络设备故障导致的此次事故-俗称电路抖动，电信运营商光线瞬时裂化，导致核心路由设备消息堆积降低了核心路由的cpu处理能力。总体表现为出口网络一直在抖动，大概持续为4小时左右。主要影响面为对网络强依赖服务，例如：直播，在线网络游戏等。对于业务读写比很低的业务影响没那么大。主要涉及到阿里云产品有：SLB、云控制台、RDS、云服务API业务等。

故障年年有，我们该如何避免云底层故障降低对业务的影响呢？这是个老生常规话题，很多时候只有业务受影响了才会想起来做真正高可用的架构。

我一直在跟同行们说，要做多可用区域的架构，特别是数据库的多可用区域架构。当单个区域故障时可以通过系统切走这部分流量，例如：当上海区域有故障时，我们可以把流量切到华北区域。业务照常进行。

一个牛逼的架构不能把所有的寄托放到云厂商那边，应该做好各种应急情况的发生。架构要做到不太依赖单一的云厂商，使用超融合的混合云架构。

程序员必看系列二之如何应对云厂商底层故障对业务的影响

分类

归档

友链