2020-12-10 凌晨阿里云华东区网络故障有感,去年我写过类似的文章,文中也提到过解决方案,这里我们来重温下。
近期没有时间对上次的事故进行总结,今天刚好抽出一点时间总结下。
从阿里云发布的故障报告单上来看,此次故障归结为isp和核心网络设备故障导致的此次事故-俗称电路抖动,电信运营商光线瞬时裂化,导致核心路由设备消息堆积降低了核心路由的cpu处理能力。总体表现为出口网络一直在抖动,大概持续为4小时左右。主要影响面为对网络强依赖服务,例如:直播,在线网络游戏等。对于业务读写比很低的业务影响没那么大。主要涉及到阿里云产品有:SLB、云控制台、RDS、云服务API业务等。
故障年年有,我们该如何避免云底层故障降低对业务的影响呢?这是个老生常规话题,很多时候只有业务受影响了才会想起来做真正高可用的架构。
我一直在跟同行们说,要做多可用区域的架构,特别是数据库的多可用区域架构。当单个区域故障时可以通过系统切走这部分流量,例如:当上海区域有故障时,我们可以把流量切到华北区域。业务照常进行。
一个牛逼的架构不能把所有的寄托放到云厂商那边,应该做好各种应急情况的发生。架构要做到不太依赖单一的云厂商,使用超融合的混合云架构。