“凡事只要有可能出錯,那就一定會出錯。”—— 墨菲定律
数据中心的安全环境是由一个真实的环境和虚拟的环境构成。
真实的环境主要是指硬件设施和相关物理配置的资源等;虚拟的环境主要是指软件设施的安全性。
数据中心环境构成示意图
在数据中心机房里,有很多我们不可避免会遇到的单点故障,它可能属于真实环境下,如电源、制冷等;也可能是虚拟环境下,如网络通信、软件系统等,为了保障数据中心的安全,这些单点故障都是值得被关注的焦点。
一、什么是单点故障?
单点故障,是指引发系统失效的单项故障,会给整个系统带来灾难性的破坏。
和单个故障是看似相似实为不同的两个词语。单个故障则是不会引发整个系统失效的单项故障。
打个比方,一部正在放映的电影,如果出现放映机短路而导致观影结束,放映机短路就是单点故障。同样是放映的电影,如果出现中央空调短路,但并不会影响整个电影的继续放映,只是会影响观影感受而已,这个故障就是单个故障。
二、如何避免单点故障?
在数据中心机房中,因各种原因可能会出现一些故障,但要尽力控制在单个故障范围,避免由单个故障升级为单点故障。避免单点故障可以用以下五个招式:
第一招:抓关键
在防范单点故障时不可能做到面面俱到和平均用力。
任何一个数据中心都有一些关键点。
我们要做的就是对这些关键点进行全面监控并做重点保障。如UPS电源、制冷系统、服务器等都是非常重要的关键点。之前华为云的宕机事件,就是由于服务器这个关键点遭遇风险。
第二招:留备份
对可能出现单点故障的部分做好备份。
一旦出现故障就能立马启动备用,一般是对那些比较关键的系统或设备进行备份。如对制冷系统、UPS电源等进行“N+1”的冗余。
第三招:存余量
这和留备份有些相似但不一样。存余量是指预留出一些例如人员、时间、空间等资源以应对可能出现的突发情况。
主要是针对不同场合,进行适当的考虑余量。
如在数据中心建设初期一般都会预留足够的柜位空间,满足日后扩容需求。
第四招:抓推演
通过某些工具或手段提前预制可行方案,也就是预先排除单点故障的过程。
推演越充分,方案越完善,就越可能避免单点故障的发生。
如机柜在交付前,对其进行预安装和预调试,将有可能发生的单点故障发生率降到最低。
第五招:备预案
这里说的预案有两种:一种预案是指出现可能单点故障的事故后采取的补救措施,这种预案的目的是避免单点故障的发生。还有一种预案是发生故障后的预案,这种预案的目的是最大限度减少损失。这两种预案都需要。
前者是为了避免单点故障,后者是为了把单点故障带来的损失降到最小。
例如,拿发生市电停电来说,第一种预案是指当发现停电后迅速通过切换到UPS电源等方式进行有效供电。第二种预案则是发生严重停电事故后,除了使用UPS电源供电,还要启动后备柴油发电机,以防UPS电源无法承担长时间的供电。
双电源加发电机供电方案示意图
如开头“墨菲定律”所说的那样,就好比生活中如果有99%的好事和1%的坏事,那么这1%的坏事一定会发生。单点问题永远会存在,且一定会发生,不必太过忧虑。
只要参照上面提供的五种方式,在故障发生前学会如何降低风险,在故障发生后积极的寻求减小损失的措施。就算遇到问题了,总能解决。
本文标题:数据中心的单点故障如何避免?
本文链接:https://www.blueocean-china.net/zhineng/484.html [版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。