加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

从812到新冠战疫,数据中心该怎样从自愈到自救?

发布时间:2021-06-27 12:23:25 所属栏目:产品 来源:互联网
导读:我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。 冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。 得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。 地震可以有

我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。

 

冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。

 

得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。

 

地震可以有,只要烈度不超8,能扛;断电、停水,即便两个一起来,两三天内,能扛;台风,有预案,能扛;雷暴,有防雷接地系统呢,能扛……

 

至于设备级的故障,那更是数据中心设计中“并行维护”的起步要求,甚至允许多台设备故障神奇地同时发生。

 

数据中心是具备自愈能力的。

 

病毒进入人体,就是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮助,只好选择送人头;自愈能力强,病毒不知不觉就被干掉了。

 

那么,既然有这么强大的自愈能力,数据中心还怕什么呢?

 

当然怕。最怕那种不在应急预案覆盖范围内的、起源于外部的不可抗力事件。

 

五年前发生在天津的812大爆炸,以及眼下的新冠病毒之战,就属于这类事件。

 

关于812事件详情这里就不再赘述了,有兴趣的同学可以通过《没有观众的裸奔》重温一下痛苦记忆。天津数据中心离爆炸核心不到1.5公里,受到极大破坏。

 

爆炸声落,数据中心内即发现8处故障点,其中包括冷水机组停机、爆管、地下室水浸这样的严重故障。

 

只要应急预案能覆盖的场景,处理起来就可以有条不紊。80分钟后,8处故障全部处理完毕,各系统运行平稳。当然,光有预案还不够,就像我们在事后反复强调的,应急预案和平时不折不扣的演习,关键时候才是救命稻草。

 

第一时间处理好故障,是数据中心的本分,也是其自愈能力的展示舞台。但第一天还远不是高潮,随后发生的一系列事情,才让这一天天的值守,变得特别漫长。

 

绝大多数情况下,数据中心依靠自身的自愈能力来消除风险,是不需要外部帮助的。但到了“大敌当前大局为重”的关口,一旦事件升级,当政府不得不上门来“帮助”你时,问题就来了。

 

清场之后,偌大的天津数据中心没有一个人影;我们经常挂在口边的“无人值守”,陡然一下成为了现实。

 

此情此景,如何自救?很显然,有一个完整、精确、随时随地可登入、允许关键运行参数远程修正的数据中心监管控系统,此时显得多么的重要……此处省略666字。关于当年天津是怎么做的,可参阅上述文章《没有观众的裸奔》。

 

天津数据中心虽然扛过了812的考验,但也暴露出若干问题。尤其是无人值守的全面管控能力。

 

我们常说,教训比经验更值得珍视。经此一役,腾讯在数据中心自动化系统方面加大投入,集中优势兵力很快推出了“腾讯智维”监管控平台,并开源共享给全行业。详情请了解《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》。

 

因此,在年前新冠病毒还没有真正爆发的时候,我们在全国每一个数据中心,已经提前做好了无人值守的准备。极端情况下政府干预清场后,可能会有一段不短的时间需要启动“无人预案”。

 

类似的极端场景,可能还包括化工厂泄漏、监狱暴动等只能靠想象预判的不可抗力事件。

 

这一年的春节,每个中国人都过得不凡。

 

丑陋的半兽人“新冠”携病毒大军兵临城下,全国的数据中心和中土所有部落一起,都在打一场保卫战。

 

信息报备、100%跟踪、无死角消杀、内外物理隔离、一级无差别严控……只要能想到的,只要病毒有可乘之机的,一定可以做到极致的严防死守。

 

但也有些地方可能被我们忽视了。比如数据中心值守人员的心理状态。我们说数据中心的自救,除了无人值守能力,其实也包括心理干预。

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读