10月13日上午9点时许,苏州超算中心一幢办公楼顶楼发生火灾,现场浓烟滚滚,10公里外都能看到。关于火灾原因,有网友猜测是顶楼施工或电路问题导致设备燃烧。而根据当日午间苏州工业园区发布的通报显示,着火点系位于苏州工业园区创意产业园内A2栋建筑屋顶备用冷却塔,火灾已于9时30分扑灭,未发生人员伤亡,建筑内企业数据机房未受影响。
图 | 苏州超算中心火情现场
图源:微信社群
据悉,苏州超算中心项目是依托苏州国科数据中心Tier-IV级机房打造的超级计算平台,该项目总投资人民币2.1亿元,计划分两期建设,一期投资人民币7000万元,已于2019年启动,2020年1月底完成建设,2020年3月3日正式揭牌投入使用。
苏州超算中心和我们熟知的“神威·太湖之光”、“天河”系列等国家级超算中心不同,是苏州工业园区政府考虑到链路成本和效率,为科技创新、产业升级打造的“智能超算云平台”,走的是“因地制宜”的第三类超算中心路线,主要服务于周边的人工智能产业以及相关的智能制造企业。因此,和传统超算中心以CPU算力为主不同,苏州超算中心是以GPU算力为核心的。
根据苏州官方的报道,苏州超算中心一期工程是按照“5400核CPU,320块GPU”的资源规模进行总体规划的,搭载国际顶尖芯片及处理器,目前拥有服务器近200台,机柜50多个,形成了“单精度浮点计算峰值为2657Tflops、双精度浮点计算峰值为1267.92Tflops、6.75PB存储容量”的服务能力,在智能计算领域位于国内领先水平。
值得一提的是,苏州超算中心可以称得上是一个惠企工程,因为对于和苏州超算中心签订服务合同的企业,政府会给予相应补贴,且无需主动申报,采取直接从服务价格中减免的方式来更有效地运转资金,企业获得的报价基本都是成本价,大大减轻了使用服务企业的资金压力。所以,苏州超算中心的地方价值非常高,本次火灾虽然没有造成很大的影响,但不免引起周边企业对数据安全的担忧。
数据中心火灾屡禁不止
事实上,几乎每年都会看到数据中心失火的新闻,而由于其特殊性和重要性,往往会造成比较严重的社会面影响。下面整理了近年来数据中心失火的一些案例:
引起数据中心失火的主要原因
根据调查结果显示,在数据机房发生的各类事故中,火灾事故约占80%左右。结合前面的火灾事故案例,总结出引起数据中心失火的几个主要原因为:
图 | 引起数据中心失火的主要原因
制图:与非网
数据中心火灾频发背后的教训与思考
由于数据中心具有设备多、功耗大,机房线缆多、布线复杂等特点,因此一旦发生火灾就会带来散热困难、烟气量大、用电量大、电气火灾居多、火灾损失大、扑救难度大、节点易燃烧等问题。
与此同时要注意的是,数据中心火灾和别的场景不同,所有数据中心设备都怕水,所以数据中心内部不能使用水来灭火,而常规的干粉灭火也会对设备和环境造成二次伤害,这样在数据中心只能采用气体灭火。气体灭火方式可采用多种气体,其主要原理是向火点注入惰性气体,致使可燃物缺氧而逐渐停止燃烧,不过当前消防中常用的七氟丙烷是一种微毒性气体,对人体危害大,所以非必要时不能使用这种气体灭火。
综上,火灾预防才是最好的选择,而火灾预防又可分为五个方面来实施:
图 | 数据中心火灾预防要点
制图:与非网
值得一提的是,即使做好了看似万全的准备,也不一定能把火灾扼杀在摇篮里。而此次苏州超算中心的这场火情来得有些巧,因为根据创意产业园租户的爆料,原本当天是消防演习的日子,而意料之外却成了实战。
图源:科技园B3区客户群