當(dāng)?shù)貢r間2019年4月15日下午6點50分左右,法國巴黎圣母院發(fā)生火災(zāi),整座建筑損毀嚴(yán)重。著火位置位于圣母院頂部塔樓,大火迅速將圣母院塔樓的尖頂吞噬,很快,尖頂如被攔腰折斷一般倒下。
火災(zāi)發(fā)生后,巴黎市檢察機關(guān)在第一時間宣布啟動調(diào)查,調(diào)查方向初步定為“意外”引發(fā)火災(zāi),檢方已經(jīng)排除了縱火的可能性,也不認(rèn)為此事和恐怖主義有關(guān)。
巴黎圣母院的大火引發(fā)了國人的關(guān)心和聯(lián)想。咸豐十年(1860年)英法聯(lián)軍攻占北京后,縱火焚燒圓明園,大火三日不滅,圓明園及附近的清漪園、靜明園、靜宜園、暢春園及海淀鎮(zhèn)均被燒成一片廢墟,安佑宮中,近300名太監(jiān)、宮女、工匠葬身火海。使這座世界名園化為一片廢墟。大火連燒3天3夜,成為世界文明史上罕見的暴行。圓明園文物被掠奪的數(shù)量粗略統(tǒng)計約有150萬件,上至中國先秦時期的青銅禮器,下至唐、宋、元、明、清歷代的名人書畫和各種奇珍異寶。
殖民者的暴行永世不忘,被掠奪的文物必將歸還。更重要的是我們要從巴黎圣母院的大火警示中,查找安防工作中的漏洞,杜絕“意外”事件的發(fā)生。我國的很多古跡景點紛紛動作起來,加強了安防和培訓(xùn)。
數(shù)據(jù)中心應(yīng)該怎樣杜絕“意外”事故呢?在數(shù)據(jù)機房發(fā)生的各類事故中,火災(zāi)事故約占80%左右。主要包括電子計算機本身起火;配套設(shè)備或附屬裝置起火;空調(diào)設(shè)備或電氣設(shè)備起火;外來火災(zāi)侵?jǐn)_和雷擊等。
2014年,三星韓國果川數(shù)據(jù)中心發(fā)生火災(zāi),起火的是三星的韓國果川數(shù)據(jù)中心的四樓,火勢蔓延速度較快,很快波及建筑物頂端,室外管道可能是引發(fā)火災(zāi)的主要原因。火災(zāi)造成了數(shù)據(jù)中心數(shù)小時的停電,從而影響了全球用戶的網(wǎng)絡(luò)服務(wù),甚至三星官網(wǎng)也出現(xiàn)了短暫的無法訪問。
2017年4月4日19時57分,北郵數(shù)據(jù)中心發(fā)生火災(zāi),起火原因系UPS蓄電池組事故,事故致部分教育網(wǎng)節(jié)點和校園網(wǎng)暫時不能訪問。
2018年9月30日上午10點26分,青島西海岸惠普大數(shù)據(jù)中心發(fā)生火災(zāi);
2015年10月13日,Windows Azure上海數(shù)據(jù)中心發(fā)生故障,是由服務(wù)器所在機房著火斷電引起,導(dǎo)致Azure基礎(chǔ)設(shè)施離線無法提供正常服務(wù),受影響的用戶包括金融、互聯(lián)網(wǎng)、房地產(chǎn);2015年5月26日早晨,遠在美國亞利桑那州平頂山的蘋果工廠發(fā)生火災(zāi),起火點位于該公司數(shù)據(jù)處理中心屋頂光伏項目;2015年1月10日亞馬遜公司正在美國弗吉尼亞州建設(shè)的一座數(shù)據(jù)中心發(fā)生火災(zāi);2014年7月20日重慶農(nóng)商行數(shù)據(jù)中心發(fā)生重大火災(zāi),整個機房全部燒毀,直接損失達到一個億以上。
僅僅幾年,數(shù)據(jù)中心的火災(zāi)事故頻發(fā)。對于數(shù)據(jù)中心發(fā)生的故障,行業(yè)專家認(rèn)為故障多發(fā)的原因還是在運維管理上,正所謂“三分技術(shù),七分管理”,數(shù)據(jù)中心的故障大多源自于人禍。筆者認(rèn)為很多人(包括許多專家)將“意外”發(fā)生的根源歸罪于運維和運維管理人員,其實這是非常不公平的。
正像可靠性源于設(shè)計一樣,數(shù)據(jù)中心的連續(xù)運行的安全性同樣也是源自設(shè)計,這就給設(shè)計院的設(shè)計工作提出了更加嚴(yán)格的要求。
在數(shù)據(jù)中心的消防設(shè)計時,必須選擇安全、環(huán)保、效果好的滅火產(chǎn)品,要考慮滅火產(chǎn)品的安全環(huán)保性、經(jīng)濟合理性、產(chǎn)品的適用性、可調(diào)整性等綜合性能;還必須搜集滅火產(chǎn)品在國際、國內(nèi)應(yīng)用的廣泛性及在大型項目中的業(yè)績;在國際、國內(nèi)獲得的產(chǎn)品的認(rèn)可及認(rèn)證系統(tǒng)設(shè)計的配套工具,如系統(tǒng)設(shè)計計算的軟件等。
在數(shù)據(jù)中心施工建設(shè)時,必須嚴(yán)格遵守施工規(guī)范,GB50462-2015《中心基礎(chǔ)設(shè)施施工及驗收規(guī)范》是必須遵照的國家標(biāo)準(zhǔn)。特別是不能留有隱蔽性隱患。
數(shù)據(jù)中心的綜合布線對數(shù)據(jù)中心建設(shè)來說尤為重要。選擇什么樣的線纜、線經(jīng)和布線方案,對設(shè)備安全運行、維護和升級改造都會有很大影響。
數(shù)據(jù)中心設(shè)備的布局,如機柜正確的擺放方式應(yīng)該是將服務(wù)器機柜面對面或者背靠背的擺放,這樣便形成了冷通道和熱通道,機柜之間的冷熱風(fēng)不會混合在一起,形成短路氣流,大大提高制冷效果,保護好冷熱通道不被破壞。
高功率負(fù)載和高密度的服務(wù)器集中擺放,容易導(dǎo)致數(shù)據(jù)中心的局部熱點和單路電源功耗過高問題,可以將這些高功率設(shè)備和高密度服務(wù)器分在每個機柜內(nèi),這樣就不會出現(xiàn)高功率密度設(shè)備群。這對避免局部溫度升高,從而引發(fā)數(shù)據(jù)中心故障是有益的。
當(dāng)然,數(shù)據(jù)中心機房運維管理工作責(zé)任重大,隨著互聯(lián)網(wǎng)、信息化產(chǎn)業(yè)的不斷發(fā)展,作為各種信息載體的數(shù)據(jù)中心發(fā)揮著越來越重要的作用,因此數(shù)據(jù)中心的安全運行變得尤為關(guān)鍵,數(shù)據(jù)中心運維管理工作也變得越來越復(fù)雜。
驗證測試是一個確保數(shù)據(jù)中心各系統(tǒng)設(shè)計、安裝、功能測試、系統(tǒng)聯(lián)調(diào)、運行狀態(tài)與設(shè)計意圖相符合的過程,是實施獲得良好功能和可靠運行過程中的重要組成部分。一個好的驗證測試不僅滿足測試相關(guān)的設(shè)備功能指標(biāo),更重要的是驗證系統(tǒng)是否可以滿足運行階段的要求。對系統(tǒng)運維人員而言,在驗證測試的過程,可以驗證設(shè)備操作流程,增加實際操作和應(yīng)對突發(fā)事件的經(jīng)驗。近幾年建設(shè)的數(shù)據(jù)中心,都要求在數(shù)據(jù)中心投產(chǎn)前必須進行驗證測試。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的驗證
測試是業(yè)主對于數(shù)據(jù)中心建設(shè)質(zhì)量進行檢驗的一個重要過程,正式投產(chǎn)前未進行驗證測試,將給數(shù)據(jù)中心后續(xù)運行帶來巨大的風(fēng)險隱患。驗證測試同樣也適用于改擴建和日常的運維項目,通過儀表測量、觀察、分析等方式,找出系統(tǒng)運行的潛在風(fēng)險,實行相應(yīng)的改善措施,確?;A(chǔ)設(shè)施達到功能要求,實現(xiàn)預(yù)期的可靠性和可利用性。
如下圖所示,主要的驗證測試包括性能驗證測試、功能驗證測試和運維驗證測試。
巴黎圣母院的大火給數(shù)據(jù)中心建設(shè)和安全運行敲響了警鐘,一切“意外”的隱患必須從數(shù)據(jù)中心設(shè)計階段給予重視,不能把故障的主要責(zé)任推給運維和運維人員。希望設(shè)計院的設(shè)計師們多為數(shù)據(jù)中心的連續(xù)性安全運行和運維人員著想,下苦功夫,從大處著眼,從小處著手,設(shè)計出一個經(jīng)得起“意外”事故考驗的數(shù)據(jù)中心。
作者簡介
曲學(xué)基:中國空間技術(shù)研究院高級工程師,《UPS應(yīng)用》雜志主編。