中國儲能網(wǎng)訊:對于數(shù)據(jù)中心來說,保持業(yè)務連續(xù)性是首要目標,然而龐大的數(shù)據(jù)中心面臨眾多潛在風險,小概率事件也可能帶來災難性后果——機房火災、服務器長時間宕機、聲譽受損,據(jù)不完全統(tǒng)計,僅僅2020年以來有十幾樁類似大故障發(fā)生。
IDC圈經(jīng)過梳理盤點,列出近三年來嚴重程度可排前十的數(shù)據(jù)中心災難事件。
數(shù)據(jù)中心火災前/后對比
圖片
圖片
事件一:韓國SK公司數(shù)據(jù)中心火災
2022年10月15日,韓國SK公司C&C板橋數(shù)據(jù)中心發(fā)生火災,大火在大約8小時后被撲滅。
起火后數(shù)據(jù)中心斷電造成韓國國民級聊天軟件Kakao Talk、主流電商平臺NAVER等在內的眾多網(wǎng)絡服務中斷。據(jù)《韓國時報》報道,本次火災導致了約3.2萬個服務器癱瘓,數(shù)千萬用戶服務受到影響——截止2021年,韓國人口約為5200萬。一天之后Kakao Talk等服務才開始陸續(xù)恢復。數(shù)據(jù)中心客戶表示,由于損失了大量服務器,恢復過程比預期的要長。
調查發(fā)現(xiàn),安裝在地下三層電氣設備室的5個電池機架全部燒毀,電池和機架附近似乎因電氣因素失火。
事件二:湖南電信荷花園大廈起火
2022年9月16日,位于湖南省長沙市芙蓉區(qū)的湖南電信大樓發(fā)生火災,數(shù)十層樓體燃燒劇烈,消防趕到后將火勢撲滅,撤離及時,無人員傷亡。經(jīng)初步偵察,現(xiàn)場為大廈外立面起火。為防止發(fā)生危險,大樓部分設備斷電,據(jù)中國電信官方及用戶反映,部分用戶手機語音和短信功能受到影響,截止當晚12時仍未恢復。
長沙電信大樓于2000年建成,建筑地上42層地下2層。大樓內含荷花園電信機房,是湖南最大的主干線接入點之一,此前資料顯示,機房具備25G光纖直CHINANET骨干網(wǎng),總機架數(shù)量約1000個。
事發(fā)前招標信息顯示,該大廈消防設備超期運行,火災報警系統(tǒng)等存在較大安全隱患。
事件三:谷歌數(shù)據(jù)中心電氣爆炸
當?shù)貢r間2022年8月8日,位于美國愛荷華州康瑟爾布拉夫斯的谷歌數(shù)據(jù)中心發(fā)生爆炸,造成3人受傷。
媒體報道,3名電工在數(shù)據(jù)中心大樓附近的變電站工作時,突然發(fā)生了電弧閃光(電氣爆炸),導致三名電工被嚴重燒傷。事故發(fā)生后,多個地區(qū)的谷歌地圖、谷歌搜索出現(xiàn)中斷服務情況,有數(shù)據(jù)顯示,該故障影響了全球40多個國家/地區(qū)的至少1338臺服務器,包括美國、澳大利亞、南非、肯尼亞、以色列、南美洲部分地區(qū)、歐洲和亞洲部分地區(qū)。
谷歌證實了這場意外為電力事故,但未披露具體原因。
事件四:英國高溫致多個數(shù)據(jù)中心宕機
2022年夏天,歐洲經(jīng)歷極端高溫,當?shù)貢r間7月16日英國氣溫達到42℃,位于倫敦的谷歌云和甲骨文數(shù)據(jù)中心均因氣溫過高出現(xiàn)故障,導致系統(tǒng)宕機。
甲骨文報告,數(shù)據(jù)中心的兩臺制冷系統(tǒng)出現(xiàn)故障,導致數(shù)據(jù)中心內部氣溫越來越高,一些系統(tǒng)自動采取保護措施關閉作業(yè),使得一些用戶的數(shù)據(jù)使用出現(xiàn)延遲問題。谷歌同樣稱數(shù)據(jù)中心內的冷卻系統(tǒng)出現(xiàn)故障,導致了該區(qū)域的部分容量故障,導致VM(虛擬機)終止和一小部分客戶的機器損耗,同時谷歌關閉了機房內的一些機器,以防進一步損壞。
谷歌表示只有“一小部分用戶”受到了影響。
事件五:網(wǎng)易游戲機房大規(guī)模服務器宕機
2021年11月3日,多款網(wǎng)易游戲出現(xiàn)無法登錄、斷連情況。
據(jù)《絕對演繹》等游戲官博表示原因系機房過熱導致服務器宕機“機房傳來報警,溫度過高。部分服務器過熱宕機。空調重新開機也沒有解決問題……”。
事發(fā)后約3小時左右,網(wǎng)易游戲各服務器已恢復正常登陸,網(wǎng)易方面并未就此次故障做統(tǒng)一回復。
事件六:Telstra英國數(shù)據(jù)中心火災
2021年8月27日,澳洲電信Telstra位于英國首都倫敦的托管數(shù)據(jù)中心發(fā)生火災并引起宕機?;馂脑斐梢话氪髽菙嚯姡廊藛T表示,雖然只燒毀了三層供應間的一小部分區(qū)域,但由于大火使支撐母線的斷路器跳閘,工程師們不得不通過發(fā)電機恢復電力。
據(jù)分析,這次火災事故很有可能是由于UPS故障引起,事故擊穿了溫度保障、消防滅火及ups預測性維護、ups預防性維護等多重保障,最終導致火災。
事件七:汛情致河南多機房斷電
2021年7月,河南遭遇極端暴雨天氣,多個數(shù)據(jù)中心受到汛情影響,機房停止服務:
河南移動樞紐機房斷電,無法正常辦理移動業(yè)務;海騰鄭州BGP機房、華中鄭州市BGP機房等數(shù)據(jù)中心因所在區(qū)域市電中斷超過1、2個小時,機房由柴發(fā)帶載,附近油站因道路積水暫時無法供油到機房,在出現(xiàn)電力中斷前,考慮到用戶數(shù)據(jù)安全,臨時中斷服務。
西部數(shù)碼鄭州區(qū)域、晉江文學城、河南省產權交易中心用戶方發(fā)布通知,表明服務受機房原因中斷。
當時IDC圈收到的照片顯示,有位于河南的數(shù)據(jù)中心出現(xiàn)機房進水情況。
事件八:OVH數(shù)據(jù)中心火災
當?shù)貢r間2021年3月10日,歐洲云計算巨頭OVH位于法國萊茵省首府斯特拉斯堡的數(shù)據(jù)中心發(fā)生嚴重火災,OVH在該區(qū)域擁有的4個數(shù)據(jù)中心全部暫停服務。4座數(shù)據(jù)中心中,一座被完全燒毀,一座的服務器損毀了三分之一。
起火后,癱瘓的法國政府、企業(yè)與公共事業(yè)網(wǎng)站達到約360個,一些游戲開發(fā)商在歐洲的業(yè)務也受到影響,部分位于該數(shù)據(jù)中心的服務器被燒毀,其中游戲《Rust》表示,25臺歐洲服務器完全損毀,沒有備份,數(shù)據(jù)無法被修復。
盡管OVH短時間調查后解釋,此次起火可能因UPS引起,但一年后法國官方事故調查機構的發(fā)布的報告顯示,災難更大可能是由電力室逆變器周圍的濕氣引起的。
事件九:WebNX美國猶他州數(shù)據(jù)中心起火
2021年4月,美國主機托管公司W(wǎng)eb NX位于猶他州的奧格登數(shù)據(jù)中心著火,導致超360萬個網(wǎng)站出現(xiàn)故障,約1.5萬名客戶的資料受到影響,部分客戶數(shù)據(jù)完全丟失且無法恢復。
事件十:微軟Azure美東數(shù)據(jù)中心服務中斷6小時
2020年3月3日,微軟Azure位于美國東部的數(shù)據(jù)中心發(fā)生服務中斷,持續(xù)六小時,導致客戶無法使用Azure云服務。
微軟隨后披露,一個冷卻系統(tǒng)故障是導致這次停機的原因,發(fā)生故障的樓宇自動化控制導致氣流減少,隨后整個數(shù)據(jù)中心的溫度峰值阻礙了網(wǎng)絡設備的性能,使計算和存儲實例無法訪問。
.......
當然,2020年以來,數(shù)據(jù)中心發(fā)生的故障大事遠不止以上這些。
例如2020年8月華為云香港機房制冷設備出現(xiàn)異常,導致服務器掛了3個小時;2022年10月,蘇州國科數(shù)據(jù)中心因備用冷塔著火致樓頂著火,但或是影響范圍較小,或是如蘇州國科數(shù)據(jù)中心般機房和業(yè)務未受影響,因此并未列入。
這里僅盤點故障嚴重和造成較大影響的事件,供大家了解,以作前車之鑒。
智者千慮,必有一失。業(yè)務連續(xù)性是數(shù)據(jù)中心的首要原則,災難預防和應對是數(shù)據(jù)中心每分每秒的“必修課”。當前數(shù)據(jù)中心高可靠性正面臨諸多新挑戰(zhàn),災難預防需要多方共同參與構建。