中國(guó)儲(chǔ)能網(wǎng)訊:工業(yè)和信息化部日前出臺(tái)《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃》,統(tǒng)籌推進(jìn)新型數(shù)據(jù)中心發(fā)展,構(gòu)建以新型數(shù)據(jù)中心為核心的智能算力生態(tài)體系,發(fā)揮對(duì)數(shù)字經(jīng)濟(jì)的賦能和驅(qū)動(dòng)作用。新型數(shù)據(jù)中心是以5G、工業(yè)互聯(lián)網(wǎng)、云計(jì)算、人工智能等應(yīng)用需求為牽引,匯聚多元數(shù)據(jù)資源、運(yùn)用綠色低碳技術(shù)、具備安全可靠能力、提供高效算力服務(wù)、賦能千行百業(yè)應(yīng)用的新型基礎(chǔ)設(shè)施,具有高技術(shù)、高算力、高能效、高安全特征。
在當(dāng)前AI、大數(shù)據(jù)蓬勃發(fā)展的時(shí)代,新的業(yè)務(wù)需求也在推動(dòng)著數(shù)據(jù)中心的發(fā)展。一般來(lái)說(shuō),中小型數(shù)據(jù)中心都有數(shù)以萬(wàn)計(jì)的IT設(shè)備,大型數(shù)據(jù)中心的IT設(shè)備數(shù)量甚至超過(guò)10萬(wàn)臺(tái)。面對(duì)巨量設(shè)備,IT人如何才能實(shí)現(xiàn)運(yùn)維效率的提升。本文從科技手段視角探索數(shù)據(jù)中心規(guī)模化IT設(shè)備硬件運(yùn)維模式。
一、帶外管理結(jié)合AI機(jī)器人實(shí)現(xiàn)巡檢自動(dòng)化:
數(shù)據(jù)中心IT設(shè)備通常有服務(wù)器、存儲(chǔ)、帶庫(kù)、網(wǎng)絡(luò)等類型,涉及品牌、型號(hào)繁雜且數(shù)量眾多,各廠商建設(shè)的五花八門的監(jiān)控平臺(tái)無(wú)法實(shí)現(xiàn)集中統(tǒng)一管理。
IPMI智能平臺(tái)管理接口是IT設(shè)備管理的一項(xiàng)協(xié)議標(biāo)準(zhǔn)接口,也是目前業(yè)內(nèi)絕大部分設(shè)備遵循的管理標(biāo)準(zhǔn)。以IPMI協(xié)議作為依托,結(jié)合SNMP等管理協(xié)議,建設(shè)一套集中化的設(shè)備管理平臺(tái),通過(guò)監(jiān)測(cè)與管理IT設(shè)備上的管理口,直接獲取硬件相關(guān)信息,實(shí)現(xiàn)對(duì)各類型IT設(shè)備的統(tǒng)一管理及自動(dòng)化巡檢。
圖一 集中管理平臺(tái)
而對(duì)于無(wú)法通過(guò)該項(xiàng)標(biāo)準(zhǔn)接口管理的設(shè)備(如加密設(shè)備等),則通過(guò)AI機(jī)器人的方式進(jìn)行巡檢管理。
巡檢機(jī)器人在AI自學(xué)習(xí)、機(jī)器視覺(jué)算法的配合下,對(duì)每個(gè)機(jī)柜的指示燈、設(shè)備溫度、運(yùn)行噪聲等狀態(tài)進(jìn)行識(shí)別與積累學(xué)習(xí)。每次巡檢時(shí)通過(guò)攝像頭觀察機(jī)柜狀態(tài)的變化,一旦捕捉到設(shè)備有任何異常,則立即通過(guò)短信、語(yǔ)音等方式告警,并能引導(dǎo)工程師到達(dá)故障發(fā)生位置,減少排查時(shí)間。
圖二 機(jī)房巡檢機(jī)器人
以上兩項(xiàng)舉措,可以大幅降低數(shù)據(jù)中心海量設(shè)備巡檢對(duì)于人力的需求。
二、打通最后“一公里”實(shí)現(xiàn)報(bào)修自動(dòng)化:
全天候的自動(dòng)巡檢可以及時(shí)發(fā)現(xiàn)設(shè)備故障,發(fā)現(xiàn)故障后如何盡快定位并報(bào)修也是一道難題。傳統(tǒng)的報(bào)修模式是設(shè)備發(fā)生故障后,運(yùn)維人員通過(guò)帶外采集設(shè)備日志進(jìn)行報(bào)修并提供給廠商,由廠商工程師進(jìn)行分析定位及維修。由于未與廠商維修流程貫通,此種模式受人工報(bào)修、采集設(shè)備日志等環(huán)節(jié)影響,效率并不高。 因此進(jìn)一步提升效率,打通數(shù)據(jù)中心內(nèi)流程與廠商報(bào)修流程的系統(tǒng)接口,是關(guān)鍵一步。
建立自動(dòng)報(bào)修系統(tǒng),依據(jù)設(shè)備告警分級(jí)策略自動(dòng)報(bào)修,打通與廠商技術(shù)支撐系統(tǒng)接口,自動(dòng)采集設(shè)備日志并推送廠商,節(jié)省中間人工環(huán)節(jié),跟蹤處理全流程進(jìn)展直至閉環(huán),實(shí)現(xiàn)設(shè)備從發(fā)現(xiàn)告警到報(bào)修處理完成的全流程自動(dòng)化。
圖三 打通最后一公里
三、5G+AR打造硬件的可視化運(yùn)維:
利用5G的大帶寬和低延遲特點(diǎn),通過(guò)AR技術(shù)及設(shè)備實(shí)時(shí)展示機(jī)柜內(nèi)相關(guān)設(shè)備硬件信息、CPU使用率、內(nèi)存使用率、硬盤狀態(tài)、機(jī)體溫度等,幫助運(yùn)維人員及時(shí)了解設(shè)備狀態(tài)和歷史數(shù)據(jù),并在故障發(fā)生時(shí)給出處理方案,提高運(yùn)維人員工作效率及準(zhǔn)確性。遇到技術(shù)難題時(shí),可以基于AR設(shè)備實(shí)現(xiàn)與后臺(tái)系統(tǒng)的信息交互獲得故障現(xiàn)場(chǎng)視覺(jué),完成現(xiàn)場(chǎng)與后臺(tái)數(shù)據(jù)比對(duì),并在實(shí)際設(shè)備虛擬影像中圈點(diǎn)精確標(biāo)注出需要更換的配件位置,還可以引入技術(shù)專家,實(shí)時(shí)視覺(jué)指導(dǎo)完成處理故障。
圖三AR可視化機(jī)房設(shè)備管理
四、機(jī)房設(shè)備資產(chǎn)數(shù)字化管理模式
為保證業(yè)務(wù)連續(xù)和穩(wěn)定,金融業(yè)內(nèi)普遍采用異地多數(shù)據(jù)中心的災(zāi)備架構(gòu)方式,必然推動(dòng)IT設(shè)備種類、數(shù)量呈現(xiàn)規(guī)?;鲩L(zhǎng)。海量的設(shè)備導(dǎo)致資產(chǎn)管理難度越來(lái)越大,而這些設(shè)備資產(chǎn)如采用傳統(tǒng)人工錄入方式,會(huì)存在成本高、效率低、易差錯(cuò)等問(wèn)題;設(shè)備變更時(shí)還需要主動(dòng)修改相關(guān)信息,時(shí)間長(zhǎng)也會(huì)產(chǎn)生資產(chǎn)信息不準(zhǔn)確等問(wèn)題。引進(jìn)機(jī)柜內(nèi)U位資產(chǎn)管理模塊——以RFID、NFC技術(shù)等為依托,完成資產(chǎn)發(fā)現(xiàn)、資產(chǎn)記錄及計(jì)算各類數(shù)據(jù),實(shí)現(xiàn)U位資產(chǎn)實(shí)時(shí)定位、自動(dòng)盤點(diǎn)的功能,實(shí)時(shí)掌握機(jī)房?jī)?nèi)U位使用情況,真正地做到U位資產(chǎn)和資源管理數(shù)字化。
圖四 資產(chǎn)管理模塊
未來(lái)展望:5G、大數(shù)據(jù)、人工智能、圖像識(shí)別等新技術(shù)的蓬勃興起,推動(dòng)著數(shù)據(jù)中心管理技術(shù)的發(fā)展,勢(shì)必會(huì)給數(shù)據(jù)中心的數(shù)字化運(yùn)維帶來(lái)質(zhì)的突變。如何利用新技術(shù)促進(jìn)運(yùn)維轉(zhuǎn)型,是值得每個(gè)運(yùn)維人思考的問(wèn)題。