本文解釋了數(shù)據(jù)中心能耗評價指標電能利用效率PUE的基本概念和發(fā)展歷史,并對數(shù)據(jù)中心能耗構成及對PUE計算的影響進行了分析,闡述了影響PUE值的各項重要因素,總結了目前業(yè)界數(shù)據(jù)中心節(jié)能的主要方法并提出相關建議。
PUE基本概念
1、定義
電能利用效率(Power Usage Effectiveness,PUE)是2007年由美國綠色網(wǎng)格組織(The Green Grid,TGG)提出的用以評價數(shù)據(jù)中心能源利用效率的一種指標,目前被國內(nèi)外數(shù)據(jù)中心行業(yè)廣泛使用。根據(jù)TGG的定義,PUE計算公式為:PUE=Pt/PIT,其中Pt為數(shù)據(jù)中心全年總耗電量,單位是KWh;PIT為數(shù)據(jù)中心的IT設備全年耗電量,單位也是KWh。數(shù)據(jù)中心IT設備的耗電量是包含在數(shù)據(jù)中心總耗電量內(nèi),所以PUE是一個大于1的數(shù)值,PUE值越低,說明數(shù)據(jù)中心用于IT設備以外的能耗越低,越節(jié)能。當前,國外先進的數(shù)據(jù)中心PUE值通常小于2。2015年我國工業(yè)和信息化部、國家機關事務管理局和國家能源局在《關于印發(fā)國家綠色數(shù)據(jù)中心試點工作方案的通知》中指出:我國數(shù)據(jù)中心大多數(shù)的PUE仍普遍大于2.2,與國際先進水平存在較大差距。
在研究PUE時,很有必要對兩大重要組織做簡單介紹。一個是上文提到的綠色網(wǎng)格組織(TGG)。它是一個全球性非營利機構,致力于開發(fā)影響深遠而又不受任何平臺約束的技術標準、測量方法、處理流程及新技術,力求提升數(shù)據(jù)管理方面的能源效益。TGG在2012年發(fā)布的第49號白皮書《PUE:指標的綜合檢驗》中對TGG之前出版的有關PUE的文件進行了全面梳理和總結,重新給出了PUE的定義和計算方法。另一個組織是美國供暖、制冷與空調(diào)工程師學會(ASHRAE)。無論是在美國還是在全球,ASHRAE都是數(shù)據(jù)中心最重要的技術資料來源。ASHRAE在2016年發(fā)布公告稱PUE只適合對運行中的數(shù)據(jù)中心的效率進行評價,而不適合于數(shù)據(jù)中心的設計,因為在設計過程中無法準確地確定系統(tǒng)的PUE。
這里需要關注的是,即使后續(xù)在PUE基礎上衍生了各種指標,基于PUE的測量值都是一段時間內(nèi)的耗電量,而不是瞬時的功耗。用瞬時功耗的比值來計算PUE,不能體現(xiàn)數(shù)據(jù)中心的能耗水平。TGG也明確指出:在計算PUE時,最佳實踐是自動、實時監(jiān)控,每隔15分鐘或者更短時間間隔內(nèi)采集數(shù)據(jù);當報告PUE值時,數(shù)據(jù)中心的所有者應使用一年內(nèi)的平均PUE值。因此,在給出PUE值的同時,必須說明測量周期或者測量的時間點。同時,TGG也明確指出,不同數(shù)據(jù)中心的PUE值不能進行簡單的比較。
2、采集點
TGG給出了PUE計算時的三種測量采集方法。數(shù)據(jù)中心總耗電量Pt都是電力公司對數(shù)據(jù)中心的輸入。如果數(shù)據(jù)中心所在的建筑物是多用途的,必須對數(shù)據(jù)中心的總耗能進行識別,需要減去辦公區(qū)域的用電。但是用于數(shù)據(jù)中心技術支持的總控中心的用電必須包括在內(nèi)。IT設備總耗電量PIT的采集點有三種:第1級是基本級別,采集點是UPS的輸出;第2級是中級級別,采集點是機房內(nèi)配電柜的輸出;第3級是高級級別,采集點是機柜內(nèi)電源插座的輸出,也就是IT設備的輸入,具體見表1。這三種計算方法的采集點對電力使用的功耗或電量的采集的顆粒度要求逐級提高。目前,我國多數(shù)數(shù)據(jù)中心采用的是第1級的采集和計算方式。因此,得到的PUE數(shù)值也比第2級和第3級數(shù)值更低。
3、片面性
目前,業(yè)界公認PUE是一個片面的指標,有局限性。最明顯的一點是,當采用虛擬化等技術時會大幅降低IT設備的數(shù)量和耗電量,從而實現(xiàn)降低電費這一最有實際效益的目標。但是,數(shù)據(jù)中心IT設備耗電量降低時,數(shù)據(jù)中心總耗電量并不會同樣程度地降低,兩者之間不是簡單的線性關系,這就造成了數(shù)據(jù)中心PUE值反而增大。因此,業(yè)界十幾年來嘗試研究其他更為科學的指標。這些衍生而來的性能指標主要包括:ASHRAE提出的暖通空調(diào)負載系數(shù)(MLC)、供電損失系數(shù)(ELC);TGG提出的IT設備熱一致性(ITTC)、IT設備的容錯性(ITTR)、水利用效率(WUE)和碳利用效率(CUE);ISO提出的可再生能源系數(shù)(REF)、服務器能源效率(ITEE)等。但是,多數(shù)新提出的衡量指標由于偏學術或者計算復雜,很難被接受。因此,PUE仍是目前數(shù)據(jù)中心能耗衡量的最重要指標。2016年4月15日,國際標準化組織發(fā)布了ISO/IEC30134-1標準,PUE被稱為數(shù)據(jù)中心的“關鍵性能指標”。
4、EEUE
在國內(nèi),由于意識到PUE指標的片面性以及業(yè)界在應用時的隨意性,2016年我國發(fā)布了GB/T32910-2016《數(shù)據(jù)中心資源利用第3部分:電能能效要求和測量方法》。該國家標準參照PUE,重新定義了EEUE(Electricenergyusuageeffectiveness)。EEUE在計算公式上與PUE相同。該國標對EEUE的測量、計算方法進行了統(tǒng)一的規(guī)定,明確提出了我國數(shù)據(jù)中心電能能效要求,將數(shù)據(jù)中心按其電能使用效率值的大小分為節(jié)能、較節(jié)能、合格、較耗能和高耗能五級。同時,該標準在充分考慮我國國情的基礎上,根據(jù)數(shù)據(jù)中心的制冷技術、使用負荷率、安全等級和所處地域的不同,制定了能源效率值調(diào)整模型。通過該調(diào)整模型可以實現(xiàn)不同數(shù)據(jù)中心的比較,從而形成全國范圍內(nèi)數(shù)據(jù)中心能效的統(tǒng)一比較標準。GB/T32910-2016也明確指出,電量數(shù)據(jù)的標準取得方法是使用電能計量儀表統(tǒng)計的方式,而不是使用功率表以抽樣法測量的方式獲得。
表1 PUE能耗采集點
5、PUE
PUE是衡量整個數(shù)據(jù)中心能耗效率的指標。TGG和ASHRAE都在PUE的概念上給出了pPUE的定義:某區(qū)間內(nèi)數(shù)據(jù)中心總能耗與該區(qū)間內(nèi)IT設備能耗之比。這里的區(qū)間或者范圍可以是實體,如集裝箱、房間、模塊或者建筑物;也可以是邏輯上的邊界,如設備或?qū)?shù)據(jù)中心有意義的邊界。pPUE只適用于數(shù)據(jù)中心區(qū)間能耗的研究。
數(shù)據(jù)中心能耗構成及分析
PUE的計算公式為數(shù)據(jù)中心總耗電量與IT設備耗電量的比值。要降低數(shù)據(jù)中心的PUE值,首先必須對數(shù)據(jù)中心的能耗構成進行分析。數(shù)據(jù)中心能耗主要包括IT設備能耗、供配電系統(tǒng)能耗、制冷系統(tǒng)能耗、照明及其它能耗。數(shù)據(jù)中心PUE計算的能耗構成如圖1所示。
圖1 PUE計算的能耗構成
PUE計算公式可改寫為:PUE=(PIT+P制冷+P供配電+P其它)/PIT
關于數(shù)據(jù)中心能耗構成的比例,國內(nèi)外很多企業(yè)和學者都做了大量的調(diào)查與研究,雖然研究結果中各部分占比不盡相同,但能耗構成因素及排序基本相同。在一個PUE約為2的傳統(tǒng)的數(shù)據(jù)中心總能耗中,IT設備能耗占比最高,約為50%;其次是制冷系統(tǒng)能耗,約占35%;再次是供配電系統(tǒng)能耗,約占10%,其中最主要的是UPS設備的能耗,次之是變壓器設備的能耗;最后是照明及其他能耗,約占5%。這里的其他能耗主要包括:安防設備、消防設備、電梯、傳感器以及數(shù)據(jù)中心管理系統(tǒng)的能耗等。不同數(shù)據(jù)中心即使PUE值相同,能耗占比也不同,上述數(shù)字僅供參考。PUE為2的傳統(tǒng)數(shù)據(jù)中心典型能耗構成如圖2所示。
圖2 傳統(tǒng)數(shù)據(jù)中心的能耗構成
根據(jù)數(shù)據(jù)中心能耗構成和PUE的計算公式,降低數(shù)據(jù)中心制冷系統(tǒng)的能耗,對降低PUE值最有效。因此,數(shù)據(jù)中心的節(jié)能措施主要圍繞降低制冷系統(tǒng)的能耗開展。傳統(tǒng)數(shù)據(jù)中心采用的風冷制冷方式是最耗電的運行方式。近十年來新建數(shù)據(jù)中心基本上都采用水冷式的機房空調(diào)系統(tǒng),能耗比風冷系統(tǒng)低。大幅降低數(shù)據(jù)中心PUE的有效措施是采用自然冷卻方式,最理想的是完全不采用消耗電能的機械制冷方式,例如引入室外空氣配合蒸發(fā)冷卻進行制冷。要實現(xiàn)這種方式,一方面數(shù)據(jù)中心需要選址建設在溫度較低的寒冷地區(qū);另一方面,可適當提高機房運行溫度,最大程度地利用室外空氣進行自然冷卻。
近年來,PUE被嚴重商業(yè)化,不少數(shù)據(jù)中心聲稱其PUE值已低于1.2甚至1.1。然而,這些公司絕大多數(shù)未給出具體采用的節(jié)能措施、PUE的測量方式和計算方式等細節(jié)。業(yè)界也出現(xiàn)了人為操縱PUE值的現(xiàn)象,例如,有人選擇了最佳的測量時機,在戶外很冷、照明系統(tǒng)全部關閉及用戶幾乎不在線時測量,甚至關閉冗余制冷系統(tǒng)才進行測量,這時測得的PUE值當然會很低,但該值已經(jīng)遠遠偏離了事實。
拋開這些違背事實的宣傳,若要大幅降低PUE值,需要采用特殊的架構和技術。經(jīng)分析,業(yè)界宣稱做到極低PUE值的數(shù)據(jù)中心一般具有如下部分或者全部的特征:
1、采用各種自然冷卻技術,不使用或者較少使用機械制冷。這樣數(shù)據(jù)中心總能耗中占比最高的制冷系統(tǒng)能耗大幅降低。
2、采用市電直供技術。由于沒有UPS設備,供配電系統(tǒng)能耗中占比最高的UPS設備能耗就沒有了,從而使PUE計算公式中分子部分的數(shù)據(jù)中心總能耗降低。
3、該數(shù)據(jù)中心為低等級數(shù)據(jù)中心,供配電系統(tǒng)和制冷系統(tǒng)部分或者全部采用無容錯或無冗余設計。這樣,供配電設備和制冷設備數(shù)量大幅減少,大大降低數(shù)據(jù)中心總能耗中的供配電系統(tǒng)能耗和制冷系統(tǒng)能耗,使得PUE值大幅降低。
4、該數(shù)據(jù)中心為小型數(shù)據(jù)中心,如騰訊的T-block預制集裝箱式數(shù)據(jù)中心。一方面,變壓器設備能耗不計算在供配電系統(tǒng)能耗中;另一方面,小型數(shù)據(jù)中心無電梯、安防設備和總控中心等,進一步大幅降低數(shù)據(jù)中心總能耗中的其他能耗。
5、采用太陽能、風能等可再生能源,且在計算PUE時未將可再生能源能耗計算入分子部分的數(shù)據(jù)中心總能耗。這樣,若可再生能源用于完全驅(qū)動數(shù)據(jù)中心的制冷系統(tǒng),在計算PUE時,分子部分中占比最高的制冷系統(tǒng)能耗為零。這種計算方法與國外業(yè)界公認的可再生能源的能耗必須計算入數(shù)據(jù)中心總能耗的要求相違背。
6、該數(shù)據(jù)中心采用浸沒式液冷等新型冷卻方式,不使用傳統(tǒng)機械制冷方式。因此,計算PUE時,分子部分的制冷系統(tǒng)能耗趨于零。
影響PUE的重要因素
業(yè)界公認的影響PUE的三個重要因素為氣候條件、IT設備負荷率和數(shù)據(jù)中心安全等級。
1、氣候條件
建設在不同氣象區(qū)的數(shù)據(jù)中心,由于室外溫度對冷水機組能耗的影響以及可采用的冷卻技術(例如自然冷卻等)的不同,即使是其他條件相同,其PUE也會不同。數(shù)據(jù)中心應選址建設在全年平均氣溫相對較低的地方,可最大程度地使用自然冷卻技術降低制冷系統(tǒng)能耗。ASHRAE根據(jù)數(shù)據(jù)中心所在地理位置劃分了17個氣候區(qū),對每個氣候區(qū)的數(shù)據(jù)中心設定PUE最大值,其中最小為1.3,最大為1.61,地理位置不同,差異明顯。2013年工信部等五部委在《關于數(shù)據(jù)中心建設布局的指導意見》中把我國數(shù)據(jù)中心的布局分為四類地區(qū),只有同一地區(qū)的PUE才有可比性,將不同氣象地區(qū)的數(shù)據(jù)中心的PUE進行比較是不合理的。
2、IT設備負荷率
數(shù)據(jù)中心PUE值與IT設備負荷率密切相關。IT設備負荷率指的是數(shù)據(jù)中心的IT設備實際負荷與設計的滿載時IT設備負荷的比值。不間斷電源UPS的效率在低負載時急劇下降。IT設備負荷率較低時,一方面,UPS設備的效率降低,造成UPS設備能耗增加,從而使得PUE值升高;另一方面,IT設備未滿載安裝時,制冷能耗并不成比例降低,也造成制冷能耗的增加,使得PUE值升高。數(shù)據(jù)中心建設和運行模式有三種:第一種是基礎設施設備(供配電設備、制冷設備等)一次性建設,IT設備分期部署;第二種模式是基礎設施設備和IT設備同步分期建設和部署;第三種模式是基礎設施設備和IT設備均一次性建設和部署。對于企業(yè)自建自行運維的EDC(企業(yè)級數(shù)據(jù)中心),一般采用第一種模式。因此,實際上數(shù)據(jù)中心的負荷率長時間內(nèi)都遠低于設計值。特別是EDC,經(jīng)過數(shù)年才會達到滿載,而這時該數(shù)據(jù)中心早就已啟動擴建和改造工程了。對于租賃式數(shù)據(jù)中心,由于用戶的進入很難一步到位,所以數(shù)據(jù)中心開始運行后,在最初的一段時間內(nèi)負荷率同樣會較低,PUE值同樣會高于滿載指標。因此,不同IT設備負荷率的數(shù)據(jù)中心不能簡單地進行PUE值的比較。
3、數(shù)據(jù)中心安全等級
國家標準GB50174-2017《數(shù)據(jù)中心設計規(guī)范》將數(shù)據(jù)中心按照重要性從高到低劃分為A級、B級和C級三個級別。安全等級越高,配置的供配電、制冷設備也越多,相應的能耗也越高,造成PUE值升高。因此,不同安全等級的數(shù)據(jù)中心的PUE也不能進行簡單的比較。
由于上述原因,業(yè)界都認可不同的數(shù)據(jù)中心的PUE值不應該直接進行比較,但是條件相似的數(shù)據(jù)中心可以從其他數(shù)據(jù)中心所提供的測量方法、測試結果以及數(shù)據(jù)特性的差異中獲益。
2016年我國發(fā)布的GB/T32910-2016《數(shù)據(jù)中心資源利用第3部分:電能能效要求和測量方法》提出了EEUE指標,定義與PUE相同。同時,為了方便不同數(shù)據(jù)中心的能耗指標進行比較,該國標考慮了數(shù)據(jù)中心安全等級、氣候條件和IT設備負荷率等因素,提出了調(diào)整模型。不同數(shù)據(jù)中心在比較EEUE時,需使用EEUE修正值。EEUE修正值計算公式如下:
EEUE修正值=EEUE實測值-EEUE調(diào)整值
其中EEUE調(diào)整值計算模型見表2。
表2 EEUE調(diào)整值計算模型
該國標修正模型的準確性有待于實踐檢驗。另外,由于EEUE調(diào)整模型的提出,將影響PUE的因素及PUE不可簡單進行比較的本質(zhì)公開化,該國標并沒有被業(yè)界廣泛宣傳和采用。
數(shù)據(jù)中心節(jié)能的主要方法
通過上述分析可以看出,PUE僅是一個數(shù)字,對于數(shù)據(jù)中心的管理者來說,更應該看重數(shù)據(jù)中心總能耗的降低,即電費投入的降低。因此,所有的數(shù)據(jù)中心都關注節(jié)能問題。在數(shù)據(jù)中心節(jié)能方面,谷歌走在了行業(yè)的前列。一方面,谷歌的數(shù)據(jù)中心在大規(guī)模地使用風能、太陽能等可再生能源,它的目標是最終100%使用可再生能源。需要關注的是,可再生能源的使用不會降低數(shù)據(jù)中心的PUE值,但卻可減少數(shù)據(jù)中心的碳排放。另一方面,谷歌十多年來一直致力于提高數(shù)據(jù)中心的能源利用效率。在谷歌的官網(wǎng),總結了排在前五名的最佳實踐。
1、測量PUE
只有對PUE進行實事求是的測量,才能了解和及時跟進數(shù)據(jù)中心能源使用情況。
2、管理氣流
良好的氣流管理對于提高數(shù)據(jù)中心的運營能效是至關重要的。這方面可以采用機柜冷/熱通道封閉、安裝機柜盲板和利用計算流體力學(CFD)的熱模擬進行氣流組織優(yōu)化等措施。
3、提高機房溫度
無需將數(shù)據(jù)中心的溫度保持在23度,事實上,所有的設備制造商都允許冷通道在27度或更高的溫度下運行。提高冷通道的運行溫度既可以使免費制冷的時間變長又可以節(jié)省更多能源。
4、利用自然冷卻
利用自然冷卻,無需使用冷卻器就能為設備散熱。這包括利用低溫的環(huán)境空氣、蒸發(fā)冷卻技術應用等。
5、優(yōu)化配電
通過盡量減少電力轉換環(huán)節(jié),可以將配電損耗降到最小。對于必須進行的轉換步驟,使用高效的變壓器和配電裝置。數(shù)據(jù)中心配電過程的最大損耗之一來自不間斷電源(UPS),因此選擇一個高效的轉換模式顯得尤為重要。另外,還要減少輸電線路耗損。
谷歌承認,在數(shù)據(jù)中心的能耗管理方面,除了上述五點外,很難提出更多的節(jié)能措施。但是在2016年7月,谷歌宣布,他們經(jīng)過了兩年多的數(shù)據(jù)收集和研究,將人工智能(AI)引入到數(shù)據(jù)中心的能耗管理中,建立了PUE的神經(jīng)網(wǎng)絡模型,提出了基于機器學習的數(shù)據(jù)中心能耗管理方法。谷歌宣稱,該項技術在實際應用中可將總的制冷功耗降低約40%,從而將數(shù)據(jù)中心的總功耗降低約15%。若以一個PUE值為1.6的數(shù)據(jù)中心為例,采用該項技術后,PUE值將降低為1.45左右。谷歌相信,將人工智能(AI)應用于數(shù)據(jù)中心的能耗管理是在該領域的重大突破,該項技術將成為業(yè)界未來的主流。
銀行業(yè)界也在學習谷歌的先進經(jīng)驗,研究應用人工智能進行數(shù)據(jù)中心能耗管理。然而,此項技術需要大量的歷史數(shù)據(jù),同時在已投產(chǎn)的大型數(shù)據(jù)中心進行測試難度也較大,目前國內(nèi)尚未有成功的案例。建議數(shù)據(jù)中心管理者關注基礎設施運行數(shù)據(jù)的采集和存儲,為未來的智能化運維打下基礎。
盡管業(yè)界存在很多爭論,但PUE仍是衡量數(shù)據(jù)中心能耗的最重要指標。數(shù)據(jù)中心的管理者既要認識到PUE指標的片面性,又要認識到不同數(shù)據(jù)中心的PUE不能簡單地進行比較。在數(shù)據(jù)中心日常運行中,可以按照統(tǒng)一的標準實事求是地進行PUE相關參數(shù)的采集和計算,自己和自己比較,找到PUE升高或者降低的原因,采取多種措施進行節(jié)能。同時,選擇低功耗的IT設備,整合、退庫使用率低的IT設備,優(yōu)化系統(tǒng)和應用架構,避免IT設備數(shù)量過度增長等都是降低數(shù)據(jù)中心IT設備能耗的方法。這些方法雖然無法降低PUE值,還可能使得PUE值升高,但可減少數(shù)據(jù)中心日常運行的電費成本,從而帶來更加實在的效益。
(來源:數(shù)據(jù)中心最佳實踐)




