中國儲能網訊:
摘要:數(shù)字技術的創(chuàng)新演進與蓬勃發(fā)展,推動算力需求持續(xù)提升,數(shù)據(jù)中心能耗呈指數(shù)型增長。在可持續(xù)發(fā)展、“雙碳”、新型數(shù)據(jù)中心等政策理念指引下,數(shù)據(jù)中心制冷技術正式邁入液冷階段。首先從芯片、設備、機柜散熱訴求,機房節(jié)能訴求等多個維度,深入探討液冷技術的必要性與優(yōu)勢,同時針對多種液冷技術方案從架構、原理、關鍵組成等方面進行深入分析。其次,通過散熱能力、節(jié)能效果、維護性、技術成熟度等方面的綜合對比,短中期單相冷板式液冷將更具優(yōu)勢。最后,探討了當前數(shù)據(jù)中心液冷在可靠性、散熱強化、低成本等維度的研究趨勢。
關鍵詞:散熱技術;機房節(jié)能;液冷散熱;冷板式液冷;浸沒式液冷
1 應用背景
1.1 節(jié)能政策驅動
伴隨著數(shù)字技術的創(chuàng)新演進,云計算、大數(shù)據(jù)、人工智能(AI)、元宇宙等信息技術和實體經濟深度融合,推動數(shù)字經濟持續(xù)快速增長。數(shù)據(jù)中心是數(shù)字經濟基礎設施的底座。數(shù)據(jù)量爆發(fā)式增長帶動數(shù)據(jù)中心市場快速增長。數(shù)據(jù)顯示,截至2023年底,中國在用數(shù)據(jù)中心機架總規(guī)模達到810萬標準機架。作為“能耗大戶”,數(shù)據(jù)中心的耗電量不斷刷新紀錄,數(shù)據(jù)中心的總用電量約占全社會用電量3%。在可持續(xù)發(fā)展、“碳達峰、碳中和”、新型數(shù)據(jù)中心等政策理念指引下,國家及地方政府相繼出臺相關政策,對數(shù)據(jù)中心電源使用效率(PUE)提出更高要求。
工業(yè)和信息化部于2021年7月印發(fā)《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021—2023年)》,明確到2023年底,新建大型及以上數(shù)據(jù)中心PUE降低到1.3以下,東數(shù)西算樞紐節(jié)點及寒冷地區(qū)力爭降低到1.25以下。發(fā)改委2021年11月印發(fā)《貫徹落實碳達峰碳中和目標要求推動數(shù)據(jù)中心和5G等新型基礎設施綠色高質量發(fā)展實施方案》,進一步明確“到2025年,新建大型、超大型數(shù)據(jù)中心PUE降到1.3以下,國家樞紐節(jié)點降至1.25以下”。“東數(shù)西算”工程八大樞紐節(jié)點,要求東部地區(qū)PUE目標不超過1.25,西部地區(qū)不超過1.2,能效指標更加嚴格。
在典型數(shù)據(jù)中心能耗占比中,制冷系統(tǒng)占比達到24%以上,是數(shù)據(jù)中心輔助能源中占比最高的部分。因此,降低數(shù)據(jù)中心PUE的關鍵在于采用更加高效節(jié)能的制冷方案。
近年來,為了降低制冷系統(tǒng)電能消耗,業(yè)內對機房制冷技術進行了持續(xù)的創(chuàng)新和探索,如間接蒸發(fā)冷卻、冷板式液冷、浸沒式液冷等。其中,間接蒸發(fā)技術的PUE可達1.25,液冷技術則利用液體的高導熱、高傳熱特性,在進一步縮短傳熱路徑的同時充分利用自然冷源,可以實現(xiàn)數(shù)據(jù)中心PUE低至1.1的極佳節(jié)能效果。得益于綠色節(jié)能優(yōu)勢,近年來液冷技術也成為國家及地方政策明確鼓勵采用的重要節(jié)能技術,如表1所示。
表1 液冷數(shù)據(jù)中心政策
1.2 高散熱訴求
算力的持續(xù)增加促進通信設備性能不斷提升,市場主流芯片功耗和熱流密度也在持續(xù)攀升,CPU散熱設計功耗已達350~500W。AI技術快速發(fā)展推動GPU需求增長,GPU散熱設計功耗已超過800W。芯片功率密度的持續(xù)提升直接制約著芯片散熱和可靠性。
芯片功率密度的攀升同時帶來整柜功率密度持續(xù)增長。8kW以上單機柜功率密度成為目前新建數(shù)據(jù)中心的主流選擇。但為提升市場競爭力,人們也在通過升級改造的方式來提高單柜功率密度,目前通算最大功率密度已超過30kW/柜,如圖1所示。智算功率上升更快,已達100kW/柜。整機柜功率密度的提升對機房制冷技術提出了更高的要求。傳統(tǒng)風冷系統(tǒng)受數(shù)據(jù)中心建筑面積與單位運營成本等因素的影響散熱上限一般為20kW/柜,越來越難以為繼。液冷技術采用液體替代空氣作為冷卻介質,將液體直接或間接接觸發(fā)熱器件,可使散熱效率大幅提升,能夠有效滿足單點、整機柜、機房的高散熱需求。
圖1 機柜功率密度與制冷方式
2 液冷技術分類
根據(jù)熱器件是否與冷卻液接觸,液冷技術可以分為直接接觸式和間接接觸式兩種:直接接觸式是指將冷卻液體與發(fā)熱器件直接接觸散熱,這類液體包括單相浸沒式液冷、兩相浸沒式液冷、噴淋式液冷;間接接觸式是指冷卻液體不與發(fā)熱器件直接接觸,通過散熱器間接散熱,這類液體包括單相冷板式液冷、兩相冷板式液冷。
液冷系統(tǒng)通用架構如圖2所示。其中,室外側包含室外冷源、一次側冷卻液,室內側包含冷量分配單元(CDU)、二次側冷卻液以及液冷機柜。該液冷系統(tǒng)的基本原理是:二次側冷卻液在機柜內吸收設備熱量,并通過 CDU內的換熱器將熱量傳遞給一次側冷卻液,一次側冷卻液通過室外冷源最終將熱量釋放到大氣環(huán)境中,完成散熱。
圖2 液冷系統(tǒng)通用架構圖
1)室外冷源:可選擇開式/閉式冷卻塔、干式冷卻器等,冷源的選擇應根據(jù)所在地的場地、氣象、水電等因素綜合考慮。
2)一次側冷卻液:常用的液冷液有去離子水、乙二醇水溶液、丙二醇水溶液等,并配合具有一定緩蝕、殺菌、阻垢功能的化學藥劑使用。冷卻液的選擇需要根據(jù)液體熱物性、部署地理位置及氣候條件等綜合考慮。
3)CDU:按布置形式可分為集中式與分布式。其中,集中式CDU布置在機柜外,為多臺液冷機柜提供冷量,易于集中化部署和管理;分布式 CDU布置在液冷機柜內部,每臺機柜對應一個CDU,易于機柜功耗匹配。
二次側冷卻液、液冷機柜及內部液冷設備在不同液冷技術形態(tài)中略有差異,在后續(xù)章節(jié)中我們會具體介紹。
2.1 單相冷板式液冷
單相冷板式液冷通過液冷板將發(fā)熱器件的熱量間接傳遞給液冷板中的二次側冷卻液。二次冷卻液在設備吸熱和CDU放熱過程不發(fā)生相變。根據(jù)液冷板覆蓋范圍,這種液冷可以分為局部液冷或全液冷:局部液冷通常僅覆蓋高功耗器件,一般帶走設備70%左右的熱量,剩余30%熱量仍需通過機房空調或液冷背門以風冷的形式帶走;全液冷需要根據(jù)通信設備硬件架構和結構布局定制化設計液冷板,以覆蓋所有發(fā)熱器件。單相冷板式液冷系統(tǒng)架構如圖3所示,液冷機柜內包含分液器、液冷板、流體連接器、液冷管路、漏液檢測傳感器等。
圖3 單相冷板式液冷系統(tǒng)架構
1)二次側冷卻液:二次側熱量載體以去離子水、乙二醇水溶液、丙二醇水溶液為主,根據(jù)具體場景進行選擇。二次側冷卻液需要定期檢測PH、濁度、殘留物、細菌等參數(shù),并符合相關標準要求;
2)單相冷板CDU:可分為集中式和分布式。其中,集中式CDU布置在機柜外,每列機柜布置一臺或幾臺CDU,實現(xiàn)主用和備份關系,需要部署二次側管網,并考慮各液冷機柜間的流量分配;分布式CDU安裝在液冷機柜內,免二次側管路部署,可根據(jù)機柜功耗靈活部署。
3)分液器:用于機柜內流量分配與收集,將低溫二次側冷卻液分配到各設備節(jié)點,并收集與液冷板換熱升溫后的冷卻液。其設計選型過程中需要保證流量分配需要的均勻性,并結合機柜空間、重量等要求綜合考慮分液器的體積。
4)液冷板:液冷板設計需要根據(jù)設備芯片功耗進行芯片冷板設計、根據(jù)芯片布局及單板結構空間設計冷板連接管路路由,具有一定的定制化特性。但在進行設計時應盡量保證內部零件的通用性,如內部翅片規(guī)格、進出口規(guī)格應盡可能一致,以降低成本。此外,液冷板的設計還需要綜合考慮實際功耗、工作壓力、流速等。
5)流體連接器:可實現(xiàn)無泄漏通斷,在設計選型時需要綜合考慮工作流量、溫度、壓力、流阻特性、安裝方式、直插/盲插、接口規(guī)格等。
6)液冷管路:二次側冷卻液流通通路,參與液冷機柜內各設備節(jié)點的流量-流阻分配;液冷管路設計選型需要考慮材料兼容性、流速、管路布置、安裝方式、流量分配設計等。
7)漏液檢測傳感器:針對沿液冷板、液冷管路、分液器等可能出現(xiàn)液體泄漏的位置或路徑布置,及時檢測泄漏狀態(tài),并觸發(fā)漏液告警策略,及時告知運維人員發(fā)現(xiàn)漏液事故,便于及時處理,有效地保護液冷系統(tǒng)與機房安全。漏液檢測傳感器可分為檢測線、檢測帶、光電式、電極式、浮子式等,適用于不同的泄漏位置和泄漏場景。
單相冷板式液冷技術對通信設備和機房基礎設施改動較小,業(yè)內已具備多年研究積累,目前技術成熟度最高,它已成為滿足芯片高熱流密度散熱需求、提升數(shù)據(jù)中心能效、降低總體擁有成本(TCO)的有效方案。
2.2 兩相冷板式液冷
兩相冷板液冷系統(tǒng)架構與單相液冷板液冷相似,其系統(tǒng)架構如圖4所示。所不同的是二次側冷卻液在設備內通過液冷板吸熱發(fā)生汽化,在CDU內冷凝為液態(tài),充分利用了冷卻液的相變潛熱,綜合散熱能力更強,可達300W/cm2以上。由于運行過程中系統(tǒng)內冷卻液發(fā)生相變,兩相冷板液冷系統(tǒng)的壓力會高于單相冷板液冷,其二次側冷卻液、液冷板、流體連接器、液冷管路等為了適配系統(tǒng)壓力也要滿足一定的特殊化要求。
圖4 兩相冷板式液冷系統(tǒng)架構
1)二次側冷卻液:以制冷劑、氟化液等低沸點工質為主,在選型時主要考慮熱物性、環(huán)保性、安全性、工作溫區(qū)和壓力、材料兼容性等因素。
2)兩相冷板CDU:兩相冷板液冷系統(tǒng)壓力等級通常較高,其壓力控制系統(tǒng)區(qū)別于單相系統(tǒng),一般采用溫控型壓力控制方案。同時,兩相CDU補液系統(tǒng)在設計時也需要考慮工質充注量對于系統(tǒng)壓力的影響。
3)兩相液冷板:其結構與單相液冷板相似,在設計時需要重點考慮冷板承壓能力,增加汽化核心、促進氣泡脫離以提升散熱性能,常見的方案有表面微處理、多孔介質填充等。
4)兩相流體連接器:高壓系統(tǒng)對流體連接器的插拔操作和帶壓維護都提出了很高的要求。目前螺紋旋擰連接器能夠較好地滿足需求。
5)液冷管路:考慮系統(tǒng)壓力及氣相工質泄漏風險,優(yōu)選金屬軟管或汽車空調橡膠管。
兩相冷板式液冷核心技術的優(yōu)勢在于能夠滿足超高熱流密度散熱需求,但現(xiàn)階段技術成熟度仍較低,相關產業(yè)鏈還有待完善。
2.3 單相浸沒式液冷
單相浸沒式液冷通過將發(fā)熱元件浸沒在冷卻液中,直接吸收設備產生的熱量。臥式浸沒液冷系統(tǒng)架構如圖5所示,通信設備豎插在浸沒機柜內,二次側低溫冷卻液由浸沒機柜底部流入。二次側冷卻液在循環(huán)散熱過程中始終維持液相。
圖5 單相浸沒式液冷系統(tǒng)架構(臥式)
1)二次側冷卻液:單相浸沒技術通常使用高沸點的冷卻液。這類冷卻液不發(fā)生相變,同時需要具有高絕緣、低黏度以及良好的兼容特性,例如氟碳化合物和碳氫化合物(礦物油、合成油等)。
2)浸沒機柜:現(xiàn)階段應用較多的為臥式機柜(通常稱為TANK),業(yè)內常用的尺寸規(guī)格覆蓋12U~54U。為了實現(xiàn)臥式架構下的流量均衡性,TANK底部需配置均流板。冷卻液由底部進入,經均流板分液后流入設備。為便于通信設備的安裝和維護,TANK設計需要有一定的槽位導向和固定功能。同時,TANK上蓋與腔體之間需要具備良好的密封性,防止運行過程中冷卻液耗散。
3)單相浸沒CDU:單相浸沒液冷系統(tǒng)在維護過程中需要打開TANK上蓋,系統(tǒng)直接與機房環(huán)境連通,屬于一種“半開式”系統(tǒng),因此其CDU設計對循環(huán)泵、系統(tǒng)過濾、冷卻液監(jiān)控等要求更高。
單相浸沒液冷實現(xiàn)了100%液體冷卻,無須配置風扇,使機房極致節(jié)能、靜音。但其應用過程需要將通信設備完全浸沒在冷卻液中,所有材料、器件均需要重新選型評估,并開展兼容性測試驗證以保證應用的可靠性。同時,由于不導電液體熱物性普遍較差且液體流速低,因此單相浸沒液冷散熱能力普遍較低,這在一定程度上制約了其推廣應用。
根據(jù)浸沒機柜形態(tài),單相浸沒式液冷可以進一步細分為臥式浸沒和立式浸沒。傳統(tǒng)臥式浸沒液冷設備維護時需要打開TANK上蓋,并配備可移動機械吊臂或專業(yè)維護車以實現(xiàn)設備的豎直插拔,維護復雜度高、耗時長,且開蓋維護過程有一定的冷卻液揮發(fā)問題,增加了運行成本。為了解決這一問題,業(yè)內將浸沒機柜形態(tài)調整為立式架構,即單相立式浸沒液冷,如圖6所示。立式浸沒機柜架構與冷板式相似,但通信設備本身需要實現(xiàn)板級密封功能,兼具冷板式液冷的維護便利性和浸沒式液冷的節(jié)能優(yōu)勢。
圖6 單相浸沒式液冷系統(tǒng)架構(立式)
2.4 兩相浸沒式液冷
兩相浸沒液冷二次側冷卻液在設備內吸熱由液態(tài)轉化為氣態(tài),通過冷凝器冷凝放熱由氣態(tài)轉化為液態(tài)。這種液冷技術充分利用液體的相變潛熱,散熱能力相比于單相浸沒顯著提升。需要指出的是,兩相浸沒液冷同樣存在臥式和立式兩種技術形態(tài)。
兩相臥式浸沒二次側冷卻液僅在浸沒腔體內部循環(huán)。浸沒腔體的頂部為氣態(tài)區(qū),底部為液態(tài)區(qū)。冷卻液吸收設備熱量后發(fā)生相變,即液態(tài)冷卻液變?yōu)闅鈶B(tài)冷卻液。氣態(tài)冷卻液匯聚到浸沒腔體頂部,與安裝在頂部的冷凝器發(fā)生換熱后冷凝為低溫液態(tài)冷卻液,隨后在重力作用下回流至腔體底部,實現(xiàn)對通信設備的散熱,如圖7所示。
圖7 兩相浸沒式液冷系統(tǒng)架構(臥式)
兩相立式浸沒將每個設備節(jié)點作為一個獨立的小型浸沒腔體,可有效避免相變冷卻液的運維耗散問題,且架構兼容性更優(yōu)、維護操作更便捷。因此,現(xiàn)階段兩相浸沒以立式架構為主要研究方向。兩相浸沒立式系統(tǒng)架構如圖8所示,它包含二次側冷卻液、密封殼體、兩相沸騰散熱器等關鍵部件。
圖8 兩相浸沒式液冷系統(tǒng)架構(立式)
1)二次側冷卻液:考慮密封殼體的承壓設計,目前主要選用低沸點氟碳類工質。二次側冷卻液需要根據(jù)具體場景進行選擇,并主要考慮熱性能、環(huán)保安全性能、工作溫區(qū)和壓力、材料兼容性等因素。
2)密封殼體:通信設備節(jié)點全密封設計,節(jié)點內部充滿冷卻液。工作時殼體上部為氣體,下部為液體,通過流體連接器與CDU形成氣液循環(huán)。密封殼體的關鍵點在于設備電、網、液接口處的密封設計。
3)兩相沸騰散熱器:通過界面材料與芯片接觸,將芯片產生的熱量通過冷卻液的相變帶走。這類散熱器一般采用多孔介質設計方案,以增加汽化核心和散熱面積。
兩相浸沒液冷兼具高節(jié)能、高散熱的技術優(yōu)勢,可同時滿足高功率芯片的散熱需求,實現(xiàn)機房極致節(jié)能效果。但現(xiàn)階段該技術仍在試點研究中,其密封可靠性、系統(tǒng)控制穩(wěn)定性等有待持續(xù)優(yōu)化。
2.5 噴淋式液冷
噴淋式液冷屬于直接接觸式液冷。二次側冷卻液由頂部進入服務器,在重力或系統(tǒng)壓力的作用下,通過噴淋板精準噴淋發(fā)熱器件,冷卻液直接與發(fā)熱器件接觸,通過對流換熱為器件散熱,如圖9所示。為了實現(xiàn)精準噴淋與有效散熱,液冷機柜及設備需要一定的特殊化設計。
圖9 噴淋式液冷系統(tǒng)架構
1)二次側冷卻液:通常為不導電液體,可以是油基或氟碳類,換熱過程不發(fā)生相變。
2)液冷設備:上蓋集成噴淋腔體和噴淋孔,可根據(jù)器件功耗、布局、尺寸設置不同的噴淋孔大小、位置、密集程度等。
3)液冷機柜:設備內噴淋會有一定的冷卻液飄逸,為了避免冷卻液損耗,以及機房環(huán)境污染,液冷機柜需要具備一定的密封性。
4)儲液箱:一般放置于噴淋機柜的底部,利用重力收集吸熱溫升后的冷卻液,當系統(tǒng)出現(xiàn)異常情況時(如發(fā)生泄漏),也可收集泄漏液體,增加系統(tǒng)運行的穩(wěn)定性和可靠性。
噴淋式液冷實現(xiàn)了100%液冷,使PUE優(yōu)于單相冷板液冷。同時,通過噴淋結構,這種液冷技術可實現(xiàn)對高功率芯片的精準噴淋,使流經芯片的液體流速有一定的提升,其散熱能力略高于傳統(tǒng)單相浸沒液冷。因此,噴淋液冷可以看作是實現(xiàn)冷板式液冷節(jié)能、單相浸沒液冷散熱的折中方案。
2.6 液冷技術綜合對比
算力攀升驅動數(shù)據(jù)中心液冷市場需求保持逐年增長的態(tài)勢。業(yè)內多條液冷技術路線快速發(fā)展,針對不同應用場景各具優(yōu)勢,如表2所示。其中,單相冷板式液冷在液冷數(shù)據(jù)中心的應用占比達90%以上,是現(xiàn)階段及未來一段時間業(yè)內主流的液冷技術方案。單相浸沒式液冷節(jié)能優(yōu)勢更突出,且近年來該技術逐步趨于成熟,相關產業(yè)鏈快速發(fā)展完善,小規(guī)模商用不斷推進。此外,噴淋式、兩相冷板式、兩相浸沒式這3種液冷方案的技術研究和產業(yè)生態(tài)尚需完善。
表2 不同液冷技術方案對比
3 液冷技術展望
數(shù)據(jù)中心液冷正處于快速發(fā)展階段。隨著液冷技術的規(guī)?;瘧茫黝悊栴}也逐漸暴露出來。例如:冷板式液冷水基工質泄漏導致設備短路燒毀;單相浸沒式液冷散熱能力受液體流速約束,散熱能力表現(xiàn)較弱,無法滿足更高功耗CPU/GPU的散熱需求;液冷系統(tǒng)制冷量未隨負載變化及時調控,導致節(jié)能收益不明顯;現(xiàn)階段液冷數(shù)據(jù)中心的建設成本高等。這些均在一定程度上制約了液冷技術在數(shù)據(jù)中心領域的應用。為了解決這些問題,業(yè)內一直在持續(xù)探索研究,以提升數(shù)據(jù)中心液冷技術在安全可靠、散熱能力、建設成本等方面的優(yōu)勢。
3.1 非水冷板式液冷
單相冷板式液冷一般采用水基工質作為二次側冷卻液,但水基工質存在腐蝕、泄漏導電等應用可靠性風險。除了基礎的機械結構防泄漏外,中興通訊創(chuàng)新性地提出非水冷板式液冷技術,將二次側冷卻液由水基工質更換為氟碳類或油基不導電液體,從冷卻液本身解決泄漏導電問題。非水冷板式液冷架構與單相冷板式液冷相同。
非水冷板式液冷方案配合機械防泄漏結構設計,能夠實現(xiàn)對液冷系統(tǒng)的多維度泄漏防護,真正做到泄漏有效防護、不損傷設備,且保留了冷板式液冷的高散熱優(yōu)勢,能夠滿足現(xiàn)階段各類通信設備的散熱需求。同時,由于氟碳類、油基工質均屬于大分子化合物,很難被微生物所分解,因此,非水系統(tǒng)中微生物腐蝕導致的風險會大大降低。
非水冷板式液冷因工質更換,其系統(tǒng)方案在設計過程也需要有一定的調整:
1)液體潤濕面材料與不同工質的兼容性存在差異,更換工質后需要重新開展材料與工質間的兼容性測試驗證,以保證長期應用可靠性。
2)CDU:需要對補液裝置改進,避免補液過程空氣中的水分或雜質進入液冷系統(tǒng)中,引起非水工質的水解產生酸性物質,導致腐蝕風險問題。
3)漏液檢測:二次側冷卻液為不導電液體,因此傳統(tǒng)導電型漏液檢測傳感器不再適用,需要更換為光電式、電容式、浮子式漏液檢測方式。針對氟碳類工質,因其揮發(fā)性較強,泄漏后有一定的氣態(tài)工質產生,可以采用吸氣式漏氟檢測儀器。
3.2 全液冷冷板
傳統(tǒng)冷板式液冷通常只覆蓋CPU、GPU等個別高功耗芯片,設備節(jié)點或整機柜液冷占比通常在60%~80%之間,存在液冷占比低、節(jié)能收益不顯著的問題。為此,業(yè)內已經開始布局全液冷冷板技術,即通過液冷板為設備內的所有發(fā)熱器件進行散熱。
以通算服務器產品為例,液冷板覆蓋CPU、內存、硬盤、電源等,95%以上的熱量通過液冷板帶走,剩余約5%的熱量通過設備節(jié)點內風液換熱器中的冷卻液帶走,進而實現(xiàn)100%液冷。與傳統(tǒng)的單相冷板式液冷相比,全液冷冷板技術具有更低的系統(tǒng)能耗,PUE可低至1.1,能夠有效降低數(shù)據(jù)中心的運營成本。
全液冷冷板雖然可以大幅提升液冷占比,提升節(jié)能效果,但涉及液冷部件較多,液冷系統(tǒng)相對復雜,需要專業(yè)的維護人員進行操作和維修,同時內存、硬盤等可插拔部件的應用可靠性仍有待提升。從長期收益來看,全液冷冷板技術得益于其高效的散熱性能及更低的能耗,在數(shù)據(jù)中心領域會有更廣泛的應用。
3.3 單相浸沒強化散熱
單相浸沒液冷液體流速低,使系統(tǒng)解熱能力受限。在當下智算如火如荼大力發(fā)展的過程中,高功耗、高熱流密度的CPU/GPU散熱需求,驅動人們不斷探索散熱強化的創(chuàng)新路線,如引入主動驅動力,調整系統(tǒng)架構,改善冷卻液熱物性等,以滿足高功耗、高熱流密度芯片的散熱需求。
單相浸沒液冷通過引入外部驅動部件,如封閉風機、微泵等,可以顯著提升芯片局部區(qū)域的冷卻液流速和湍流程度,實現(xiàn)較高的換熱效率。例如,Submer和英特爾共同開發(fā)了一款強制對流散熱器,其通過在翅片散熱器前方加裝風機,搭配限流器外殼,使在散熱器鰭片區(qū)域的冷卻液產生強制對流,提高了冷卻液的換熱效率,從而改善散熱器的熱性能。
除了模塊化設計的強制對流散熱器方案,系統(tǒng)架構調整的散熱模式也是浸沒液冷發(fā)展方向之一。例如,中興通訊與英特爾合作開發(fā)的浸沒液冷架構強化方案,采用雙回路設計,高功耗器件CPU/GPU等支持重力驅動強化散熱方式,支持單節(jié)點散熱能力2000W+,CPU散熱能力大于550W。
冷卻液方面,目前單相浸沒冷卻液以碳氟類和油基工質為主,相比于水溶性液冷,雖然可以有效地解決絕緣性問題,但是仍存在粘度大、比熱容低、導熱能力差的缺點。為了提升介電液體的散熱能力,納米流體成為當下研究方向之一。納米流體借助納米顆粒的高導熱系數(shù)和液體與顆粒之間的對流,可以顯著提高導熱系數(shù)和對流傳熱系數(shù)。雖然采用納米流體可以有效提升換熱性能,但是其穩(wěn)定性差、制備難度大、生產成本高是實際應用中存在的主要問題,現(xiàn)階段仍需要持續(xù)優(yōu)化。
3.4 液冷智能溫控技術
液冷系統(tǒng)的極致節(jié)能離不開管理層的優(yōu)化調控。與風冷系統(tǒng)相比,液冷系統(tǒng)耦合性更強,系統(tǒng)控制點位更多、更復雜。傳統(tǒng)的液冷系統(tǒng)調控邏輯或群控模式無法匹配業(yè)務和負載率變化進行主動調控,在一定程度上存在冷量浪費的問題。現(xiàn)階段的AI調優(yōu)測試主要基于數(shù)據(jù)模型,通過對歷史數(shù)據(jù)的深度學習、強化學習等,僅利用有限場景下的純數(shù)據(jù)樣本,數(shù)據(jù)成本高,歷史數(shù)據(jù)依賴性強,訓練周期長,且不具有可解釋性,容易反邏輯控制,在極端工況下可靠性低。
為了提高液冷系統(tǒng)溫控策略的節(jié)能效果及運行穩(wěn)定性,人們提出了“數(shù)據(jù)+機理”的雙驅AI技術。該技術將AI與傳統(tǒng)暖通熱力學模型相結合,構建機理和數(shù)據(jù)融合驅動的系統(tǒng)熱力學模型,并針對機理模型中難以建立“白箱”模型的部分,可以利用采集數(shù)據(jù)構建數(shù)據(jù)模型來解決,也可以利用數(shù)據(jù)驅動方法對機理模型中的參數(shù)進行優(yōu)化。雙驅AI控制策略遵循熱學原理,脫離純數(shù)據(jù)依賴,避免反邏輯,具有更高可靠性、更優(yōu)節(jié)能效果,能夠通過對兩種預測模型取長補短,最大程度提高預測的準確性,使計算復雜度及成本顯著降低。
在具體應用中,需要將盡可能地將影響液冷系統(tǒng)節(jié)能與運行穩(wěn)定性的因素納入數(shù)據(jù)中心基礎設施管理(DCIM)監(jiān)管和調控中,通過雙驅模型對數(shù)據(jù)中心建立多輸入和輸出間的擬合關系,使各工況點均具有可預測性。融合機理模型和數(shù)據(jù)模型的雙驅動仿真系統(tǒng),借助可視化平臺開發(fā),可建立數(shù)據(jù)中心系統(tǒng)的數(shù)字孿生預測模型。液冷系統(tǒng)基于該模型不僅能實現(xiàn)極佳的節(jié)能溫控策略,還能針對極端場景提前制定可能的風險場景應對策略,提升運維人員的響應效率和數(shù)據(jù)中心的運行可靠性。
3.5 低成本液冷系統(tǒng)
與傳統(tǒng)風冷系統(tǒng)相比,液冷技術應用存在初期投資成本高的問題,這影響了液冷技術的規(guī)模應用與推廣。此外,液冷物料本身也需要進一步研究。原材料和加工成本較高,需要引入新材料或新工藝以進一步降低成本?;诖耍信d通訊開發(fā)了低成本液冷系統(tǒng),通過引入高可靠、低成本材料,改善工藝條件,使液冷數(shù)據(jù)中心投資成本綜合降本15%以上。引入的材料包含鋁合金冷板、高分子材料等。其中,高分子材料包括高分子工程管網、高分子分液器、高分子流體連接器等。
1)鋁合金冷板:液冷板散熱底板由銅材更換為鋁材。冷板上蓋板等非散熱接觸面材料采用高分子材料,并通過注塑成型,降低了成本。同時,液冷板取消焊接密封工藝,采用膠圈密封的方式,節(jié)省了焊接費用。
2)高分子材料應用:工程管網、分液器等由不銹鋼材料更換為高分子材料,且一體式注塑成型,工藝成本低,且所選材料經過兼容性測試驗證,應用可靠性高。
3.6 芯片級液冷
芯片制程工藝向更小尺寸發(fā)展,芯片功耗和熱流密度不斷攀升,加之2.5D/3D封裝和異構芯片的快速發(fā)展,使得芯片內熱阻占比越來越大。當前芯片散熱主要考慮導熱界面材料(TIM)和外部系統(tǒng)散熱技術兩個方面,但仍無法解決芯片內熱阻大的問題。未來隨著各種新型封裝形式的演進,外部液冷散熱方案將難以滿足超高功率密度芯片的散熱需求。液冷散熱方案將深入到芯片內部,從熱源根本上解決散熱問題。這種散熱技術稱為芯片級液冷技術。
芯片級液冷沿用冷板式液冷架構,所不同的是其將微尺度流道(微米級通道寬度)刻蝕在芯片內部,液體工質直接從芯片內部帶走熱量,大大降低芯片內熱阻或者界面熱阻,同時可解決多Die堆疊引起的散熱問題,使散熱能力得到極大提升,并可滿足超高散熱需求。從1981年開始,國內外陸續(xù)有一些高校、科研機構和芯片廠商已經布局芯片級液冷散熱技術研究,包括對微尺度液冷基礎原理的研究、微尺度(硅基)流道加工工藝的探索改進、先進微尺度流道設計方案的研究等。按芯片與液冷微通道的耦合形態(tài),芯片級液冷又可分為分體式(含TIM)和一體式(無TIM)兩種,預計均可滿足300W/cm2以上的散熱需求。但由于相關技術成熟度還較低,目前業(yè)內還暫無應用案例。
4 結束語
在“數(shù)字經濟”和“雙碳”的大背景下,不斷提升的芯片熱流密度和更嚴苛的設備能耗設計要求,成為數(shù)據(jù)中心制冷技術不斷演進的兩大重要驅動力。液冷技術具有低能耗、高散熱、低噪聲、低TCO等優(yōu)勢,是解決芯片散熱問題、打造綠色低碳數(shù)據(jù)中心的關鍵技術。