中國儲能網(wǎng)訊:硬件打基礎,布局上臺階。
在數(shù)字化浪潮的席卷之下,人工智能已成為推動時代前行的核心引擎。
圖片智算中心已經(jīng)成為滿足大規(guī)模模型訓練與推理需求的“生命線”。
隨著AI的持續(xù)滲透與深化應用,算力需求如潮水般洶涌而至,傳統(tǒng)計算架構面臨前所未有的挑戰(zhàn),在此背景下,“萬卡集群”作為新一代大模型競賽的關鍵,正逐步成為智能計算領域的新常態(tài),其發(fā)展也備受業(yè)界關注。
智算中心駛入快車道
硬件打基礎,布局上臺階,智算中心作為集算力服務、數(shù)據(jù)服務和算法服務于一體的綜合性平臺,正在以前所未有的速度發(fā)展。
在實際應用中,智算中心已經(jīng)成為滿足大規(guī)模模型訓練與推理需求的“生命線”。隨著10億參數(shù)規(guī)模以上的大模型數(shù)量突破百個,AI算力需求急劇增加。例如,OpenAI訓練GPT-4模型時使用了2.5萬張英偉達A100 GPU,這種大規(guī)模的算力需求推動了智算中心向更高性能、更大規(guī)模的方向發(fā)展。
近年來,政府對于智算中心建設的重視程度不斷提升,通過出臺《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》《“十四五”國家信息化規(guī)劃》《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》等一系列政策,為智算中心的發(fā)展提供了堅實的政策保障。數(shù)據(jù)顯示,截至2023年底,全國名稱中帶有“智算中心”的項目已達128個,僅2023年全年,全國建成或者正在建設的智算中心有20多座,且這一數(shù)字在2024年繼續(xù)快速增長。
智算中心的技術特點主要體現(xiàn)在其高性能計算能力和高效的資源整合上。隨著大模型訓練與推理需求的爆發(fā),尤其是GPU供應緊張,算力需求增長遠超單顆AI芯片性能的增長速度。
通過集群互聯(lián)彌補單卡性能不足,成為解決AI算力荒的必要路徑。千卡集群和萬卡集群是滿足AI算力需求的抓手,特別是在未來幾年內(nèi),通用算力和智能算力的快速增長將推動智算中心的建設和發(fā)展?,通過整合高性能GPU計算、RDMA網(wǎng)絡、并行文件存儲和智算平臺等關鍵技術,構建了一臺“超級計算機”。
百舸爭流構建新產(chǎn)業(yè)格局
事實上,面向智算中心從千卡集群到萬卡集群的構建并非簡單的GPU卡堆疊,而是一項高度復雜的超級系統(tǒng)工程,通過智算網(wǎng)絡技術把上萬塊GPU芯片像“積木”一樣拼接在一起,大幅提升GPU節(jié)點間的通信效率,使其在瞬息之間便能處理海量數(shù)據(jù)與復雜計算任務。
目前,業(yè)界主流的芯片主要是英偉達H100,近年來,隨著部分國家對高端芯片的出口管制不斷加強,國外廠商生產(chǎn)的高檔GPU出口受到限制,使得我國在智算領域面臨算力供應不足的風險。這種外部壓力促使我國加快智算中心國產(chǎn)化的進程,以減少對國外芯片的依賴。近年來,國內(nèi)已經(jīng)涌現(xiàn)出了一些優(yōu)秀的芯片廠商,如昇騰、寒武紀、百度等。
其中,華為昇騰910B是華為自主研發(fā)的AI芯片,采用了7納米制程工藝,昇騰910代表了昇騰系列的最強算力,其半精度FP16算力達到了320TFLOPS,整數(shù)精度INT8算力更是高達640 TOPS。昇騰910配合華為開源的MindSpore框架,可以顯著提高AI訓練的效率。
寒武紀的思元370是采用7nm制程工藝,首款采用chiplet芯粒技術的AI芯片,就是在一顆芯片中封裝2顆AI計算芯粒,每一個MLU-Die具備獨立的AI計算單元。整體集成了390億個晶體管,具有256TOPS(INT8)的最大算力。
昆侖芯2采用7nm制程,搭載昆侖芯自研的新一代XPU-R架構,是國內(nèi)首款采用GDDR6顯存的通用AI芯片,相比昆侖芯1代,昆侖芯2的整數(shù)精度(INT8)算力達到256 TeraOPS,半精度(FP16)為128 TeraFLOPS,而最大功耗僅為120W,昆侖芯2高度集成了ARM CPU算力,并支持硬件虛擬化、芯片間互聯(lián)、視頻編解碼等功能。同時,它還支持C和C++編程,可編程性國內(nèi)領先、對標全球業(yè)界最先進水平。
含光800是阿里巴巴旗下半導體公司平頭哥高性能AI芯片,含光800采用了自研的架構、基于達摩院的算法和阿里巴巴的場景,由臺積電7nm工藝打造,在業(yè)界標準的ResNet-50測試中推理場景性能達到78563IPS,經(jīng)過公開測試比業(yè)界的其他AI芯片性能高4倍。
與此同時,隨著國產(chǎn)芯片的異軍突起,有關萬卡集群的構建與兼容性挑戰(zhàn)也浮出水面。
硬件方面,由于不同型號的GPU在性能、功耗、接口等方面存在差異,要求集群設計和部署時必須考慮硬件的兼容性。
隨著GPU數(shù)量的增加,集群的擴展性、散熱、能耗等問題也日益凸顯,同時,不同廠商、不同版本的操作系統(tǒng)、驅動程序、深度學習框架等可能存在不兼容的情況。
例如,某些特定的深度學習框架可能只支持某些型號的GPU,或在某些操作系統(tǒng)上運行不穩(wěn)定,最后則是由于生態(tài)的興起,開源軟件、商用軟件的配套也需要得到不斷完善。
從硬件到生態(tài):推動AI產(chǎn)業(yè)可持續(xù)發(fā)展
宏觀來看,隨著全球科技競爭的加劇,構建自主可控的國產(chǎn)萬卡系統(tǒng),不僅關乎技術主權,更是推動AI產(chǎn)業(yè)持續(xù)健康發(fā)展的關鍵,其中生態(tài)的構建尤為復雜且至關重要。
今年三月,中國工程院院士鄭緯民指出,盡管國產(chǎn)AI芯片與業(yè)界領先水平存在差距,但生態(tài)的完善能夠有效彌補這一短板,確保大多數(shù)任務不會因芯片性能的微小差異而受顯著影響。
事實上,面對英偉達CUDA生態(tài)的強勢地位,國內(nèi)AI生態(tài)鏈建設顯得尤為迫切。英偉達憑借其完善的生態(tài)鏈,成為了全球AI大模型的首選算力供應商,甚至國內(nèi)眾多AI公司也不得不依賴其生態(tài)。相比之下,我國計算生態(tài)鏈尚在建設中。
因此,要打破封閉和壟斷,首要任務是推動算力技術的開放與標準化。通過采用多元開放的架構,確保系統(tǒng)兼容主流軟件生態(tài),支持廣泛的AI框架、算法模型及數(shù)據(jù)處理技術,從而降低應用遷移門檻,促進技術創(chuàng)新與應用的快速迭代。
同時,軟硬件的深度融合是提升智算效能的關鍵。針對不同類型的GPU及其軟件環(huán)境,進行細致的協(xié)同優(yōu)化,包括驅動、框架、操作系統(tǒng)等各個層面,以實現(xiàn)性能的最大化和穩(wěn)定性的提升。
最后,生態(tài)的構建需要整個產(chǎn)業(yè)鏈的共同努力。通過鼓勵上下游企業(yè)的積極參與,推動算力技術的標準化、模塊化,形成開放共享的技術生態(tài)。這不僅能夠促進技術間的互聯(lián)互通,還能加速資源的有效配置與利用。
構建國產(chǎn)萬卡系統(tǒng),雖然很難,但很必要。人工智能的模型研發(fā)、模型訓練、模型精調、模型推理都需要算力,算力存在于大模型生命周期的每一環(huán)。
在智算領域,生態(tài)的構建是一場持久戰(zhàn),也是決定未來格局的關鍵,這不僅是技術層面的追趕,更是生態(tài)體系、創(chuàng)新機制與全球合作模式的重塑。只有如此,國產(chǎn)萬卡系統(tǒng)才能真正成為推動中國乃至全球AI產(chǎn)業(yè)發(fā)展的強大引擎。