中國(guó)儲(chǔ)能網(wǎng)訊:以大模型為代表的人工智能技術(shù)不斷取得突破并獲得廣泛應(yīng)用,其背后的算力需求呈現(xiàn)井噴式的增長(zhǎng)態(tài)勢(shì)。為了滿(mǎn)足大模型訓(xùn)練和推理的大規(guī)模、高性能算力需求,算力基礎(chǔ)設(shè)施的資源供給模式正在從單點(diǎn)資源池、單點(diǎn)應(yīng)用向云、邊、端多層次資源池及多級(jí)算力協(xié)同的方向發(fā)展。最終,算力節(jié)點(diǎn)將通過(guò)無(wú)所不在的網(wǎng)絡(luò)連接有機(jī)融合,實(shí)現(xiàn)計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等多維資源的一體化柔性供給。
為了實(shí)現(xiàn)這一目標(biāo),算力網(wǎng)絡(luò)的概念應(yīng)運(yùn)而生。依照國(guó)際電信聯(lián)盟(ITU)的定義,算力網(wǎng)絡(luò)是一種通過(guò)網(wǎng)絡(luò)控制面分發(fā)服務(wù)節(jié)點(diǎn)的算力、存儲(chǔ)、算法等資源信息,結(jié)合網(wǎng)絡(luò)信息,以用戶(hù)需求為核心,提供最佳的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的分發(fā)、關(guān)聯(lián)、交易與調(diào)配,從而實(shí)現(xiàn)整網(wǎng)資源的最優(yōu)化配置和使用的新型網(wǎng)絡(luò)技術(shù)。它通過(guò)對(duì)全網(wǎng)資源的高效整合和優(yōu)化分配,為計(jì)算任務(wù)提供強(qiáng)大的算力支持。
算力網(wǎng)絡(luò)將成重要基礎(chǔ)設(shè)施,
算力調(diào)度是核心能力
和電力網(wǎng)絡(luò)一樣,算力網(wǎng)絡(luò)也將成為重要的基礎(chǔ)設(shè)施,為經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步提供基礎(chǔ)資源。一方面,把資源高效分配給需求方,提高資源利用效率;另一方面,支持用戶(hù)按需獲取資源,而無(wú)需關(guān)心資源的具體來(lái)源。
與電力網(wǎng)絡(luò)相比,算力網(wǎng)絡(luò)的建設(shè)運(yùn)行更具挑戰(zhàn)性。例如,在資源類(lèi)型方面,電力網(wǎng)絡(luò)提供的是單一的電力資源服務(wù),算力網(wǎng)絡(luò)則更加多元,包括通用算力、超算算力、智能算力等;在資源調(diào)度方面,電力網(wǎng)絡(luò)相對(duì)標(biāo)準(zhǔn)化和統(tǒng)一化,目標(biāo)是電力的供需平衡,算力網(wǎng)絡(luò)則需考慮計(jì)算任務(wù)的類(lèi)型、數(shù)據(jù)流、指令流等更多因素;在業(yè)務(wù)場(chǎng)景方面,電力網(wǎng)絡(luò)被廣泛應(yīng)用但主要集中在能源的供應(yīng)和消費(fèi),算力網(wǎng)絡(luò)則涵蓋人工智能、大數(shù)據(jù)處理、自動(dòng)駕駛、智能物聯(lián)網(wǎng)等領(lǐng)域,顯示出更加多樣化的特征。
算力網(wǎng)絡(luò)要想像電力網(wǎng)絡(luò)一樣高效、穩(wěn)定、便捷地提供資源服務(wù),需要重點(diǎn)打造以下技術(shù)能力。
一是算力度量,即針對(duì)不同類(lèi)型、不同架構(gòu)的算力建立統(tǒng)一的評(píng)價(jià)體系與標(biāo)識(shí)體系,賦能算力流通,類(lèi)似電力網(wǎng)絡(luò)使用“千瓦時(shí)”作為量綱,這也是為算力的感知、管控、服務(wù)打造的必要基礎(chǔ)和標(biāo)準(zhǔn)。
二是算力感知,即在實(shí)現(xiàn)算力的統(tǒng)一度量與標(biāo)識(shí)的基礎(chǔ)上,捕捉業(yè)務(wù)算力需求信息以及算力資源信息,從而為算力網(wǎng)絡(luò)調(diào)度編排提供依據(jù),實(shí)現(xiàn)資源配置的最優(yōu)化。
三是算力路由,即通過(guò)擴(kuò)展傳統(tǒng)的網(wǎng)絡(luò)路由協(xié)議,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)等多維度資源、服務(wù)的感知與通告,實(shí)現(xiàn)網(wǎng)絡(luò)和算力資源的聯(lián)合調(diào)度。
四是確定性承載,即為基礎(chǔ)網(wǎng)絡(luò)提供確定性能力,目標(biāo)是改變傳統(tǒng)網(wǎng)絡(luò)的“盡力而為”轉(zhuǎn)發(fā)方式,實(shí)現(xiàn)帶寬可控、路徑可控、抖動(dòng)可控,為算力路由、算力通告提供“準(zhǔn)時(shí)、準(zhǔn)確”的高可靠連接保障。
五是算力調(diào)度,即通過(guò)編排實(shí)現(xiàn)算力調(diào)度與業(yè)務(wù)運(yùn)營(yíng)的結(jié)合,根據(jù)不同的業(yè)務(wù)場(chǎng)景對(duì)多樣化的算力資源自動(dòng)進(jìn)行需求匹配和調(diào)度。
在上述技術(shù)體系中,算力調(diào)度作為連接用戶(hù)業(yè)務(wù)需求和算力網(wǎng)絡(luò)資源的中樞,是構(gòu)成算力網(wǎng)絡(luò)服務(wù)的核心能力。算力調(diào)度涉及的場(chǎng)景和范圍非常廣泛,不僅要在多云、云網(wǎng)之間進(jìn)行協(xié)同,還要在跨行業(yè)、跨地區(qū)、跨層級(jí)的復(fù)雜場(chǎng)景中進(jìn)行調(diào)度。算力調(diào)度主要有三類(lèi)方案,分別是基于控制器對(duì)接的集中管控方案、基于路由協(xié)議擴(kuò)展的算力網(wǎng)關(guān)方案和基于DNS域名解析的算力互聯(lián)網(wǎng)方案。
中國(guó)電信天翼云的“息壤”平臺(tái)采用基于控制器對(duì)接的集中管控方案,打造與算力控制器和網(wǎng)絡(luò)控制器對(duì)接的一體化調(diào)度平臺(tái),通過(guò)分布式的控制器獲取全局的算網(wǎng)信息,并根據(jù)業(yè)務(wù)需求進(jìn)行全局算力調(diào)度,有效整合各方異構(gòu)算力資源,為全社會(huì)提供標(biāo)準(zhǔn)化算力。當(dāng)前,“息壤”正在從算力互聯(lián)調(diào)度平臺(tái)升級(jí)成為集算網(wǎng)調(diào)度、計(jì)算加速、模型訓(xùn)推于一體的智算服務(wù)平臺(tái),有力地支持了大模型和人工智能產(chǎn)業(yè)的蓬勃發(fā)展。
云邊端多級(jí)算力協(xié)同,提升電力人工智能大模型推理效能
隨著規(guī)模定律(Scaling Law)持續(xù)生效,大模型所需的算力規(guī)??焖僭鲩L(zhǎng)。為消除單點(diǎn)集群在節(jié)點(diǎn)數(shù)和資源量上的限制,分布式、異構(gòu)化的算力網(wǎng)絡(luò)承載著大模型的剛性需求,算力的按需調(diào)度更是發(fā)揮了重要作用。此前業(yè)界對(duì)于大模型算力的討論重點(diǎn)在于訓(xùn)練階段,然而隨著大模型與人們生產(chǎn)生活關(guān)系的日益緊密,推理階段的算力需求同樣不容忽視。大模型推理具有廣泛部署、持續(xù)運(yùn)行等特點(diǎn),直接關(guān)系到大模型應(yīng)用的準(zhǔn)確性、實(shí)時(shí)性、擴(kuò)展性和資源效率,是影響大模型用戶(hù)體驗(yàn)和業(yè)務(wù)成效的關(guān)鍵。與訓(xùn)練階段相比,大模型推理可使用的異構(gòu)算力種類(lèi)繁多,資源需求的動(dòng)態(tài)性、不確定性更加突出。特別值得關(guān)注的是,采用云、邊、端多級(jí)算力協(xié)同的方案可以有效提升大模型推理的效能,其核心就是合理的算力調(diào)度,即把最合適的任務(wù)調(diào)度到最合適的計(jì)算平臺(tái)上去,實(shí)現(xiàn)架構(gòu)與功能特征的匹配,并根據(jù)成本、剩余資源情況等動(dòng)態(tài)更新調(diào)度方案。
大模型的云邊協(xié)同推理充分運(yùn)用了 智算云平臺(tái)的大規(guī)模存儲(chǔ)和處理能力,以及邊緣計(jì)算的接近數(shù)據(jù)源的處理能力。在該模式中,連接智算云平臺(tái)和邊緣計(jì)算平臺(tái)的算力網(wǎng)絡(luò)負(fù)責(zé)把不同類(lèi)別的計(jì)算任務(wù)調(diào)度到云側(cè)或者邊緣側(cè)。在基于算力調(diào)度的云邊協(xié)同推理方案中,數(shù)據(jù)首先會(huì)在端側(cè)的傳感器、移動(dòng)設(shè)備等地方產(chǎn)生和采集,再被邊緣設(shè)備接收并進(jìn)行初步處理。這些處理可以包括數(shù)據(jù)清理、預(yù)處理和部分分析等。隨后,數(shù)據(jù)和任務(wù)會(huì)根據(jù)性質(zhì)和需求,分配給云側(cè)或邊緣側(cè)進(jìn)行進(jìn)一步處理。具體來(lái)講,那些需要快速反饋的任務(wù),通常會(huì)被留在邊緣側(cè);而那些需要大規(guī)模數(shù)據(jù)分析和深度處理的任務(wù),則會(huì)被發(fā)送至云側(cè)?;诤侠淼恼{(diào)度,云、邊、端的算力能夠提供更加高效、靈活的計(jì)算服務(wù),在滿(mǎn)足不同任務(wù)需求的同時(shí),提高整體的計(jì)算效率。
國(guó)家電網(wǎng)的人工智能算力體系采用省側(cè)云、場(chǎng)站邊和設(shè)備端三層架構(gòu),基于算力調(diào)度的大模型云邊協(xié)同推理對(duì)于電網(wǎng)業(yè)務(wù)的智能化升級(jí)相當(dāng)重要。例如,在全景巡視、設(shè)備巡檢等場(chǎng)景中,位于端側(cè)的無(wú)人機(jī)、攝像頭等重點(diǎn)負(fù)責(zé)圖像、視頻、點(diǎn)云等多種類(lèi)型數(shù)據(jù)的感知和采集;位于邊側(cè)的場(chǎng)站邊的算力資源數(shù)量、性能有限,在推理階段可重點(diǎn)開(kāi)展端側(cè)上傳數(shù)據(jù)的缺陷樣本初步篩選,并將篩選后的缺陷樣本傳送至云側(cè);位于云側(cè)的省側(cè)云對(duì)缺陷樣本進(jìn)行深入分析,確定缺陷的類(lèi)型、位置等信息。在這一過(guò)程中,云側(cè)保證了模型具備較高的準(zhǔn)確性和智能識(shí)別能力,而邊側(cè)的應(yīng)用則確保了實(shí)時(shí)性和效率。云邊協(xié)同推理方案為相關(guān)場(chǎng)景提供了可靠支持,可有效預(yù)防各類(lèi)風(fēng)險(xiǎn)。
圍繞基于算力調(diào)度的大模型云邊協(xié)同推理,中國(guó)電力科學(xué)研究院聯(lián)合中國(guó)電信研究院、北京航空航天大學(xué)、中國(guó)科學(xué)院網(wǎng)絡(luò)信息中心等先進(jìn)產(chǎn)學(xué)研合作伙伴,開(kāi)展了電力人工智能大模型分布式算力調(diào)度與協(xié)同訓(xùn)練推理技術(shù)的攻關(guān),重點(diǎn)面向電力人工智能場(chǎng)景多樣性強(qiáng)、推理實(shí)時(shí)性高等特點(diǎn),構(gòu)建基于算力調(diào)度的云邊協(xié)同推理加速器。通過(guò)研究基于實(shí)時(shí)數(shù)據(jù)流調(diào)度的云邊協(xié)同預(yù)處理和推理優(yōu)化策略,提高云邊協(xié)同的數(shù)據(jù)處理效率和推理速度;以此為基礎(chǔ)打造可適配算力網(wǎng)絡(luò)環(huán)境中異構(gòu)算力的輕量級(jí)運(yùn)行環(huán)境,為邊緣設(shè)備提供高效、靈活的計(jì)算支持,降低計(jì)算任務(wù)的部署和運(yùn)行成本;同時(shí)研究基于網(wǎng)絡(luò)壓縮與切割的深度模型云邊協(xié)同加速機(jī)制,為電力人工智能應(yīng)用提供實(shí)時(shí)、準(zhǔn)確的支持,降低計(jì)算任務(wù)的延遲和能耗。
當(dāng)前,攻關(guān)工作在異構(gòu)算力支持、模型輕量化、分布式推理加速等方面取得突破,并開(kāi)展了邊側(cè)算力規(guī)模受限、異構(gòu)算力設(shè)備分布式接入條件下的人工智能模型推理加速實(shí)驗(yàn)。實(shí)驗(yàn)顯示,云邊異構(gòu)算力的協(xié)同調(diào)度既能夠支持低代價(jià)、自適應(yīng)的大模型輕量化,又能夠保持推理精度的分布式推理,與電力需求場(chǎng)景實(shí)現(xiàn)更好的匹配。
算力作為大模型乃至人工智能發(fā)展的核心支撐力量,其重要性正隨著技術(shù)的演進(jìn)而越發(fā)凸顯。在大模型時(shí)代,模型的參數(shù)規(guī)模和復(fù)雜性呈指數(shù)級(jí)增長(zhǎng),對(duì)算力的需求也從單機(jī)計(jì)算邁向了分布式、集群化甚至跨地域、全球化的算力協(xié)同。同時(shí),算力的分布也從傳統(tǒng)的數(shù)據(jù)中心向邊緣計(jì)算和終端設(shè)備延伸,特別是為了滿(mǎn)足推理階段的實(shí)時(shí)性、低延遲等需求,算力需要下沉到邊緣設(shè)備以實(shí)現(xiàn)快速響應(yīng)和本地化處理。在這種情況下,將不同層級(jí)、不同位置的異構(gòu)算力聯(lián)系起來(lái)的算力網(wǎng)絡(luò)作為未來(lái)人工智能發(fā)展的重要基礎(chǔ)設(shè)施,打破了傳統(tǒng)單點(diǎn)算力的局限性,通過(guò)引入智能化的算力調(diào)度策略,能夠根據(jù)實(shí)時(shí)需求動(dòng)態(tài)分配資源,提高資源利用率并降低能耗,這不僅提升了系統(tǒng)的靈活性和響應(yīng)速度,還為人工智能的廣泛應(yīng)用提供了更廣闊的空間。
(作者系中國(guó)電信研究院大數(shù)據(jù)與人工智能研究所副所長(zhǎng)。編輯:張琴琴)