中國儲能網(wǎng)訊:隨著DeepSeek R1系列模型的發(fā)布,國內(nèi)掀起新一輪人工智能的熱潮,通信、互聯(lián)網(wǎng)、汽車、能源、金融、醫(yī)療、科技等龍頭企業(yè)紛紛宣布接入DeepSeek,人工智能大模型加速向各行各業(yè)滲透。人工智能大模型的發(fā)展需要“數(shù)據(jù)糧食”,特別是高質(zhì)量數(shù)據(jù)集。高質(zhì)量數(shù)據(jù)集是人工智能大模型訓(xùn)練、推理和驗證的關(guān)鍵基礎(chǔ),是按照特定標(biāo)準(zhǔn),經(jīng)過采集、清洗、歸類和標(biāo)注等智能化處理,具有相應(yīng)更新和維護機制的數(shù)據(jù)集合。
1 建設(shè)人工智能高質(zhì)量數(shù)據(jù)集的重大意義
高質(zhì)量數(shù)據(jù)集建設(shè)有利于推進“人工智能+”行動落地見效,對數(shù)字經(jīng)濟乃至整個經(jīng)濟社會高質(zhì)量發(fā)展具有重大意義。
一是高質(zhì)量數(shù)據(jù)集建設(shè)是人工智能發(fā)展的客觀需要。人工智能大模型對數(shù)據(jù)集提出了新要求,數(shù)據(jù)集的質(zhì)量影響人工智能的智商。高質(zhì)量數(shù)據(jù)集是人工智能真正的“護城河”,人工智能大模型的訓(xùn)練和推理高度依賴高質(zhì)量數(shù)據(jù)集的供給。谷歌研究發(fā)現(xiàn),對于圖像生成模型,當(dāng)計算資源受限時,數(shù)據(jù)集大小比模型大小更加重要。紐約大學(xué)的一項研究表明,大型語言模型在使用醫(yī)學(xué)數(shù)據(jù)訓(xùn)練過程中,即使含有0.001%的錯誤信息,也可能導(dǎo)致模型輸出不準(zhǔn)確的醫(yī)學(xué)答案。
二是高質(zhì)量數(shù)據(jù)集建設(shè)是促進我國行業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵舉措。通過開放公共數(shù)據(jù)和促進企業(yè)數(shù)據(jù)流通,可以提升垂直領(lǐng)域人工智能大模型的能力,促進傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型升級。例如,“蘇州絲綢紋樣數(shù)據(jù)集”匯聚了222件等級文物和7012片近現(xiàn)代絲綢樣本的高清數(shù)據(jù),形成了3個具有較高水平的高清采集紋樣數(shù)據(jù)子集,并依托市場化機制,在絲綢紡織、網(wǎng)絡(luò)游戲、汽車、美妝、銀行、貴金屬等領(lǐng)域累計授權(quán)使用31批次,賦能蘇州絲綢文化傳承、文旅消費和數(shù)字創(chuàng)新。
三是高質(zhì)量數(shù)據(jù)集建設(shè)是促進各地數(shù)字經(jīng)濟發(fā)展的重要抓手。近兩年,為促進數(shù)字經(jīng)濟發(fā)展,國內(nèi)不同地區(qū)陸續(xù)推出各類“大模型+數(shù)據(jù)集+算力”一體化創(chuàng)新基地。例如,上海徐匯區(qū)的“模速空間”、北京石景山區(qū)的大模型“超級工廠”、濟南市的“大模型創(chuàng)新工廠”、呼和浩特市的大模型訓(xùn)練基地等,為大模型訓(xùn)練推理提供了重要支撐,助力地方招商引資發(fā)展數(shù)字經(jīng)濟。
2 建設(shè)人工智能高質(zhì)量數(shù)據(jù)集的目標(biāo)和策略
人工智能正從以模型為中心,逐步轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。高質(zhì)量數(shù)據(jù)集的重要性正成為社會各界的共識,大模型發(fā)展進入多模態(tài)融合階段,應(yīng)全面打造大規(guī)模、多模態(tài)、多領(lǐng)域的高質(zhì)量數(shù)據(jù)集,建立人工智能發(fā)展新范式。建設(shè)人工智能高質(zhì)量數(shù)據(jù)集應(yīng)采用如下策略:
首先,堅持場景化推動高質(zhì)量數(shù)據(jù)集建設(shè)。當(dāng)前,人工智能應(yīng)用持續(xù)走深向?qū)?,在醫(yī)療、教育、零售、金融、制造、能源等領(lǐng)域?qū)崿F(xiàn)了初步應(yīng)用。建設(shè)高質(zhì)量數(shù)據(jù)集不能盲目跟風(fēng)、重復(fù)建設(shè),不能僅限于將公共數(shù)據(jù)簡單開放,應(yīng)以終為始,從醫(yī)療、教育等重點行業(yè)入手,優(yōu)先突破人工智能應(yīng)用最迫切、最容易產(chǎn)生效果、最影響行業(yè)高質(zhì)量發(fā)展的數(shù)據(jù)集建設(shè)。
其次,堅持體系化牽引高質(zhì)量數(shù)據(jù)集建設(shè)。高質(zhì)量數(shù)據(jù)分布在各行各業(yè),離散性強,需要更好發(fā)揮政府作用,把行業(yè)企業(yè)、模型企業(yè)、數(shù)據(jù)企業(yè)、數(shù)字化解決方案提供商、數(shù)據(jù)交易機構(gòu)等多方主體組織起來,打造數(shù)據(jù)、模型、算力等協(xié)調(diào)聯(lián)動生態(tài)體系,探索新模式。
再次,堅持多元化促進大中小企業(yè)融通創(chuàng)新。在建設(shè)高質(zhì)量數(shù)據(jù)集過程中,需要加強引導(dǎo)技術(shù)能力強、行業(yè)影響力高、產(chǎn)業(yè)鏈資源整合能力強的企業(yè),依托行業(yè)領(lǐng)域應(yīng)用,多渠道吸納、聚合相關(guān)數(shù)據(jù)。強化中小企業(yè)產(chǎn)業(yè)鏈和生態(tài)系統(tǒng)意識,主動融入大企業(yè)、大項目,發(fā)揮出“船小好調(diào)頭”、創(chuàng)新干勁足的優(yōu)勢,不斷對數(shù)據(jù)進行深加工,形成本行業(yè)、本領(lǐng)域的高質(zhì)量數(shù)據(jù)集。
最后,堅持安全合規(guī)為高質(zhì)量數(shù)據(jù)集建設(shè)保駕護航。高質(zhì)量數(shù)據(jù)集建設(shè)工程涵蓋數(shù)據(jù)采集、預(yù)處理、標(biāo)注、合成、質(zhì)量評估、開放共享等全生命周期,不僅需要保證數(shù)據(jù)的數(shù)量、質(zhì)量和多樣性,更要確保數(shù)據(jù)來源的合法性、合規(guī)性和產(chǎn)權(quán)保護等,降低數(shù)據(jù)使用中的風(fēng)險。
3 從六個方面推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè)
高質(zhì)量數(shù)據(jù)集是決定人工智能大模型性能優(yōu)劣的關(guān)鍵所在。為全力打造人工智能高質(zhì)量數(shù)據(jù)集,推動大模型應(yīng)用邁向新高度,建議從高質(zhì)量數(shù)據(jù)集圖譜構(gòu)建、政策法規(guī)保障、建設(shè)指引制定、評測體系建設(shè)、跨域合作拓展、標(biāo)桿牽引示范等方面著手,推動高質(zhì)量數(shù)據(jù)集建設(shè)邁上新臺階。
一是以服務(wù)大模型應(yīng)用為核心,繪制高質(zhì)量數(shù)據(jù)集建設(shè)圖譜,明確“建什么”。圍繞應(yīng)用需求牽引、典型場景切入、行業(yè)領(lǐng)域賦能、安全風(fēng)險可控等維度,調(diào)動政、產(chǎn)、學(xué)、研、用各方力量,梳理高質(zhì)量數(shù)據(jù)集典型場景和應(yīng)用需求等,繪制高質(zhì)量數(shù)據(jù)集建設(shè)圖譜,實現(xiàn)可查詢、可下載、可應(yīng)用,全面助力大規(guī)模、多模態(tài)的高質(zhì)量數(shù)據(jù)集建設(shè)。
二是以保障數(shù)據(jù)集建設(shè)為目標(biāo),協(xié)同推進政策法規(guī)的制定與完善,確定“依據(jù)在哪”。在政策層面,推動各部門出臺針對性政策,強化高質(zhì)量數(shù)據(jù)集供給。鼓勵企業(yè)積極參與高質(zhì)量數(shù)據(jù)集建設(shè),對在數(shù)據(jù)采集、清洗、標(biāo)注等環(huán)節(jié)投入較大的企業(yè)給予政策支持,降低企業(yè)建設(shè)數(shù)據(jù)集的成本。在法規(guī)層面,需加快明確數(shù)據(jù)權(quán)屬問題,界定數(shù)據(jù)生產(chǎn)者、持有者、使用者和經(jīng)營者的權(quán)利與義務(wù),保障數(shù)據(jù)在合法合規(guī)的框架內(nèi)流通與使用,為高質(zhì)量數(shù)據(jù)集建設(shè)營造良好的政策法規(guī)環(huán)境,促進整個行業(yè)的健康可持續(xù)發(fā)展。
三是以解決現(xiàn)實問題為導(dǎo)向,制定高質(zhì)量數(shù)據(jù)集建設(shè)指引,指明“怎么建”。組織跨行業(yè)交流,分享高質(zhì)量數(shù)據(jù)集建設(shè)經(jīng)驗及面臨的問題,總結(jié)建設(shè)方法論和問題庫。針對問題庫,以“揭榜掛帥”方式征集解決方案。在廣泛調(diào)研和總結(jié)基礎(chǔ)上,制定發(fā)布高質(zhì)量數(shù)據(jù)集建設(shè)指引,不斷優(yōu)化建設(shè)方案和路徑。發(fā)揮人工智能技術(shù)優(yōu)勢,對大量文本、圖像、音頻等數(shù)據(jù)進行自動標(biāo)注和分類,批量構(gòu)建高質(zhì)量數(shù)據(jù)集。
四是以推動標(biāo)準(zhǔn)建設(shè)為牽引,打造高質(zhì)量數(shù)據(jù)集評測體系,指導(dǎo)“怎么評”。一方面,通過對高質(zhì)量數(shù)據(jù)集的格式規(guī)范、類型、質(zhì)量要求等方面的研究,開展系列標(biāo)準(zhǔn)的研制及細(xì)化,為各行業(yè)領(lǐng)域在數(shù)據(jù)采集、標(biāo)注、加工治理、應(yīng)用推廣等提供標(biāo)準(zhǔn)化規(guī)范指引。另一方面,構(gòu)建涵蓋細(xì)分行業(yè)的高質(zhì)量數(shù)據(jù)集質(zhì)量評測方法、評測工具集。通過規(guī)范化的高質(zhì)量數(shù)據(jù)集評測工具,客觀地評判數(shù)據(jù)集的質(zhì)量等級和價值曲線,結(jié)合應(yīng)用需求不斷進行迭代升級。
五是以探索跨域合作為重點,建立高質(zhì)量數(shù)據(jù)集流通利用新機制,闡明“怎么流通”。依托可信數(shù)據(jù)空間、數(shù)場、數(shù)聯(lián)網(wǎng)、數(shù)據(jù)元件等實踐方案,推動醫(yī)療、交通、氣象、社保等多領(lǐng)域高質(zhì)量數(shù)據(jù)集在安全合規(guī)框架內(nèi)有序流動,注重建設(shè)跨部門、跨行業(yè)、跨地區(qū)高質(zhì)量數(shù)據(jù)集。運用區(qū)塊鏈、隱私保護計算等技術(shù)實現(xiàn)數(shù)據(jù)集的可溯源與安全保護,促進跨域數(shù)據(jù)集交易流通,形成典型案例,催生新應(yīng)用、新模式,釋放數(shù)據(jù)要素乘數(shù)效應(yīng)。
六是以行業(yè)標(biāo)桿示范為牽引,發(fā)揮資金“風(fēng)向標(biāo)”作用,解決“用什么引導(dǎo)”。組織開展行業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集征集工作,鼓勵各行業(yè)、各地區(qū)的企業(yè)積極參與,形成各類高質(zhì)量數(shù)據(jù)集庫,提高整體供給水平、供給規(guī)模。鼓勵各類資金支持高質(zhì)量數(shù)據(jù)集建設(shè),持續(xù)完善建設(shè)機制,積極推廣典型案例,全面助力人工智能賦能行業(yè)高質(zhì)量發(fā)展。