構建業界領先AI大模型語料共享新模式 高性能“基座”開建

中國日報8月19日電(記者 趙磊)支撐人工智能大模型高質量成長的語料數據將告別無序流通,轉入規範運行的“高速公路”,在區塊鏈、隱私計算等前沿信息技術的護航下,隱私安全保護、流通增值激勵同步加持,構建起業界領先的人工智能大模型語料數據共享新模式。基於該模式,高價值語料可信流通基礎設施今天正式啓動建設。

據悉,高價值語料可信流通基礎設施由國家區塊鏈技術創新中心、北京能源集團牽頭,聯合新華社國家重點實驗室、中國通用技術集團等10餘家我國語料數據重點單位共同打造。這對於加快形成人工智能大模型訓練高地,推動我國人工智能彎道超車、跨越式發展,具有里程碑意義。

以區塊鏈、隱私計算爲代表的新一代信息技術,憑藉着可信存證、不可篡改、易確權、充分保護數據隱私安全等優異性能,可以保障語料數據可信安全地流通、使用和管理,有效破解上述難題,徹底擺脫人工智能領域語料流通越來越慢、語料質量越來越低的“泥潭”。

今年以來,我國一批語料數據重點單位已經開始行動。不久前,新華社國家重點實驗室、人民網、高等教育出版社、中國通用技術集團等10餘家單位聯合國家區塊鏈技術創新中心,共同成立了高價值語料可信安全流通生態體系。

作爲北京市骨幹能源企業,北京能源集團近年深度支撐北京市人工智能等領域的數字新基建,由該集團承建和運營的北京人工智能公共算力平臺已正式上線,可有效滿足北京市高校、科研院所、中小微人工智能企業的需求。

在8月19日舉行的2024北京人工智能生態大會上,國家區塊鏈技術創新中心介紹,高價值語料可信流通基礎設施將運用我國自主可控、性能領先的區塊鏈軟硬件技術,搭建起覆蓋全國的分佈式語料數據互聯互通橋樑,鏈接語料供給方、加工方、需求方,實現全國分佈式語料數據可信接入,跨地域可發現、可訪問,形成高質量語料數據集;同時,運用創新隱私計算技術,通過“數據不出域、可用不可見”的方式,保障大模型高價值語料數據在處理加工和模型訓練過程中無法二次非授權傳播;此外,該基礎設施還將通過智能合約開展鏈上激勵,爲語料資源供給與流轉提供持續性的內生動力。

在高價值語料可信流通基礎設施的支撐下,國家語料數據的重點單位還將開展基於區塊鏈與隱私計算的語料數據可信安全流通規範制定,形成高價值語料數據流通與增值的可持續生態,推動我國人工智能領域通用大模型與行業大模型的高質量發展。

來源:中國日報