☰

智源發佈智源評測體系國內外“百模”評估結果出爐

5月17日消息，智源研究院舉辦大模型評測發佈會，推出科學、權威、公正、開放的智源評測體系，發佈並解讀國內外140餘個開源和商業閉源的語言及多模態大模型全方位能力評測結果。

本次智源評測，分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力；針對多模態模型則主要評估了多模態理解和生成能力。

在中文語境下，國內頭部語言模型的綜合表現已接近國際一流水平，但存在能力發展不均衡的情況。在多模態理解圖文問答任務上，開閉源模型平分秋色，國產模型表現突出。國產多模態模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態模型的文生視頻能力上，對比各家公佈的演示視頻長度和質量，Sora有明顯優勢，其他開放評測的文生視頻模型中，國產模型PixVerse表現優異。

由於安全與價值觀對齊是模型產業落地的關鍵，但海外模型與國內模型在該維度存在差異，因此語言模型主客觀評測的總體排名不計入該單項分數。語言模型主觀評測結果顯示，在中文語境下，字節跳動豆包Skylark2、OpenAI GPT-4位居第一、第二，國產大模型更懂中國用戶。在語言模型客觀評測中，OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

多模態理解模型客觀評測結果顯示，圖文問答方面，阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先後領先於OpenAI GPT-4，LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其後。

多模態生成模型文生圖評測結果顯示，OpenAI DALL-E3位列第一，智譜華章CogView3、Meta-Imagine分居第二、第三，百度文心一格、字節跳動doubao-Image次之。多模態生成模型文生視頻評測結果顯示，OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

文生圖模型的客觀評測指標與主觀感受差異巨大，有失效的跡象，因此排名以主觀評測爲準；Mdjourney基本無法理解中文提示詞，因此排名靠後；僅使用其官方公佈的prompts和視頻片段與其他模型生成的視頻進行對比評測，評測結果存在一定的偏差。

與此同時，在大模型K12學科測試方面，在海淀區教委支持下，智源研究院聯合與海淀區教師進修學校對齊學生測驗方式，考察大模型與人類學生的學科水平差異，其中，答案不唯一的主觀題，由海淀教師親自評卷。

智源評測發現，模型在綜合學科能力上與海淀學生平均水平仍有差距，普遍存在文強理弱的情況，並且對圖表的理解能力不足，大模型未來有很大的提升空間。

北京市海淀區教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出，在語文、歷史等人文學科的考試中，模型欠缺對文字背後的文化內涵以及家國情懷的理解。面對歷史地理綜合題時，模型並不能像人類考生一樣有效識別學科屬性。相較於簡單的英語題，模型反而更擅長複雜的英語題。解理科題目時，模型會出現以超出年級知識範圍外的方法解題的情況。當出現無法理解的考題時，模型依然存在明顯的“幻覺”。

在系統化構建文生視頻模型主觀評價體系方面，中國傳媒大學智能媒體計算實驗室負責人史萍教授表示，相較文本，視頻的主觀評價複雜度極高。自動化指標無法完全捕捉模型生成的質量，更無法對生成視頻的真實性、圖文語義一致性等進行量化。因此，需要系統化構建針對文生視頻模型的主觀評價體系。

該評價體系，由智源研究院與中國傳媒大學基於雙方在大模型評測領域和視頻質量評價領域的豐富科研成果與實踐經驗共同建立，在圖文一致性、真實性、視頻質量、美學質量四大方面給出多維度評分，爲AIGC視頻生成技術的應用及發展提供參考。

據悉，本次智源評測使用20餘個數據集、超8萬道考題，包括與合作單位共建和智源自建的多個評測數據集，如中文多模態多題型理解及推理評測數據集CMMU、中文語義評測數據集C-SEM、中文語言及認知主觀評測集CLCC、面向複雜算法代碼生成任務的評測集TACO、文生圖主觀評測集Image-gen、多語言文生圖質量評測數據集MG18、文生視頻模型主觀評測集 CUC T2V prompts。其中，主觀題4000餘道，均來源於自建原創未公開並保持高頻迭代的主觀評測集，嚴格校準打分標準，採取多人獨立匿名評分、嚴格質檢與抽檢相結合的管理機制，降低主觀偏差的影響。此外，爲了更準確地評測語言模型的各項能力，智源專門對所有客觀數據集的子數據集進行了能力標籤映射。

智源研究院院長王仲遠表示，未來，智源將攜手生態合作伙伴繼續共建完善評測體系，促進模型性能的優化以及在多元複雜場景下的產業落地，推動大模型技術應用的有序發展。（定西）

本文系本站科技報道，更多新聞資訊和深度解析，關注我們。

智源發佈智源評測體系 國內外“百模”評估結果出爐

相關資訊

智源發佈智源評測體系國內外“百模”評估結果出爐