智源最新模型評測:百度文心大模型4.0登頂閉源榜
北京商報訊(記者 魏蔚)6月18日,北京商報記者獲悉,北京智源研究院打造的FlagEval天秤大模型評測平臺實現了全面升級,並公佈202406期FlagEval模型評測排行榜單。最新一期榜單顯示,百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一,
FlagEval天秤大模型評測平臺是智源研究院推出的科學、權威、公正、開放的大模型評測體系,自2023年發佈以來,已從主要面向語言模型擴展到視頻、語音、多模態模型,實現多領域全覆蓋,目前已評測國內外 300 餘個開源和商業閉源的語言及多模態大模型。資料顯示,FlagEval大語言模型評測體系當前包含6大評測任務,近30個評測數據集,超10萬道評測題目。
相關資訊
- ▣ 智源最新模型評測:百度文心大模型4.0登頂閉源榜 超GPT-4o等
- ▣ 百度 發表文心大模型4.0
- ▣ 百度李彥宏:開源模型是智商稅,閉源模型更強大、推理成本更低
- ▣ 百度宣佈文心智能體平臺免費開放文心大模型4.0
- ▣ 百度CEO李彥宏:大模型沒有應用,光有基礎模型,不管是開源還是閉源都一文不值
- 對標「GPT-4」 百度正式推出文心大模型4.0
- ▣ 大模型融合!最新「進化算法」全自動組合開源模型,刷榜多項基準測試
- ▣ 李彥宏重申文心大模型不開源:閉源模型能力會持續領先丨GAI進化論⑨
- ▣ 李彥宏:“百模大戰”是資源浪費,商業化的閉源模型纔是最能打的
- ▣ 百度副總裁:文心大模型4.0 Turbo面向企業開放,系列模型繼續降價
- ▣ 全球140+大模型全方位評測結果出爐,智源評測體系發佈
- ▣ AI早知道|智譜開源CogVLM2;百度文心大模型 ENIRE Speed、ENIRE Lite全面免費
- ▣ 傅盛:付費的閉源大模型纔是智商稅
- ▣ 騰訊再開源兩款最新大模型,開閉源之爭又起波瀾
- ▣ 快訊丨開源大模型社區HuggingFace公佈大模型排行榜
- ▣ 百川智能開源最新商用大模型!王小川:比LLaMA更香
- ▣ 智源發佈智源評測體系 國內外“百模”評估結果出爐
- ▣ 長江證券:開源模型性能追趕閉源大模型 OpenAI正式進軍AI搜索
- ▣ 百度李彥宏:文心大模型4.0在中文上已經超過了GPT-4
- ▣ 大模型權威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區別對待
- ▣ 百度宣佈文心大模型兩大主力模型全面免費
- ▣ AI早知道|智源發佈多模態模型Emu3;阿里巴巴達摩院開源文檔處理模型
- ▣ 李彥宏:大模型開源意義不大 閉源才能走通商業模式
- ▣ 百度發佈文心大模型4.0 Turbo,多端面向用戶正式開放
- ▣ 斯坦福大模型評測榜:Claude 3第一
- ▣ 智譜開源清影CogVideoX模型
- ▣ 對話智源林詠華:有些大模型的評測基準已經失去意義
- ▣ 文心大模型調用量翻10倍,百度領跑大模型落地戰
- ▣ 李彥宏最新內部講話:開源大模型不如閉源,後者會持續領先