2024,智譜如何更快?

“國產“GPT-4”真的來了。”

作者 | 張進

編輯 | 陳彩嫺

要問當前AI大型語言模型界萬衆期待的一件事,以及各通用大模型廠商都在暗自鉚足勁乾的一件事,一定是追趕GPT-4。

回顧過去的2023年,國內整個AI行業度過了繁忙而又充滿激情的一年。上半年經歷了融資大戰、搶人組團隊,下半年迎來大模型井噴式爆發,進入模型洶涌期和商業化落地探索初期。

據公開資料顯示,截至去年10月份國內已經發布了238個大模型,意味着中國過去每天都有一個新的大模型發佈,我們會發現大家在介紹自家大模型時,紛紛提到模型能力“接近GPT-4”,有膽大者甚至宣稱“趕超GPT-4”。

一時間,彷彿中國大模型已經領先國際先進水平,給不懂大模型技術、關注中國AI發展的投資者、用戶帶來許多不切實際的幻想與信心。

因爲事實情況遠非如此。去年11月時,元象XVERSE科技創始人、騰訊公司前副總裁姚星曾告訴雷峰網,大家都說接近GPT-4,顯然不符合實際情況,很多都是刷榜刷出來的,意義不大。

“刷榜是我們的一個陋習”,這導致的結果就是大家對中國大模型的能力沒有清晰的認知,實際上大家離GPT-4還差得遠。

雖然,隨着OpenAI大模型論文發佈、Meta開源強勢入局,大模型的神秘面紗被一一揭下,我們與國外大模型的差距在逐步縮短,但別人模型的天花板GPT-4,我們依然還遠未觸達。

這依然是一個有很高門檻的事情,訓練模型需要大量錢、需要寫過模型訓練代碼的人、需要堅定的技術路線和公司戰略層面堅持不懈的投入,不是誰喊上一嗓子,中國大模型就能跟GPT-4同臺競技。

所以,在刷榜成習的時代,我們應該把注意力、資源傾斜給那些真正爲中國大模型事業,不斷努力付出的團隊和人身上,而不需要魚目混珠之下的“盲目自吹自擂”。

追趕GPT-4已然是國產大模型當下最迫切的任務,而對於通用大模型廠商,誰能率先訓練出真正比肩GPT-4的大模型,誰就能“先入咸陽”,在商業化、生態上迎來進階。

對於誰能率先突破GPT-4門檻的猜測、討論和押注,在過去的一年中激烈地進行着,終於,直到今天智譜AI發佈了新一代基座大模型GLM-4,模型性能相比上一代全面提升60%,各項指標逼近GPT-4,讓我們看到“國產GPT-4”真的來了。

意料之中的結果,但沒想到他們速度如此快。

01

最強大模型GPT-4,一直無人趕超

2023年春節後,辭舊迎新,一波關注AI的投資人偶然間使用了ChatGPT(GPT-3.5),被震驚,一傳十、十傳百,在投資圈帶起了一波ChatGPT熱潮,隨着時間不斷髮酵,遂帶動了整個中文互聯網“膜拜”ChatGPT的熱潮。

當人們尚未從ChatGPT帶來的震驚中冷靜下來,一個月後,OpenAI又推出了新品GPT-4,一個更強大的大模型,再次點燃了人們對大模型的想象力。

它強大到什麼程度呢?一張網站的手繪草圖,GPT-4能直接生成最終設計的網頁代碼;GRE考試接近滿分;模擬律師考試中GPT-4擊敗了90%的人類,取得了前10%的好成績,相比之下GPT-3.5是倒數10%。

GPT-4在各種專業測試和學術基準上的表現與人類水平相當。其中,GPT-4最大的突破是能夠處理圖像,並能準確理解圖片的含義,給出解答。

種種驚人的表現導致GPT-4一問世,便成爲最強的大模型,成爲全球科技公司共同追逐的目標。

迴歸自身,在這波大模型競爭中,一致認爲中國的突破口和優勢在於我們應用場景豐富,擁有超大規模市場,是最能把大模型應用起來的。

那我們直接用開源大模型不就行了嗎,爲什麼一定要耗費巨大精力去追逐GPT-4呢?

首先,正如智譜CEO 張鵬所說,一個好用的基座大模型,歸根結底要看基座大模型的能力夠不夠用。當前國產大模型真要落地到實際場景中,要給企業帶來業務價值,模型的通用能力還需要很大提升。

而放眼當前最先進的模型GPT-4,它雖然不斷在進化出新的類人能力,但目前依然連最基本的“模型幻覺”問題都沒能徹底攻克,AGI短期內依然是一場人類自身的“顱內狂歡”。

“真正落實到B端,光靠chat類產品好像也不夠。”而張鵬認爲,目前大模式商業化落地上遇到的挑戰,本質上還是模型能力的突破。

既然優等生都還有上升空間,我們又有什麼資格不進步,何況國產大模型的模型能力尚且還不足以支撐諸多業務場景的商業化落地,所以目前GPT-4依然是值得奮力追逐的目標。

其次,站在國家層面,技術自主可控是大勢所趨,仰望最遠大的技術理想依然是我們必須要達到的彼岸。

“現在主要看誰能趕上或者超過GPT-4,很有可能大部分廠商都過不去。”某深入瞭解大模型生態的業內人士表示,他還特別指出,Meta的Llama2發佈後,模型能力一度接近GPT-3.5,但至今Meta一直沒有發佈新進展,以此看來大模型技術門檻依然很高,這將對國內很多團隊都是一個考驗。

而國內很多廠商都是基於Llama開源來訓練的模型。

02

GLM-4,性能直逼GPT-4

今天,1月16日,智譜AI(以下簡稱“智譜”)在北京舉辦了2024智譜AI技術開放日,發佈了新一代基座大模型GLM-4。

據智譜透露,GLM-4在基礎能力上實現大幅提升,性能相比上一代GLM-3全面提升60%,而根據智譜提供的測評數據顯示,GLM-4性能逼近GPT-4。

首先是基礎能力上,MMLU 81.5 達到GPT-4 94% 水平,GSM8K 87.6 達到GPT-4 95% 水平,MATH 47.9 達到GPT-4 91%水平,BBH 82.25 達到 GPT-4 99% 水平,HellaSwag 85.4 達到GPT-4 90%水平,HumanEval 72 達到 GPT-4 100%水平。

圖源智譜開放日

指令跟隨能力上,和 GPT-4 相比,IFEval在Prompt提示詞跟隨(中文)方面達到 88% 水平;在指令跟隨(中文)方面,達到 90% 水平。大大超過GPT-3.5。

對齊能力上,基於AlignBench數據集,GLM-4超過了GPT-4在6月13日發佈的版本,逼近GPT-4最新(11月6日版本)效果,在專業能力、中文理解、角色扮演方面超過GPT-4精度。在中文推理方面的能力還有待進一步提升。

令人訝異的是,智譜本次發佈,展示了GLM-4過去一年裡努力追趕GPT-4的成績,在多個模型測評中基礎能力都達到GPT-4的90%水平,取得的這個成績已然非常難得,但他們並沒有乾脆稱“趕超GPT-4”,而是秉持着實事求是的低調態度,展示了GLM-4性能只是“逼近”GPT-4,與GPT-4仍然有差距,甚至還特地指出了自己當前的不足之處,需要“更進一步提升”。

與當下浮誇風盛行不同,智譜給人的感覺一直是那個“低調的學霸”。

除了性能上的提升,GLM-4支持帶來 128K 上下文窗口長度,單次提示詞可處理文本達到 300 頁。在 needle test 大海撈針測試中,128K 文本長度內 GLM-4 模型均可做到幾乎百分之百精度召回。

基於GLM模型擁有的強大的Agent能力,智譜推出了GLM-4-All Tools,能根據用戶意圖,自動理解、規劃複雜指令,自由調用WebGLM搜索增強、Code Interpreter代碼解釋器和多模態生成能力以完成複雜任務。

多模態已經成爲AI發展的重要方向和路徑,可以看到頭部大模型廠商都在往多模態發展,例如Meta的SAM、OpenAI的GPT-4V到谷歌Gemini,再到今天的CogView3,智譜一直在“對齊”世界先進水平。

模態指表達或感知事物的方式,每一種信息的來源或形式都可以稱爲一種模態。視覺模態是直接從現實世界獲取的初級模態,數據源豐富且成本低廉,相比語言模態更直觀更易於理解。

現實應用中,文本、圖像、聲音是經常穿插在一起交互的,並不都是純文本。在一些複雜的應用場景中,純文本的交互方式會受到文本表達能力的限制,使得複雜的概念或需求難以傳達,相比之下,多模態模型中的圖像交互方式門檻就更低,更爲直觀。

一位證券分析師認爲,多模態技術的一小步將帶來產業應用落地的一大步。多模態是大語言模型走向千行百業乃至通用人工智能重要的里程碑。

所以,AI要滲透到各行各業,大模型向多模態發展是必然趨勢。

而此時,智譜在大模型產業落地上,已經奔跑了十個多月。本次,GLM-4的多模態能力也實現了明顯提升,文生圖和多模態理解都得到增強,CogView3效果明顯超過開源最佳的Stable Diffusion XL,逼近最新OpenAI發佈的DALLE3。在對齊、保真、安全、組合佈局等各個評測維度上,CogView3的效果都達到 DALLE3 90%以上水平。

智譜AI CEO張鵬在技術開放日上表示:GLM-4的推出標誌着國產大模型水平看齊世界先進水平,爲我們全面開闢國產大模型產業新局面奠定了根本性基礎。

GLM-4的發佈,將會成爲國產大模型發展的一個分水嶺,給大模型商業化、產業落地帶來更多想象空間。

03

GLM-4讓大模型進入商業化加速時代

在去年ChatGPT剛剛點燃中文互聯網時,智譜就決定開始做商業化。據智譜透露,從今年3⽉以來,見過的客⼾超過2000家,與其中1000多家形成合作,與超過200家進行了深度共創。

站在整個大模型前進的歷程中,我們可以看到,智譜過去一年始終圍繞着商業化緊鑼密鼓地展開,相比較於其他頭部大模型創業公司10月以後纔開始喊商業化,智譜的商業化差不多領先行業半年。

而商業化也一度面臨着挑戰。

CEO張鵬在去年10月底時曾坦誠地告訴雷峰網,智譜的大模型面臨“叫好不叫座”的挑戰,即很多人認可,但提到付費購買,就會打退堂鼓。

一方面是大家對大模型的認知不夠,另一方面的原因很現實,有GPT-4在前面擺着,用戶對大模型即便不甚瞭解,但都知道GPT-4,就會問智譜的模型離GPT-4還有多遠。

對於商業化,當時張鵬認爲,如果某一天做到GPT-4的水平,當前面臨的很多問題都會迎刃而解,甚至連商業模式都不用考慮,只提供API就行。

沒想到僅僅只過去了兩個多月,GLM-4便能比肩GPT-4,這對智譜整體發展和商業化都將是重大利好。

而這次技術開放日上,智譜還推出了一系列推動GLM模型生態加速構建的重要措施。其中最重要的就是GLMs個性化智能體。

基於GLM-4 模型強大能力,任何用戶用簡單的提示詞指令就能創建屬於自己的 GLM 個性化智能體。GLM模型智能體和智能體中心已經於技術開放日當天上線。

除此,智譜AI還針對商業客戶、開源社區和大模型小微企業等合作伙伴推出多項針對性措施。

比如價格,GLM-4升級後,API調用價格維持0.1元/千tokens不變,這已經是行業內較低水平。另外,智譜AI還將成立總額1000萬元人民幣的大模型開源基金,以及對面向全球大模型創業者的智譜AI“Z計劃”進行升級,聯合生態夥伴發起總額10億人民幣的大模型創業基金用於支持大模型原始創新。

以上推動GLM模型生態的多種措施,爲構建智譜的生態圈,其本質也是爲智譜的商業化落地添磚加瓦。

根據智譜AI 首席運營官張帆所說,在過去的9個月裡,他帶領着智譜走過了從最初“賣模型”到一整套商業化體系的搭建。

智譜的商業化體系呈一個金字塔,最基層是開源層,開源擁有千萬下載,非常大的羣體,張帆在跟客戶聊的時候發現,很多技術人員入門都是用ChatGLM;上一層是API層,核心的日常調用API的客戶;再往上一層是雲端私有化,面向中型企業,中型企業不但有使用模型的需求,它也希望能夠把業務中的數據資產轉化爲自己的競爭壁壘;最高層就是本地私有化,很多企業對安全性要求極高,或者很多企業希望把模型能力轉化爲自己的,希望自己能夠駕馭模型,這一類量會更少一些。

對於智譜來說,每一層都有自己的生態位,商業化目標是希望下層用戶不斷往上層移動,逐步豐盈智譜的商業化。

這非常符合智譜的發展策略:始終堅持技術與商業化兩條腿走路。

GLM-4的發佈,將會給整個大模型行業帶來震動,促使大模型轉身進入商業化加速時代。

04

後記

2023年3月14日,GPT-4發佈的同一天,智譜AI跟着便發佈了基於千億基座模型的對話模型ChatGLM,並開源了中英雙語對話模型ChatGLM-6B,可支持在單張消費級顯卡上進行推理使用。

智譜AI對標OpenAI的野心就此凸顯。而今天GLM-4的成功發佈,是智譜過去一年裡踐行向世界最先進水平看齊的謙遜,也是智譜的決心與信心的實現。

智譜對標OpenAI的目標正在一步步實現。

而今天的GLM-4性能直逼GPT-4,給國產大模型追趕甚至超越GPT-5、GPT-6……在實現AGI這條道路上賦予了信心與堅持。

就像Sam Altman說的,“永遠要更快”,大模型時代把一切都加速了。在2024年的第一個月智譜AI率先出擊,可謂給2024年的激烈競爭定下了基調,不禁讓人更加期待未來人工智能行業還會帶給我們怎樣的驚喜。

小冰無雙

誰偷走了安防人的夢想

PICO 向左向右的400天