日均調用30億次 MiniMax閆俊傑眼中的天花板與護城河

【億邦原創】閆俊傑走路微縮着肩,語氣非常溫和,面對太多人時忍不住緊張。有員工覺得,外界之所以認爲他們公司低調神秘,主要因爲老闆是i人,“光是在今天的活動上做個演講,就緊張好久。”

有人形容閆俊傑是“掃地僧”,不顯山不露水,但手上都是真功夫。他語速略快,氣息輕而軟,不會正襟危坐下判斷,也沒有鏗鏘有力的精英範兒,但行業裡沒人忽視閆俊傑的看法。

這得益於他先於行業作出MOE架構的判斷。去年年中,行業共識還是Dense(稠密)模型時,閆俊傑已經判斷出Dense瓶頸,拿出全公司80%的可用資源,耗時6個月,經歷兩次失敗,研發MOE架構,並在今年1月推出國內第一個MOE(混合專家系統)架構大模型的abab6.5。

效果立竿見影,“我們用的MOE模型,取得了比Dense模型快3~5倍的速度,這也是爲什麼我們的模型每天能處理幾十億次交互,正是因爲它足夠快,響應時間足夠低,才能得到廣泛部署。”

產品調用量也一馬當先。當下,MiniMax產品每天與全球用戶發生30億次交互,生成超過3萬億的文本Token、2000萬張圖、7萬小時語音。

MiniMax身處一個巨頭林立、全球競速、前路未知的行業,既有激動人心的願景指引,也有盲人摸象的無處着力,但閆俊傑的決策思路看起來簡單清晰。他認爲現階段的主要任務還是模型層能力的提升。“過去兩年發生了很多次,當模型能力有較大提升時,用戶的使用場景和使用深度隨之顯著提升。反之當模型遭遇一些事故,當天用戶對話量下降了40%。”

他也關注AI滲透率和使用時長的提升,他總結方法有三:持續降低模型的錯誤率;提供無限長的輸入與輸出;多模態。三種方法背後的核心還是技術進步,產品效果是技術進步的體現。

MiniMax做了好幾次重大的底層技術變革,他只透露了Linear Attention(線性注意力)這個方向。MOE(混合專家系統)+Linear Attention(線性注意力)讓MiniMax大模型的訓練與反饋變得更快,在與GPT-4o同一代模型能力對比上,新一代模型處理10萬token時,效率可提升2-3倍,長度越長,提升越明顯。

對於大模型迭代放緩及外界唱衰的現狀,他認爲大模型發展的下一個轉折點,不是發佈了哪些新模型,而是哪一個模型可以把錯誤率降低到個位數。“如果Scaling law是對的,這個模型一定會出現,標誌就是錯誤率降爲個位數。好幾家公司都具備這些能力,沒道理訓不出一個更好的模型。只是不知道什麼原因,還沒有人把它真正發佈出來。”

從事技術研發是一件很奢侈的事,閆俊傑每次看賬單都會很心疼。但從讀書到工作、到創業的十幾年間,他對技術的理解慢慢變得非常簡單。他認爲技術,特別是研發投入很大的技術,追求的不應該是10%的提升,而是數倍變化的提升。“如果一個技術只有10%的提升,那這個技術可能是衆多工作中的一個,你不做也會有人開源出來。只有帶來幾倍變化,對滿足用戶需求很重要,外面又沒有,這才值得我們投入,這樣的東西才比較核心。”

會後,MiniMax創始人閆俊傑(花名IO)、MiniMax國際業務總經理盛靜遠、MiniMax技術總監韓景濤和包括億邦動力在內的媒體交流對話,在對話中,他回答了對Character.AI被收購看法,展望了陪伴類AI的發展前景,給出了對行業趨勢、路徑及轉折點的判斷。對話內容經億邦動力編輯整理:

1、“如果Scaling law是對的,沒道理訓不出一個更好的模型。”

提問:如何看待今年AI產品的大力投流?

閆俊傑:核心要看企業要什麼——如果企業認爲Query重要,就應該無限投流;如果認爲Query量跟模型效果之間是對數關係,不是線性關係,價值就沒那麼大;如果認爲商業化重要,只要產品能轉正就應該無限投流;如果認爲商業化,就應該考慮ROI。

這裡面的核心不是投流本身,而是一家公司要的那個東西到底是什麼。這個東西我覺得不同的公司有不同的判斷。

提問:如何看待Character.AI被收購,以及陪伴類AI的發展前景?

閆俊傑:解釋一件事,星野的底層設計其實不是陪伴用戶聊天,而是一個內容社區。這裡面有用戶創建的角色,也有用戶創建的故事、創建的世界觀。另一些用戶可以根據創造的世界觀進行互動,很像小說這樣的交互體驗。所以我們的核心是內容社區,而不是陪人聊天,這是非常fundamental的不一樣。

對用戶來說,星野希望做到個性化,並且你在這個產品中得到的體驗不完全來自模型,也來自另外一些用戶的創作。

我們認爲對內容社區的產品來說,用戶得到的輸出來自模型+數據,而這些數據主要是另外一些用戶的創作,這是一個比較核心的區別。中國公司還是比較容易做好產品,並且在技術上的提升速度也更快。

關於Character.AI被收購,我認爲這是一個比較好的結局,似乎每個人在裡面都得到了好處。

提問:今年很多模型和AI產品都變成了期貨,技術迭代速度放緩,什麼時候什麼條件下,大模型會度過瓶頸期,開始一下輪上升?

閆俊傑:我們對技術發展方向還是很堅定的。比如我們今天更新了視頻模型,實際上兩個月前我就知道今天可以發這個視頻模型,雖然那時候還沒有做出來,但根據那時的實驗結果已經能夠預測。語言模型也是一樣的。

下一輪模型上升的一個核心標誌,可能不是GPT4、GPT-4o這些產品,也不是Claude3、Claude3.5 sonnet,也不是MOE。真正重要的是,什麼時間點有一個模型可以把錯誤率降低到個位數。現在所有模型的錯誤率都是兩位數,錯誤率降低到個位數,這是一個本質變化。

爲什麼?這意味着首先模型有了一個數量級的提升,其次這讓很多複雜任務從不可做變成可做。

複雜任務需要多步驟,多步驟之間是乘的關係。這就是爲什麼現在沒有Agent可以應用,因爲越乘正確率越低,沒法支持非常靈活的Agent。

這不是因爲Agent框架寫得不夠好,而是因爲模型本身不夠好,這是根本原因。

什麼時間點會出來一個錯誤率能夠降低10倍的模型?

首先現在顯然起來沒有的,至少沒有公開的。但是我們可以看到,現在每家公司有了更多算力,Open AI和谷歌的算力比他們剛做出GPT4時多了不止4倍。算法也在進步,Open AI在同樣水平的情況下,2023年只能做出GPT4,現在能做GPT-4o,性能差不多,速度快了可能10倍,這意味着算法進步了。

計算量多了10倍,算法也快了10倍,好幾家公司都具備這些能力,沒道理訓不出來一個更好的模型。

我的判斷是,如果Scaling law是對的話,這個模型一定會出現,標誌就是錯誤率是個位數,只是不知道什麼原因,還沒有人把它真正發佈出來。

美國公司怎麼做的,我不完全知道,我能看到的事情是,基於兩個假設:首先,大部分中國公司還是比美國公司落後。其次,我們能看到自己的進展。假定按照我們現在的技術進展,再加上國外的技術資源,肯定能做出更好的模型,這個我是可以來判斷的。

2、“爲了更高的用戶覆蓋度和使用深度,唯一的辦法是多模態。”

提問:今年視頻生成賽道非常激烈,MiniMax爲什麼要做視頻生成,對你們整個佈局來說有什麼必要性?

閆俊傑:我們一直以來的目標就是要做動態輸出,這也是爲什麼我們的聲音模型做得很好,音樂模型也非常好。今天我們把視頻模型也做得非常好。

爲什麼幹這麼一件事?因爲我們有一個基本認知,這人類社會中,大模型的核心價值是做更好的信息處理,而大部分的信息體現在多模態的內容裡,而不是文字上,文字知識裡面最精華的那麼一小部分。

爲了能夠有非常高的用戶覆蓋度和使用深度,唯一的辦法是多模態,輸出動態內容而不是隻輸出文字內容,這是一個非常核心的判斷。

所以我們先做文字,又做聲音,還做了圖片,現在把視頻也做出來。這個路線是一以貫之的,一定要能夠做多模態。

提問:挑戰和難點在哪兒?

閆俊傑:首先這件事本身挺難的,因爲視頻的複雜度比文本更高,context天然很長。比如一個視頻是千萬的輸入和輸出,天然就很難處理。

其次,視頻和文本需要的基礎設施不同。比如一個5秒的視頻有幾兆,但5秒看到的文字可能不到1K,這是幾千倍的存儲差距。這裡面的挑戰在於,之前基於文本建的這套底層基礎設施,清洗數據、標註數據、處理數據的方法,對視頻上都不太適用。這意味着基礎設施也需要升級。

還有一個是耐心,做文字有很多開源的東西,做視頻沒有太多開源的東西,很多東西越來越需要重新來做,需要付出的耐心也更大。

提問:MiniMax怎麼去解決技術迭代過程中遇到的數據問題。

閆俊傑:數據方面,中國還是有比較好的措施,上海這邊就有一個千分之料的公司,他們有很多非常高質量的數據,可以開放給技術的公司使用,這些數據完全沒有版權問題,對創業公司幫助非常大。

我們自己也會採購第三方數據。還有一點不知道該怎麼判斷,海外很多人質疑Open AI是不是使用了其他數據,這似乎是一個沒有明確定義的模糊地帶。對我們來說,我們會盡可能地用這種比較符合版權的數據。

3、“技術研發是很奢侈的一件事,每次看賬單都會很心疼。”

提問:您演講時說自己花了兩年時間才意識到技術是最核心的要素,這中間經歷了怎樣的注意力漂移?

閆俊傑:我們一直都覺得技術重要,但覺得它重要,跟覺得它100%重要,中間其實需要一個過程。

做技術是一件非常奢侈的事,因爲技術具有不可預測性,而且研發投入很大,看一眼我們每個月的賬單,我還是會非常心疼。

當一個東西很奢侈的時候,很多時候你會想要不要走點捷徑?比如說不做技術了,先把產品提升好怎麼樣。再比如一個東西要實驗三次才能成功,第三次實驗成功的時候,你又在想前面兩次是不是可以不用做。

但我們的實踐經驗證明,走捷徑就會被打臉。這個事也發生好多次了,至少在我這兒類似的錯誤都超過十次了。本來我們一開始一致認爲技術重要度是70%,打臉一次,升到75%,再打臉一次,升到80%,就這麼一個提升過程,直到現在。

當然這都是一些負反饋,也有正反饋的時候,當你真的把一些關鍵技術突破之後,非常顯著地感受到用戶和客戶對你的認可。

不管正反饋還是負反饋來看,最終發現都是技術,我還是比較慶幸自己一直是一個做技術的人。

提問:您此前介紹將80%的算力和資源放到MOE上,未來的大模型研發還會保持這樣的水準嗎?

閆俊傑:從讀書,到工作,到創業,我對技術的理解慢慢變得非常簡單。技術這件事,特別是研發投入很大的技術,追求的不應該是10%的提升。如果一個技術的提升只有10%,那這個技術可能是衆多工作中的一個,你不做也會有人開源出來。

一家像我們這樣的創業公司,真正應該花錢做的研發是那種能帶來幾倍變化的技術,這種東西很多時候如果我們不做,外面也沒有,對滿足用戶的需求又很重要,我們只能自己來做,這樣的東西才比較核心。

不管我們現在還是再往後看,我們在什麼樣的技術方向上最願意花錢,核心的判斷是我們認爲這個方向做出來能不能帶來幾倍的變化。如果能,不管多難都要做出來。如果不滿足這個標準,不管多簡單我們都不應該做。

提問:您此前比行業更早做出MOE方向的判斷,這次決定Linear attention這個方向,這個決策是怎麼做出來的?這次預判和實踐對MiniMax發展來說有哪些意義?

閆俊傑:原因是我們發現,模型輸入的長度很重要,韓總來說一下。

韓景濤:長度爲什麼重要,我們還是比較堅信Scaling law。

Scale可以理解爲是一種多個維度的縮放,很多人會簡單認爲參數量越來越大是一種Scale。還有一個緯度,就是支持的長度也是可以Scale的。

原理上我們相信Scalling law不管是有點慢有點快,這幾年肯定還是對的,並且能趕上預測的曲線。

Scale除了參數量、數據量、計算量以外,context lenght也是非常重要的一環,原理上我們相信這個一定得做好。

傳統的Transformer相當於是一個N方複雜度的self attention計算,如果一定要是N方的話,永遠不可能Scale得特別長,8K或者10ktoken的上文,大概就達到這一代硬件技術的瓶頸。我們想做得更大,不管是原理還是實際應用上,肯定要Scale更長。比如星野這樣的聊天機器,人跟他聊天肯定不希望星野只能記住最近8000字的內容,這對用戶體驗的損傷很大。如果能Scale到8萬字、80萬字、800萬字,肯定能做出更不一樣的產品。

在Scale的實踐中,我們產品摸索發現有一個長的記憶,長的context length非常重要,也非常實用。我們就開始探索,如果一直用之前的舊算法,ON方一會限制我們的Scale,那個時候我們會探索極端一點,能不能找一個ON的。因爲ON Scale性天然很好,計算複雜度非常低,尤其是上文越長優勢越明顯,這樣我們進行了一些調研,看了一下前沿的工作和我們自己做一些探索創新。

我們發現把Linear attention做好非常重要,而且我們也找到了這一個點,一開始遇到很多工程瓶頸,但是研究到現在,我們對Linear attention的駕馭到了一個可以用的狀態。

閆俊傑:總結起來,核心還是快,不管是做MOE還是Linear attention,還是其他探索,本質上是讓同樣效果的模型變得更快,這是我們認爲的本質。就像剛剛說的,快意味着同樣的算力可以做得更好,這個是我們最底層地做研發的思路,除了Linear attention、MOE,可能還有一些其他有價值的事,我們也在探索。

億邦持續追蹤報道該情報,如想了解更多與本文相關信息,請掃碼關注作者微信。