☰

日均調用30億次 MiniMax閆俊傑眼中的天花板與護城河

【億邦原創】閆俊傑走路微縮着肩，語氣非常溫和，面對太多人時忍不住緊張。有員工覺得，外界之所以認爲他們公司低調神秘，主要因爲老闆是i人，“光是在今天的活動上做個演講，就緊張好久。”

有人形容閆俊傑是“掃地僧”，不顯山不露水，但手上都是真功夫。他語速略快，氣息輕而軟，不會正襟危坐下判斷，也沒有鏗鏘有力的精英範兒，但行業裡沒人忽視閆俊傑的看法。

這得益於他先於行業作出MOE架構的判斷。去年年中，行業共識還是Dense（稠密）模型時，閆俊傑已經判斷出Dense瓶頸，拿出全公司80%的可用資源，耗時6個月，經歷兩次失敗，研發MOE架構，並在今年1月推出國內第一個MOE（混合專家系統）架構大模型的abab6.5。

效果立竿見影，“我們用的MOE模型，取得了比Dense模型快3~5倍的速度，這也是爲什麼我們的模型每天能處理幾十億次交互，正是因爲它足夠快，響應時間足夠低，才能得到廣泛部署。”

產品調用量也一馬當先。當下，MiniMax產品每天與全球用戶發生30億次交互，生成超過3萬億的文本Token、2000萬張圖、7萬小時語音。

MiniMax身處一個巨頭林立、全球競速、前路未知的行業，既有激動人心的願景指引，也有盲人摸象的無處着力，但閆俊傑的決策思路看起來簡單清晰。他認爲現階段的主要任務還是模型層能力的提升。“過去兩年發生了很多次，當模型能力有較大提升時，用戶的使用場景和使用深度隨之顯著提升。反之當模型遭遇一些事故，當天用戶對話量下降了40%。”

他也關注AI滲透率和使用時長的提升，他總結方法有三：持續降低模型的錯誤率；提供無限長的輸入與輸出；多模態。三種方法背後的核心還是技術進步，產品效果是技術進步的體現。

MiniMax做了好幾次重大的底層技術變革，他只透露了Linear Attention（線性注意力）這個方向。MOE（混合專家系統）+Linear Attention（線性注意力）讓MiniMax大模型的訓練與反饋變得更快，在與GPT-4o同一代模型能力對比上，新一代模型處理10萬token時，效率可提升2-3倍，長度越長，提升越明顯。

對於大模型迭代放緩及外界唱衰的現狀，他認爲大模型發展的下一個轉折點，不是發佈了哪些新模型，而是哪一個模型可以把錯誤率降低到個位數。“如果Scaling law是對的，這個模型一定會出現，標誌就是錯誤率降爲個位數。好幾家公司都具備這些能力，沒道理訓不出一個更好的模型。只是不知道什麼原因，還沒有人把它真正發佈出來。”

從事技術研發是一件很奢侈的事，閆俊傑每次看賬單都會很心疼。但從讀書到工作、到創業的十幾年間，他對技術的理解慢慢變得非常簡單。他認爲技術，特別是研發投入很大的技術，追求的不應該是10%的提升，而是數倍變化的提升。“如果一個技術只有10%的提升，那這個技術可能是衆多工作中的一個，你不做也會有人開源出來。只有帶來幾倍變化，對滿足用戶需求很重要，外面又沒有，這才值得我們投入，這樣的東西才比較核心。”

會後，MiniMax創始人閆俊傑（花名IO）、MiniMax國際業務總經理盛靜遠、MiniMax技術總監韓景濤和包括億邦動力在內的媒體交流對話，在對話中，他回答了對Character.AI被收購看法，展望了陪伴類AI的發展前景，給出了對行業趨勢、路徑及轉折點的判斷。對話內容經億邦動力編輯整理：

1、“如果Scaling law是對的，沒道理訓不出一個更好的模型。”

提問：如何看待今年AI產品的大力投流？

閆俊傑：核心要看企業要什麼——如果企業認爲Query重要，就應該無限投流；如果認爲Query量跟模型效果之間是對數關係，不是線性關係，價值就沒那麼大；如果認爲商業化重要，只要產品能轉正就應該無限投流；如果認爲商業化，就應該考慮ROI。

這裡面的核心不是投流本身，而是一家公司要的那個東西到底是什麼。這個東西我覺得不同的公司有不同的判斷。

提問：如何看待Character.AI被收購，以及陪伴類AI的發展前景？

閆俊傑：解釋一件事，星野的底層設計其實不是陪伴用戶聊天，而是一個內容社區。這裡面有用戶創建的角色，也有用戶創建的故事、創建的世界觀。另一些用戶可以根據創造的世界觀進行互動，很像小說這樣的交互體驗。所以我們的核心是內容社區，而不是陪人聊天，這是非常fundamental的不一樣。

對用戶來說，星野希望做到個性化，並且你在這個產品中得到的體驗不完全來自模型，也來自另外一些用戶的創作。

我們認爲對內容社區的產品來說，用戶得到的輸出來自模型+數據，而這些數據主要是另外一些用戶的創作，這是一個比較核心的區別。中國公司還是比較容易做好產品，並且在技術上的提升速度也更快。

關於Character.AI被收購，我認爲這是一個比較好的結局，似乎每個人在裡面都得到了好處。

提問：今年很多模型和AI產品都變成了期貨，技術迭代速度放緩，什麼時候什麼條件下，大模型會度過瓶頸期，開始一下輪上升？

閆俊傑：我們對技術發展方向還是很堅定的。比如我們今天更新了視頻模型，實際上兩個月前我就知道今天可以發這個視頻模型，雖然那時候還沒有做出來，但根據那時的實驗結果已經能夠預測。語言模型也是一樣的。

下一輪模型上升的一個核心標誌，可能不是GPT4、GPT-4o這些產品，也不是Claude3、Claude3.5 sonnet，也不是MOE。真正重要的是，什麼時間點有一個模型可以把錯誤率降低到個位數。現在所有模型的錯誤率都是兩位數，錯誤率降低到個位數，這是一個本質變化。

爲什麼？這意味着首先模型有了一個數量級的提升，其次這讓很多複雜任務從不可做變成可做。

複雜任務需要多步驟，多步驟之間是乘的關係。這就是爲什麼現在沒有Agent可以應用，因爲越乘正確率越低，沒法支持非常靈活的Agent。

這不是因爲Agent框架寫得不夠好，而是因爲模型本身不夠好，這是根本原因。

什麼時間點會出來一個錯誤率能夠降低10倍的模型？

首先現在顯然起來沒有的，至少沒有公開的。但是我們可以看到，現在每家公司有了更多算力，Open AI和谷歌的算力比他們剛做出GPT4時多了不止4倍。算法也在進步，Open AI在同樣水平的情況下，2023年只能做出GPT4，現在能做GPT-4o，性能差不多，速度快了可能10倍，這意味着算法進步了。

計算量多了10倍，算法也快了10倍，好幾家公司都具備這些能力，沒道理訓不出來一個更好的模型。

我的判斷是，如果Scaling law是對的話，這個模型一定會出現，標誌就是錯誤率是個位數，只是不知道什麼原因，還沒有人把它真正發佈出來。

美國公司怎麼做的，我不完全知道，我能看到的事情是，基於兩個假設：首先，大部分中國公司還是比美國公司落後。其次，我們能看到自己的進展。假定按照我們現在的技術進展，再加上國外的技術資源，肯定能做出更好的模型，這個我是可以來判斷的。

2、“爲了更高的用戶覆蓋度和使用深度，唯一的辦法是多模態。”

提問：今年視頻生成賽道非常激烈，MiniMax爲什麼要做視頻生成，對你們整個佈局來說有什麼必要性？

閆俊傑：我們一直以來的目標就是要做動態輸出，這也是爲什麼我們的聲音模型做得很好，音樂模型也非常好。今天我們把視頻模型也做得非常好。

爲什麼幹這麼一件事？因爲我們有一個基本認知，這人類社會中，大模型的核心價值是做更好的信息處理，而大部分的信息體現在多模態的內容裡，而不是文字上，文字知識裡面最精華的那麼一小部分。

爲了能夠有非常高的用戶覆蓋度和使用深度，唯一的辦法是多模態，輸出動態內容而不是隻輸出文字內容，這是一個非常核心的判斷。

所以我們先做文字，又做聲音，還做了圖片，現在把視頻也做出來。這個路線是一以貫之的，一定要能夠做多模態。

提問：挑戰和難點在哪兒？

閆俊傑：首先這件事本身挺難的，因爲視頻的複雜度比文本更高，context天然很長。比如一個視頻是千萬的輸入和輸出，天然就很難處理。

其次，視頻和文本需要的基礎設施不同。比如一個5秒的視頻有幾兆，但5秒看到的文字可能不到1K，這是幾千倍的存儲差距。這裡面的挑戰在於，之前基於文本建的這套底層基礎設施，清洗數據、標註數據、處理數據的方法，對視頻上都不太適用。這意味着基礎設施也需要升級。

還有一個是耐心，做文字有很多開源的東西，做視頻沒有太多開源的東西，很多東西越來越需要重新來做，需要付出的耐心也更大。

提問：MiniMax怎麼去解決技術迭代過程中遇到的數據問題。

閆俊傑：數據方面，中國還是有比較好的措施，上海這邊就有一個千分之料的公司，他們有很多非常高質量的數據，可以開放給技術的公司使用，這些數據完全沒有版權問題，對創業公司幫助非常大。

我們自己也會採購第三方數據。還有一點不知道該怎麼判斷，海外很多人質疑Open AI是不是使用了其他數據，這似乎是一個沒有明確定義的模糊地帶。對我們來說，我們會盡可能地用這種比較符合版權的數據。

3、“技術研發是很奢侈的一件事，每次看賬單都會很心疼。”

提問：您演講時說自己花了兩年時間才意識到技術是最核心的要素，這中間經歷了怎樣的注意力漂移？

閆俊傑：我們一直都覺得技術重要，但覺得它重要，跟覺得它100%重要，中間其實需要一個過程。

做技術是一件非常奢侈的事，因爲技術具有不可預測性，而且研發投入很大，看一眼我們每個月的賬單，我還是會非常心疼。

當一個東西很奢侈的時候，很多時候你會想要不要走點捷徑？比如說不做技術了，先把產品提升好怎麼樣。再比如一個東西要實驗三次才能成功，第三次實驗成功的時候，你又在想前面兩次是不是可以不用做。

但我們的實踐經驗證明，走捷徑就會被打臉。這個事也發生好多次了，至少在我這兒類似的錯誤都超過十次了。本來我們一開始一致認爲技術重要度是70%，打臉一次，升到75%，再打臉一次，升到80%，就這麼一個提升過程，直到現在。

當然這都是一些負反饋，也有正反饋的時候，當你真的把一些關鍵技術突破之後，非常顯著地感受到用戶和客戶對你的認可。

不管正反饋還是負反饋來看，最終發現都是技術，我還是比較慶幸自己一直是一個做技術的人。

提問：您此前介紹將80%的算力和資源放到MOE上，未來的大模型研發還會保持這樣的水準嗎？

閆俊傑：從讀書，到工作，到創業，我對技術的理解慢慢變得非常簡單。技術這件事，特別是研發投入很大的技術，追求的不應該是10%的提升。如果一個技術的提升只有10%，那這個技術可能是衆多工作中的一個，你不做也會有人開源出來。

一家像我們這樣的創業公司，真正應該花錢做的研發是那種能帶來幾倍變化的技術，這種東西很多時候如果我們不做，外面也沒有，對滿足用戶的需求又很重要，我們只能自己來做，這樣的東西才比較核心。

不管我們現在還是再往後看，我們在什麼樣的技術方向上最願意花錢，核心的判斷是我們認爲這個方向做出來能不能帶來幾倍的變化。如果能，不管多難都要做出來。如果不滿足這個標準，不管多簡單我們都不應該做。

提問：您此前比行業更早做出MOE方向的判斷，這次決定Linear attention這個方向，這個決策是怎麼做出來的？這次預判和實踐對MiniMax發展來說有哪些意義？

閆俊傑：原因是我們發現，模型輸入的長度很重要，韓總來說一下。

韓景濤：長度爲什麼重要，我們還是比較堅信Scaling law。

Scale可以理解爲是一種多個維度的縮放，很多人會簡單認爲參數量越來越大是一種Scale。還有一個緯度，就是支持的長度也是可以Scale的。

原理上我們相信Scalling law不管是有點慢有點快，這幾年肯定還是對的，並且能趕上預測的曲線。

Scale除了參數量、數據量、計算量以外，context lenght也是非常重要的一環，原理上我們相信這個一定得做好。

傳統的Transformer相當於是一個N方複雜度的self attention計算，如果一定要是N方的話，永遠不可能Scale得特別長，8K或者10ktoken的上文，大概就達到這一代硬件技術的瓶頸。我們想做得更大，不管是原理還是實際應用上，肯定要Scale更長。比如星野這樣的聊天機器，人跟他聊天肯定不希望星野只能記住最近8000字的內容，這對用戶體驗的損傷很大。如果能Scale到8萬字、80萬字、800萬字，肯定能做出更不一樣的產品。

在Scale的實踐中，我們產品摸索發現有一個長的記憶，長的context length非常重要，也非常實用。我們就開始探索，如果一直用之前的舊算法，ON方一會限制我們的Scale，那個時候我們會探索極端一點，能不能找一個ON的。因爲ON Scale性天然很好，計算複雜度非常低，尤其是上文越長優勢越明顯，這樣我們進行了一些調研，看了一下前沿的工作和我們自己做一些探索創新。

我們發現把Linear attention做好非常重要，而且我們也找到了這一個點，一開始遇到很多工程瓶頸，但是研究到現在，我們對Linear attention的駕馭到了一個可以用的狀態。

閆俊傑：總結起來，核心還是快，不管是做MOE還是Linear attention，還是其他探索，本質上是讓同樣效果的模型變得更快，這是我們認爲的本質。就像剛剛說的，快意味着同樣的算力可以做得更好，這個是我們最底層地做研發的思路，除了Linear attention、MOE，可能還有一些其他有價值的事，我們也在探索。

億邦持續追蹤報道該情報，如想了解更多與本文相關信息，請掃碼關注作者微信。

日均調用30億次 MiniMax閆俊傑眼中的天花板與護城河

相關資訊