對話崑崙萬維首席科學家顏水成:大模型的三個共識與三個分歧

出品|本站科技《態度AGI》對話欄目

作者|丁廣勝

大模型產業,熱鬧非凡,也爭論不斷。共識有三,Transformer和MOE架構的能力、Scaling Law的潛力、視頻生成的前景。

分歧也不少。Transformer是否是AGI的最終架構、大模型的監管問題、模型的商業化路徑和效率提升。

在崑崙萬維兼天工智能首席科學家顏水成看來,共識也好,非共識也罷,大模型要真正迎來“奇點”時刻,還需要三點突破:

“一是實現大模型在更多實際應用中的成功落地,能夠大規模解決實際問題併產生經濟效益;二是建立完善的AI倫理和監管框架,確保AI技術的發展在可控和安全的範圍內;三是技術創新持續突破,如數據處理、模型架構等方面不斷進步。”

顏水成長期深耕人工智能產業,是橫跨學界和產業界融合的代表性人物,他於一年前加入崑崙萬維,看重崑崙萬維清晰的產品矩陣。

“我在多家公司從事過AI相關的研究工作,我始終認爲合理的產品佈局至關重要。我更傾向於選擇那些能夠用產品引領技術研發的公司,這樣技術能夠有的放矢,與產品互相促進,從而增加產品成功的概率。”

過去一年,顏水成帶領團隊成立了2050全球研究院,致力於將產品、研發和研究團隊通過六個大模型有機連接起來。

3月29日,他們與國際頂尖高校合作開源了數字智能體研發工具包AgentStudio,爲研究人員和開發者提供了一個完整覆蓋智能體開發流程的綜合性平臺。

4月29日,崑崙萬維2050全球研究院聯合新加坡國立大學、新加坡南洋理工大學團隊發佈並開源了Vitron通用像素級視覺多模態大語言模型。這款重磅的視覺多模態模型支持從視覺理解到視覺生成、從低層次到高層次的一系列任務,解決了圖像與視頻模型割裂的問題。

6月25日,他們與新加坡南洋理工大學合作開發了Q算法,大幅提升了現有大模型的推理能力。Q*算法的開發使小模型的推理能力得以接近甚至超越參數量大幾十倍、上百倍的模型。

7月3日,他們聯合北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構提出了通用計算機控制框架Cradle,使AI Agent無需訓練即可像人一樣直接控制鍵盤和鼠標,實現在任意開閉源軟件上的交互。

節奏不可謂不快。

而要問顏水成花最多時間的地方是什麼,他作答:

“原生語音交互和視頻生成技術。我認爲原生語音交互是下一代AI應用的關鍵,它能大幅簡化人機交互的方式,讓人與AI或設備的溝通更加自然和高效,從而大幅增加AI產品的用戶基數。這種交互方式有望改變AI智障標籤,使其真正成爲智能助手。”

視頻生成也是重中之重,顏水成認爲,視頻生成技術的進步將徹底革新內容生產的方式,極大提高創作效率。

至於多模態的話題,他說多模態的終極目標就是“all-modality-in, all-modality-out”,即輸入和輸出涵蓋所有模態,而核心在於生成的內容必須符合現實世界的邏輯和物理定律。這樣的能力能夠讓模型更接近於人類對世界的理解和互動方式。

在訪談中,顏水成還談及大模型同質化問題,他提到,隨着語言模型規模的不斷擴大和數據量的增加,訓練大模型的成本逐步超出大多數小公司的承受範圍。同時,開源大模型的性能也在快速提升,使得從零開始訓練一個全新大模型的必要性越來越低。

“因此,越來越多的公司將選擇持續訓練(continual training)和開發高效小模型,這自然導致模型的同質化。從目前已經公開的開源模型來看,模型本身的差異性並不顯著,更多的差異體現在數據選擇和一些微創新上。”

他認爲,這種情況決定了大模型的發展趨勢會趨向同質化,這是市場發展和技術資源分配下的必然結果。

以下爲本站科技對話顏水成實錄(經整理):

本站科技:您去年9月宣佈加入崑崙萬維,一年過去了,目前感受如何?有什麼不一樣?

顏水成:我在多家公司從事過AI相關的研究工作,我始終認爲合理的產品佈局至關重要。我更傾向於選擇那些能夠用產品引領技術研發的公司,這樣技術能夠有的放矢,與產品互相促進,從而增加產品成功的概率。在我加入之前,崑崙萬維已經有了相對清晰的產品矩陣,包括搜索、音樂、遊戲、社交等,這些產品部分已經有了原型,部分已經面向用戶發佈,對技術的需求非常明確,這與我對於技術與產品協同發展的理念高度契合。

其次,崑崙萬維88%的營收來自海外市場,這與我的職業背景非常契合。由於我曾在新加坡工作多年,對海外業務的特點有着深入的瞭解,這讓我對崑崙萬維在全球範圍內的佈局更有信心。此外,崑崙萬維的創始人周亞輝在業務領域的前瞻性和在投資領域的獨到眼光,眼光十分獨到,也讓我對公司的未來充滿期待。

當時入職時,我感到非常興奮。現在一年過去了,崑崙萬維依舊保持着“產品引領技術”的特點,並且還新增了AI短劇方向的佈局,這也正是我多年來的研究領域之一,因此我的初衷依舊保持不變。

本站科技:您加入崑崙萬維的一個原因是,崑崙萬維是少數打通了研究、研發到產品鏈條的通用人工智能企業。那到目前來看,你們做的事情是否符合預期?過去一段時間取得了哪些成果?

顏水成:過去這一年,我們爲完善研究、研發和產品的協同鏈條,成立了2050全球研究院,致力於將產品、研發和研究團隊通過六個大模型有機連接起來。這一年,我們在研究上取得了一系列令人滿意的成果,充分展示了研究對產品的推動作用。

3月29日,我們與國際頂尖高校合作開源了數字智能體研發工具包AgentStudio,爲研究人員和開發者提供了一個完整覆蓋智能體開發流程的綜合性平臺,極大地提升了開發效率,讓構建專屬數字智能體變得更加簡單、高效和靈活。

4月29日,由我帶隊,崑崙萬維2050全球研究院聯合新加坡國立大學、新加坡南洋理工大學團隊發佈並開源了Vitron通用像素級視覺多模態大語言模型。這款重磅的視覺多模態模型支持從視覺理解到視覺生成、從低層次到高層次的一系列任務,解決了圖像與視頻模型割裂的問題,實現了圖像和視頻內容的統一處理,爲下一代通用視覺大模型的發展奠定了基礎,推動了大模型邁向通用人工智能(AGI)的進程。

6月25日,我們與新加坡南洋理工大學合作開發了Q算法,大幅提升了現有大模型的推理能力。在GSM8K數據集上,Q使Llama-2-7b的準確率達到80.8%,超越了ChatGPT;在MATH數據集上,Q幫助DeepSeek-Math-7b實現了55.4%的準確率,超過了Gemini Ultra;在MBPP數據集上,Q幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率,顯著縮小了與GPT-4的編程水平差距。Q*算法的開發使小模型的推理能力得以接近甚至超越參數量大幾十倍、上百倍的模型,爲未來的高效AI發展指明瞭方向。

7月3日,我們聯合北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構提出了通用計算機控制框架Cradle,使AI Agent無需訓練即可像人一樣直接控制鍵盤和鼠標,實現在任意開閉源軟件上的交互。Cradle是第一個能同時操作多種商業遊戲和軟件應用的AI框架,相關論文和代碼均已開源,爲通用人工智能的進一步發展提供了強有力的支持。

此外,研究院還在MOE(Mixture of Experts)模型架構上做出了一系列創新,將計算效率提升了100%,併成功將部分成果應用於公司的MOE大模型,使崑崙萬維成爲國內最早將MOE模型應用於業務的公司之一。

總的來說,過去一年的成果充分驗證了崑崙萬維在研究、研發到產品的全鏈條打通模式的有效性,也讓我對未來的研究充滿信心。

本站科技:那在崑崙萬維有面臨什麼挑戰嗎?

顏水成:我們面臨的主要挑戰是如何高效地將前沿研究轉化爲有市場價值的產品。爲此,我們優化了跨部門協作和溝通機制,顯著提升了團隊效率,使研究成果能夠更快地應用於產品中。然而,市場需求變化和技術落地速度的平衡仍需不斷調整。我們還需加強對市場趨勢的把握,確保研究方向與實際需求對接,同時加大對團隊成員的培養與支持,提升整體能力。

總體而言,這一年崑崙萬維的務實精神和團隊之間的緊密合作讓我感觸深刻,雖有挑戰,但每個挑戰都推動我們不斷進步,我對未來充滿信心。

本站科技:您在新加坡,你們內部如何做好協作?比如,平日您和CEO方漢先生是如何交流的?

顏水成:雖然我的工作地點主要在新加坡,但每次回北京,我都會和同事們線下溝通交流。這種面對面的交流非常寶貴,不僅能相互學習,還能激發新的想法和思路。崑崙萬維的團隊氛圍非常開放,大家都非常樂於分享彼此的進展和心得,這對推動團隊的整體創新非常有幫助。

方漢先生是一位非常特別的CEO,他不僅深入瞭解技術,還保持着親自讀論文、寫代碼的習慣,這在管理者中非常難得。我個人喜歡用數學和公式推動研究,而方漢先生堅持寫代碼和大量閱讀論文,這種精神非常值得我學習。我們經常討論最新的研究成果和論文,方漢先生的物理系背景讓他對問題的理解非常獨到,我們之間的交流不僅限於AI技術,有時也會探討“世界的起源”“AI的未來終局”等更深層次的問題。這種跨學科的交流拓寬了我們的思維,也爲研究帶來了不同的視角。

總體來說,和同事們,尤其是方漢先生的交流,讓我感受務實的創新精神,這對個人和團隊的發展都有着非常積極的影響。

本站科技:目前您花最多時間研究的問題是什麼?

顏水成:目前我在AI領域投入最多時間的研究方向是“原生語音交互和視頻生成技術”。我認爲原生語音交互是下一代AI應用的關鍵,它能大幅簡化人機交互的方式,讓人與AI或設備的溝通更加自然和高效,從而大幅增加AI產品的用戶基數。這種交互方式有望改變AI“智障”標籤,使其真正成爲“智能助手”。

視頻生成同樣是我關注的重點領域。視頻已經成爲當今獲取信息的主要途徑之一,視頻生成技術的進步將徹底革新內容生產的方式,極大提高創作效率。當視頻模型發展到能夠模擬物理世界時,遊戲將不再需要傳統的3D引擎支持,許多實驗也將可以在虛擬環境中進行,影視創作將變得觸手可及,成爲每個人都能掌握的基本技能。

這些技術的進步不僅能突破現有的行業瓶頸,還將改變人們的生活和工作方式。雖然這些場景看似遙遠,但技術正在快速發展,這些變革正一步步向我們走來。我相信,隨着原生語音交互和視頻生成技術的不斷成熟,我們將看到一個更加智能、高效且充滿創意的世界。

本站科技:您曾在一次交流中談到,在座的同行,肯定在關鍵技術和經驗上的分享有所保留,不然無法解釋爲什麼產品這麼好。那崑崙萬維,現在有什麼正在研究的或比較看好的新方向嗎?

顏水成:從公司競爭力的角度來看,技術分享有所保留是合理的。當前行業內最常見的保留方式是開源模型但不完全開放數據,特別是那些對模型表現至關重要的數據部分。崑崙萬維一直以產品爲核心,競爭力主要體現在用戶粘性上,因此在技術和數據分享方面相對開放,我們的語言大模型和許多數據集都進行了開源和分享。

然而,一個成功的模型不僅僅是技術和數據的堆積,更是經過無數次試錯和調整的成果。這些試錯過程中的經驗和細節往往是最寶貴的,也是難以完全分享的部分。正是這些不斷優化和改進的過程,賦予了我們產品和模型超越競品的競爭力。我們的“殺手鐗”更多體現在這些細節和迭代中,而這些往往是模型比其他產品更爲強大的原因。雖然具體的技術細節不便完全透露,但大致方向就是通過持續的實驗、優化和對用戶需求的深刻理解,不斷提升模型和產品的表現。

本站科技:崑崙萬維特別重視多模態,您怎麼評價崑崙萬維在多模態方面的進展?

顏水成:模態是實現通用人工智能(AGI)的重要路徑,因爲人類的智能本質上就是多模態的,融合了視覺、聽覺、語言等多種感知和認知能力。崑崙萬維致力於多模態研究,主要是因爲公司的核心產品本身就需要多模態技術支撐,比如AI音樂和AI短劇等產品,這些都要求能夠處理和生成不同類型的數據。

公司在多模態技術上的投入是非常必要且具有前瞻性的。目前,公司的AI音樂產品在技術層面達到了世界級水準,具備非常強的競爭力,並在不斷迭代中提升用戶體驗。同時,公司在短劇創作方面推出的SkyReels具有極大的想象空間,這類產品有望成爲AI 2.0時代的爆款。總體來看,崑崙萬維在多模態領域的進展快速且成效顯著,爲公司未來的產品創新和市場競爭力打下了堅實的基礎。

本站科技:多模態的終極形態可能就是世界模型,您怎麼看?

顏水成:我個人非常認同這一觀點,並且對世界模型的理解也在不斷演進。總體來說,多模態的終極目標就是“all-modality-in, all-modality-out”,即輸入和輸出涵蓋所有模態,而核心在於生成的內容必須符合現實世界的邏輯和物理定律。這樣的能力能夠讓模型更接近於人類對世界的理解和互動方式。

視頻作爲當今人類獲取信息的主要方式,視頻生成技術的發展有望徹底改變內容生產的方式,大幅提升創作效率。當視頻模型發展到可以逼真模擬物理世界時,遊戲可能不再需要傳統的3D引擎,許多實驗和模擬將可以在虛擬環境中進行,而影視創作也將變得更加普及,甚至成爲每個人的基本技能。雖然這些看似是未來的場景,但技術正一步步將它們變爲現實,視頻生成模型的火熱正是這一趨勢的重要體現。

本站科技:AI大模型、AI社交、AI遊戲、AI搜索、AI視頻和AI音樂等業務矩陣,都是崑崙萬維佈局的領域。在您看來,這些嘗試是多,是少?什麼才真正是崑崙萬維在AI領域的核心競爭力?

顏水成:我認爲這些嘗試是非常合理的。每個產品的潛力各有不同,有的可能最終只能發展到獨角獸規模,而有的則有機會成爲更大的業務。不僅每個探索的方向都具備成長爲優質業務的潛力,更重要的是它們之間的技術能夠相互借鑑和共享,甚至可能催生出全新的業務形態。

崑崙萬維在AI領域的核心競爭力實際上在於這些業務背後共享的六個大模型:語言大模型、多模態大模型、音樂大模型、語音大模型、視頻大模型和3D大模型。這些模型不僅支撐着現有的業務發展,還爲未來的創新提供了技術基礎。通過這些底層技術的共用和迭代,崑崙萬維能夠迅速響應市場變化,並不斷推動產品的演進和升級。

本站科技:有觀點稱,崑崙萬維從遊戲轉型AI,跨度很大,是在追熱點。

顏水成:我認爲崑崙萬維的轉型是尋找“第二增長曲線”而非追熱點。優秀的公司不會僅滿足於現有業務,而是會在成熟業務的基礎上積極探索新的增長點,確保公司在快速變化的市場中保持活力和競爭力。AI正是崑崙萬維在遊戲和娛樂業務基礎上開闢的新賽道,是對未來增長的前瞻性佈局。

崑崙萬維多年來在遊戲和娛樂領域積累了豐富的2C產品的經驗,這些是新的AI產品的根基。AI作爲我們的第二增長曲線,不僅爲崑崙萬維帶來了新的市場空間,還爲公司未來的發展注入了新的動力。

本站科技:崑崙萬維“All in AGI與AIGC”戰略,從您的角度來看,這場戰要想打贏,決勝戰役是什麼?

顏水成:要打贏這場戰,關鍵在於公司AI產品的商業模式是否成立。決勝的核心戰役是既能準確把握用戶的真實需求,又能持續提升AI模型的能力,同時有效降低模型的推理成本。降低成本不僅需要算法和系統層面的持續創新,還需要在芯片領域取得突破。

爲此,崑崙萬維在AI產品、AI研究、AI基礎設施(AI Infrastructure)和AI芯片等多個方面進行了全面佈局。我們不僅專注於優化算法和系統,還積極推動芯片技術的創新,以支撐AI模型的高效運行。通過這樣全方位的部署,我們力求打造從底層技術到應用場景的完整生態鏈,以確保在AGI與AIGC領域佔據優勢,真正實現商業化落地。

本站科技:現在各家大模型有的趨於同質化了。

顏水成:我認同這一觀點,而且未來同質化現象可能會更加明顯。隨着語言模型規模的不斷擴大和數據量的增加,訓練大模型的成本逐步超出大多數小公司的承受範圍。同時,開源大模型的性能也在快速提升,使得從零開始訓練一個全新大模型的必要性越來越低。因此,越來越多的公司將選擇持續訓練(continual training)和開發高效小模型,這自然導致模型的同質化。

此外,從目前已經公開的開源模型來看,模型本身的差異性並不顯著,更多的差異體現在數據選擇和一些微創新上。這種情況決定了大模型的發展趨勢會趨向同質化,這是市場發展和技術資源分配下的必然結果。

本站科技:現在AGI還沒有一個確切的定義標準,您認爲今天的國內大模型市場有哪些共識與非共識?在您看來,何時纔是“奇點時刻”。

顏水成:目前國內大模型市場存在幾大共識:

1. Transformer和MOE架構的能力:大家普遍認可Transformer模型架構和MOE結構具備足夠的擬合能力,能夠充分學習和理解現有的大量文本數據。

2. Scaling Law的潛力:大家一致認爲Scaling Law還沒有到極限,進一步提升模型性能的關鍵可能在於合成數據(synthetic data),這一方向正在被廣泛關注和探索。

3. 視頻生成的前景:視頻生成被認爲是未來的一個重要方向,大家普遍看好其發展潛力,認爲其大爆發指日可待。

在非共識方面,也有不少分歧:

1. Transformer是否是AGI的最終架構:雖然Transformer目前是主流架構,但行業對其是否會成爲AGI的最終模型存在分歧。雖然有新的架構被提出,但還未能真正動搖Transformer的核心地位。

2. 大模型的監管力度:不同國家和地區對大模型的監管政策存在較大差異,行業對如何平衡創新與監管、保障數據安全和隱私的看法也並不一致。

3. 模型的商業化路徑和效率提升:在如何更高效地實現模型的商業落地和持續優化方面,行業內也存在不同的思路和探索路徑。例如,有的企業聚焦於降低推理成本和模型優化,而有的企業則側重於數據垂直化和行業定製化,這種策略上的差異也體現出非共識的一面。

要真正迎來“奇點”時刻,需要在幾個關鍵方面取得突破:一是實現大模型在更多實際應用中的成功落地,能夠大規模解決實際問題併產生經濟效益;二是建立完善的AI倫理和監管框架,確保AI技術的發展在可控和安全的範圍內;三是技術創新持續突破,如數據處理、模型架構等方面不斷進步。只有在技術成熟、商業模式驗證、社會接受度提升等多個維度同時取得進展,行業才能迎來真正的“奇點”時刻。

本站科技:對於目前中美AI的差距,有人認爲中美不相上下,有人認爲中國明顯還是落後於美國。

顏水成:關於中美在AI領域的差距,我認爲兩國各有優勢,並不完全是簡單的“領先”或“落後”可以概括。美國在基礎研究、頂尖人才和核心算法創新方面的積累深厚,擁有全球領先的AI企業和學術機構,這使得美國在技術創新和前沿突破上佔有優勢。而中國在應用層面、數據規模和市場落地速度方面表現突出,尤其是在AI技術的實際場景應用和商業化上進展非常快。

中國的優勢在於龐大的數據資源和市場規模,能夠迅速將AI技術轉化爲實際應用,推動了產業的快速發展。同時,國內的AI企業和研究機構也在不斷加大投入,技術水平在很多領域已經逐漸縮小差距。

未來,兩國在AI領域的競爭和合作將繼續推動全球AI行業的發展。我相信,通過不斷努力和創新,中國有機會在更多的AI領域取得突破,與國際領先水平齊頭並進。

本站科技:這幾年經歷過認知層⾯⾃我顛覆的時刻嗎?

顏水成:和很多人一樣,ChatGPT的出現對我來說是認知層面的一次顛覆時刻。它迅速讓語言模型成爲AI領域最核心和最有價值的課題,展示了AI在某些任務上真的可以超越人類。當時我意識到,作爲研究者,一定不能置身於AI最前沿的課題之外,因爲很難再找到比語言大模型更值得深入的研究方向。恰逢那時我剛從Sea集團離開,於是選擇加入智源人工智能研究院,深耕這一領域。

另一個自我顛覆的時刻是Sora的出現。原本認爲不可能實現的任務,卻被不斷突破,這讓我相信世界模型的潛力是真實存在的。Sora的出現不僅驗證了這一可能性,也預示着視頻產業及其他領域將迎來巨大變革。

對於我的研究而言,目標始終是“Know More About Intelligence”。儘管有觀點認爲研究者應堅守自己的領域,不應追逐風口,但我的選擇是始終站在AI發展的最前沿。這兩次認知上的顛覆讓我毫不猶豫地擁抱這些變化,因爲它們帶來了瞭解智能本質的全新機會。

關於《態度AGI》

本站科技重磅推出系列對話欄目《態度AGI》。過去三年,AI變革風起雲涌,全球科技秩序正在重構,通往AGI的道路或許正在悄然臨近。本欄目以AGI爲題,將對話100位AI專家、企業家、投資人,試圖撥開雲霧,與大家一道見證AGI時代的到來。第十五期對話榮耀CEO趙明。

往期回顧:

《態度AGI》第一期:對話李開復:大模型創業狂奔一年 中美差距縮小 我十年不套現

《態度AGI》第二期:對話王小川:我們不跟進大模型價格戰

《態度AGI》第三期:對話戴文淵:大模型價格戰不解決核心問題

《態度AGI》第四期:智源研究院院長王仲遠:GPT4不是國內大模型的盡頭

《態度AGI》第五期:對話朱嘯虎:5年後將沒有獨立的大模型公司存在,因爲沒有商業模式

《態度AGI》第六期:對話梅花創投吳世春:“中國大模型五虎”想要跑出來非常難

《態度AGI》第七期:對話躍然創新CEO李勇:做大模型應用 如何和巨頭錯位競爭

《態度AGI》第八期:對話智譜AI CEO張鵬:視頻生成是AGI必經之路,超級App將在“不知不覺”中到來

《態度AGI》第九期:對話科大訊飛副總裁、研究院院長劉聰:中國大模型已從追趕對標走向自主原創

《態度AGI》第十期:對話360周鴻禕:魔法對付魔法,大模型安全問題得靠大模型

《態度AGI》第十一期:對話彩雲科技CEO袁行遠:超越ChatGPT,需要打開“黑盒”

《態度AGI》第十二期:對話傅盛:不看好雙足機器人商業化,三五年都沒戲

《態度AGI》第十三期:對話宇樹創始人兼CEO王興興:通用機器人的iPhone時刻還需要3-4年

《態度AGI》第十四期:對話MiniMax創始人閆俊傑:打不贏,就應該被淘汰對話

《態度AGI》第十五期:對話榮耀趙明:AI時代 開放肯定會擊敗封閉