科大訊飛大模型競速2年多,答卷不只是語音
作者 | 褚杏娟
從 2022 年 12 月啓動“1+N”大模型技術攻關至今,科大訊飛已經在這個領域探索了兩年多的時間。作爲將大模型融入自身業務的典型,訊飛在大模型探索上是圍繞業務“選擇性答題”:不是要拿全領域第一名,但業務涉及的方向必須領先。
科大訊飛也取得了不錯的成績:根據真實數據背靠背的測試,訊飛星火 4.0 Turbo 七大核心能力全面超過 GPT-4 Turbo,數學和代碼能力超越 GPT-4o;首發 11 項基於訊飛星火底座能力的技術和產品應用等。這也體現在了財報上,今年前三季度,科大訊飛實現收入 148.5 億,同比增長 17.73%;毛利 60.07 億,同比增長 18.17%。
面對市場的不斷變化,科大訊飛必須學會做對的選擇。那麼,科大訊飛如何選擇研發方向?具體都有哪些思考?科大訊飛研究院院長劉聰在近日接受 InfoQ 採訪中,從不同的角度講述了訊飛的發展經驗以及自己的思考。
必答題:大模型推理
OpenAI 今年推出了對業界影響重大的三個模型:Sora、GPT-4o 和 o1,分別代表了當前視頻生成、語音交互和推理的頂尖技術能力,這些也是國內企業正在競相追趕的賽道,不過各家各有特長。
對於一個將大模型融入自身業務的典型,Sora 類技術並不符合訊飛當前業務需求,而 GPT-4o 和 o1 兩個模型的技術路線,對其來說卻是意義重大。
GPT-4o 代表的多模交互能力一直是訊飛專注的技術能力之一,多模態交互形式的出現也影響到了之前交互性並不強的領域,而 o1 的重要意義在於更復雜問題的解決上。
“我們初步判斷 o1 這條路線有可能改善,雖然它沒有公佈任何技術細節,但它有可能提升推理過程,使其不再那麼依賴大量的數據和精細設定的推理路徑。如果實現了這樣的改進,將對解決複雜問題大有裨益。”劉聰說道。
語言推理需要將思維鏈標識得非常細緻,這種情況下推理過程非常依賴數據,甚至依賴設定的推理路徑,否則成本會很高。過去人工標註的數據很貴,無法覆蓋足夠多的場景。但 o1 帶來的啓發是,只要答案存在於數據中,系統就能夠自動操作、自發生成推理鏈,並在廣闊的思維空間中尋找合理的解決方案。這意味着系統將採用以結果爲導向的獎勵機制來自動生成所需的推理鏈。
“這是我們未來要做的第一件事。”劉聰表示,它的意義不僅僅是自動生成思維鏈。“o1 甚至還有可能探索出一些與人類傳統思維不同的新路徑。”
劉聰表示,訊飛在推理方面主要關注兩類問題:一是以數學爲代表的學科類問題,如大學級別、奧數級別的問題;二是學科類中具有一定嚴格邏輯的大概率事件,比如醫療領域。後者則更爲關鍵。據悉,訊飛今年年底實現類 o1 的高難度數學能力顯著提升。
“推理能力的建設對訊飛大模型來說是必須重點投入的。”劉聰也說道,“算力對於訊飛來說還是非常重要的。”
去年,訊飛和華爲一起建立了首個全國產萬卡算力平臺飛星一號。此前,Meta 發佈的 92 頁超長 Llama 3.1 論文中暴露,H100 萬卡集羣在 Llama3.1 訓練平均 3 小時出現一次故障,這表明有卡可用只是第一步,對萬卡集羣的維護是下個重點。這一年以來,訊飛解決了 500 多次基礎軟硬件問題,模型訓練適配優化平臺耗時從 90 天縮減到 15 天,新增 30 多項框架和平臺特性,優化了 150 多個基礎、通信和融合算子。
今年,科大訊飛、華爲、合肥市大數據資產運營有限公司三方聯合打造的國產超大規模智算平臺“飛星二號”正式啓動,向更大規模算力集羣躍遷。
規模越大,挑戰也越大。這時的技術團隊不僅需要深入理解核心技術,還要在有限的資源下完成許多工作,包括構建通用的平臺和實現產品的落地。同時,系統化的工程能力也非常重要,需要有架構性的能力來支持算法。“這兩點對於推動國產算力的發展至關重要,缺一不可。”
當前,算力市場正在面臨供需變化的情況。現在的算力建設越來越多,包括國產化算力的建設等各種渠道的算力供應逐漸增多,這對算力價格也產生了影響。同時,需求市場已經不如之前強勁,已經有企業被曝不做預訓練模型開發,意味着之前的投入有了很多重複和浪費。
“不同的公司最後都要回到:技術進步能否支持行業場景的落地併產生商業閉環價值,這種商業閉環價值是否能幫助我們找到最重要的關鍵點,實現正循環。”劉聰說道。
業務題:數字人
數字人賽道,對於訊飛來說則是商業模式相關的選擇。
訊飛大概是在 2018 年開始決定要做數字人,當時的設想場景比如給訊飛智作配備數字人並給它一些圖片和文案,它就可以幫助做類似商品廣告的事情,數字人是有一定的業務需求在的。
但在今年 10 月 24 日,訊飛首次發佈自己的超擬人數字人。數字人是一個比較綜合的方向,涉及建模、驅動、合成等技術,而數字人的智能程度則取決於大模型的情感對話能力、多模態交互能力等。
業內有 2D 數字人、3D 數字人等不同方向的探索,區別於短視頻行業的數字人用於製作離線視頻,訊飛基於自身業務會更加關注數字人的實時可交互性。
2D 的優勢是更像真人,但如果做不好就會陷入恐怖谷效應,顯得很不自然。訊飛最初就關注了數字人脣形和牙齒的問題,後期再結合上語音,通過技術將這些元素串連起來。
這些嘗試,讓劉聰對“超擬人”或“數字人”的概念有了更加清晰的認知。他認爲,數字人首先必須具備實時交互能力,尤其在複雜和高精度的情境下非常關鍵。劉聰的經驗是:算法本身決定了結果,如果算法不行,再怎麼工程化也難以保證效果。
“我們將交互視作一個持續性的過程。這個過程中,所有元素都是連續的、相互關聯並共同生成的。結合擴散技術和其他的方法,我們可以使表情變得更加豐富多樣、更好地實現語義貫穿的“口脣 - 表情 - 動作”的超擬人數字人生成。”劉聰說道。“另外,過去做數字人只能預設一些固定動作,現在通過動作驅動技術可以實現更加自然和靈活的動作。這種技術的應用使得交互體驗更加真實和生動。”
“數字人這個事情,大家也在摸索到底它能發揮什麼樣的實用。”劉聰說道,“坦白說,我們只能通過最終呈現效果進行評價,比如對比同一句話、輸入給別人回答,觀察它的效果和響應時間。”
“使命”題:AI for Science
今年的諾貝爾物理學獎、化學獎、經濟學獎都頒發給了 AI 領域的科學家。這一定程度上帶動了業內對 AI for Science 的關注。
科大訊飛已在“大模型 + 科研”領域做了許多探索,如聯合中國科學技術大學劉海燕教授團隊,AI 助力成功設計了 48 個自然界不存在的全新蛋白質;聯合中科院動物研究所李鑫團隊,研究單細胞基因表達課題;聯合中科院等離子體物理研究所李建剛院士團隊,研究託卡馬克等離子體控制等。
“AI for Science 決定了中國科技發展的速度,賦能科研是訊飛星火的重要使命”劉慶峰說道。根據劉聰的介紹,AI for Science 賦能科研可以分爲三個階段:
第一階段,基礎科研和基礎工作的提效。這個階段,沒有具體的 AI for Science 科研任務。比如訊飛去年發佈的科技文獻大模型和星火科研助手更多是對已有論文的內容進行研究,比如搜索相關論文並寫篇綜述、論文輔助寫作與修改等。
第二階段,科學任務建模。這一階段的 AI for Science 只在某些場景使用。當模型變大後,使用新的算法會讓任務完成得更好,比如訊飛與中科大劉海燕教授團隊、李建剛院士團隊及李鑫團隊等的合作都是處於這一階段。
第三階段,科研方案的輔助設計。這個階段會將前面兩個階段結合在一起,比如化學領域,論文多、實驗配置也多,這時不僅可以讓 AI 回答推演中的問題,還可以輸入問題進行回答,並基於回答設計一個新的實驗等。“當大模型底座能力逐步增強後,降低了對專業領域數據的要求,甚至探索出生成新數據、拓展新場景都是很有可能的。”劉聰說道,
在與科研機構合作過程中,劉聰最大的感受是,雙方都要真正瞭解自己的工作,不僅要會用,還要了解如果不夠好用時如何改進。科研人員需要向訊飛研發提出具體的 AI 需求,訊飛研發人員則需要了解 AI for Science 的問題到底是什麼。
“這是一個雙向奔赴的過程。企業與科研機構的合作都是互相學習,其中定義問題非常關鍵。”劉聰表示,“不能簡單地把 AI 當成工具。”
結束語
無論大模型硬實力、業務需求,還是給自己的責任,這是每個大模型落地企業都需要考慮的問題,科大訊飛給出了自己當前的回答。“解放生產力、釋放想象力”是科大訊飛提出的口號,但目前整個行業都在想辦法在“生產力”上下功夫,科大訊飛要做的答卷還很多。
會議推薦
2024 年收官之作:12 月 13 日 -14 日,AICon 全球人工智能開發與應用大會將在北京舉辦。從 RAG、Agent、多模態模型、AI Native 開發、具身智能,到 AI 智駕、性能優化與資源統籌等大熱的 AI 大模型話題,60+ 資深專家共聚一堂,深度剖析相關落地實踐案例,共話前沿技術趨勢。大會火熱報名中,詳情可聯繫票務經理 13269078023 諮詢。
今日薦文
你也「在看」嗎?