“超級有用”的AI,被百度做成了?
大模型,怎麼才叫成了?
11月12日的2024百度世界大會上,李彥宏拋出這樣一個問題。
“沒有應用,基礎模型不值一提”,是李彥宏一貫的觀點。在他看來,應用落地是衡量大模型的最佳標準,當一個大模型的API日均調用量達到20億,就可以說它成了。
而今年9月以來,百度文心大模型的日均API調用量出現爆發式增長,已達到15億水平,短短半年增長7.5倍。
如此看來,百度大模型真的快成了。
百度在AI大模型落地應用上的領先地位,也得到第三方數據支持。
IDC報告顯示,2024年上半年,百度智能雲以32.4%的市場份額,位居中國MaaS市場第一。與此同時,2024年上半年中國AI大模型解決方案市場,百度智能雲營收佔比達17.0%,位居市場第一。
談到大模型,外界往往有種誤解,認爲基礎大模型、GPU硬件的研發纔是硬科技,做應用只是跟隨;但深入到技術層面就會發現,想要實現大模型的落地應用,挑戰並不比大模型本身更小。
“快成了”的百度大模型,做對了什麼?
“大模型已基本解決幻覺問題”
當兩年前ChatGPT-3橫空出世,儘管其能力已經足夠讓人驚豔,但“一本正經地胡說八道”仍然時有出現。
這種現象被稱爲“幻覺”,如果不能把“幻覺”概率降到足夠低,大模型就無法真正從一個好用的工具變成真正的智能夥伴。
爲了解決幻覺問題,百度憑藉搜索引擎的技術積累,較早引入了檢索增強機制。即通過搜索互聯網上已有的人類知識,來幫助大模型給出更準確的回答。
如今,檢索增強在文本生成領域的應用已經較爲成熟,而百度又將精力投向了文生圖。
從下圖可以看出,普通AI大模型生成的物體(左側)相比於現實物體(右側),往往還會存在明顯幻覺,將天壇的三層結構變成了四層。
爲此,百度開發了檢索增強的文生圖技術iRAG(image based RAG),將百度搜索的億級圖片資源跟強大的基礎模型能力相結合,可以生成各種超真實的圖片,“整體效果遠遠超過文生圖原生系統,去除了機器味兒”。
李彥宏現場展示了一幅由文心大模型生成的大衆攬巡汽車飛躍長城的圖片。通過文心iRAG技術,無論是這款特定型號汽車的車型車標、還是作爲背景的長城,均未出現錯誤或變形的幻覺問題。同時展示的“愛因斯坦環遊世界”圖片中,愛因斯坦和各個背景景點的結合也與真實世界高度相似,質感接近照片。
李彥宏指出:“過去24個月,AI行業的最大變化是什麼?是大模型基本消除了幻覺。”
解決幻覺問題以後,AI大模型終於可以快速走向智能體,迎接AI原生應用的大爆發。
例如百度文庫和百度網盤聯合打造的工具類智能體“自由畫布”,讓用戶可以在一塊類似“畫布”的界面上自由拖拽文檔、音視頻等富媒體素材,迅速生成多模態內容。
更讓人驚豔的,是李彥宏提前劇透的無代碼編程工具“秒噠”,由大模型直接生成代碼,不需要人寫一行代碼。
“一個人通過自然語言交互,就可以完成一套系統的搭建,”李彥宏指出,這意味着每個人自己就能指揮多個智能體來協同完成任務,“只要有想法,你就可以心想事成,我們將迎來一個前所未有的,只靠想法就能賺錢的時代。”
AI算力的另一場硬實力競爭
AI幻覺的大幅降低,不僅讓百度自身的AI應用快速進化,也能夠讓更多行業放心用上大模型。不過對於行業落地而言,便宜好用的算力同AI能力本身一樣重要。
因此在談應用之前,我們不妨先談談基礎設施。
得算力者得天下,是大模型時代的共識。
這樣的共識讓GPU企業一飛沖天,也讓單卡算力成爲市場追逐的熱點。不過人們往往忽視了,整個算力集羣的實際性能,並不簡單等於單卡算力之和。
如果說CPU 是一個很複雜的大腦,GPU就是數量巨大的機械臂組合。GPU內的每一個計算核心所做的工作都很簡單,但真正的難度在於如何同時指揮這麼多“機械臂”。
正如戰場上需要及時把指令傳達給每一個士兵,GPU核心之間的通信效率纔是發揮性能的關鍵。
單個GPU內的通信已經會延緩計算速度,而在萬卡集羣之中,GPU之間的通信效率還會有數量級的下降,如果說機內通信帶寬是50的話,機間可能就只有2或3。
顯卡加速一直都是GPU應用中不容忽視的部分,如果做不好加速,萬卡集羣的利用率甚至可能低至10%,90%的算力都被白白浪費。
英偉達70%的人力都用於軟件開發,人們說,英偉達真正的壁壘是基於 CUDA的龐大加速庫。
因此,除了單卡算力之外,集羣效率也是中美之間圍繞算力的另一場硬實力競爭。
在這場競爭中,百度已經用百舸4.0平臺給出了萬卡規模上的優異答卷。
百度集團執行副總裁沈抖在不久前的雲智大會上曾表示,百舸4.0預置了主流的大模型訓練工具,能夠實現工具層面的秒級部署,並將萬卡集羣運行準備時間從幾周縮減至1小時,極大地提升部署效率,縮短業務上線週期。
穩定性方面,百舸4.0有效訓練時長佔比99.5%以上,業界領先,極大地節約了客戶算力與時間成本。此外,通過在集羣設計、任務調度、並行策略、顯存優化等一系列創新,百舸4.0大幅提升了集羣的模型訓練效率,整體性能相比業界平均水平提升高達30%。
而在美國的算力限制下,中國算力平臺還不得不面臨一個特殊難題——需要使用不同規格的顯卡搭建異構集羣,進行多芯混訓
爲此,百舸將不同地點、不同規模的異構算力進行統一管理,構建起多芯資源池。當業務提交工作負載時,可自動進行芯片選型,依據集羣剩餘的芯片資源,選擇性價比最高的芯片來運行任務,從而最大化地利用集羣的剩餘資源。最終,可實現高達95%的萬卡多芯混合訓練效能。
做好國產大模型的基礎設施
憑藉高效的百舸AI異構算力平臺,百度不僅持續升級自己的文心大模型,也在爲更多中國AI企業提供服務。
教育無疑是AI應用最有意義的領域,但是對AI的準確率也提出了更高要求,這就需要深耕教育領域的企業基於垂直數據來訓練模型。
對於好未來這樣的企業來說,自己去購買顯卡搭建算力集羣的投入是難以承受的,而百度百舸爲好未來自研“九章大模型(MathGPT)”早期高效低成本“跑起來”提供了關鍵支撐作用。
基於百度百舸平臺,好未來可以快速、方便的創建出千卡級別的訓推任務集羣。算力方面,集羣最大可支撐 16000 GPU卡的規模;存儲方面,適用於大規模深度學習訓練場景,可提供亞毫秒級(300us)的時延,支持百萬級 IOPS,服務可用性不低於99.95%。
百舸還提供了強大的加速能力,LLaMA2系列、GLM系列等多尺寸模型都實現了訓練指標的最佳實踐,千卡任務加速比保持在90%,訓練吞吐與大模型訓練理論值相當。
百度自身利用百舸訓練文心大模型的成熟經驗,也能夠幫助其它大模型企業快速訓練。
成立於2023年3月的生數科技,僅僅一年後就發佈了被稱爲“國產Sora”的視頻生成大模型Vidu。
在影響用戶體驗的推理速度層面,Vidu實現了業界最快的實測推理速度,生成一段4秒片段只需30秒。而市面上的主流 AI視頻工具在生成4秒左右的視頻片段時,用戶通常需要等待1到5分鐘,甚至更長。
傳統行業的生產力飛昇
在大模型落地層面,直接由大模型催生的AI原生應用看上去酷炫,但是不要忽視了,AI對千行百業傳統生產流程的改造可能會創造更大價值。
李彥宏曾舉例說,“Microsoft 365 Copilot 一年營收 50 億美元,比 OpenAI 全年的收入都大很多倍。僅就對現有產品的改造而言,就已經創造出來這麼多新的價值。”
因此在李彥宏看來,“百度不是要推出一個‘超級應用’,而是要不斷地幫助更多人、更多企業打造出數百萬‘超級有用’的應用。”
在中國,典型的AI應用場景是智能客服,但是傳統的智能客服普遍需要人工提前準備好現成的FAQ,對用戶問題的理解能力也非常有限。而在大模型的加持下,智能客服對自然語言的理解能力出現了質的飛躍,無論是應用範圍還是部署成本都明顯改善,是大模型對於現有產品改造的絕佳案例。
百勝中國是國內最大的餐飲公司,其基於文心大模型打造的AI智能客服系統,已經在爲旗下包括肯德基在內的多個品牌提供服務。
目前,AI客服每天能夠爲百勝中國處理超過15萬次客服溝通任務,問題解決率高達90%;輔助人工客服快速總結溝通曆史,整理歸納訴求,提供建議回覆話術、一鍵發送等功能,提升客服員工產能效率10%。
杭州全診醫學基於千帆平臺和文心大模型打造了AI醫療助理應用,則能夠在導診、預診、診間、入院、手術、隨訪等全階段服務醫生患者。以輔助醫生撰寫病歷爲例,全診醫學通過使用20萬份精標病歷數據對大模型進行了精調,使AI醫療助理的醫學用語更準確、更規範,大幅提升病歷內容質量。病歷生成的準確度提升了45%,醫生的接診量提高了20%,造福更多病患。
大模型的應用不僅限於自然語言理解,也能夠深入改造傳統企業的生產環節。
在能源電力行業,國家電網正在圍繞文心大模型、千帆平臺,結合電力行業高質量數據,聯合百度共創電力行業大模型基礎底座,並在調度、設備、營銷等六大專業領域深入探索。目前,已經在電力設備運檢、供電服務等電力行業核心場景成功完成應用落地。
得益於在全棧AI技術、產品創新和產業落地方面的持續投入,百度智能雲擁有中國最廣最深的大模型產業落地規模,超60%的央企正在使用百度智能雲進行AI創新。百度智能雲千帆大模型平臺已經幫助客戶精調了3.3萬個模型、開發了77萬個企業應用、文心大模型日均調用量超過15億次。
這就是李彥宏說出“應用來了”的底氣:“我是軟件工程師出身,國外有一種說法叫‘軟件吞噬世界’。但我認爲,這個世界不應該被吞噬,而應該被創造。AI時代,應用創造世界。所以請大家和我一起見證,AI applications creating the world。”