☰

百度不做Sora的理由，李彥宏講清楚了

文｜周鑫雨

編輯｜蘇建勳

2024年11月12日舉辦的百度世界大會上，探討“什麼是有價值的AI應用”成了主題。

百度集團創始人、董事長兼CEO李彥宏提到，將大會主題定爲“應用來了”，代表百度對於當前大模型和生成式人工智能時代的認知和判斷。

△文心大模型的日均調用量變化。

目前，文心大模型的日均調用量已經超過15億。李彥宏認爲，如果文心大模型調用量一年能漲10倍，意味着市場需求確實存在。他提到，事實上，文心的調用量，在半年內的增長就接近10倍。

在會上，李彥宏提到了幾個共識：

首先，檢索增強（RAG）成爲了行業共識，因爲消除“幻覺”，是模型行業落地的必須。李彥宏認爲，過去24個月，大模型的最大變化是基本消除了“幻覺”。

其次，智能體是AI應用最主流的形態，是AI原生時代內容、信息和服務的新載體。

“智能體”，無疑是世界大會上出現最高頻的術語。李彥宏將智能體比作PC時代的網站和移動時代的自媒體，區別在於，智能體更像人、更智能。

他提到了智能體的4個應用方向：公司類（如銷售客服）、角色類（如數字人直播）、工具類（如行業報告智能生成）、行業類。

技術的商業價值，也是李彥宏在發言中反覆提起的主題。

比如，他認爲iRAG的商業價值在於無幻覺、超真實、沒成本、立即可取。

△李彥宏發言

具體到0代碼開發工具“秒噠”的發佈，李彥宏認爲產品價值在於實現了生產力的無限擴張。用他的話來形容，這是“一個前所未有的只靠想法就能賺錢的時代”。

在產業落地層面，李彥宏提到，大模型帶給行業的價值增量，體現在兩個層面：降本和增效。

目前，百度智能雲千帆大模型平臺已經精調了3.3萬個模型，開發了77萬個企業應用，一半以上的央國企都是千帆的用戶。

文庫和網盤融合了

在2024年9月的架構調整中，百度網盤迴歸了MEG，被劃分到了文庫BU——這也爲兩個內容工具型應用的生態打通，埋下了伏筆。

百度副總裁、百度文庫兼百度網盤負責人王穎看來，以往文庫和網盤的用戶具有以下兩個痛點：

一方面，不同形式、品類、格式的素材，無法在同一個平臺上編輯操作，也無法生成任何形式、格式的內容；

另一方面，文庫中的公域知識，和網盤中的私域知識，是分開存儲的，無法協同形成完整的知識。

百度文庫上線的“自由畫布”功能，就成了打通文庫和網盤內容的橋樑。在李彥宏看來，自由畫布本質上就是一個工具類智能體。

就像一個智能白板，用戶能夠通過點選、對話、框選，自由選擇和組合文庫和網盤上需要操作的內容。

基於背後的MoE（混合專家模型）架構和多模態模型，自由畫布可以支持文字、圖像、視頻等文件的跨模態處理，最後也能生成圖文等跨模態內容。

而這些經自由畫布生成的多模態內容，適配的是微信朋友圈、小紅書的圖+文、視頻+文內容生態，也能生成帶圖表的研報等專業領域內容。

△自由畫布根據要求生成了孫悟空來現代探險的小說、漫畫和視頻。

在AI工具型產品苦尋變現模式的當下，王穎卻認爲，網盤和文庫的商業模式天生與大模型產品非常匹配。

她告訴《智能涌現》，文庫和網盤的收費模式，本質上是和用戶分潤，產品通過給用戶帶來價值、幫他們掙到錢，來提高用戶的留存率和付費率。

“AI能力能夠拓展產品功能的邊界，組合出來的產品變得更多，給用戶帶來更多的權益，也會讓付費轉化率變高。”王穎對《智能涌現》表示。

做Sora之前，先解決“幻覺”

即便李彥宏提到，目前文字和RAG（檢索增強）技術的結合已有成效，但他也指出，圖像和RAG技術的結合還遠遠不夠。

“多模態模型目前沒有大規模應用，是由於幻覺問題還沒有解決。”李彥宏在發言中指出。

這一認知，也決定了百度面對Sora的態度。李彥宏提到，在Sora出現時，百度的決策不是跟進，而是着手解決多模態的幻覺問題。

在會上，百度發佈了iRAG，一項基於檢索增強的文生圖技術。用李彥宏的話來說，iRAG可以去除生成圖像的“機器味”。

△基於iRAG生成的圖片。

百度CTO王海峰在會上介紹了iRAG實現可控生圖的技術鏈路：

首先，大模型對用戶的需求進行分析理解，自動規劃精確或者泛化的方案，比如對哪些實體進行增強；

接着，在增強階段，對需要增強的實體進行檢索，並且選擇對應的參考；

最後，在生成階段，百度自研了多模態可控生圖技術。一方面，通過局部注意力計算，大模型能夠在保持實體特徵不變的情況下，實現圖像的高泛化生成；另一方面，通過整體注意力計算，實現圖像的高精確生成。

小度做了副AI眼鏡

2023年換上大模型“大腦”的小度，這次推出的不再是音箱，而是百度的第一副眼鏡：小度AI眼鏡。

△小度AI眼鏡。

在硬件層面，這幅眼鏡自重僅45g，低於行業平均重量49g。爲了提高成像效果，眼鏡搭載了1600萬像素超廣角鏡頭和AI防抖算法；爲了提高聲音識別準確率、降低漏音，眼鏡採用了四麥陣列和開放式防漏音揚聲器設計。

在續航能力上，小度AI眼鏡用30min就能充滿電，實現56小時待機，超5小時連續聆聽。這三個指標均超過了行業標杆水平。

將小度AI眼鏡與普通眼鏡進行區別的，還是在“AI”上。

基於文心大模型和DuerOS AI原生操作系統，小度AI能夠實現第一視角拍攝、邊走邊問、識物百科、視聽翻譯、智能備忘、歌單等功能。

據百度集團副總裁、小度科技CEO李瑩介紹，小度AI眼鏡將在2025年上半年上市。

一個0代碼開發工具，就是一支智能體團隊

會上，百度還官宣了“秒噠”，一個將在2025年Q1上線的0代碼應用開發平臺。

相較於其他的0代碼開發平臺，秒噠的特色是，應用的開發過程，由多個多智能體進行協作。

△“秒噠”。

比如，在網頁製作過程中，網頁的代碼編寫和部署由程序員智能體完成，網頁中的文案由寫作智能體完成，文案中最新的資料由檢索機器人上網查詢，其中的配圖又由擅長生圖的智能體實現。

最後，負責質檢的智能體，還會利用反思能力，運行測試代碼，發現其中的bug，並與程序員智能體進行配合修改。

多智能體協作，不僅應用在了針對小白開發者的“秒噠”上，還運用在了針對專業程序員的文心快碼Comate上。

王海峰介紹，Comate已經迭代到了3.0版本。在開發全流程中，Comate 3.0中的不同智能體可以實現自動代碼質檢、代碼補全等功能，目的是提高程序員的工作質量和效率，讓其把更多精力投入到探索和創新。

歡迎交流！

百度不做Sora的理由，李彥宏講清楚了

相關資訊