百川智能王小川:99%的行業大模型都可能被替代
"99%的行業大模型都可能被替代",百川智能聯合創始人、聯席總裁洪濤一語落地,震驚四座。
百模大戰中,行業大模型一直都是焦點所在,原因歸結起來有兩點,一是和研發廠商的技術、業務結合快,二是需求明確,實際落地速度與商業化遠超於通用大模型。
但這樣的行業大模型通常得靠微調、精調的方式來完成,弊端也十分顯而易見,訓練時間長、部署成本高,還涉及企業數據隱私問題。
基於此,國內外都在找尋最優解,並形成了兩種探索路徑:
一種以Pinecone、Zilliz爲代表的數據庫公司,帶火的向量數據庫路線;一種是OpenAI引領起的RAG(檢索增強生成)路線。
若以形象的比喻來解釋,精調、向量數據庫和RAG三者的區別,大模型微調好比供一個孩子從小學唸到大學甚至研究生;向量數據庫和RAG則更像開卷考試,不需要學習理解就能給出答案。
簡而言之,向量數據庫和RAG都是在不更改模型的基礎上,通過一些"外掛"的手段來提升大模型應用的準確性,以此來彌補大模型自身存在的幻覺、時效性差、缺乏專業領域知識等缺陷。
儘管是兩條路徑選擇,但向量數據庫和RAG也不是完全對立,向量數據庫中需要檢索,RAG過程中也存在向量化階段,只不過側重點有所不同。
在國內,騰訊更加側重向量數據庫方向,並將其升至戰略地位,做出了"大模型是計算引擎,改變的是計算方式,存儲需要向量數據庫"的判斷。
12月,百川智能開放基於搜索增強的Baichuan2-Turbo系列API,結合RAG和向量數據庫兩條路線,打出了一套"大模型+超長上下文窗口+搜索增強知識庫"的組合拳。
百川智能創始人、CEO王小川也給出了自己的論斷:"大模型+搜索增強是大模型時代的新計算機,大模型類似於計算機的CPU,互聯網實時信息與企業完整知識庫共同構成了大模型時代的硬盤"。
"從方方面面來看,搜索增強要比精調行業大模型更具性價比",王小川道。
光錐智能在溝通會現場對話王小川,深入瞭解,作爲較早選擇RAG和向量數據庫路線的企業,如何在技術上進行思考和突破?又如何在行業應用中落地?
核心觀點如下:
1、搜索增強是大模型走向實用的第一步,甚至是最關鍵的一步。
2、大模型+搜索構成完整技術棧,實現了大模型和領域知識、全網知識的全新鏈接。
3、大模型+搜索增強是大模型時代的新計算機,大模型類似於CPU,互聯網實時信息與企業完整知識庫是硬盤。
4、避免項目化,用產品化取代項目化,用定製化的能力,實現企業的低成本定製。
5、中國大模型技術進化比想象中要快得多,追趕方向主要集中在文本領域。
以下爲對話實錄:
Q:在RAG提出之前,行業有哪些解決大模型缺陷的手段?
王小川:業界探索了多種解決方案,包括擴大參數規模、擴展上下文窗口長度、爲大模型接入外部數據庫,使用特定數據訓練或微調垂直行業大模型等。這些路線各有優勢,但也都存在自身的侷限。
例如,持續擴大模型參數雖然能夠不斷提升模型智能,但是需要海量數據和算力的支撐,鉅額的成本對中小企業非常不友好,而且完全依靠預訓練也很難解決模型的幻覺、時效性等問題。所以,業界亟需找到一條集諸多優勢於一體的路徑,將大模型的智能切實轉化爲產業價值。
Q:百川智能提出的"搜索增強"概念與大火的RAG技術思路十分契合,如何理解"大模型+搜索"?
王小川:大模型+搜索增強是大模型時代的新計算機,大模型類似於計算機的CPU,通過預訓練將知識內化在模型內部,然後根據用戶的Prompt生成結果;上下文窗口可以看做計算機的內存,存儲了當下正在處理的文本;互聯網實時信息與企業完整知識庫共同構成了大模型時代的硬盤。
基於這一技術理念,百川智能以Baichuan2大模型爲核心,將搜索增強技術與大模型深度融合,結合此前推出的超長上下文窗口,構建了一套大模型+搜索增強的完整技術棧,實現了大模型和領域知識、全網知識的全新鏈接。
Q:通過搜索增強如何來解決大模型現在存在的問題?
王小川:搜索增強能夠有效解決幻覺、時效性差、專業領域知識不足等阻礙大模型應用的核心問題。一方面,搜索增強技術能有效提升模型性能,並且使大模型能"外掛硬盤",實現互聯網實時信息+企業完整知識庫的"全知"。
另一方面,搜索增強技術還能讓大模型精準理解用戶意圖,在互聯網和專業/企業知識庫海量的文檔中找到與用戶意圖最相關的知識,然後將足夠多的知識加載到上下文窗口,藉助長窗口模型對搜索結果做進一步的總結和提煉,更充分地發揮上下文窗口能力,幫助模型生成最優結果,從而實現各技術模塊之間的聯動,形成一個閉環的強大能力網絡。
Q:在技術路徑上,"大模型+搜索"是怎樣實現的?
王小川:在長上下文窗口和向量數據庫的基礎上,將向量數據庫升級爲搜索增強知識庫,極大提升了大模型獲取外部知識的能力,並且把搜索增強知識庫和超長上下文窗口結合,讓模型可以連接全部企業知識庫以及全網信息,能夠替代絕大部分的企業個性化微調,以此來解決99%企業知識庫的定製化需求。
但在實現過程中,存在着諸多技術難題。搜索增強方面,用戶的需求表達不僅口語化、多元化,並且還與上下文強相關,因此用戶需求(Prompt)與搜索的對齊成爲了大模型獲取外部知識過程中最爲核心的問題。爲了更精準地理解用戶意圖,百川智能使用自研大語言模型對用戶意圖理解進行微調,能夠將用戶連續多輪、口語化的Prompt信息轉換爲更符合傳統搜索引擎理解的關鍵詞或語義結構。
百川智能還參考Meta的CoVe(Chain-of-Verification Reduces Hallucination in Large Language Models)技術,將真實場景的用戶複雜問題拆分成多個獨立可並行檢索的子結構問題,從而讓大模型可以針對每個子問題進行定向的知識庫搜索,提供更加準確和詳盡的答案。同時通過自研的TSF(Think Step-Further)技術,百川智能的知識庫可以推斷出用戶輸入背後深層的問題,更精準的理解用戶的意圖,進而引導模型回答出更有價值的答案,爲用戶提供全面和滿意的輸出結果。
Q:大模型+搜索的測試和運行效果達到了什麼樣的水平?
王小川:百川智能通過長窗口+搜索增強的方式,在192K長上下文窗口的基礎上,將大模型能夠獲取的原本文本規模提升了兩個數量級,達到5000萬tokens。並且通過了業內公認最權威的大模型長文本準確度測試——"大海撈針"測試,對於192k token以內的請求,可以實現100%回答精度。
對於192k token以上的文檔數據,百川智能結合搜索系統,將測試集上下文長度擴展到 5000w tokens。分別評測了純向量檢索和稀疏檢索+向量檢索的檢索效果,測試結果顯示,稀疏檢索+向量檢索的方式可以實現95%的回答精度,即使在5000萬tokens的數據集中也可以做到接近全域滿分,而單純的向量檢索只能實現 80%的回答精度。
Q:百川智能在推動2B落地過程中,發現了行業大模型的哪些問題?行業大模型爲什麼推進不下去?
王小川:行業大模型雖然是針對行業中需求而誕生的,但是現狀是概念炒得很熱,卻沒有良好的實踐,面臨重重困難。
行業內提出了L0、L1的概念,L0是標準模型,L1是指在上面經過垂直的領域數據進行改造。普通的改造有兩個做法,一個是SFT(注:監督微調,通常在預訓練的大語言模型上使用)一個是Post-train(注:模型訓練後的調參、壓縮、部署階段。)行業大模型的改造跟訓練模型是一個事情,雖然SFT下降了1—2個數量級的難度,技術實現上依然很難,還需要模型公司的人才介入。對企業來說,這是一個巨大的挑戰和資源消耗,而一旦開始就需要GPU算力的支撐,做訓練而不是推理,成本非常高。儘管投入大,但訓練模型就跟"煉丹"一樣,不能保證效果,還有可能會下降。再有,一旦數據或者算法更新了,企業就得再重訓一次。當數據發生變化,需要引進實時數據,模型基座需要升級時,之前的訓練又會徹底歸零,還得重來一次。
我們不完全否定做行業大模型這件事,但是依然覺得在大部分場景下,搜索增強是可以替代行業大模型。
Q:爲什麼說搜索增強可以替代行業大模型?搜索增強纔是走向應用的關鍵?
王小川:大家都在呼籲大模型要走向實用和落地,但在今天,尤其從國內來看,搜索增強纔是大模型走向實用的第一步,甚至是最關鍵的一步,沒有搜索增強的大模型在企業裡沒法落地。
用知識庫加上搜索增強之後,直接把系統掛上去,即插即用,把"硬盤"掛上去就可以用了,並且搜索的穩定性也會好很多,避免原有做Post-train或SFT的時候可靠性、穩定性都不夠,現在不管用向量檢索,還是用稀疏檢索都能很大程度提升。畢竟剛纔提到原來知識庫拖進去,訓練完了,只要發現數據更新就得重新訓。現在用"硬盤"掛接方式即插即用,避免了原來模型升級的時候,模型跟你的體制是分離的,模型升級模型的,硬盤升級硬盤的。比現有訓練行業模型,用搜索增強+大模型的方式會帶來很大優勢。
Q:搜索增強能撬動哪些行業?將帶來哪些新的改變?
王小川:大模型+搜索增強解決方案解決掉幻覺和時效性問題後,有效提升了大模型的可用性,拓展了大模型能夠覆蓋的領域,例如金融、政務、司法、教育等行業的智能客服、知識問答、合規風控、營銷顧問等場景。
一個是大量文本數據的,有文本數據的,需要把文字的know how去做處理的,第二個是跟客戶打交道的,他需要跟客戶溝通,比如客服的場景,或者回答客戶問題的,這兩個場景比較集中,發揮大模型的兩個優勢,有無限供給的能力。
Q:百川智能商業化進展到了什麼階段?如何思考定製化和產品化的關係?
王小川:在商業化線索溝通中,百川智能發現,前期很多客戶想了解大模型,很多人來問大模型到底是什麼,能幹什麼。而最近兩個月,客戶的問題越來越具體,已經有一些場景感受到能用大模型了。但是解決的時候比較痛苦,最基礎的是微調,狠一點的 SFT、Post-Training 都會提,但這些其實都很重。我們現在做這件事的目的就是告訴客戶,我能快速地落地到你的實際應用去,所以現在無論是私有化場景的,還是API場景的,很多客戶都在溝通,我們這次發佈的產品就是解決他們這個問題。
所謂定製化,customize,更準確地說是個性化,客戶天生有個性化的需求。百川希望避免的,是項目化,用產品化取代項目化,是指產品具有定製化的能力,能夠實現企業的低成本定製。
核心還是成本,客戶成本高,項目利潤低。相對能盈利的2B公司,賣的大多是產品,而大多數定製化是項目。搜索增強的完整技術棧,目的就是讓API外掛企業知識庫實現定製化,是一款產品,可配置、可調整。我們也希望在爲私有化客戶做定製化的時候,用產品組合的方式來做,而不是用全都重新開發一遍的方式做。
Q:百川智能作爲大模型浪潮的親歷者,回顧這一年,經歷了哪些階段?
王小川:中國現在來講總的分成三個階段。
第一個階段是恐慌期,OpenAI發佈了ChatGPT後,中國公司還沒有,數據飛輪美國先跑起來,那時大家都在討論是不是AGI要來了;
第二個階段是投入期,比如我開始做百川智能,大家都開始動起來了,不斷地有人加入進來,所有的關注點都在大模型上;
第三個階段是高速迭代期,無論是資本、學術還是業界,每天都能看到新的進展,我們的技術人員每天都在跟進最新的東西,讓自己不斷迭代和改進,行業中的發展速度其實超出外界媒體和資本圈的看法,目前還是在快速迭代。
Q:如果從技術視角看,中國的大模型更新迭代有哪些特點?
王小川:首先,中國大模型技術進化比想象中要快得多。剛開始大家都覺得美國的優勢特別明顯,我們追不上。但後來包括百川智能在內的各家大模型出來以後,才發現在有些場景中比GPT-3.5甚至4還要好一些,這是已經發生的事實。比如百川智能,6月份發第一款模型,7月份發第二款,8月份發500億參數,一直在往前進行中,在開源領域還是美國的替代產品。
第二個特點是,國內追趕的方向還是集中在文本領域。文本代表着智力化水平,我們認爲在追趕智力水平上,把文本放在第一位的公司,是在朝着長遠方向走。GPT到GPT-4也纔開始有了GPT-4V多模態,所以那些考慮音頻、圖像、視頻的公司,這個時候反而不是在一個方向競爭。
我估計中國公司未來有彎道超車的機會,因爲我認爲對於文本方向的追趕、大模型智力的提升是行業最應該關注的事情,包括長窗口、參數量大的多模態(今天所說的羣體智能)都是在朝着這個方向努力。雖然不只有多模態一條路,但多模態是離應用最近的一件事,當中國一頭扎進應用方向的時候,可以用更小的多模態模型推動落地。