大模型諸神之戰:百度率先交作業,QPS提升123%

據4月23日消息,一份百度文心一言技術團隊內部會議紀要流出。從紀要內容中看,在文心一言啓動邀測後一個多月期間,似乎用戶同時在線數的高速增長對文心一言的響應速度提出了挑戰,也對百度內部一直強調的人工智能四層框架“芯片層-框架層-模型層-應用層”中,模型層和框架層的聯合優化協同有了更高要求。

從紀要日期中看,內部飛槳技術團隊從發佈開始截止至4月19日,35天裡對於一言服務已完成4次迭代,最新已迭代至大模型推理服務3.5版本,平均保持着一星期左右完成1次迭代的速率。

關鍵數據一:單機QPS相對線上版本提升高達123%,模型推理效率提升10倍

“大模型推理服務3.5版本(業內首創支持動態插入的分佈式推理引擎)已於04-19凌晨正式迭代,單機QPS相對線上版本提升123%。至此,3月以來,一言服務己完成4次迭代,相對第一版大模型推理服務,單機QPS已累計提升近10倍。“

從去年ChatGPT引爆全球生成式AI的浪潮後,國內千行百業紛紛積極擁抱新浪潮,但對於企業來講,“生成式AI+原業態”相結合的應用創新還處於早期階段,並未有成熟模式可直接遷移使用,因此長期的創新成本投入會使得衆多企業望而卻步。

而此次百度大模型推理服務3.5版本的QPS大幅提升,模型推理效率提升10倍。這將意味着模型推理成本降低爲原來的1/10,或可爲10倍數量的用戶提供服務,這一關鍵數據向市場釋放了大模型技術將更加普惠的信號,意味着大模型在各行業落地的成本將大幅降低,有望加速國內大模型的產業化進程,使得大模型技術“飛入尋常百姓家”。

QPS即表示服務器一秒內可以處理的併發數量,有分析人士解讀認爲,“大模型就彷彿汽車的發動機,光賬面上的動力強,參數大是沒有用的,要壓榨出發動機瞬時最大爆發力(QPS)以及最優的性能表現。”

關鍵數據二:模型推理性能提升50%

“結合一言模型結構特色和量化技術,已經完成2個推理引擎優化版本儲備,預計推理性能再提升50%,模型效果評估中。”

目前對於全球大部分頭部公司來講,均需要基於TensorFlow和PyTorch等深度學習框架進行再開發,無法直接滿足大模型訓練需求。而百度文心一言及背後的大模型,均以自研的產業級深度學習框架飛漿做支撐,此次模型推理性能的提升,也證明自研深度學習框架飛漿對於文心一言快速學習能力的支撐作用功不可沒。分析人士解讀認爲, “仍以汽車發動機舉例,深度學習框架就像是生產發動機和變速箱的,可以讓發動機整體部件組合更精密、動力更強。而百度全棧自研產品彼此適配度更高,協同會更高效,這可能是效率提升的最根本原因。”

關鍵數據三:模型算力利用率提升一倍

“基座模型訓練性能優化:結合飛槳分佈式並行策略優化和訓練精度策略調整,基座模型訓練峰值FLOPS利用率可進一步提升一倍左右。”

數據、算法、算力作爲人工智能三要素,雖然截止至2020年,芯片計算算性能已經提升了600倍,但隨着數據井噴,模型算力仍是行業需要共同面對挑戰。而此次基於飛槳分佈式並行策略優化和訓練精度策略調整,將模型算力利用率提升一倍,可以說是百度人工智能四層架構實現端到端優化、形成反饋閉環的最佳體現。

隨着3月16日百度作爲全球大廠中第一個發佈類ChatGPT的生成式AI產品文心一言後,4月開始,商湯、阿里、華爲、騰訊等互聯網大廠、頭部AI公司相繼進行大模型發佈,生成式AI正式進入“諸神之戰”,但發佈只是第一步,率先實現技術、場景落地與成本的完美平衡,或許纔是國內大模型未來的最佳實踐路徑。