「羣體智能」劍指AGI革命!國產架構挑戰Transformer霸權,首款非Attention模型更新
新智元報道
編輯:編輯部
【新智元導讀】通往AGI的路徑只有一條嗎?實則不然。這家國產AI黑馬認爲,「羣體智能」或許是一種最佳的嘗試。他們正打破慣性思維,打造出最強AI大腦,要讓世界每一臺設備都有自己的智能。
通往AGI終極之路,是什麼?
這世界,沒有一個完整的定義,也沒有具體的答案。
此前曝出的OpenAI秘密路線圖,將通往AGI目標劃分五級。
而「草莓」o1模型出世,代表着第二級已經實現。
李飛飛估值10億美金獨角獸World Labs,將「空間智能」看作通向AGI重要的橋樑。
他們計劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動。
國內一家AI初創團隊,對此也有不同的看法。
他們認爲,「羣體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個設備都擁有自己的智能,能夠以類人的方式交互。
不過,實現這一想法的前提是,我們需要一個創新的算法架構。
值得一提的是,這個團隊卻做了一件「反直覺」的事——首創非Transformer獨特路線。
基於全新架構,他們打造的Yan系列模型已經植入到樹莓派、機器人、AIPC等終端設備中。
恰在RockAI開放日上,多模態模型Yan1.3全面升級,直接擊敗開源Llama 3,「真端側」最強大腦誕生了!
模型端到端,秒級實時人機交互
全新迭代後的Yan1.3,支持從文本、音頻、視覺輸入,並以語音、文本方式輸出。
它模擬了人類複雜的感知系統,既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達。
可以說,它是全球首個人機交互領域中,端到端的多模態大模型。
憑藉出色的架構設計,Yan1.3模型在兼容性和性能,取得了最優的表現,從低算力到高算力全面覆蓋。
在不同終端上的體驗,多模態Yan1.3更是實現了秒級實時響應。
在CPU上秒級響應,GPU上更是有百毫秒級的人機交互,體驗非常絲滑趕超雲端的大模型。
不如一起來看看,Yan1.3在手機、PC、機器人、無人機上,如何無損部署的。
低配1500元可跑,真·AI手機來了
在人手一臺手機的時代,搭載一個本地的大模型,那纔是真·AI手機。
現場演示中,離線部署Yan1.3 3B參數的手機,直接斷網,上演了不用聯網也能體驗LLM的精彩一幕。
告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令後,瞬間給出了關於上海的一些簡單概要。
它還可以跨應用,完成系統的調用。
讓它打開相冊,並找出一張夕陽的照片。
RockAI不僅準確找到了夕陽照片,還給出了小紅書的風格描述,這種費腦的事兒,它全部代勞了。
更驚豔的是,告訴它今天是小明生日,並幫自己爲其送上祝福。
RockAI直接進入短信界面,自動生成編輯了一段內容,你所做的就是點擊「發送」了。
可見,一個30億參數離線模型,同時具備了以文找圖、以圖生文,Agent、語音助手等能力,強大到足以讓人震撼。
在同等的手機硬件配置上,Yan1.3模型相比Transfomer有30%的性能超越。
或許有的人會問,能夠運行這樣的模型,一定需要高配的手機。
RockAI聯創鄒佳思稱,從低端¥1500到中端¥3000配置,而且還只是8G運行內存,都可以無損適配。
懂人話高效助手,AI PC更便利
不僅如此,在個人PC上,業界早就掀起了AI PC的概念。
但若是沒有在設備端完全部署模型,AI能力的使用會嚴重受限。而且,AI PC根本無法普及到大多數用戶。
接下來,這段現場演示中,直接爲AI PC掐斷了網線。
上傳一段主持人的天氣預報音頻,然後AI智能助手將其實時轉錄成了文字。
轉寫完成後,還能幫你立即總結出一份摘要。
另外,每個人辦公時均會遇到一個困擾,「xxx圖片」誰知道保存到了哪個文件夾。
現在,這個煩惱完全可以打消了。
只要一句話,AI智能助手就能直接幫你找到想要的那個圖片。
而且,它還可以支持以圖搜圖的方式。
這些功能的實現,僅需要一臺配備英特爾Core i5主機即可流暢運行。
四步成詩,輕鬆拿捏新中式
Yan1.3還在人形機器人上,實現了離線運行。
我們都知道,構成機器人最核心的三要素,便是大腦、小腦、本體。
如果讓一個冰冷的機械,同時具備「看聽說想動」的能力,並基於已有的知識完成決策,最後指揮肢體進行行動。
這樣的前提,一定是離不開大模型、分層控制算法的植入。
當你呼叫小蘇小蘇,你看見了什麼?
憑藉強大的多模態認知能力,它準確地描述出了當前周圍的環境和佈局。
另外,Yan1.3「大腦」控制的軀體,還能完成各類高效複雜的任務。
現場,讓小蘇吟詩一首——關於冬天的七言絕句,並在4步之內完成。
只見小蘇一邊走,一邊完成了絕美的創作。
有趣的是,當小蘇吟詩後離拍攝者太近,讓它讓一讓。
只見,憨態可掬的它向另一邊慢慢踱步。
其實,在今年世界人工智能大會上,搭載Yan模型,基於樹莓派打造的胖虎機器人就亮相了。
它在現場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。
城市巡檢拍照,無人機全包了
而在無人機方面,搭載Yan1.3後的用法就更多了。
它不僅可以治安巡邏、交通巡檢,異常監控,還可以當那個爲你抓拍美照的「男友」。
當然了,智能巡檢這類任務,對於一個城市管理來說非常重要。
植入離線模型的無人機,可以從多方位感知環境,快速識別圖像信息,自適應調整飛行高度。
它可以搭配手機,完成「端」和「端」的互聯操作。
交通巡檢過程中,它可以智能識別違規車輛,並將信息傳送到手機上。
當你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。
它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。
可見,全新升級的Yan1.3已經賦予了每個端側設備「靈魂」。
它不僅在無人機、機器人、PC、手機等終端設備中,絲滑適配,而且模型智能能力迎來了全新升級。
無需閹割模型,讓端側設備具備了完整性、可持續性。
這種類人的輸入輸出過程,不僅大幅地提升人機交互的質量,還爲未來教育、醫療等行業開闢了更廣闊的應用場景。
當一個最強端側完成進化,那麼一羣最強端側協作,能夠實現什麼?
簡言之,羣體智能。
羣體智能,怎麼實現?
其實,羣體智能,很早就存在於生物界。
蟻羣會一起搬運食物、搭建蟻巢;蜜蜂會各司其職,協作維護蜂巢;狼羣結隊,捕獲獵物等等。
這些都是,生物界羣體智能的體現。
縱觀生物界的發展,能夠得出一個基本規律——個體智能化程度越高,羣體智能的表現力越強。
就像人類一樣,我們的羣體智能,所表達出的文明程度遠遠高於蟻羣、蜂羣、狼羣.......
從中汲取靈感,人工智能也會有「羣體智能」。
單元大模型的智慧,能夠反哺整個大模型羣體,進而讓AI羣體更聰明、更智能。
或許你會說,其實國外很多研究,早就通過多個智能體協作,實現了高性能羣體智能。
其實不然,它們之間有着本質的區別。
智能體本身,存在一個很大缺陷——不具備自主學習能力。
而且,智能體之間的協作,也是一個很小範圍的協作。
究其根本,是因爲基於Transformer架構大模型搭建的智能體,實現自我訓練非常困難。
羣體智能中最核心的要素便是個體,也就是「端」。
而基於Transformer架構的模型,若想在端上運行、並自主學習,根本不可行。
因爲模型通常會被量化裁剪壓縮之後,纔會植入端設備。而被閹割之後的模型,就不再具備學習能力。
那該如何破解?
爲了實現羣體智能,RockAI經過多年的技術沉澱,獨創了不同於Transformer的MCSD架構,並且提出了「類腦激活」機制。
這條路線,與OpenAI、World Labs有着本質區別,是國產公司在AGI前沿另闢蹊徑的嘗試。
Transformer不是唯一路徑
當前的現狀是,大模型領域早已呈現出Transformer「一家獨大」的格局。
用AI大神Karpathy的話說:最先進的GenAI模型,要麼是自迴歸訓練,要麼是擴散訓練,底層的神經網絡通常都是Transformer架構。
雖然Transformer自身有許多優秀的特質,但不可否認,這仍不是一個百分百完美的架構。
甚至,有很多業界AI大佬已經看到了其中的巨大弊端。
首當其衝的,就是被詬病已久的幻覺問題。
Yann LeCun認爲,LLM的幻覺根源於當前所使用的自迴歸Transformer架構。
「幻覺問題是自迴歸LLM架構特有的」「自迴歸LLM會產生幻覺…幻覺是自迴歸生成的本質缺陷」
這種架構上的本質缺陷,註定了有一天我們要走出Transformer生態,就像曾經90年代末走出SVM生態、3年前走出BERT生態一樣。
就連提出Transformer核心架構作者之一Aidan Gomez認爲,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。
「現在使用了太多計算資源,做了很多浪費的計算」
部署方面,基於Transformer架構模型對終端設備運行內存、儲存空間提出了更高要求,同時壓縮後的模型,在實際推理上大打折扣。
能源方面,今年3月,馬斯克表示,2025年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運行transformers(模型)。」
很明顯,無論是從減少幻覺、推動技術進步的角度,還是從環境保護、促進GenAI發展可持續的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構誕生。
國內首個非Attention機制
RockAI首次提出的MCSD(Multi-Channel Slope and Decay)架構就是跳出Transformer路線的一次絕佳嘗試。
而MCSD最大的特點,便是替換了Transformer架構中的注意力機制。
隨着序列長度的增加,Transformer架構對計算資源的消耗呈現O(N^2)增長,相比之下,MCSD實現了線性擴展,而且推理速度更快,將空間和時間複雜度分別降低到了O(1)和O(N)。
直白講,MCSD全新架構能夠將算力消耗降至更低。
也就意味着,基於此架構打造的模型,在端側設備上運行有了新的可能。
論文地址:https://arxiv.org/abs/2406.12230
MCSD的具體架構如圖1所示,由嵌入層和N個相同的組合層堆疊而成,每個組合層中由兩個殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個RMS歸一化模塊,並使用GeLU作爲激活函數。
MCSD塊的內部結構如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預定義矩陣捕捉局部和全局特徵。
兩個部分均採用了雙分支設計,一個分支負責進行線性投影,另一個通過聚合前面token的上下文信息來提取多通道歷史特徵,之後兩個分支進行擾動(perturbation)操作。
slope和decay部分主要存在兩方面的區別,一是預定義權重不同,因此在提取歷史信息時對上下文的感知能力不同,前者更注重短程上下文,後者則更關注全局上下文。
將slope和decay兩部分的輸出進行拼接後就得到了MCSD塊的輸出,這兩者的組合使得模型既能關注到距離更近的歷史信息,也不會丟失更遠的長距離上下文,從而同時增強了局部和全局的特徵提取。
此外,論文還提出通過遞歸形式簡化推理計算,將推理所用的空間和時間複雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。
實驗數據顯示,隨着序列逐步變長,KV緩存的存在讓Transformer推理的內存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內存也幾乎不變。
給定序列長度後,隨着批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩定。
此外,有相同批大小或序列長度時,MCSD的吞吐量性能也遠遠好於Transformer架構。
除了大大節約吞吐量、延遲、內存消耗等方面的成本,MCSD還在基準測試上有更佳的性能。
類腦激活機制
基於MCSD架構,RockAI實現了能在「端側」運行羣體智能單元大模型。
但這並不代表着,能夠在更多端側上實現最優性能。
因此,RockAI還在Yan系列模型中採用了獨創的「類腦激活」機制,實現基於仿生神經元驅動的選擇算法。
在主流的神經網絡中,每次推理都需要激活全部神經元,這會導致大量算力浪費。
而人腦的運作並非如此。
不同的大腦區域負責不同的認知功能,因此不同的執行不同的任務只會造成一部分腦神經元的激活,而且激活的區域也各有不同。
比如開車時,視覺皮層會更加活躍;而寫作時,掌管記憶或邏輯的腦區激活程度更高。這也許就是爲什麼,相比調動每個處理單元的計算機,大腦明顯更加「節能」。
因此,模擬大腦中的神經元激活模式,可以讓神經網絡更加高效地處理複雜數據和任務,從而顯著提升計算效率和精度。
通過以上兩種方式結合,一是用MCSD替換注意力機制,而是通過選擇性神經元計算,帶了極致低算力消耗。
正是基於如此強大的「雙機制」,RockAI在今年1月發佈了國內首個非Transformer架構的大模型Yan 1.0。
隨之7月,發佈了國內首個終端多模態大模型Yan 1.2。
經過幾次迭代,目前已經升級爲端到端的多模態Yan 1.3,代表着邁向羣體智能的新起點,是羣體智能的單元大模型。
厚積薄發,終極目標邁向羣體智能
要實現AI的羣體智能,並不是一件簡單的事,提出MCSD架構和「類腦激活」機制,只是一個開始。
爲了達到羣體智能,RockAI將這個大目標分解爲4個階段的子目標,一步步穩紮穩打。
目前,他們已經跨越了第一級,正在完成第二級的躍升。
創新基礎架構,是要跳出Transformer的既定路線,旨在實現模型性能效率的跨越式發展;
多元化硬件生態,則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態,才能爲羣體智能創造實現條件。
隨着Yan 1.3模型的發佈和廣泛部署適配,意味着前兩個階段的目標已經基本實現。
從Yan 1.0到Yan 1.3,不僅覆蓋了更多設備,還實現了端到端的多模態支持。
輸入輸出形式包含了文本、語音、視覺在內的多模態,不但大大方便人機交互,還能讓多個AI模型之間更靈活地交流同步。
下一步,RockAI將繼續發佈Yan2.0,繼續強化模型的自主學習、自我優化能力,讓AI更好地和真實的物理世界交互。
在Yan系列智慧生態的基礎上,持續的羣體進化將成爲可能,最終繪製出「羣體智能」的未來藍圖。