闕志克/大語言模型逐漸走向專門化
蘋果公司上個月在年度開發者大會中,發表了整合生成式AI技術進手機應用的成果,名爲Apple Intelligence。這個創新,讓用戶能更流暢地用文字與他人溝通,並藉由圖像表達自己的意念和想法;讓語音助理Siri更深入地整合用戶各個生活層面的訊息,並且同時將保護用戶隱私放在首位。雖然外界原本期望很高,但Apple Intelligence發表後一般的評價爲「不過爾爾」。這個結果其實意料之中,也非戰之罪,因爲手機沒有足夠高效能記憶體,所以大語言模型很難有用武之地。
最先進的通用型大語言模型若要運算順暢,至少需要數百億個位元組,然而現今多數智慧型手機的記憶體總量大都低於一百億個位元組。爲解決此問題,蘋果採取「分而治之」策略,將一個通用型大語言模型拆解成一個核心模型、多個針對特定領域和特定功能,或特定語言的專門模型,及一個分流器。核心模型只擁有處理基本自然語言的能力,程度如同母語基礎良好的高中畢業生。專門模型則深入擷取與學習某特定範疇內的術語、用詞、句法、概念、方法、事實和傳統,功力如長年浸淫、出色當行的學者專家。分流器則負責分析用戶的查詢,調用相對應的專門模型,與核心模型協作以產生最適切的迴應。
基於以上的架構,蘋果將核心模型、分流器和常用的專門模型整合進手機內,但將大部分專門模型留在後端雲服務。針對特定查詢,如果分流器決定需要調用雲端上的專門模型時,它就會將該查詢與相關用戶資料送往雲端,等待迴應。需要雲端處理的查詢當然較耗時,也引發資料隱私的疑慮,所以在推廣Apple Intelligence時,蘋果承諾任何提交到後端雲服務的用戶資料在使用後都會被銷燬。
「可堆疊語言模型」可以大幅減少語言模型訓練與推理時所需的計算量和記憶體需求。道理很簡單,假設一個一千億參數的通用語言模型,可拆解成一百個十億參數的專門語言模型,在訓練時,不但每個專門語言模型的訓練計算量急遽降低,而且這一百個模型更可以同時平行訓練;在推理時,每個推理動作因只需要這一百個專門模型中的一小部分,所以其總體運算開銷也將可望顯著縮減。
可堆疊語言模型的崛起,促使微軟、谷歌、臉書、蘋果等雲端巨頭和許多新創公司,在過去十二個月都紛紛投入小語言模型的研發,意圖開發針對特定用途、但參數量少得很多的專門語言模型。之前大語言模型的目標族羣爲一般大衆,所以需要具備百科全書般的知識,也因此運算資源的需求較龐大。相比之下,小語言模型可以針對特定應用客制,也較適合運用機敏資料作地端訓練,所以功能與資源使用率更高,資料保護度更強,對企業用戶也更有吸引力。
小語言模型的興起,對原來聚焦通用大語言模型、企圖爭取企業客戶的新創公司,如OpenAI、Anthropic、Mistral等將形成重大威脅,但也爲其他圍繞着可堆疊語言模型架構生態圈去開發專門模型的新創公司,打開了一片藍海的商機。臺灣在大語言模型的研發原本處於相對弱勢的地位,但專門化的小語言模型,如同針對特定應用客制的晶片一樣,將爲臺灣AI產業提供了一個能與外商一較高下,以滿足在地企業專門語言模型需求爲商模的大好機會。(作者爲清華大學合聘教授)