追風DeepSeek 人工智能巨頭競相打造低成本模型
參考消息網3月6日報道 據英國《金融時報》網站3月2日報道,美國開放人工智能研究中心(OpenAI)、微軟公司和元宇宙平臺公司(Meta)等領先的人工智能(AI)公司正在全球競爭中轉向一種被稱爲“蒸餾”的過程,以創建較便宜的AI模型供消費者和企業使用。
大模型訓練小模型
由於中國的深度求索公司(DeepSeek)利用這項技術,在競爭對手Meta和阿里巴巴發佈的開源系統基礎上構建了強大高效的AI模型,該技術引起了廣泛關注。這一突破動搖了人們對硅谷在AI領域領導地位的信心,導致華爾街投資者把美國大型科技公司的市值抹去了數十億美元。
通過“蒸餾”,AI公司使用一個大型語言模型(被稱爲“教師”模型)生成數據,然後用來訓練較小的“學生”模型,幫助將大模型的知識和預測結果快速傳遞給較小的模型。
儘管“蒸餾”技術已被廣泛使用多年,但最近的進展使行業專家相信,這一過程將越來越多地爲尋求以具有成本效益的方式在該技術基礎上構建應用程序的初創公司帶來福音。
OpenAI平臺的產品主管奧利維耶·戈德芒說:“‘蒸餾’技術非常神奇,這個過程本質上是採用一個非常大的智慧前沿模型,用該模型來訓練一個較小的模型……在執行特定任務時非常能幹,成本極低、速度極快。”
大型語言模型(比如OpenAI的GPT-4、谷歌的“雙子座”和Meta的Llama)需要大量的數據和算力來開發和維護。儘管這些公司沒有透露訓練大型模型所需成本的確切數字,但很可能高達數億美元。
由於有了“蒸餾”技術,開發人員和企業能以低廉的價格使用這些大型模型的功能,從而使應用程序開發者能夠在筆記本電腦和智能手機等設備上快速運行AI模型。
開發者可以使用OpenAI的平臺進行“蒸餾”,從支撐ChatGPT等產品的大型語言模型中學習。OpenAI最大的支持者微軟利用GPT-4“蒸餾”得到名爲“Phi”的系列小型語言模型,這是在微軟向OpenAI投資近140億美元后雙方商業合作伙伴關係的一部分。
“蒸餾”模型有侷限性
雖然“蒸餾”技術可用來構建高性能模型,但專家們補充說,這些模型的侷限性較大。
微軟研究院的艾哈邁德·阿瓦達拉表示:“‘蒸餾’技術是一種有意思的權衡。如果你把模型做得較小,就不可避免地會降低它們的能力。”他說,比如說,一個“蒸餾”模型可以被設計成非常擅長總結電子郵件,“但它不會擅長做其他任何事情”。
IBM研究院負責AI模型的副總裁戴維·考克斯表示,大多數企業不需要一個龐大的模型來運行它們的產品,“蒸餾”模型足夠強大,可用於客戶服務聊天機器人或在手機等小型設備上運行等目的。
他還說:“只要你能(讓它變得便宜),並且它會給你想要的性能,沒有什麼理由不去這麼做。”
這對一流AI公司的商業模式構成了挑戰。即使開發人員使用來自OpenAI等公司的“蒸餾”模型,這些模型的運行成本要低得多,創建成本也不太昂貴,因此產生的營收也較少。像OpenAI這樣的模型製造商通常對使用“蒸餾”模型收取較少的費用,因爲它們需要的計算負載較少。
不過,OpenAI的戈德芒認爲,仍然需要大型語言模型來完成“高智能和高風險的任務”,因爲“企業願意爲高度準確性和可靠性付出更多的錢”。他補充說,還需要大型模型來發現新的功能,然後可以將新功能“蒸餾”到較小的模型中。
爲企業打造信息檢索工具的初創公司情境人工智能公司首席執行官道韋·基拉說:“長期以來,OpenAI一直在努力防止‘蒸餾’,但很難完全避免這種情況。”
“蒸餾”技術對於開源模型的擁護者而言也是一個勝利,因爲開源模型技術被免費提供給開發者。DeepSeek最新的模型也對開發者開放。
Meta首席AI科學家楊立昆表示:“我們將使用(‘蒸餾’)技術,並立即將其應用到我們的產品中。這就是開源的全部理念。你可以從每個人的進步中獲益,只要這些過程是開放的。”(編譯/馬丹)