最強開源大模型Llama 3來了!4000億參數模型狙擊GPT-4,訓練數據量達Llama 2七倍

智東西作者 長頸鹿編輯 李水青

智東西4月19日報道,4月18日,Meta推出迄今爲止能力最強的開源大模型Llama 3系列,發佈8B和70B兩個版本。

Llama 3在一衆榜單中取得開源SOTA(當前最優效果)。Llama 3 8B在MMLU、GPQA、HumanEval、GSM-8K等多項基準上超過谷歌Gemma 7B和Mistral 7B Instruct。

▲Llama 3與Gemma、Mistral、Gemini、Claude 3的模型性能對比表

Llama 3 70B也在MMLU、HumanEval、GSM-8K等基準上超越了閉源的谷歌Gemini Pro 1.5、Claude 3 Sonnet。

Llama 3系列最大模型規模將超過4000億參數,英偉達科學家Jim Fan認爲,這一版本未來的推出將意味開源社區的一個分水嶺,開源模型將一舉翻越GPT-4這一高峰。

▲Jim Fan對Llama 3表示讚歎

Llama 3模型基於超過15T個token的公開數據預訓練,其中數據量是Llama 2的七倍,代碼量也增至四倍。此外,Llama 3的訓練效率比Llama 2提升了三倍。

同日,Meta CEO扎克伯格宣佈基於Llama 3模型,Meta的AI助手現在已經覆蓋Instagram、WhatsApp、Facebook等全系應用,並單獨開啓了網站。

Llama 3一經發布,AWS、微軟Azure、谷歌雲、百度智能雲,以及Hugging Face、IBM WatsonX、英偉達NIM和Snowflake陸續宣佈其平臺上線Llama 3,支持Llama 3訓練、部署和推理運行。

Llama 3官方地址:https://llama.meta.com/llama-downloads/GitHub地址:https://github.com/meta-llama/Meta AI地址:https://www.meta.ai/

一、Meta穩坐開源模型榜首,第三代真人評估勝過GPT-3.5

Meta表示,他們的新一代模型Llama 3將與當前最好的閉源模型相媲美。他們希望通過解決開發者的反饋意見來提高Llama 3的實用性,並繼續在大語言模型的使用和部署方面發揮領導作用。

Meta秉承了開源精神,使社區能夠在模型開發階段就能夠使用它們。今天發佈的模型是Llama 3系列的第一個,未來,Meta計劃使Llama 3成爲多語言、多模態、具有更長上下文的模型。

在技術上,Llama 3的8B和70B模型實現了對Llama 2的顯著超越,代表了當前LLM的最高水平。通過優化預訓練和微調過程,Meta的模型在8B和70B參數規模上表現最佳。後期訓練的改進減少了誤拒率,增強了響應的一致性和多樣性,使得Llama 3在推理、代碼生成和指令遵循等任務上更加出色,同時提升了用戶對其行爲和輸出的控制靈活性。

Llama 3的開發過程中,Meta不僅關注了模型在標準基準測試上的表現,還試圖優化其在實際場景中的性能。爲此,Meta開發了一個新的和高質量的人類評估數據集。

該評估集包含1800個提示,涵蓋12種關鍵用例,分別爲:徵求建議、頭腦風暴、分類、封閉式問題解答、編碼、創意寫作、提取、人物角色、開放式問題解答、推理、改寫和總結。

爲了防止模型在這個評估集上意外地過度擬合,即使是Meta的製作團隊也無法訪問這個評估集。

▲真人評估結果表

根據他們的評估集,標註者的偏好排名突顯了他們70B參數的指令跟隨模型在真實場景中優於競爭對手模型。

另外,他們的預訓練模型也爲這些規模的LLM模型確立了一個新的技術水平。

▲Llama 3預訓練模型數據對比表

二、Llama 3拉高LLM上限,數據訓練量是Llama 2的七倍

爲了開發一個優秀的語言模型,Meta認爲創新、規模化和簡化優化是至關重要的。在Llama 3項目中,他們專注於四個關鍵因素:模型架構、預訓練數據、擴大預訓練規模和指令微調。

1.模型架構:採用128k token的分詞器,注意力機制提高推理效率

根據設計理念,Meta在Llama 3選擇了一個相對標準的僅解碼器的Transformer架構,並在Llama 2的基礎上做了幾項關鍵改進。Llama 3使用一個擁有128k個token的分詞器,能夠更有效地編碼語言,這大大提高了模型的性能。爲了提高Llama 3模型的推理效率,Meta在8B和70B大小的模型中都採用了注意力機制。Meta還在8192個token的序列上對模型進行了訓練,並使用掩碼來確保自注意力機制不會跨越文檔邊界。

2.訓練數據:超15T個token數據預訓練,達Llama 2七倍

Meta投資了大量資金來構建Llama 3的高質量訓練數據集。該模型基於超過15萬億個token的公開數據預訓練,其中數據量是Llama 2的七倍,代碼量也增至四倍。Llama 3還特別集成了超過5%的多語言數據,覆蓋30多種語言,儘管這些語言的表現尚未與英語持平。

爲保證訓練質量,Meta設計了數據過濾流程,採用啓發式過濾器、不安全內容過濾器、語義重複數據刪除方法和文本分類器等過濾管道,篩選優質數據。此外,Llama 2的文本分類器依舊被用於生成驅動Llama 3的高質量數據集。

Meta通過實驗確定了最佳數據組合,以優化Llama 3在各種任務上的表現,如問答、STEM(科學、技術、工程、數學)領域、編程和歷史知識等。

3.預訓練規模:性能始終呈對數線性增長,訓練效率比Llama 2提升三倍

Meta在Llama 3模型的預訓練上投入巨大,開發了詳細的尺度定律來指導最佳數據組合和訓練計算的使用。這使得他們能預測模型性能,並確保模型在多樣的應用場景中表現出色。在擴展過程中,Meta發現即使在模型訓練了兩個數量級的數據之後,模型性能仍然會繼續提高。Llama 3的8B和70B參數模型在經過多達15T個token的訓練後,其性能仍呈對數線性增長。

爲訓練最大的Llama 3模型,Meta採用了數據、模型和管道並行技術。最高效的實現方式在同時使用16000個GPU進行訓練時,每個GPU的計算利用率超過了400TFLOPS。他們還開發了新訓練堆棧提高GPU運行時間,增強了硬件可靠性和數據損壞檢測,創造了新的存儲系統以降低檢查點和回滾成本。這些創新使Llama 3的訓練效率比Llama 2提升了三倍。

4.指令微調:後期訓練四種相結合,模型學會如何去選擇

爲了充分發揮預訓練模型在聊天應用中的潛力,他們創新了對模型進行微調的方法。他們的後期訓練方法是將監督微調、拒絕採樣、近端策略優化和直接策略優化結合起來。在微調過程中使用的提示質量以及在策略優化中使用的偏好排名對模型的性能有着很大的影響。通過精心策劃的數據和多輪質量保證,他們取得了模型質量的一些重大改進。

通過使用近端策略優化和直接策略優化從偏好排名中學習,這兩種方法極大地提高了Llama 3在推理和編碼任務上的性能。他們發現,如果你向一個模型提出一個它難以回答的推理問題,那麼該模型有時會產生正確的推理路徑:模型知道如何生成正確的答案,但它不知道如何選擇它。通過對偏好排名進行訓練,使模型學會了如何進行選擇。

5.Llama 3的額外構建:引入新的信任和安全工具,使用torchtune開發

通過這個版本的發佈,他們提供了新的信任和安全工具,包括Llama Guard 2和Cybersec Eval 2的更新組件,並引入Code Shield,這是一種用於推理時過濾LLM產生的不安全代碼的保護裝置。

他們用torchtune開發了Llama 3。torchtune是一個新的PyTorch原生庫,用於輕鬆編寫、微調和實驗LLM。

三、Llama 3最大模型參數超400B,Meta革新模型開發部署方式

Meta採用了一種新的、系統級的方法來開發和部署Llama。他們將Llama模型視爲更廣泛系統的一部分,該系統讓開發人員掌握主導地位。Llama模型將作爲系統的基礎部分,開發人員將根據其獨特的最終目標設計該系統。

▲Llama 3預訓練模型數據對比表

他們的“紅隊方法”利用人類專家和自動化方法生成對抗性提示,試圖引發問題性的響應。例如,他們進行全面測試以評估與化學、生物、網絡安全和其他風險領域相關的濫用風險。所有這些努力都是迭代的,並用於指導發佈的模型的安全微調。

Llama Guard模型旨在確保及時響應安全,它可根據應用需求進行微調。其中,新的Llama Guard 2使用MLCommons分類體系,以支持行業標準的制定;CyberSecEval 2在其前身的基礎上進行了擴展,添加了更多度量指標,以評估LLM的安全性;Code Shield可以在推斷時過濾不安全代碼,以減輕相關風險。

此外,Meta更新了其《負責任使用指南》,他們建議開發人員按照應用程序的內容指南檢查和過濾所有輸入和輸出。同時,鼓勵開發人員考慮使用雲服務提供商提供的內容審覈API和其他工具來進行負責任的部署。

Llama 3將很快在所有主要平臺上推出,包括雲服務提供商和模型API提供商。更新的分詞器效能和新增的分組查詢注意力(GQA)功能使得Llama 3保持了與Llama 2相當的推理效率。Llama Recipes提供了各種用例示例,從微調涵蓋到部署再到模型評估。

Llama 3的8B和70B模型是Meta未來計劃的開始,他們成將推出更多功能強大的模型,包括多模態能力、多語言對話能力等,同時,他們也會發布詳細的研究論文。

令人期待的是,Meta最大的模型參數超過了400B。雖然這些模型仍在訓練中,Meta團隊表示對它的發展感到非常興奮。

▲仍在訓練的400B參數的Llama 3模型

Meta將最新的模型集成到Meta AI中,並將其推廣到更多國家的應用程序中。用戶可以在Facebook、Instagram、WhatsApp、Messenger和Web上使用Meta AI,從而實現各種目標。同時,Meta表示未來即將推出一個基於Llama 3的多模態Meta AI智能眼鏡。

總結:推崇開源精神,Meta正構建生成式AI新版圖

Meta的Llama 3模型在大語言模型領域取得了顯著的技術進步,特別是在預訓練數據的規模和質量上。該模型通過優化訓練和評估,提升了多任務性能,並注重安全性和多語言支持。

Llama開源系列對AIGC的貢獻,以及對高效訓練技術和未來模型的規劃,預示着其在AI行業的長期影響力。與此同時,Meta強調負責任的AI實踐,預示了其對社會責任的承諾。

(來源:Meta)