剛剛,全球最強開源大模型 Llama 3 發佈:使用 15T 數據預訓練,最大模型參數將超 4000 億

就在剛剛,Meta 發佈了其最先進開源大型語言模型的下一代產品——Llama 3。

據介紹,Llama 3 在 24K GPU 集羣上訓練,使用了 15T 的數據,提供了 8B 和 70B 的預訓練和指令微調版本,可以支持廣泛的應用。

同時,Llama 3 在廣泛的行業基準測試中達到了 SOTA,並提供了新的功能,如改進的推理能力。

最強開源 LLM 來了

Meta 官方博客寫道,“得益於預訓練和後訓練的改進,我們的預訓練和指令微調模型是目前 8B 和 70B 參數尺度下最好的模型。”

他們表示,後期訓練程序的改進大大降低了 Llama 3 的錯誤拒絕率,提高了對齊度,並增加了模型響應的多樣性。他們還發現,推理、代碼生成和指令跟隨等能力也有了很大提高,這使得 Llama 3 的可操控性更強。

與 Gemma 7B、Mistral 7B Instruct、Gemini Pro 1.5 和 Claude 3 等先進模型相比,Llama 3 在多項標準測試基準上有着更好的表現。

此外,Meta 也測試了 Llama 3 在真實世界場景中的性能。他們專門開發了一個新的高質量人類評估集,該評估集包含 1800 個提示,涵蓋 12 種關鍵用例(徵求建議、頭腦風暴、分類、封閉式問題解答、編碼、創意寫作、提取、角色/人物角色、開放式問題解答、推理、改寫和總結)。

在與 Claude Sonnet、Mistral Medium 和 GPT-3.5 的對比中, Llama 3 同樣有着更好的表現。

人類標註者根據該評估集進行的偏好排名,凸顯了 Llama 3 70B 指令跟隨模型與真實世界中同等規模的競爭模型相比的強大性能。

Llama 3 的預訓練模型還爲這類規模的 LLM 模型建立了新的 SOTA。

Llama 3 是如何煉成的?

模型架構、預訓練數據、擴大預訓練規模和指令微調,是 Llama 3 成爲最強開源 LLM 的四個關鍵要素。其中:

1)模型架構

Llama 3 採用了相對標準的純解碼器 transformer 架構。與 Llama 2 相比,Llama 3 得到了幾項關鍵改進。Llama 3 使用了一個 128K token 的 tokenizer,它能更有效地編碼語言,從而大幅提高模型性能。爲了提高 Llama 3 模型的推理效率,Meta 在 8B 和 70B 大小的模型中都採用了分組查詢關注(grouped query attention,GQA)。他們在 8192 個 token 的序列上對模型進行了訓練,並使用掩碼來確保自注意力不會跨越文檔邊界。

2)訓練數據

Meta 表示,要訓練出最佳的語言模型,最重要的是策劃一個大型、高質量的訓練數據集。

據介紹,Llama 3 在超過 15T 的 token 上進行了預訓練,訓練數據集是 Llama 2 的七倍,包含的代碼數量也是 Llama 2 的四倍。

爲了應對多語言使用情況,Llama 3 的預訓練數據集中有超過 5% 的高質量非英語數據,涵蓋 30 多種語言。

爲了確保 Llama 3 在最高質量的數據上進行訓練,Meta 開發了一系列數據過濾管道。這些管道包括使用啓發式過濾器、NSFW 過濾器、語義重複數據刪除方法和文本分類器來預測數據質量。他們發現,前幾代 Llama 在識別高質量數據方面的表現令人驚訝,因此使用 Llama 2 爲文本質量分類器生成訓練數據。

此外,爲評估在最終預訓練數據集中混合不同來源數據的最佳方法,他們還進行了大量實驗,使得他們能夠選擇一種數據組合,確保 Llama 3 在各種使用情況下都能表現出色,包括瑣事問題、STEM、編碼、歷史知識等。

3)擴大預訓練規模

爲了在 Llama 3 模型中有效利用預訓練數據,Meta 爲下游基準評估制定了一系列詳細的 scaling laws,這些 scaling laws 使他們能夠選擇最佳的數據組合,並就如何更好地使用訓練計算做出最佳決定。

重要的是,在實際訓練模型之前,scaling laws 允許他們預測最大模型在關鍵任務上的性能(例如,在 HumanEval 基準上評估的代碼生成)。這有助於 Llama 3 在各種用例和功能中都能發揮強大的性能。

在開發 Llama 3 的過程中,他們對 scaling 行爲進行了一些新的觀察。例如,雖然 8B 參數模型的 Chinchilla 最佳訓練計算量相當於 ~200B token,但他們發現,即使模型在多兩個數量級的數據上進行訓練後,其性能仍在不斷提高。Llama 3 8B 和 70B 參數模型在經過多達 15T token 的訓練後,其性能仍呈對數線性增長。

爲了訓練最大的 Llama 3 模型,Meta 結合了三種並行化方式:數據並行化、模型並行化和管道並行化。當同時在 16K GPU 上進行訓練時,他們最高效的實現實現了每 GPU 超過 400 TFLOPS 的計算利用率。他們在兩個定製的 24K GPU 集羣上進行了訓練運行。爲了最大限度地延長 GPU 的正常運行時間,他們開發了一種新的訓練堆棧,可以自動檢測、處理和維護錯誤。他們還大大改進了硬件可靠性和無聲數據損壞檢測機制,並開發了新的可擴展存儲系統,減少了檢查點和回滾的開銷。這些改進使總體有效訓練時間縮短了 95% 以上,與 Llama 2 相比,將 Llama 3 的訓練效率提高了約三倍。

4)指令微調

爲了在聊天用例中充分釋放預訓練模型的潛力,Meta 還對指令微調方法進行了創新。他們的後期訓練方法結合了監督微調(SFT)、拒絕採樣、近似策略優化(PPO)和直接策略優化(DPO)。在 SFT 中使用的提示以及在 PPO 和 DPO 中使用的偏好排序的質量,對排列模型的性能有着極大的影響。

另外,通過 PPO 和 DPO 學習偏好排名也大大提高了 Llama 3 在推理和編碼任務中的性能。他們發現,如果向模型提出一個它難以回答的推理問題,模型有時會生成正確的推理軌跡:模型知道如何得出正確答案,但不知道如何選擇答案。對偏好排序的訓練能讓模型學會如何選擇答案。

模型參數超 400B 的 Llama 3?

Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他們後續還將推出更多版本,包括模型參數超過 400B 的 Llama 3 版本(目前仍在訓練中)。

Meta 官方表示,在接下來的幾個月中,他們預計將推出新功能(如多模態)、更長的上下文窗口、更多不同大小版本的模型和更強的性能,以及 Llama 3 研究論文。

另外,Llama 3 模型將很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供,並得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 硬件平臺的支持。

此外,基於 Llama 3,Meta 也發佈了他們的全新 AI 助手 Meta AI。Meta 表示,“得益於我們在 Llama 3 上取得的最新進展,Meta AI 比以往任何時候都更智能、更快速、更有趣。”

瞭解更多詳情,請查看:

https://ai.meta.com/blog/meta-llama-3/

每日分享最新大模型論文

|點擊關注我 記得標星|