Meta震撼發佈Llama 3,一夜重回開源大模型鐵王座
文|李然、陳斯達
編輯|蘇建勳
開源社區燈塔,“真·OpenAI”——Meta拋出了目前最強的開源大模型Llama 3。
來源:官網
模型下載鏈接:https://llama.meta.com/llama-downloads/GitHub
項目地址:https://github.com/meta-llama/llama3
當地時間4月18日,Meta 發佈兩款開源Llama 3 8B與Llama 3 70B模型,供外部開發者免費使用。Llama 3的這兩個版本,也將很快登陸主要的雲供應商。
來源:X
按照Meta的說法,Llama 3 8B和Llama 3 70B是目前同體量下,性能最好的開源模型。
Llama 3 8B在某些測試集上性能比llama 2 70B還要強!
而且在未來幾個月內,Meta還會推出更多的版本。英偉達高級科學家Jim Fan認爲,之後可能會發布的Llama 3-400B以上的版本,將成爲某種“分水嶺”,開源社區或將能用上GPT-4級別的模型。
來源:X
傳奇研究員,AI開源倡導者吳恩達表示:Llama 3的發佈是自己這輩子收到過的最好的禮物,謝謝你Meta!
來源:X
在Llama 3發佈後,小扎向外媒表示,“我們的目標不是與開源模型競爭,而是要超過所有人,打造最領先的人工智能。”
具體來說,Llama 3的亮點和特性概括如下:
基於超過15T token訓練,大小相當於Llama 2數據集的7倍還多;
訓練效率比Llama 2高3倍;
支持8K長文本,改進的tokenizer具有128K token的詞彙量,可實現更好的性能;
在大量重要基準測試中均具有最先進性能;
增強的推理和代碼能力;
安全性有重大突破,帶有Llama Guard 2、Code Shield 和 CyberSec Eval 2的新版信任和安全工具,還能夠比Llama 2有更好“錯誤拒絕表現”。
根據Meta AI的工程師Aston Zhang透露,Llama 3的誕生始於去年夏天,團隊攻克了數據集,預訓練等方面的一系列難題。
來源:X
他還進一步透露,Llama 3之後還會解鎖新的能力——更長的上下文,支持多模態,性能更強的400B版本。
現在,感興趣的用戶已經可以在HuggingChat上體驗了。
地址:https://huggingface.co/chat/(需要手動切換至Llama 3)
領先了,但不多
Llama 3確實優於其他開源模型,但優勢不大。
Meta展示的基準測試結果包括MMLU、ARC、DROP、GPQA(生物、物理、化學相關的問題集)、HumanEval(代碼生成測試)、GSM-8K(數學應用測試)、MATH(同爲數學相關基準測試)、AGIEval(問題解決的測試集)以及BIG-Bench Hard(常識推理測試)。
在下圖可看到,Llama 3 8B的成績在九項測試中領先同行。但Mistral 7B(2023年9月發佈)和Gemma 7B已經不算最前沿的開源模型。並且在引用的一些基準測試裡,Llama 3 8B的得分,還只比這兩位高一點點。
來源:官網
在MMLU、HumanEval和GSM-8K上,Llama 3 70B擊敗了Gemini 1.5 Pro。儘管無法與Anthropic性能最強的模型 Claude 3 Opus媲美,但 Llama 3 70B的性能,已經優於Claude 3系列的中杯模型Sonnet。
來源:官網
在Meta組織的人類反饋評分中,Llama 3 70B打敗了Mistral、OpenAI、Claude發佈的對應產品。
這個人類反饋測試更貼近用戶實際的使用體驗,包括了最常見的大模型使用場景:頭腦風暴、創意寫作、角色扮演、複述、推理、總結等。
來源:官網
Meta不忘賣個關子,說自己目前最大的模型參數,已經超過4000億(400B),但還在訓練。不過據The Verge,Meta 尚未最終決定是否開源400B的版本。
來源:官網
在Llama 2發佈後的幾個月內,開源社區雨後春筍般地,冒出了很多性能非常強大的開源模型。開源社區的競爭格局,已經有了非常大的變化。
當有人懷疑,Meta還能否繼續在激烈地競爭中保持領先時,Meta用Llama 3的發佈,讓自己重新坐回了開源社區的鐵王座之上。
15萬億token,訓練數據量大質量高
Llama 3優越的性能,離不開龐大數據集的訓練——15 萬億token,幾乎是Llama 2的七倍。
堆量只是第一步,Meta在訓練時也十分重視數據質量,用上了許多過濾手段。使用合成數據(AI生成的數據)就是一個例子。官網介紹:
在接受“海量投喂”後,新版Llama在回答瑣碎問題時應該能更準,在歷史、STEM、工科及編程類問題時,也將顯得遊刃有餘。
來源:X
Meta還提到,Llama 3預訓練數據集有超過5%的部分,來自高質量的非英語數據。加入這部分的目的在於,能更好滿足各國用戶、不同語言背景的使用需求。
不過,針對所用訓練數據的來源,Meta依然選擇打馬虎眼:“收集於公開來源(publicly available sources)”。
來源:Hugging Face
而且兩個版本的數據截止日期還略微有點不同,8B版本截止日期爲2023年3月,70B版本爲2023年12月。
Meta因訓練數據不足而產生焦慮,4月初時,還曾被無情揭傷疤。
據紐約時報報道,2023年3月到4月期間,Meta高層天天開會,討論如何把有版權的內容餵給模型訓練——有的法子能說,比如收購Simon & Schuster出版社;有的不方便說,比如冒着吃官司的風險,在網上收集有版權的文本。
而且值得注意的是,根據外媒的說法,Llama 3使用的訓練數據,有很大一部分是AI合成的數據。
來源:The Verge
看來,用AI訓練AI,已經是一件正在發生的事情了。
全面優化訓練流程,訓練效率比Llama 2高出3倍
Meta還分享了在訓練模型的過程中,相比自己前2代模型,做出了很多流程上的優化:數據並行化、模型並行化和管道並行化。
在16000個GPU的集羣上訓練時,實現了每個GPU超過400 TFLOPS的計算利用率。
爲了最大限度地延長GPU的正常運行時間,Meta開發了一種先進的訓練堆棧,可以自動執行錯誤檢測、處理和維護。
Meta還極大地改進了硬件可靠性和靜默數據損壞檢測機制,並且開發了新的可擴展存儲系統,以減少檢查點和回滾的開銷。這些改進,使總體有效培訓時間超過 95%。
綜合起來,這些改進使Llama 3的訓練效率比Llama 2提高了約三倍。
最智能的免費AI助手,秒速文生圖
小紮在之前採訪中就已經表示過,未來Meta推出的大模型將重塑自家產品的使用體驗。
這次同Llama 3一同推出的,還有基於Llama 3構建的Meta AI。
來源:官網
按照小扎的說法,Meta AI已經是目前最智能的免費AI助手。
總結下來,Meta AI與自家APP生態的兼容性,無疑能讓使用體驗大大提升——無需切換,即可在Instagram、Facebook、WhatsApp 和 Messenger 的搜索框中暢通使用Meta AI。
手機的聊天窗口中,輸入問題+@Meta AI,就能得到想要的答案。“私聊”Meta AI對話也是可以的。
來源:官網
刷Facebook時遇到好玩的事情,突發奇想有個疑問,帖子下面點開直接問!
來源:官網
Meta當然沒忘記PC端。登入meta.ai,無需註冊登錄,即可像GPT一樣開啓對話。當然,登錄後可保存對話記錄,便於未來參考。
來源:官網
要知道,OpenAI纔剛在4月1日宣佈無需註冊體驗ChatGPT。
文生圖功能酷炫至極。由於圖像生成速度大大加快,每輸入幾個字母,圖像就會發生變化——所輸即所得!
來源:官網
Meta AI生成圖片質量高,還能在原圖基礎上生成GIF動圖,與好友進行分享。
來源:官網
據The Verge, Meta AI 助手的唯一一個集成了 Bing 和 Google 實時搜索結果的聊天機器人——Meta可決定使用哪種搜索引擎來回答prompt提示詞。
據介紹,Meta正向美國以外的十幾個國家,推出英語版 Meta AI。澳大利亞、加拿大、加納、牙買加、馬拉維、新西蘭、尼日利亞、巴基斯坦、新加坡、南非、烏干達、贊比亞和津巴布韋將可以使用 Meta AI。
可能是史上最安全的開源大模型
而針對外界關於開源大模型擔憂最多的安全性問題,Meta這次看起來也是做了了充足準備。
Meta採用了一種新的系統級方法來負責任地開發和部署Llama 3。他們將Llama 3視爲更廣泛系統的一部分,讓開發人員能夠完全掌握模型的主導權。
來源:官網
指令微調在確保模型的安全性方面,也發揮重要作用。
Meta的指令微調模型,已經通過內部和外部進行了紅隊測試。Meta的紅隊利用人類專家和自動化方法來生成對抗性提示,試圖引發有問題的響應。
他們進行了全面的測試,來評估模型在化學、生物、網絡安全和其他風險領域相關的濫用風險。
除此之外,Meta還採用了業內最爲先進的大模型安全技術,出生自帶Llama Guard 2、Code Shield 和 CyberSec Eval 2的新版信任和安全工具,確保模型不會被輕易越獄,輸出有害內容。
看來Meta已經充分吸取了Llama去年意外泄漏的教訓,在模型的安全性上下的功夫不亞於對性能的追求。
未來,Meta團隊將會公佈Llama 3的技術報告,披露模型更多的細節。
而團隊成員還表示,Meta官方還會以直播或者博客的形式,讓模型開發團隊直接與外界進行交流。
總之,Meta沒有辜負開源社區對它的期待,繼續在大模型開源之路上奮力狂奔!