英偉達開源新王登基!70B刷爆SOTA,擊敗GPT-4o只服

[wu.gdpsred.com)

新智元報道:編輯部 HYZ【新智元導讀】就在剛剛,英偉達開源了超強模型Nemotron-70B,後者一經發布就超越了GPT-4o和Claude 3.5 Sonnet,僅次於OpenAI o1!AI社區驚呼:新的開源王者又來了?業內直呼:用Llama 3.1訓出小模型吊打GPT-4o,簡直是神來之筆!

一覺醒來,新模型Nemotron-70B成爲僅次o1的最強王者!

是的,就在昨晚,英偉達悄無聲息地開源了這個超強大模型。

一經發布,它立刻在AI社區引發巨大轟動。

[tian.soyunpro.com)

在多個基準測試中,它一舉超越多個最先進的AI模型,包括OpenAI的GPT-4、GPT-4 Turbo以及Anthropic的Claude 3.5 Sonnet等140多個開閉源模型。並且僅次於OpenAI最新模型o1。

[wei.oldxy1.com)

在即便是在沒有專門提示、額外推理token的情況下,Nemotron-70B也能答對「草莓有幾個r」經典難題。

[tian.bisurs.com)

業內人士評價:英偉達在Llama 3.1的基礎上訓練出不太大的模型,超越了GPT-4o和Claude 3.5 Sonnet,簡直是神來之筆。

[zong.maudshop.com)

[gong.tf7w.com)

網友們紛紛評論:這是一個歷史性的開放權重模型。

[pan.r07i.com)

目前,模型權重已可在Hugging Face上獲取。

[tian.3xme.com)

地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF有人已經用兩臺Macbook跑起來了。

[po.mickzeni.com)

超越GPT-4o,英偉達新模型爆火Nemotron基礎模型,是基於Llama-3.1-70B開發而成。

Nemotron-70B通過人類反饋強化學習完成的訓練,尤其是「強化算法」。

這次訓練過程中[www.gong.ankader.com),使用了一種新的混合訓練方法,訓練獎勵模型時用了Bradley-T[www.xia.ketudanya.com)erry和Regression。

使用混合訓練方法的關鍵,就是Nemo[wu.share.022020.com)tron的訓練數據集,而英偉達也一併開源了。

它基於Llama-3.1[kuai.www.ttys22.com)-Nemotron-70B-Reward提供獎勵信號,並利用He[bu.share.youxiqiao.com)lpSteer2-Preference提示來引導模型生成符合人類[kuai.share.ronsrub.com)偏好的答案。

[zong.d25n.com)

在英偉達團隊一篇預[xia.www.murselmert.com)印本論文中,專門介紹了HelpSteer2-Preferenc[share.gong.yaokan66.com)e算法。

[tian.gis-lb.com)

論文地址:https:[share.tian.ddqjt.com)//arxiv.org/pdf/2410.01257在LMSYS大模型競技場中,Ar[lsfz1314.com)ena Hard評測中,Nemotron-70B得分85。

在[share.wei.jewelryhc.com)AlpacaEval 2 LC上得分57.6,在GPT-4-Turb[wei.www.ying-jia.com)o MT-Bench上爲8.98。

[tian.openret.com)[po.www.sjdaoyu.com)

能夠擊敗GPT-4o的模型,究竟有多強?

各路網友紛紛出題,來考驗N[www.gong.jhdodo.net)emotron-70B真實水平。

測試開始!

「一步一步認真思考:我目前[wei.www.ehaoti.com)有兩根香蕉,我昨天吃掉一根,現在還有幾根」?

Nemotro[kuai.share.huahua365.com)n-70B會將問題所給信息進行分解,然後一步一步推理得出,最終[www.kuai.xinquanhui.com)的正確答案是2根。

[kuai.tobigirl.com)

評論區網[bu.www.vansgreen.com)友表示,來一道上難度的題「列出活到89歲的十位名人」。不過,模型卻把某人的去世日期弄錯了,然而它不是一個推理題。