AI 專家設最後考試,欲難住強大技術!

作者:傑弗裡·達斯汀和凱蒂·保羅

(路透社) - 週一,一組技術專家發出全球呼籲,尋求向人工智能系統提出最棘手的問題,這些系統處理流行的基準測試愈發輕鬆,簡直易如反掌。

這個被稱爲“人類的最後一次考試”的項目旨在確定專家級別的人工智能何時到來。據組織者介紹,其中包括一個名爲人工智能安全中心(CAIS)的非營利組織和初創公司 Scale AI,該項目旨在即使在未來幾年能力提升的情況下仍保持相關性。

就在幾天前,ChatGPT 的製造商預覽了一個新模型,稱爲 OpenAI o1,CAIS 執行董事兼埃隆·馬斯克的 xAI 初創公司顧問丹·亨德里克斯(Dan Hendrycks)表示,該模型“突破了最受歡迎的推理基準。”

亨德里克斯在 2021 年與人合著了兩篇論文,提出了針對人工智能系統的測試方法,這些測試現在被廣泛使用,一篇考查它們在諸如美國曆史等主題上的本科水平知識,另一篇探究模型藉助競賽級數學進行推理的能力。本科風格的測試在在線人工智能中心 Hugging Face 上的下載量超過了任何此類數據集。

在那些論文發表時,人工智能對於考試中的問題給出的答案几乎是隨機的。“它們現在被超越了,”亨德里克斯告訴路透社。

例如,根據一個著名的能力排行榜,來自人工智能實驗室 Anthropic 的 Claude 模型在 2023 年本科水平測試中的得分約爲 77 分,一年後接近 89%。

正因如此,這些常見的基準就沒那麼有意義了。

根據斯坦福大學 4 月份的《人工智能指數報告》,人工智能在涉及計劃制定和視覺模式識別難題等較少採用的測試中的得分似乎不佳。

例如,ARC 的組織者週五表示,OpenAI o1 在模式識別 ARC-AGI 測試的一個版本中得分約爲 21%。

一些人工智能研究人員認爲,像這樣的結果表明規劃和抽象推理是更好的智力衡量指標,不過亨德里克斯表示,ARC 的視覺方面使得它不太適合用於評估語言模型。

他說,“人類的最後一場考試”將需要抽象推理能力。

行業觀察人士表示,常見基準測試的答案可能最終也被用於訓練人工智能系統的數據之中。亨德里克斯稱,在“人類的最後一次考試”中,有些問題將保持私密,以確保人工智能系統的答案不是來自記憶。

此次考試將包含至少 1000 個衆包問題,這些問題的截止日期爲 11 月 1 日,非專家難以回答。這些問題將接受同行評審,獲勝的提交者將獲得共同作者身份,並獲得由 Scale AI 贊助的高達 5000 美元的獎金。

Scale 的首席執行官亞歷山大·王(Alexandr Wang)表示:“我們迫切需要更難的測試來衡量專家級模型里人工智能的快速發展情況。”

有一項限制:組織者不希望出現有關武器的問題,有人稱這對於人工智能研究而言太過危險。

(傑弗裡·達斯汀於舊金山、凱蒂·保羅於紐約報道;克里斯蒂娜·芬奇編輯)