震驚!蘋果研究:人工智能解不了小學數學題

幾位蘋果公司的研究人員已證實此前對於人工智能的看法

就是說它的推理存在嚴重的邏輯錯誤,特別是在基礎小學數學這方面。

根據六位蘋果研究人員最近發表的一篇論文《GSM-Symbolic:理解大型語言模型數學推理的侷限性》,當方法改變時,先進的大型語言模型(LLMs)據稱所採用的數學“推理”可能會極其不準確和脆弱。

研究人員從 GSM8K 的 8000 道小學水平數學應用題的標準化集合入手,這是測試 LLMs 的常見基準。然後,他們在不改變問題邏輯的情況下對措辭稍作修改,並將其稱爲 GSM-Symbolic 測試。

第一組的性能下降幅度在 0.3%至 9.2%之間。

無需科學家就能明白這些數字有多麼令人擔憂,因爲它們清楚地表明,大型語言模型無法正確解決問題,而是採用簡單的“模式匹配”來“將陳述轉換爲操作,卻並未真正理解其含義”。而且,如果您稍微更改這些問題中的信息,這將會嚴重干擾大型語言模型識別這些模式的能力。

當前這些大型語言模型背後的主要驅動力在於,其實際操作方式類似於人類,但像這一項以及 其他 研究卻證明並非如此——它們的功能存在關鍵侷限性。它本應運用高級推理,但其背後卻沒有邏輯或世界的模型,嚴重削弱了它的實際潛力。

而且當一個人工智能由於詞語本質上太過令人困惑,且不遵循完全相同的模式,從而無法進行簡單的數學運算時,這還有什麼意義?難道計算機不是爲了以人類通常無法達到的速度來進行數學運算而創建的嗎?在這一點上,您還不如關閉人工智能聊天機器人,拿出您的計算器。

讓人相當失望的是,在最近的人工智能聊天機器人中發現的這些當前的大型語言模型都依據同樣有缺陷的編程來運行。它們完全依賴於囤積並處理的大量數據,從而給人以邏輯推理的錯覺,但卻從未接近實現人工智能能力的下一個真正步驟——通過運用代數和計算機編程中所用的抽象知識來進行符號操作。

在那之前,我們到底在拿人工智能做什麼?如果它甚至無法做到每個推廣自己版本的公司所吹噓的那樣,那麼它對自然資源造成災難性消耗的目的到底是什麼?有這麼多論文,尤其是這一篇,證實了這一痛苦的事實,讓整個努力真的感覺像是在浪費時間。