☰

AI大模型可以寫詩，但不擅長數學

原標題：A.I. Can Write Poetry, but It Struggles With Math作者：Steve Lohr 來源：紐約時報編譯：阿宅圖源：Unsplash

人工智能聊天機器人就像學生一樣，努力勤奮，孜孜以求，口齒伶俐。但奇怪的是，它們卻經常在數學上遇到困難。

類似於ChatGPT這樣的聊天機器人可以寫詩、總結書籍摘要、回答問題，它們通常具有像人類一樣的流暢性。雖然這些系統可以根據所學知識進行數學運算，但結果可能會有所不同，甚至可能是錯的。這些聊天機器人經過微調，可以用於確定概率，而非進行基於規則的運算。可能性不等於準確性，而且語言比數學更靈活，標準更寬鬆。

美國西北大學計算機科學教授兼人工智能研究員克里斯蒂安·哈蒙德（Kristian Hammond）說：“人工智能聊天機器人在數學方面吃力，是因爲它們從來不是爲數學而設計的。”

看起來，世界上最聰明的計算機科學家創造的人工智能更像是文科專業的學生，而不是數字奇才。

乍一看，這與計算機的歷史發展截然不同。自20世紀40年代早期計算機誕生以來，計算機一直在不知疲倦、快速、準確地計算。長期以來，計算機真正擅長的是處理棘手的數字，其表現遠遠優於人類。計算機遵循規則，並在結構化的數據庫中檢索信息。它們既強大又脆弱，因此，過去在人工智能方面的努力遇到了障礙。

然而，十多年前，這一障礙得以突破。作爲底層技術的神經網絡，可以鬆散地模擬了人腦中真實神經網絡的複雜鏈接。這類人工智能不是按照嚴格的規則編程的，而是通過分析大量數據來學習。這類人工智能像人類一樣，根據所吸收的所有信息生成語言，預測接下來最有可能出現的單詞或短語。

“這項技術實現了很多了不起的事情，但並不意味着它是無所不能的。”哈蒙德博士說。

有時，人工智能聊天機器人會遇到簡單的算術和數學單詞問題，需要多個步驟才能找到解決方案，一些技術評論家最近注意到了這一點。雖然人工智能的熟練程度正在提高，但仍然有缺陷。

在最近召開的一次研討會上，可汗學院的首席學習官克里斯汀·迪瑟博（Kristen DiCerbo）介紹了數學準確性這一主題。“正如你們許多人所瞭解的，這確實是一個問題。”迪瑟博說。

幾個月前，可汗學院對其人工智能助手Khanmigo進行了大的調整，將許多數值問題發送到計算器程序，而不是要求人工智能解決數學問題。學生在等待計算器程序完成時，會在屏幕上看到“做數學”的字樣，也會看到Khanmigo的圖標在搖頭。迪瑟博說：“我們實際上是在使用專門的數學工具。”

這一年多來，ChatGPT在解決一些數學問題時用了類似的解決方法。對於大數除法和乘法等任務，ChatGPT會向計算器程序尋求幫助。

OpenAI在一份聲明中表示，數學是一個“需要持續研究的重要領域”。OpenAI表示，在包含數千個需要視覺感知和數學推理的問題的公共數據庫上，其新版GPT達到了近64%的準確率，高於比上一版本的58%。

當人工智能聊天機器人消化了大量相關的訓練數據，包括教科書、練習和標準化測試時，它們的往往表現出色。其結果是，聊天機器人之前已經看到並分析了非常相似的問題。OpenAI表示，ChatGPT技術的最新版本在高中生的SAT數學考試中得分爲第89百分位。

人工智能聊天機器人在數學方面的不穩定表現爲人工智能界關於該領域最佳前進方向的激烈辯論增添了亮點。大體上形成了兩個陣營。

一方面，有人認爲，爲人工智能聊天機器人提供動力的高級神經網絡，即大語言模型，是通向穩步發展並最終實現通用人工智能（AGI）的唯一途徑。這是硅谷地區的主流觀點。

但也人質疑，向大模型添加更多數據和計算能力是否足夠。其中的代表人物是Meta首席人工智能科學家Yann LeCun。

LeCun博士說，大模型缺乏對邏輯的掌握，也缺乏常識推理。他堅稱，我們需要的是一種更廣泛的方法，他稱之爲“世界模型”（world modeling），即能夠像人類一樣學習世界如何運作的系統。這可能需要十年左右的時間才能實現。

與此同時，Meta正在基於其大模型LLaMA，將人工智能驅動的智能助理軟件整合到其社交媒體服務中，包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷，但仍然做了很多工作。

大衛·費魯奇（David Ferrucci）領導的團隊打造了IBM著名的超級電腦“沃森”，這款電腦在2011年擊敗了《危險邊緣》（Jeopardy）節目歷史上最成功的兩位選手。與大多數計算機科學家一樣，費魯奇認爲最新的人工智能技術無疑令人印象深刻，但主要在於語言技能方面，而非在於準確性。他成立的初創公司Elemental Cognition開發軟件，以改善金融、旅遊和藥物研發等領域的商業決策。Elemental Cognition將大語言模型作爲一個組成部分，但也使用更多基於規則的軟件。

費魯奇博士說，這種結構化軟件是目前運行世界上大部分基礎系統（如銀行、供應鏈和空中交通管制）的計算基礎設施。他說：“許多重要的事情需要非常高的精確度。”

紐約高中數學老師柯克·施耐德（Kirk Schneider）表示，他認爲人工智能聊天機器人對教育產生影響是不可避免的。他說，雖然學校管理人員可以禁用，但學生們仍會使用。

但施耐德先生有些不安。他說：“通常來說，這些人工智能聊天機器人表現較好，但數學方面還是不夠好，數學必須準確。”

然而，這些偶爾的失誤實際上是一個教學機會。施耐德經常將他的班級分成小組，聊天機器人的答案是學生討論的焦點。將你的答案與機器人的進行對比，誰的對？你們是如何得出答案的？

“這教會學生帶着批判性的眼光看待事物，並提高批判性思維。”他說，“這類似於問另一個人，這個人可能是正確的，也可能是錯誤的。”

對於他的學生來說，這似乎是人生一課。在學生以後甚至已經不記得勾股定理後，這堂課仍值得一直銘記：不要相信人工智能程序告訴你的一切。不要過於相信它。

1、本文是芥末堆網原創文章，轉載可點擊芥末堆內容合作瞭解詳情，未經授權拒絕一切形式轉載，違者必究；2、芥末堆不接受通過公關費、車馬費等任何形式發佈失實文章，只呈現有價值的內容給讀者；3、如果你也從事教育，並希望被芥末堆報道，請您填寫信息告訴我們。

來源：芥末堆

AI大模型可以寫詩，但不擅長數學

相關資訊