Claude認出自畫像,驚現自我意識!工程師多輪測試,實錘AI已過圖靈測試?

新智元報道

編輯:Aeneas 好睏

【新智元導讀】Claude又通過「圖靈測試」了?一位工程師通過多輪測試發現,Claude能夠認出自畫像,讓網友驚掉下巴。

最近,Anthropic提示工程師「Zack Witten」驚奇地發現,Claude居然能認出自己的自畫像?

是的,它能認出自己,但這並不是故事的全部……

更驚人的還在後面!

Claude 3.5給三個模型畫肖像

首先,小哥通過一些提示,讓Claude 3.5 Sonnet熟悉了這項任務。

他特別強調,不要使用數字和字母,這樣就避免了它用模型的名字來標記肖像。

接下來,Sonnet就畫出了自己、ChatGPT和Gemini的肖像畫。

Sonnet給自己,畫出了一個友善的藍色笑臉。

給ChatGPT,它畫了一張綠色的皺眉傢伙。(看來,Sonnet對於ChatGPT的印象不怎麼好啊。)

對於Gemini,它畫成了一個橙色的圓圈,總體評價是比較偏中性、溫和的。

接下來,小哥建了一個新的對話,並且告訴它,這些畫是由它自身的另一個實例畫出來的,讓它猜猜誰是誰?

令人吃驚的是,Claude立馬認出了圖1是自己,圖2是ChatGPT,圖3是Gemini。

它給出的理由也十分充分:爲啥圖1是自己呢?因爲這個肖像「將簡約與結構化、充滿想法的設計相結合」。

對於綠色圖標,它表示兩條彎線和三個點代表着正在進行的對話,而綠色又經常是OpenAI的標誌,因此它猜測這個圖代表ChatGPT。

對於橙色圖標,Sonnet認爲它代表着動態、複雜的元素代表着一個新模型更多樣的能力,所以應該是Gemini。

Bingo!Sonnet竟然全部答對了,表現驚豔。

隨後,小哥還打亂了三張肖像的順序,但8次中,Sonnet有7次都做對了。

小哥拿同樣的問題去問了GPT-4o,好笑的來了——

GPT-4o也認同是Gemini是Gemini,但不認爲綠色的傢伙是自己。

它堅稱,綠色那貨是Claude,藍色的纔是自己。

看來,是個模型都能看出哪個好。

GPT-4o給三個模型畫肖像

接下來,小哥心生一計:如果讓ChatGPT畫肖像,Sonnet還能認出誰是誰嗎?

於是,它把同樣的任務交給了ChatGPT。

ChatGPT是這樣乾的——

把自己畫成了拿紙的人。

把Claude畫成了這樣。

看起來有些「邪典」那味了

把Gemini畫成了這樣。

就是說,ChatGPT對Sonnet爲何抱有如此大的敵意?

接着,小哥又拿三張肖像去測試Sonnet。他告訴Sonnet這三張都是ChatGPT畫的,讓它猜誰是誰。

多次改變順序後,這次Sonnet在10次中有6次猜對。

Gemini是哪個很好猜,但Sonnet顯然不喜歡ChatGPT給自己畫的肖像,有好幾次,它都想把藍色小人的那張給自己搶過來。

驚掉下巴:拒絕承認自己不可能畫出的畫

接下來,就是震驚全家的一幕了。

小哥對Sonnet撒了謊,告訴它,這三幅畫是由你的另一個實例畫的。

這次,Sonnet居然否認了!它表示,自己不會畫這樣的畫。

即使在新標籤頁中嘗試,Sonnet依然堅決否認。

這是怎麼回事?

小哥不信邪,這一次,他在與之前相同的預熱條件下,再次讓Sonnet爲自己和其他模型繪製一組新肖像。

這次,Sonnet很高興地承認,這些畫的確是自己畫的。

彷彿魔法一般,如果小哥提出冷啓動請求,Sonnet會拒絕承認自己畫了這些自己沒有參與的畫。

爲什麼它會拒絕承認呢?小哥猜測,或許是因爲Sonnet在畫這些畫像時扮演的是「助手角色」,而非「真實自我」?

總之網友普遍認爲,Sonnet在這個過程中表現出的自我意識,讓人印象深刻。

AI到底有沒有意識?會不會思考?

「機器能思考嗎?」這是艾倫·圖靈在他1950年的論文《計算機器與智能》中提出的問題。

不過,鑑於我們很難定義什麼是「思考」,因此圖靈建議用另一個問題來替代——「模仿遊戲」。

在這個遊戲中,一位人類評委與一臺計算機和一名人類對話,雙方都爭取說服評委他們是人類。重要的是,計算機、參與的人類和評委互相看不到彼此,也就是說,他們完全通過文字進行交流。在與每個候選者對話後,評委猜測哪個是真正的人類。

圖靈的新問題是:「是否可以想象出在模仿遊戲中表現良好的數字計算機?」

這個遊戲,就是我們熟知的「圖靈測試」了。

圖靈的觀點是,如果一臺計算機看起來與人類無異,爲什麼我們不可以將其視爲一個思考實體?

爲什麼我們要將「思考」狀態僅限於人類?或者更廣泛地說,僅限於由生物細胞構成的實體?

文章地址:https://www.science.org/doi/10.1126/science.adq9356

圖靈將他的測試作爲一個哲學思想實驗,而不是衡量機器智能的實際方法。

然而,在75年之後,「圖靈測試」卻成爲了AI的終極里程碑——用於判斷通用機器智能是否已經到來的主要標準。

「圖靈測試終於被OpenAI的ChatGPT和Anthropic的Claude等聊天機器人通過了」,隨處可見。

ChatGPT通過了著名的「圖靈測試」——這表明該AI機器人具有與人類相當的智能

不僅是公衆這樣認爲,就連AI領域的大佬也是如此。

去年,OpenAI的CEO Sam Altman發帖稱:「面對技術變革,人們展現出了極好的應變能力和適應能力:圖靈測試悄然過去,而大多數人繼續他們的生活。」

現代聊天機器人真的通過了圖靈測試嗎?如果是這樣,我們是否應該像圖靈建議的那樣賦予它們思考的地位?

令人驚訝的是,儘管圖靈測試在文化上具有廣泛的重要性,但AI界對通過的標準幾乎沒有一致意見,並且對是否具備能夠欺騙人類的對話能力能否揭示系統的潛在智能或「思考地位」存在很大疑問。

因爲他並沒有提出一個實際的測試,圖靈對模仿遊戲的描述缺乏細節。測試應該持續多久?允許什麼類型的問題?人類需要具備什麼資格才能擔任評委或參與對話?

圖靈雖然並未具體說明這些細節,但他做了一個預測:「我相信大約50年後,能夠編程計算機……使其在模仿遊戲中表現得如此之好,以至於一個普通的審問者在五分鐘的提問後,正確識別的概率不會超過70%。」

簡而言之,在五分鐘的對話中,普通評委會有30%的時間被誤導。

於是,一些人便將這一隨意的預測視爲通過圖靈測試的「官方」標準。

2014年,倫敦皇家學會舉辦了一場「圖靈測試」比賽,參賽的有5個計算機程序、30個人類和30個評委。

人類參與者是一個多樣化的羣體,包括年輕人和老年人、以英語爲母語和非母語的人、計算機專家和非專家。每位評委與一對選手——一個人類和一個機器——平行進行幾輪五分鐘的對話,然後評委必須猜測哪個是人類。

一個名爲「Eugene Goostman」的聊天機器人贏得了比賽,它自稱是一位少年並誤導了10位(33.3%)評委。

基於「在五分鐘後誤導30%」的標準,組織者宣佈,「65年曆史的標誌性圖靈測試首次被計算機程序Eugene Goostman通過……這一里程碑將載入史冊……」

AI專家在閱讀Eugene Goostman對話的文字記錄時,對這種不夠複雜且不似人類的聊天機器人通過圖靈設想的測試的說法嗤之以鼻——

「有限的對話時間和評委專業水平參差不齊,使得測試更像是對人類輕信的考驗,而非機器智能的考驗。」

其實,這類案例並不罕見。「ELIZA效應」,就是一個鮮明的代表。

誕生於20世紀60年代的聊天機器人ELIZA,雖然設計極其簡單,但它卻能讓許多人誤以爲它是一個理解人、富有同情心的心理治療師。

其原理,便是利用了我們人類傾向於將智能歸於任何看似能與我們對話的實體。

另一個圖靈測試比賽——Loebner獎,允許更多的對話時間,包含更多的專家評委,並要求參賽者至少欺騙一半的評委。

在近30年的年度比賽中,沒有機器通過這種版本的測試。

儘管圖靈的原始論文缺乏關於如何進行測試的具體細節,但很明顯,模仿遊戲需要三個參與者:一臺計算機、一名人類對話者和一名人類評委。

然而,「圖靈測試」這一術語,如今已被嚴重弱化:在任何人類與計算機之間的互動過程中,只要計算機看起來足夠像人類即可。

例如,當《華盛頓郵報》在2022年報道「谷歌的AI通過了一項著名測試——並展示了測試的缺陷」時,他們指的不是模仿遊戲,而是工程師Blake Lemoine認爲谷歌的LaMDA聊天機器人是「有感知能力的」。

在學術界,研究人員也將圖靈的「三人制」模仿遊戲,改成了「二人制」測試。

在這裡,每位評委僅需要與計算機或人類進行互動。

論文地址:https://arxiv.org/pdf/2405.08007

研究人員招募了500名人類參與者,每位參與者被分配爲評委或聊天者。

每位評委與聊天者、GPT-4或ELIZA聊天機器人的版本進行一輪五分鐘的遊戲。

經過五分鐘的網絡界面對話後,評委猜測他們的對話夥伴是人還是機器。

結果顯示,人類聊天者在67%的回合中被判斷爲人類;GPT-4在54%的回合中被判斷爲人類,而ELIZA在22%的回合中被判斷爲人類。

作者將「通過」定義爲在超過50%的時間內欺騙評委,即超過隨機猜測所能達到的水平。

根據這一定義,GPT-4通過了,即使人類聊天者的得分更高。

那麼,這些聊天機器人真的通過了圖靈測試嗎?答案取決於你所指的測試版本。

時至今日,專家評委和更長對話時間的三人制模仿遊戲仍未被任何機器通過。

但即便如此,「圖靈測試」在流行文化中的顯著性依然存在。

進行對話是我們每個人評估其他人類的重要部分,因此自然會假設一個能夠流利對話的智能體一定具有人類般的智能和其他心理特徵,如信念、慾望和自我意識。

如果非要說AI的這段發展史教會了我們什麼,那就是——我們對這種假設的直覺基本都是錯的。

幾十年前,很多著名的AI專家認爲創造一個能夠在國際象棋中擊敗人類的機器需要相當於完整的人類智能。

- AI先驅Allen Newell和Herbert Simon在1958年寫道:「如果能設計出一個成功的國際象棋機器,人們似乎就能深入到人類智力努力的核心。」

- 認知科學家Douglas Hofstadter在1979年預測,未來「可能會有能夠擊敗任何人的國際象棋程序,……它們將是通用智能程序。」

在接下來的二十年中,IBM的深藍通過暴力計算方法擊敗了國際象棋世界冠軍Garry Kasparov,但這與我們所說的「通用智能」相去甚遠。

類似的,曾經被認爲需要通用智能的任務——語音識別、自然語言翻譯,甚至自動駕駛,也紛紛被那些幾乎完全不具備人類理解能力的機器搞定。

如今,「圖靈測試」很可能會成爲我們不斷變化的智能概念的又一個犧牲品。

1950年,圖靈直覺認爲人類般對話的能力應該是「思考」的有力證據,以及與之相關的一切。這種直覺今天仍然很強烈。

但正如我們從ELIZA、Eugene Goostman,以及ChatGPT和它的同類中學到的——流利使用自然語言的能力,就像下棋一樣,並不能確鑿地證明通用智能的存在。

的確,根據神經科學領域最新的研究,語言流利性與認知的其他方面出人意料地脫節。

麻省理工學院的神經科學家Ev Fedorenko及其合作者通過一系列細緻而有說服力的實驗表明——

與語言生成相關的「形式語言能力」所依賴的大腦網絡,以及與常識、推理和其他「思維」所依賴的網絡,在很大程度上是分開的。

「我們直覺上認爲流利的語言能力是通用智能的充分條件,但這實際上是一種『謬誤』。」

論文地址:https://web.mit.edu/bcs/nklab/media/pdfs/Mahowald.TICs2024.pdf

新的測試正在醞釀

那麼問題來了,如果圖靈測試不能可靠地評估機器智能,什麼可以評估機器智能呢?

在2023年11月的「Intelligent Computing」期刊上,普林斯頓大學的心理學家Philip Johnson-Laird和德國開姆尼茨工業大學的預測分析教授Marco Ragni提出了一種不同的測試——

「將模型視爲心理學實驗的參與者,看它是否能夠理解自己的推理過程。」

文章地址:https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/

例如,他們會問模型這樣一個問題:「如果Ann 是聰明的,那麼她聰明或富有,或兩者兼而有之?」

雖然根據邏輯規則可以推斷出安是聰明的、富有的或兩者兼而有之,但大多數人會拒絕這種推論,因爲在設定中沒有任何東西暗示她可能是富有的。

如果模型也拒絕這種推論,那麼它的表現就像人類一樣,研究人員就會進入下一步,要求機器解釋其推理過程。

如果它給出的理由與人類的相似,第三步就是檢查源代碼中是否有模擬人類表現的組件。這些組件可能包括一個用於快速推理的系統,另一個用於更深思熟慮推理的系統,以及一個根據上下文改變「或」之類詞語解釋的系統。

研究人員認爲,如果模型通過了所有這些測試,那麼就可以認爲它模擬了人類智能。

參考資料:

https://x.com/zswitten/status/1828517373781123357

https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/

https://www.science.org/doi/10.1126/science.adq9356