☰

打臉“AI滅絕倫”！研究反駁：大模型涌現能力不會威脅人類生存

大語言模型（LLM）因“涌現能力”（emergent abilities）而擁有了超出人類預期的技能，但也因此讓人類十分忌憚：操縱、欺騙人類，自主實施網絡攻擊，自動化生物研究......

然而，也有專家認爲，這種過度的擔憂會損害開源和創新，不利於人工智能（AI）行業的健康發展。當前，有關“AI 滅絕倫”的爭論愈演愈烈。

那麼，“涌現能力”真的是導致 AI 大模型威脅人類生存的罪魁禍首嗎？一項最新研究否定了這一觀點。

來自達姆施塔特工業大學和巴斯大學的研究團隊發現，GPT 等 LLM 尚無法獨立地學習或獲得新技能，這意味着它們不會對人類構成生存威脅。

他們表示，“涌現能力” 背後的真相或許比科幻電影更富有戲劇性，許多所謂的“涌現能力”，其實都是 AI 大模型在面對不熟悉的任務時，依賴於已有的數據和經驗做出的“即興表演”。

相關研究論文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 爲題，已發表在 AI 頂會國際計算語言學年會（ACL）上。

他們通過一系列實驗驗證了 AI 大模型在不同上下文條件下的表現，結果發現：在零樣本（zero-shot）的情況下，許多大模型根本無法展現所謂的“涌現能力”，反而表現得相當一般。

他們表示，這一發現有助於理解 LLM 的實際能力和侷限性，併爲未來的模型優化提供新的方向。

智能涌現：只是“即興表演”？

AI 大模型的“涌現能力”來自哪裡？它是否真如聽起來那樣神秘，甚至令人擔憂？

爲了破解這一謎題，研究團隊選擇了 GPT、T5、Falcon 和 LLaMA 系列模型作爲研究對象，通過實驗分析了非指令微調模型（如 GPT）和指令微調模型（如 Flan-T5-large）在 22 個任務（17 個已知的涌現任務和 7 個基線任務）和不同條件下的表現。

圖｜模型列表。

爲了全面評估模型能力，他們將 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作爲評估指標。同時，爲了提高實驗的準確性，他們還進行了偏見控制，通過調整提示和輸出格式，確保非指令微調模型的公平性，並通過手動評估驗證模型輸出的準確性。

在實驗中，研究人員採用 zero-shot 和少樣本（few-shot）兩種設置，重點分析了 GPT 的表現能力。

圖｜非指令微調 GPT 模型在零樣本下的表現。

令人驚訝的是，儘管 GPT 在之前的研究中被認爲具有涌現能力，但在 zero-shot 的情況下，這種能力表現得非常有限。

具體而言，只有兩個任務在不依賴上下文學習（ICL）的情況下展示了涌現能力，這兩個任務主要依賴形式語言能力或信息檢索，而非複雜的推理能力。由此可以得出，在沒有上下文學習的條件下，GPT 模型的涌現能力受到了極大的限制。

然而，涌現能力的來源僅僅如此嗎？研究團隊又將目光轉向了指令微調模型，提出了一個大膽的假設：指令微調並非簡單的任務適應，而是通過隱式上下文學習，激發了模型的潛在能力。

通過對比 GPT-J（非指令微調）與 Flan-T5-large（指令微調）的任務解決能力，他們發現，儘管兩者在參數規模、模型架構和預訓練數據上存在顯著差異，但在某些任務上的表現卻出奇地一致。

圖｜兩個模型的表現在高於隨機基線部分有很大的重疊，這表明指令微調可以有效地獲取上下文中的能力，而非導致功能性語言能力的涌現。

這一現象表明，指令微調模型可能並不是在展示一種全新的推理能力，而是通過隱式上下文學習，巧妙地利用了已有的上下文學習能力。

進一步的實驗表明，無論是模型規模的增加，還是訓練數據的豐富，指令微調模型在 zero-shot 的情況下，仍然能夠與非指令微調模型表現出相似的任務解決能力。這一發現再次強調了指令微調與隱性上下文學習之間的緊密聯繫。

AI 威脅人類生存：真實還是誇大？

儘管 LLM 在任務表現上展現出超凡的能力，但研究結果表明，這些能力並不意味着 AI 對人類生存構成實質性的威脅。

首先，LLM 的涌現能力主要來源於上下文學習和指令微調，這些技術jog.qaaka.com在模型的設計和訓練中是可以被預測和控制的，並未表現出完全自主發展的趨勢，也沒有產生獨立的意圖或動機。

例如，在社交智力測試（Socijog.nl14.comal IQA）中，模型能夠正確回答涉及情感和社會情境的問題，例如：“卡森醒來去上學時很興奮。他爲什麼要這樣做？”

在這一問題中，模型通過上下文學習和指令微調，能夠超越隨機just.kyoukaracg.com基線（random baseline），選擇出合理的答案。這說明模型並非在自發產生某種“智能”，而是在具體輸入和設計條件下展現出的一種高級模式識別能力。

其次，研究發現隨着 LLM 規模的擴大，這些能力表現得更加顯著，但並未脫離設計者的控制just.zzwlpf.com。通過對模型的微調，可以引導 LLM 更好地理解和執行復雜任務，而這種能力的增強並不意味着模型會產生自主意識，還不足以對人類產生威脅。

在實驗中，LLM在特定任務上的jazz.fpmails.com表現大大優於隨機基線，尤其是在需要推理和判斷的任務中。然而，這種表現依然依賴於大量訓練數據和精心設計的輸入提示，而非模型自發的智能覺醒。

這一結果進一步證實 LLM 的涌現能力是在可控範圍內發展的，雖然這一假設仍需進一步的實驗證實，但爲研究理解大模型的涌現能力提供了一java.rex-gg2013.org個全新的視角。

研究指出，雖然未來人工智能可能會在功能性語言能力上進一步發展，但其潛在危險性依然是可控的。現有證據還不能支持“AI滅絕倫”的擔憂，相反，AI 技術的發展正在逐步朝java.l-founder.com着更加安全和可控的方向前進。

不2024.sabuworld.com足與展望

儘管這項研究爲理解 LLM 的涌現能力提供了重要的見解，但研究人員也指出了該研究的侷限性ju.car-ikj.com。

當前的實驗主要集中在特定的任務和場景下，而 LLMju.znytlz.com 在更加複雜和多樣化的情境中的表現尚需進一步研究。

研究人員表示，模型的訓練數據和規模仍然是影響涌現能力的關鍵因素，未來的研究還需jog.affiliartist.com進一步探索如何優化這些因素，從而提高模型的安全性和可控性。

他們計劃進一步研究 LLM 在更加廣泛的語言和任務環境中的表現，特別是如何jog.vc-career.com通過改進上下文學習和指令微調技術來增強模型能力，且確保安全性。

此外，他們還將探討如何在不增加模型規模的情況下，通過優化訓練方法和數據選擇，實現涌現能jog.macocake.com力的最大化。

｜點擊關注我記得標just.giaoqq.com星｜

打臉“AI滅絕倫”！研究反駁：大模型涌現能力不會威脅人類生存

相關資訊