AI巨頭楊立昆的最新3小時訪談聊了些什麼
文:城主
(完整版中英文精校視頻請關注本城同名B站號。)
AI界泰斗級人物Yann LeCun楊立昆昨天剛和硅谷科技圈第一播客Lex同學進行了一次3小時的深度對話。本城第一時間學習瞭解,和大家一起分享巨頭的最新思考。
這段對話的核心,是Yann LeCun對人工智能未來發展的深度思考,特別是他對開源AI的潛力和挑戰的獨到見解。
LeCun可謂AI領域的"常青藤",他是Meta首席AI科學家、紐約大學教授、圖靈獎得主,更是AI發展史上的開創性人物之一。一直以來,LeCun和他的團隊都在大力支持和推動開源AI的發展。他們毫無保留地分享了許多里程碑式的大模型,如Llama 2和即將推出的最新Llama 3。針對某些人對AGI(通用人工智能)迫在眉睫的危言聳聽,LeCun直言不諱地予以批駁。他堅信AGI終有一天會問世,但那將是人類的福音,而非災難。
在談到AI的未來時,LeCun拋出了一些令人耳目一新的觀點,尤其是針對GPT-4和即將發佈的Llama-3等大型語言模型(LLM)的評論。他指出,儘管這些模型在語言處理上非常出色,但仍難以被視爲"超人智能"的載體。因爲它們尚不具備理解世界運轉規律、把握物理法則、記憶檢索信息、持久儲存記憶、邏輯推理和行動規劃等人類智能的關鍵要素。LeCun強調,相比語言輸入,我們實際上更多地依靠感官輸入來認知世界。換言之,我們的知識和認知,很大程度上源自對客觀現實的觀察和交互,而非單純的語言學習。
LeCun進一步剖析了LLM的侷限性。在他看來,LLM無法像人類那樣進行深度思考和周密規劃,它們只是本能地一個接一個地吐露詞句。他質疑LLM是否真的構建了一個內在的世界模型,以及我們能否僅憑語言預測來塑造對世界的深刻理解。語言在信息傳遞上的"帶寬"和表現力有限,因此單靠對詞語序列的預測,難以建立完善的認知模型。與之相對的,是通過觀察世界,領悟事物演變的內在邏輯。
LeCun特別以視頻預測爲例佐證其觀點。過去十年,我們苦心孤詣地嘗試用視頻數據來訓練生成模型,但收效甚微。究其原因,正如我們無法準確預測特定語境下的下一個詞,我們同樣難以窮舉視頻中所有可能出現的幀。癥結在於,我們尚不知道如何高效地刻畫高維連續空間中的概率分佈。
作爲一種可能的解題思路,LeCun提出採用蘊含潛變量的模型。這類模型能夠表徵我們尚未感知、亟需補全的各類世界信息。然而,儘管這種途徑在像素預測上取得了不俗的效果,但在實踐中卻難以奏效。
LeCun還探討了訓練系統學習圖像表徵的難題。我們雖然掌握了一整套技術,但在面對殘缺圖像時,往往難以高質量地復原。爲了突破瓶頸,LeCun提出了一種"聯合嵌入"的新方法。其基本思路是,先用編碼器分別處理完整圖像和殘缺圖像,再訓練一個預測器來預測完整圖像的表徵。
在LeCun看來,通過自監督學習掌握抽象表徵,是智能系統的重要一環。我們不應該只侷限於對底層細節建模,而應該在多個抽象層次上描述世界萬象。與此同時,我們要儘可能多地從輸入中榨取信息,但又要避免提取那些難以預測的冗餘。
有趣的是,"聯合嵌入預測"架構竟然可以學到一些常識,比如預測"搗蛋"的貓咪會如何激怒主人。這一架構採用了"非對比"技術,涵蓋基於蒸餾的BYOL(DeepMind)、Vicreg(FAIR)、iJEPA和DINO等方法。它們的共同點是,先將原始輸入(如圖像)編碼爲特徵表徵,再對輸入施加擾動,然後訓練一個預測器來擬合原始輸入的表徵。
LeCun認爲,大型語言模型(LLM)在處理高階概念和規劃任務上大有可爲,但在應對底層操作和細節把控時則力有未逮。爲此,我們需要藉助JPEG這樣的工具,在不失真的前提下提升表徵的抽象層次。儘管AI和LLM在語言應用上初露鋒芒,但它們尚不具備人類智能的全部特質。舉例來說,它們難以理解和模擬人類的共同經歷,以及那些低階的物理知識。此外,LLM在推理能力上也有先天不足。因爲它們的計算開銷與輸出詞元的數量成正比,而與問題本身的複雜性無關。
LeCun爲未來的AI系統設計指明瞭一個新方向:與其過度依賴自迴歸預測,不如在完善的世界模型基礎上開展推理和規劃。他堅信,這一範式更接近人類的思維方式。面對錯綜複雜的問題時,我們會投入更多認知資源,展開深入思考和縝密規劃。
這段對話還探討了基於能量的模型在互聯網領域的應用前景,特別是在對話系統和語言模型中的潛力。這類模型可以度量某個回答對特定問題的契合度,進而通過在可能解空間中尋優,輸出最佳答案。這一過程需要以語言模型爲基座,在抽象表徵空間中開展運算。與其窮舉候選答案再擇優,不如直接在連續空間上應用梯度下降,快速收斂至最優解。這種優化驅動的方法已在視覺領域嶄露頭角,通過對良好輸入的表徵進行預測,再基於預測誤差(即系統能量)迭代優化。強化學習,尤其在更新世界模型和目標函數時,也是一個不可或缺的利器。
LeCun還評論了帶人類反饋的強化學習(RLHF)的有效性。這一範式先訓練一個質量評估器,再通過反向傳播調整系統參數,使其只輸出高分答案。針對外界對谷歌Gemini 1.5的種種詬病,尤其是它生成不實或敏感圖像、對部分話題避而不談的毛病,LeCun旗幟鮮明地指出,開源纔是破解偏見和審查困局的金鑰匙。在他看來,一個零偏見的AI系統只能存在於理想國,因爲偏見本身就是主觀的,見仁見智。與其另起爐竈,不如擁抱百花齊放的AI生態。未來,AI助手將無處不在,成爲人機交互的"中間人"。
LeCun由此出發,暢想了一個多元化的AI未來圖景。與其讓屈指可數的科技巨頭壟斷人類知識寶庫,不如讓頂尖系統開放源代碼,供所有人使用和微調。他以與法國政府、印度Infosys公司創始人、非洲初創企業Kera的合作爲例,闡釋了他推動AI多樣性的不懈努力。
談到開源模型的商業前景,LeCun認爲大可不必過於悲觀。如果這些模型物有所值,即便免費供應,公司也能從廣告和企業服務中獲利。他坦言,科技巨頭如今困局重重,內有不滿的員工、狂躁的高管、內訌的董事會,外有壓力團體、極端主義監管機構、政府機構、媒體輿論的接連炮轟,種種亂象無不消解組織的戰鬥力。
歸根結底,LeCun篤信開源和多元是祛除AI系統偏見和審查之弊的兩劑良方。只要在系統中設置合理的"護欄",我們就能讓AI助手更安全、更純淨。即便在仇恨言論和危險言論這樣的灰色地帶,適度的微調也許是個不錯的權宜之計。
值得欣慰的是,儘管有學者對AI系統(尤其是語言模型)的社會影響表示擔憂,但有理有據的證據尚不多見。比如,迄今爲止,還沒有確鑿的案例表明LLM會慫恿用戶製造生化武器。要知道,炮製這類武器需要實打實的專業知識,而這恰恰是LLM的知識盲區。
展望未來,LeCun對即將發佈的Llama 3和後續版本充滿期待。作爲真正意義上的開源AI系統,它們有望在感知、記憶、規劃、推理等方面不斷突破,最終邁向人類水平的通用智能。當然,實現這一宏偉藍圖需要軟硬件的協同進化。
對於AI可能帶來的災難性後果,LeCun並不十分認同。在他看來,AI系統不大可能成爲一個威脅人類的物種,因爲它們沒有爭奪主導權的野心。不過,AI武器化的風險卻是實實在在的,因爲它們能左右人心,控制民意。隨着AI助手不可逆轉地介入人機交互的方方面面,這種威脅只會與日俱增。
此外,LeCun還從社會學的視角解讀了新技術的衝擊波。面對顛覆性的文化運動或技術革命,人們往往會產生一種本能的恐懼,唯恐自己的文化、工作、孩子的未來和生活方式受到波及。
最後,LeCun暢想了人工智能在機器人領域的美好前景。他認爲,機器人將在未來十年大放異彩。儘管業界對機器人寄予厚望已久,但除了一些預設程序,鮮有革命性的突破。癥結還是出在如何讓系統理解世界運轉的規律,並據此制定行動計劃。爲了解決這個難題,LeCun首先闡釋了分層規劃的概念,並以從紐約到巴黎的旅行爲例,形象地說明了如何通過逐層分解來達成目標。在此基礎上,他進一步探討了如何利用認知和深度學習來訓練系統學習分層感知表徵,以及如何將這種學習應用到行動規劃中去。
LeCun由衷地憧憬,AI終有一天能提升全人類的智力水平,就好比每個人身邊都有一幫比自己更聰明的AI助手。它們俯首帖耳,言聽計從,還能以更高效、更優質的方式執行任務。屆時,每個人都像是一羣"超級員工"的領導者。
LeCun還將AI的普及與印刷術的發明相提並論,認爲二者都是讓人類"腦洞大開"的重大突破。當然,這兩項技術也可能引發一些連鎖反應,如宗教衝突和就業市場的結構性調整。
但歸根結底,LeCun對人性和AI的未來前景保持樂觀。他篤信人性向善的本質,也相信AI能放大人類的善意。