聊聊大模型如何思考與深度學習

隨着近兩年來生成式AI技術的進步與普及,使用大模型來生成內容也已逐漸成爲普通人生活的一部分。這個過程看起來似乎很輕鬆:當我們輸入一個指令,大模型就直接能爲我們輸出答案。然而在這背後,模型內部的工作原理和模型決策過程卻並沒有人知道,這即是廣爲人知的“機器學習黑盒”。

因爲黑盒模型所存在的不可解釋性,AI的安全問題也一直備受質疑。於是科學家們開始試圖去打開大模型的黑盒子,業內稱之爲“白盒研究”。一方面,白盒模型的研究能幫助人們理解黑盒模型,從而對大模型進行優化和效率的提升。另一方面,白盒研究的目標是要把AI這一工程性學科推向科學。

此次,我們邀請到了加州大學戴維斯分校電子與計算機工程系助理教授陳羽北,他的研究內容就與“白盒模型”有關。此外,他也是圖靈獎獲得者、Meta首席科學家Yann LeCun的博士後。本期節目中,他和我們聊了聊白盒模型的最新研究進展,同時也向我們分享了他所熟悉的這位經歷過AI行業起起伏伏、卻依然純粹專注的科學家Yann LeCun。

以下是部分訪談精選

01人腦與大模型

《硅谷101》:可以先簡單介紹一下你正在做的“白盒模型”研究嗎?在你的研究過程中有沒有發現如何能去解釋 GPT 的輸入輸出問題?

陳羽北:這個方向其實一個比較大的目標就是深度學習從一門純經驗性學科向一個科學學科來推動,或者說把工程變成科學,因爲目前工程發展得比較快但科學相對緩慢。以前有一個模型叫做詞的嵌入(embedding),它可以學到語言的一些表徵。

大家當時其實就有一個疑問,我們做任務的性能變好了,可是究竟是什麼導致這個性能變好了?所以我們當時做過一個非常早期的工作,就是嘗試打開詞彙的這些表示。當你把它打開的時候,就會發現一些很有意思的現象。

比如說蘋果這個詞,你可以找到裡面的一些元意思,比如其中的一個意思可能就是代表水果,另外一個意思代表甜點,再往下挖會找到有技術和產品的意思,當然指的是蘋果公司的產品。所以你就會發現順着一個詞你能找到這些元意思,接着你就可以把這樣的方法延伸到大語言模型裡。

也就是說,當我們學完一個大語言模型以後,可以在模型裡面去尋找它裡面所帶有的一些元意思,然後嘗試去打開。你會發現一個大語言模型,它其實有很多層。

在初級層裡,它會出現一個現象叫“詞語的消歧”。比如像在英文裡面有個詞叫做“left”,這個詞它既有向左轉的意思,也有離開的過去式的意思,那麼它具體的意思則要取決於語境前後的上下文,所以大語言模型在初期的幾層裡就完成了詞語的消歧。

而在中期你會發現又有一些新的意思產生。當時我們覺得一個很好玩的事叫做“單位轉換”,一旦要將公里變成英里、溫度從華氏度變成攝氏度的時候就會被激活,這個意思就會被打開,你可以順着這個路找到很多相似級別的這種元意思。

你再往上走的時候甚至會發現這些元意思中存在一種規律,這種規律就是當上下文裡出現了一個重複的意思時它就會被激活,你就可以用這樣的方式去打開大語言模型以及小語言模型。當然這些思路也並不完全是新的,它在視覺模型裡其實已經有一段歷史了,比如說從Matthew Zeiler開始就有一些類似探索。

《硅谷101》:順着這個思路,是不是如果我們知道了它部分是怎麼運作的,就可以從工程上對它有很多優化?

陳羽北:是的,這個是一個非常好的問題。我覺得做任何理論一個比較高的要求就是可以指導實踐,所以在我們當時做語言模型還有詞彙表徵的時候,當時也有的一個目標,就是當我們理解以後,能不能反過來優化這些模型?其實是可以的。

舉一個例子,如果你在大語言模型裡面找到的一個元意思,當它看到某一種元意思的時候就會激活,那這一個神經元就可以被作爲一個判別器,你就可以用這個東西來做一些任務。通過對這些元意思的改變,來調節模型的偏見。

就是如果我能夠發現它,那我可以調整它。最近 Anthropic 他們就是做了類似的一個工作,就是找到語言模型裡邊可能存在的一些偏見,然後對它進行一些改變來使這個模型變得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一項研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎麼工作的。比如說他們發現GPT 2的神經元在回答所有跟美國曆史1800年前後的事情時,第5行的第12個神經元會被激活,在回答中文的時候是第12行的第13個神經元被激活。

如果把它回答中文的這個神經元關閉的話,它對中文的理解能力就會大幅的下降。但是越往後的神經元,比如當神經元到了2000排左右的時候那它整個的可信度就已經下降了很多。你有沒有注意到他們的這個研究?

OpenAI的研究:讓GPT4去解釋GPT2的神經元

陳羽北:這篇文章我還沒看過,不過這個方法它非常像是給大腦的神經元做手術。相當於現在如果有一個神經的網絡,這個網絡是指從某種意義上能找到一個局部的存在而不是完全分散的,那麼就可以對它進行一些操作。比如把某個神經元切掉了,那你就可以認爲它某一塊的能力相對來講就損失掉了。人其實也是一樣的,比如一個患有癲癇的人在做完手術後可能會出現某些語言的障礙,但並不太影響其他人體功能,這從原理上看起來是相似的。

《硅谷101》:OpenAI、Anthropic他們現在都在研究大模型的可解釋性,你的研究跟他們之間有什麼區別嗎?

陳羽北:白盒模型的研究是否將來能成功其實大家都不知道,我之前也跟我的導師討論過,但大家一致的看法是說這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實是想理解人工智能,並且通過我們的理解重構它,進而從根本上來構建出一些不一樣的東西。那麼觀測,也就是可解釋性我覺得只是一種手段。也就是說,打開這種模型也好,我做這些實驗也好,對模型進行一些調整也好,我認爲這都是我們在理解的過程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個信號本身。因爲不管是人腦也好,機器也好,它們的學習的本質都因爲信號。

我們這個世界中存在一些結構,他們也要通過這些結構來進行學習,學的也正是這些結構。那麼我們是否可以找到這些結構背後的規律,以及表示他們的一些數學工具再把這些東西進行重組進而構建出來一個不一樣的模型?如果這件事可以完成的話,我想就能帶來關於提高我們的系統的魯棒性,或者安全性和可信度的一種期望。另外,它的效率也會提高。這有點像是蒸汽機先出來之後纔出現了熱力學這種理論,從而支撐它從一門完全的工匠學科變成了一門科學。那麼同理,今天我們就好像是第一次在數據上有了蒸汽機,從以前不理解我們的數據,到現在終於可以開始做出來一些 AI 的算法把數據中的規律給抓出來。

《硅谷101》:所以它會更節能。

陳羽北:要說到節能,我可以舉幾個有意思的例子。第一個點肯定是節能,因爲大腦它相當於一個20瓦功耗的一個燈泡,那現在的超級計算機它可能要超過百萬瓦。

第二點是,如果我們看自然界各種各樣生物所進行演化,它的演化效率其實是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬個神經元,但它可以做出非常複雜的三維的羣線去捕捉它的獵物。

而我覺得最有意思的一件事兒是人對於數據使用的效率。Llama3現在的數據量大概已經達到了13萬億個Token。但人的一生當中到底能接收多少的數據呢?假設我們每秒可以獲得30幀圖像,每天的獲取時間是12個小時,做20年,那麼我們大概能得到100億個token,文字能獲取的也是差不多一樣,數據量比大模型小太多了。那麼問題來了,人究竟是如何通過如此少的一個數據量來獲得如此強的一個泛化能力的呢?這就是人腦在效率層面讓我覺得很神奇的一點。

《硅谷101》:去揭開大模型是怎麼運作的和跟揭開人腦是怎麼運作的哪個更難?我聽起來都很難。

陳羽北:這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語言模型,我們都是嘗試去觀測它,看它對什麼產生了響應。

這個方法其實從上個世紀80年代獲得諾貝爾生理學獎得主David Hubel和Torsten Weisel關於視覺皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什麼東西的時候這些神經元它會產生衝動,分析看不同的東西時候神經元不同的響應狀態,比如什麼時候完全不響應,什麼時候又很興奮,接着他們就找到了神經元的 Receptive field。

而我們今天研究大語言模型其實也是相似的,找不同的輸入,然後理解模型內部的哪些神經元是對哪些輸入感興趣的。不過它們仍然有區別。

第一個區別是,不管是通過插電極還是腦機接口等方法對人腦進行觀測,都有很多的限制,但大語言模型有一個天然的好處就是觀測手段不再受限了,如果你有更好的方法,你就可以長期去分析,甚至你還可以通過一些微分的方法對模型進一步分析。

但是它的缺點是,大模型的能力還遠遠不及大腦,尤其是大語言模型,因爲它只從語言裡面來學習這個世界,所以它的對世界是理解是不完整的,就好像一個人他沒有了其他的感官只有語言。

相比之下,大腦能處理更多維的信號,感官是非常豐富的。有時候我們會想一個問題,就是語言是否是完備的?如果沒有其他感官的支撐的話,語言裡邊是不是所有的概念都可以獨立存在,還是一定需要其他感官作爲支撐,纔有可能實現真正的理解。

舉個例子,“冰箱”這個東西如果不和現實世界的冷熱感受關聯,只是描述它有門等這種統計特徵,是不是這種描述就是不完備的。

《硅谷101》:所以其實目前大模型跟大腦相比,它還是欠缺非常多的。但是因爲我們可以把它拆開來研究,所以你覺得它還是會比揭開大腦的秘密的這個野心稍微更進一步。

陳羽北:理解大語言模型它的難度在於你觀測的手段多,對它理解也能更多。比如有兩臺機器,一臺機器完全可觀測,一臺機器部分可觀測,那從直覺上來講是完全可觀測的這臺機器就更容易被理解。當然它有一些能力是這臺機器沒有,所以不能取代對人腦的一些理解。

《硅谷101》:我跟聽衆也補充介紹一下,羽北之前是學神經科學的。那你覺得對你的學科背景對現在來做 AI 方向的研究有什麼幫助嗎?會不會有一些跨學科的可以相互借鑑的研究方法?

陳羽北:我其實也不是專業學計算神經科學的。我本科是在清華的電子系,在伯克利是電子工程計算機系,但當時我所在的研究所是一個神經科學的一個研究所,所以我導師是計算神經科學的專家。

關於剛纔那個問題,我覺得神經科學的學習對我來講的幫助通常是一種啓發。因爲當你知道自然界的這些系統,知道它們可以做到什麼的時候,你可能就會有不一樣的想法,會重新看待眼前的問題。

舉個例子,一張圖片它是一個二維輸入信號,它的像素有橫向的、縱向的,然後它形成一個網格。但人眼視網膜並不長這樣。首先它是種擁有不同感知的感受器,這個感受器是以非常密集但又不是非常規則的方式排布的,它中間非常的細密,向兩邊的時候會變得稀疏。當你面對這樣一個輸入信號的時候,首先我們習以爲常的卷積神經網絡這些東西就都失效了,因爲連卷積在這裡都沒有定義。所以當看到生物系統裡的這個情況,就會重新去想我們所謂的這些卷積到底從何而來。

《硅谷101》:所以你會重新去想方法是不是對的?是不是一定要以這種方式來實現?

陳羽北:是的。就是假設有一天你醒來,所有的神經元都打亂了,那你還能再去理解這個世界嗎?因爲你看到的已經不再是一張圖片了,你也不能再用卷積神經網絡來做這件事情了,你需要什麼樣的方法?

雖然我們還沒完全解決這個問題,其實目前也已經走了一步。雖然我的所有的神經元都打亂了,就是我們的感受器圖像裡邊的這些像素打亂了,可是相鄰的這些像素它們有一些關係。比如我們看圖像時我會發現如果一個像素是紅的,那周圍的像素也更可能是紅的,那麼通過這種關係你就可以去讓這些像素他們重新去找朋友,然後就可以把相似的像素自組織成一些關係。

然後這個時候再加上大語言模型裡 Transformer 這樣的結構,就可以重新的對這種圖像做出一個表示,而且這個表示的性能還不錯。這個就是一個完全從自然的啓發去重新審視我們現在的工程上的一些做法、然後提出一些不同方法的例子。

《硅谷101》:感覺研究AI大模型和人腦神經科學還是有很多相似之處的。會有神經科學家從他們的角度來跟你們產生跨領域的研究合作嗎?

陳羽北:其實有很多的神經科學家、統計學家以及數學家他們想要理解自然信號中的一些結構,同時也會關注大腦中的神經元它們是如何運作的,然後把這兩者結合在一起,嘗試去提出一些極簡的對於信號的一些表示。

舉一個例子,在大腦裡面你會發現有一個現象,就是神經元雖然很多,但同一時間在工作的這些神經元其實是非常的稀疏。比如有100 萬個神經元,可能就只有幾千個在工作。

根據這個,早年神經科學領域就提出來一個稀疏編碼的方法,也就是在這種高位信號中,能不能找出一些稀疏的低維表示?從這樣的思路出發所構建出來算法,就和你在大腦裡面觀測到的這些神經元表示非常相近,所以這個是早期計算神經科學無監督的一個成功。

到今天來講的話,我們整個的這一塊研究領域有個名字叫做自然統計信號的研究(Natural Signal Statistics),它的目標就是揭示信號背後的一些基本結構,但和大模型相比,和白盒模型這類神經科學結合的研究它的發展其實相對來講慢一些的。我其實覺得一方面可能是因爲問題複雜,但另一方面也是因爲投入這個方向的人比較少。

02黑盒模型的“彎道超車”

《硅谷101》:簡單來說就是現在研究白盒模型的人太少了。但是在大模型出現以前,傳統的機器學習是不是也屬於白盒模型研究的範疇?

陳羽北:我覺得這個說法可以認爲是對的,以前的這些機器學習的模型相對簡單,相對來講都可以理解。

《硅谷101》:那爲什麼現在整個的黑盒模型的研究進展對白盒模型實現了彎道超車,速度可以快這麼多?

陳羽北:這個問題問出來我們就先會是緊張一下,然後再回答。

《硅谷101》:爲什麼要緊張?

陳羽北:因爲這個問題很尖銳,其實是在問是不是白盒模型、或者說可理解的這條路徑我們就應該放棄了。從我們這個時代開始,是不是在AI領域我們已經不再研究科學了,以後全都變成一個經驗性學科?但我覺得還不是。回到你剛纔的這個問題,這個過程中到底發生了什麼?首先一點就是黑盒模型的包袱少。你既要這個方法可以工作又要這個方法可以解釋的話要求就太多,那黑盒模型就放棄了一條讓他先可以工作。

第二是相對來講被大家所忽視的原因,就是數據的逆勢增長,或者說是規模擴大。

Richard Sutton之前寫了一篇博客裡面曾提到,在過去的 20 年裡面有一個一直沒有被打破的東西,就是當我們有更多的數據、更多的計算,應該找到比較能夠真正擴張的算法去把所有的數據的這種規律找進來。我認爲這個是黑盒模型裡,或者說是我們現在的經驗性的進展裡很重要的一條。

就是說當我們有更大的數據、更好的數據,更多的計算、更大的模型,然後就能學得更多。但是我們回到這個問題的話,就是白盒模型裡大家有一個追求,是說模型本身要具有簡潔性。

A comparison between Black Box ML and White Box ML

《硅谷101》:爲什麼白盒模型要簡潔?是不是可以理解成如果它過於複雜,它就很難被設計?

陳羽北:是的。其實做理論只有簡潔的東西纔可以被理解,肯定是要做一次一次的簡化。但是們在追求模型的簡潔性的時候,也可能會做了一次又一次的過度簡化,而一旦出現這種過度簡化,模型就無法完全刻畫數據的形態。那麼數據更多的時候,模型就走不下去了,它的能力會被限制住。

所以我認爲這也是以前大家在研究白盒模型、研究簡單模型時面臨的一個困難。我們不僅僅要帶着模型需要工作、同時還需要它可解釋的包袱,同時我還需要它簡潔,當你把所有的這些東西帶上,就會發現這個包袱太重。當你做過度簡化的時候也就引入了錯誤,錯誤會積累,再後來就走不動了。

《硅谷101》:但現在隨着黑盒模型的快速發展,我們又開始嘗試去解決它。

陳羽北:是的。而且這一次我們在解決它的時候,可能會重新審視這個問題。就是我們不一定需要讓模型完全的簡化到那個程度,它還是能夠表示這個世界比較複雜的一面。

但是同時我們還是希望他是比較可以理解的,所以如果有一天我們可以做到白盒模型的話,那麼在此之前我認爲每一次的嘗試都是一次過度的簡化,但是我們希望每次簡化都能往前走。我們甚至不需要完全做出一個白盒模型,也許可以做出一個白盒的、但是沒有大模型那麼強的模型,但它又相對來講非常簡潔。

它對於我們理解學習背後的本質是有幫助的,同時這種理解可能反過來又讓我們對大模型的訓練提高效率。關於效率問題我之前跟 Yann 也討論過幾次,就是說如果這背後的理論得到發展,我們就可能讓工程實踐效率以數量級的方式上升。

《硅谷101》:Yann的觀點是更希望發展白盒模型還是黑盒模型?

陳羽北:Yann是一個以工程方面著稱的科學家,所以他的很多嘗試還是要讓這個東西先工作起來。但Yann也是支持白盒模型研究的,在我跟他討論的過程中,他會覺得這條路值得探索,但是一個過於有野心的目標,是否能實現他也不知道,但總要有人做。

《硅谷101》:感覺黑盒模型是一個工程問題,白盒模型則必須用科學解釋它。雖然從商業化角度,它的投入產出比不是那麼高,但如果最終能做出來這個東西,那麼對 AI 的安全性和未來商業化的應用還是很有價值的。

陳羽北:關於商業化,其實我認爲所有做基礎 AI 研究的人工作的初衷不是以任何的應用爲初衷,而是由對智能這個問題比較純粹的好奇心所驅動,緊接着可能會發現一些規律反過來可能幫到在工程實踐。研究本身並不是爲某一種應用所設計的。

另外,當我們在追求這種白盒模型、這種極致效率的過程中,我們也會追問一個問題,就是我們現在做的這個大語言模型是不是隻通過這種規模化或者 Scaling Law 這一條路走下去就可以了?我認爲其實不是的。因爲人是做不到接受這麼大量數據的,那如何用少量的數據還能獲得比較高的泛化能力,這也是我們在研究的一個重要的問題。

《硅谷101》:這應該也是黑盒模型的學者在研究的一個問題。目前白盒模型有哪些學者跟流派在研究這個事情呢?

陳羽北:目前主要就是AI的三股力量。第一股力量就是我們在研究這些工程模型的過程中所產生的一些經驗,然後對它進行可視化,比如最近Anthropic、 OpenAI 他們也參與在做的這些事情。

Anthropic的研究:從神經網絡Claude 3 Sonnet提取可解釋的特徵

第二就是計算神經科學嘗試對人腦進行理解,找到一些記憶可能存在的方式。

還有一種流派就是從數學和統計的角度出發,看信號的基本的結構是什麼樣的。當然這三種之間還會產生很多的交叉。《硅谷101》:你屬於哪一流派?

陳羽北:其實這三派我都或多或少都有受到一點影響。之前在伯克利的時候跟我的導師以及馬毅老師他們都屬於偏神經科學和數學統計的這個流派,然後在Yann 這邊是工程方面訓練多一點。這三種方法我也覺得都可以接受,因爲它最終都會讓我們向同一個方向前進。

《硅谷101》:同樣的方向是哪個方向?現在有階段性結果嗎?

陳羽北:最終就是理解這個模型。之前有一些階段性成果,比如說我們能不能做出一些哪怕是兩三層的網絡,每一層我們都可以看他學的是什麼東西。最後發現真的可以做到一個數字要想表示它,你會把它的筆畫全都學出來,再把相似的筆畫聯繫在一起,接着就可以構建出來下一個層次的表示,這樣的一層一層的,最後找到了數字。

《硅谷101》:你現在的這些研究會對黑盒模型產生優化嗎?

陳羽北:一是當你對它的理解加深了以後,可能就能優化黑盒模型,讓它的效率變高。第二是能把不同的黑盒模型統一起來,這樣就減少了很多不必要的浪費。同時還有一個涉及到我這個實驗室的另外一項支柱性的工作,就是要研究不僅僅是感知還有控制。

當你給了這些大語言模型它能夠和世界交互的這個能力的時候,能不能讓它在控制系統裡邊你能否獲得同樣的泛化能力。什麼意思呢?就是說在感知系統裡邊你會發現,我學了蘋果,學了梨,然後來一個桃子,由於我之前學了一個相似的蘋果和梨的概念,所以可以很快就學會桃子這個概念。

那麼在控制的領域,能不能達到相似的性能呢?比如一個機器人它學會了向前走和原地跳躍,那能不能很快把它變成一個向前一邊跳一邊走的機器人。

《硅谷101》:如果讓你給一個結論的話,你覺得用白盒模型的研究解開大模型運作這個秘密,它目前的進度條到哪裡了?

陳羽北:實際上我們都不知道這個進度條有多長,我感覺距離這個目標其實很遠。它不一定是一個線性的發展,可能是比較像量子的這種跳躍。當一個新的認知出來以後,你可能會馬上往前走一大步。

如果你想做一個白盒的ChatGPT,我認爲這個還挺遠的,但我們有可能能夠做出一個還不錯的、完全可理解的模型,復現當時像比如 AlexNet 這樣的能力。這種模型它可以就做 Imagenet 的識別,我們可以理解它裡邊的每一步它是怎麼做的,它是如何一步一步地變成了一個貓和狗,然後這個貓和狗它的這個結構是怎麼產生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的識別算是白盒還是黑盒?

陳羽北:我們還沒有完全發現它的工作原理。從 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可視化中有一定理解,但是沒有人能夠創造出來這樣的一個模型,每一步我們都可理解且還能工作得不錯。

《硅谷101》:所以可能白盒模型的目標就是分階段的。比如第一步先解釋這個 ImageNet 是怎麼工作的,這個謎底揭開以後我們可以再來解釋一些小模型是怎麼工作的,就像用GPT 4去解釋GPT 2是怎麼工作的,然後再慢慢解釋大模型是怎麼工作的。

陳羽北:是的。這個過程我覺得還是有相當長的時間,而且也需要更多的人來投入到這個方向上。因爲目前大部分的工作都集中在工程領域。如果我們放到學校來做的話,那你其實是需要有一些原創性的想法,而不是說你去scale,我也去scale,那大家都是scale,到最後其實就沒有區分度,就看誰的機器最好和誰的數據最多了。

03我所瞭解的Yann LeCun

《硅谷101》:接下來我想跟你討論一下你博士後的導師Yann LeCun。我先再補充介紹一下Yann LeCun,他的中文名字叫做楊立昆,是一名法國計算機科學家,在機器學習、計算機視覺、移動機器人和計算神經科學等領域都有很多貢獻,被譽爲“卷積神經網絡之父”。

LeCun 現任Meta首席AI科學家,並擔任紐約大學教授。他在1980年代率先提出了卷積神經網絡(CNN),這項技術成爲現代計算機視覺的基礎。LeCun與Geoffrey Hinton和Yoshua Bengio共同獲得2018年圖靈獎,表彰他們在深度學習方面的開創性工作。

可不可以給我們不懂技術的朋友稍微解釋一下 Yann 主要的科學研究成果,以及他爲什麼這麼知名?

陳羽北:Yann從 80 年代就開始研究神經網絡 AI 領域,經歷了很多次的高峰和低谷和不同學派的衰落,但他始終堅持深度學習網絡,是一個走過黑暗的人。

比如2000 年的時候發深度學習相關的文章非常困難,困難到什麼程度呢?如果你的文章裡面存在 Neural 神經或者Network這個詞,你被拒稿的概率就很大了,如果有 Neural Network 的話基本就一定會被拒稿。

所以當時對於他們來講這是一個至暗時刻,經費也受影響。但是他們能在這種黑暗當中堅持不放棄,最後走出這個黑暗,到今天神經深度網絡改變了世界,我覺得這個其實也是他們得圖靈獎,對他們當年作爲前期的先鋒的一種記憶吧。

《硅谷101》:你讀博士後的時候爲什麼會選他的組?

陳羽北:這是一個比較有意思的奇遇。我當時其實挺迷茫的,甚至沒有想過那個學期去畢業。因爲我的決心是說要在博士期間做出一個白盒的模型,而且要和 AlexNet 的性能可比,但還差一點沒有做好。

我覺得如果要繼續我的研究,博士後去找誰呢?當時我正在開會,然後在會場上就碰到了Yann。我其實不是特別投機的一個人,我想大家肯定都想找Yann去做博後,所以碰到他的時候其實主要想的是聊一下他對我工作的一些看法,以及聊一聊對於AI未來研究方向的上的一些觀點。

結果當時在會上聊的就非常好,我的研究方向以及我想的一些問題,他曾經也都想過,只不過是從神經網絡的這個角度。所以當時他就問我在招博士後你有沒有興趣申請一下,那我當然申請了,所以當時就是這樣的一拍即合。

《硅谷101》:他是一個什麼樣風格的導師?是屬於給學生非常多自由空間探索的,還是來跟大家一起討論幫忙很多的。陳羽北:首先,第二種情況他現在已經不可能了,很多人都需要他的時間,他能夠分給每一個人的時間也相對來講就沒有那麼多。

他其實和我的博士的導師相似,在一些大方向上是非常放養的,但我認爲他們有另外一點相似就是對於他們所相信的事情他們會有堅持,就是他可能會給你指一個方向和目標。但具體怎麼走,是乘船還是乘車,這都沒有關係,他不會去控制這些細節。

他自己的大方向其實這麼多年也沒有變過,一直是自監督學習。自監督學習其實分兩部分,一個部分是基於感知的自監督。另一個更重要的部分是如何用具身的方式來做自監督,或者我們現在做世界模型 World Model,這是他相信的一個方向。

這個名字其實還是我安利給他,因爲我當時讀了David Ha和Jürgen Schmidhuber寫的那篇名字叫 World Model文章,我覺得這個名字挺酷的。

《硅谷101》:你覺得Yann的研究方向跟 OpenAI、Anthropic 他們的有什麼不一樣嗎?

陳羽北:如果說真要說什麼不一樣的話,我覺得Yann想要的是模型需要具備有幾個特點。第一是要有具身的能力,也就說不是隻堆數據,而是這個模型最終它可以自己去探索這個世界。

《硅谷101》:這有什麼不一樣呢?似乎大家都希望最終達到這樣的一個結果。

陳羽北:執行方式有所不同。比如 OpenAI 我認爲它是 Scaling Law,也就是更多、更好的數據,然後更多的計算和更大的模型。但Yann還是比較科學化的,他想的是如果我們想真正通向比較類人的這種智能的話,那到底需要什麼?他會覺得只是堆數據是不夠的。

《硅谷101》:所以Yann其實是相當於黑盒白盒一起研究。

陳羽北:我覺得Yann它實際上沒有那麼在意這是否能發展成一門科學,目前我認爲他的觀點主要還停留在經驗性和工程上,希望這個系統可以工作得更好,這其實也是他一直非常擅長的東西。

《硅谷101》:當 OpenAI 證明了Scaling Law可以達到很好的效果的時候,你覺得Yann他在科研方法和思維上有所轉變嗎?還是他仍然非常堅持原路線?

陳羽北:實際上他並不反對 Scaling Law,我覺得大家在這件事情上並沒有衝突。真正的可能分歧主要在於 OpenAI 很多的工作其實還是以產品爲導向,在工程上執行到極致,但Yann其實是以更科學的形式在研究。

他想這些問題的時候其實不太涉及到產品,而只是想一個事情,就是究竟怎麼能實現智能。因爲他在這個領域已經太久了,在八幾年的時候就開始在這個領域在深耕了,所以他可能看這些問題的時候,還是會堅持自己的理想。

《硅谷101》:讓智能自主學習這是Yann研究的第一個特點,其他還有一些什麼特點?

陳羽北:還有就是Yann一直相信的一個東西叫做JEPA,Joint Embedding Predictive Architecture。就是說模型當然要有自主學習的能力,但是比這是更重要的一點是當模型在學習數據的時候也能學習到一些比較高層次的規律。

實際上目前有兩派,一派希望能夠通過學習對數據進行完全重建,可以認爲是一個壓縮的思路,但是Yann不希望完全地回到這個圖像當中,因爲重建這個圖像帶有了太多的細節,而這些細節並不是對系統做判斷時最重要的一些信息。

《硅谷101》:這點他跟你在伯克利的馬毅導師觀點是不一樣的嗎?

陳羽北:其實他們在這個觀點上並沒有本質的衝突,只不過是表述的方式有所不同。馬老師覺得這個世界的規律是簡潔的,Yann認爲這些細節其實對做下游的任務或者是一些判斷是不利的,所以要把那些高層次的規律找到。

其實這二者是一樣的,因爲高層次的規律一般就是簡潔的。馬老師經常說所有的東西都是壓縮,如果你拿Yann的觀點來看的話,會發現壓縮確實沒錯,但數據的層次結構其實是不同的。

因爲現實世界是複雜的,在現實世界中如果你深入到這些細節裡邊會有發現有大量的東西其實是低層次的一些結構。數據中有結構,任何存在結構的東西都是從噪聲偏離的一個反應,就是說完全沒有結構的東西就是噪聲,任何離開噪聲你就是有結構了。

我們要學習這些結構,但結構有不同的層次。但當你上升層次,在更大的一個尺度的時候,就會發現結構其實已經不重要了,在那個層次來看的話,這些東西就已經變成像噪聲一樣的東西了。

所以Yann的觀點就是說,要壓縮沒錯,但我們需要有這樣一個層次化的學習,學習信號中所有的結構、學出越來越高的結構。但是最高級的結構它往往對於壓縮的整個佔比不大,在優化的過程中就可能會丟失,因爲大量的東西都是在低層次的、像噪聲一樣的信息量是最大的,越往上走就越難發現這樣的結構。

爲什麼呢?因爲在你的優化的 loss function 就是你的目標函數裡邊,你找到這個規律和找不到這個規律可能對你的 loss 影響不大。我覺得主要就是這兩點,一個是世界模型,另外一個是對於這種層次化的表示。

《硅谷101》:你覺得他們身上有哪些特質是特別打動你的?

陳羽北:特別打動我的可能就是他們做事情的那種專注和純粹吧。

有一次我跟Yann吃午飯,他說你們在年輕時候想要的所有的東西我都有了,但是我已經沒有太多時間了,所以他只能用自己剩下的時間做自己真正相信的事情。

當你跟這樣的一些科學家工作的時候,你可能會被他們身上的這種氣質所影響,以至於你即便你還沒有達到他們現在所在的這個地位,以及他們所擁有的這些東西之前,也能以他們的視角來看待這個世界一點。

所以你在做選擇或做事情的時候,可能會超出現在所在的這個位置,可能會想,如果有一天我也像他一樣全都擁有了,我會做什麼。

《硅谷101》:他有改變你的哪些決定嗎?

陳羽北 :有,它會讓我做很多的選擇的時候會想到這個事情。我記得我讀博士的第一天,我的導師跟我講了兩件事情。

一件是說他不需要我發很多的文章,但希望能發出來的這種文章可以穿越時間,就是在 20 年以後看到這篇文章依然不舊。這其實很難,因爲很多的工作它帶有鮮明的時代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,這是一個很高的目標,可能當你快要退休的時候可能才能夠被驗證。但是它提出了一個靈魂的拷問,就是你能否堅持去做一些能夠與時間共存的工作。

第二是他希望一個學者應該具有自己的一種態度,如果你覺得一件事情是a可以做, b可以做, 你也可以做,你就不要做。就是說當你做這件事情的時候,你會發現並不是這個工作需要你,而是你需要這個工作,這就是一種投機的心態。這其實是我在他們身上看到的這種相似的氣質,就是希望不要隨大流,能有自己的態度和尋找到自己的一些 voice。

所以當我在選研究的方向的時候,也會自己時不時的判斷一下我現在做的這個工作到底是一個投機的,還是一個真正的中有砥柱的工作。

我覺得他們,尤其是Yann比較偉大的一點,就是你可以穿越了這種幾乎是絕望的時光然後迎來曙光。沒有經歷過低谷的人沉澱的可能是不夠的,當你經過至暗時刻,用你的眼光和堅持穿越短期的這個時間,然後證明它是對的,我覺得這個是挺有意思的一種氣質。

《硅谷101》:Yann有哪些在科學上的看法是你不同意的嗎?

陳羽北 :他有的時候會鐵口直斷。比如最近他就說如果你作爲一個研究者的話,那就不應該研究大語言模型。這句話它有很多種理解,從字面上意思的理解的話很多人就會不同意,包括我。我可能會覺得,大語言模型裡面有一些結構是值得被理解和研究的。

當然Yann可能真正想說的可能是我剛纔提到的,不要做a可以做、b也可以做的這種投機性的工作,希望研究者有自己的一點堅持和找到比較原創性的貢獻。如果是這樣的說的話,我其實覺得我會更同意一些。但他作爲大V有時候這個話講出來會嚇你一跳,然後引起很多話題討論。是讓我覺得很有意思的一個地方。

《硅谷101》:你也在 Meta 工作過,你覺得 Yann 對 Meta 最大的貢獻在哪裡?

陳羽北:首先應該是幫助籌建了Meta AI。當時他籌建 Meta AI 的時候,首先是 Mark 找到他,另外因爲他早年是貝爾實驗室的,他很嚮往當年的貝爾實驗室的那個狀態,所以他也有一個理想想在 Meta 複製這樣一個實驗室。他秉承了這樣的一個理念,在Meta AI也招募和培養了一批非常不錯的人,給這個領域做了很大的貢獻,推動了整個領域的發展。

《硅谷101》:我覺得開源應該也算是他的很重要的一個貢獻,比如說 Meta llama 之所以走了開源的路線,跟整個 Yarn 的思想應該也是非常一致的。

陳羽北:是的,對,開源確實是Yann所堅持。但我也不知道將來 Meta 是不是會一直開源下去,因爲畢竟 Meta 也會面臨競爭,但是我覺得這是Yann的一個理念,最終能執行到多好,能走多遠,其實也要看整個環境的發展。

《硅谷101》:你覺得現在整個大模型的研究必須是由科學家驅動嗎?還是它會慢慢變成一個工程驅動的事情?

陳羽北:我就覺得它已經變成一個工程驅動了,早期是科學家驅動。這一兩年裡面,我覺得主要的這個進展都來自於工程的執行,數據的質量是不是變高了?數據是不是變多了?它的 distribution 是不是變豐富了?計算是不是能夠並行?都是由工程領域非常重要的細節導致的。從 0 到1 的發展它需要科學的突破性,但從 1 到100,就需要工程的嚴格性和執行能力,在不同階段需要不同角色的人一起來推動。

《硅谷101》:大家現在都在期待 GPT 5,你覺得如果 GPT 5 出來了,它更多是一個科學問題,還是一個工程問題?

陳羽北:我覺得工程上面可走的路是很遠的,甚至我們可以認爲 Scaling Law 它還有相當長的路可走,完全沒有到盡頭,包括數據的質量以及算力的擴展。但同時我認爲即使我們現在找到的最魯棒的一條路就是Scaling Law,但這肯定是不夠的。

那我們還需什麼呢?我覺得需要的就是類人的這樣的一些高效率,那如何實現這樣的一個效率?有可能是數據觸發的,但也可能是還有其他的一些東西,所以我覺得如果我們說要通向 AGI 的過程中,應該還會有這種完全從 0 到 1 的一些比較大的轉變。

《硅谷101》:就是既要有科學上的進展,在工程上我們也還有很大的空間可以去提高。