爲何諾貝爾化學獎又頒給AI?萬字詳解:AI重塑結構生物學

2024 年 10 月 9 日北京時間 17 時 45 分許,戴維·貝克(David Baker)因計算蛋白質設計,戴米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John Jumper)因蛋白質結構預測共同獲得 2024 年諾貝爾化學獎。

戴維·貝克(David Baker)是美國化學家、計算生物學家,華盛頓大學教授、蛋白質設計研究所主任,計算蛋白質設計和預測領域先驅。貝克1962年出生於美國華盛頓州,1984年在哈佛大學取得生物學學士學位,1989年獲得加利佛尼亞大學伯克利分校生物化學博士學位, 並在加利福尼亞大學舊金山分校完成生物物理方向的博士後訓練。貝克是被廣泛使用的蛋白質結構從頭設計和預測軟件“羅賽塔”的發明人,他的團隊還設計出了首個具有全新摺疊結構的人工蛋白質Top7。

戴米斯·哈薩比斯(Demis Hassabis)是英國計算機科學家,人工智能研究者、前遊戲設計師,DeepMind(現Google DeepMind)聯合創始人及首席執行官。哈薩比斯1976年出生於英國倫敦,幼年便展現出驚人的智力天賦,13歲達到國際象棋大師水平。青少年時代的哈薩比斯大部分時間在家由父母輔導自學,15歲時開始遊戲設計師生涯,並在21歲獲得劍橋大學計算機科學學位。畢業後,他繼續遊戲設計師工作,運用AI算法參與開發了著名遊戲《黑與白》、《共和國:革命》和《邪惡天才》;在此過程中,他對神經科學產生濃厚興趣並重返校園,2009年獲得倫敦大學學院認知神經科學博士學位,其後在麻省理工學院-哈佛大學進行神經科學和人工智能研究。2010年,哈薩比斯在英國倫敦聯合創立機器學習公司DeepMind,並帶領團隊先後發佈震撼世界的AlphaGo、AlphaFold系列模型。在谷歌收購 DeepMind 後,哈薩比斯帶領團隊主導了谷歌最先進的人工智能模型Gemini的開發。

約翰·江珀(John Jumper)是 Google DeepMind 高級研究員。江珀 1985 年出生於美國阿肯色州,2007 年在美國範德比爾特大學取得物理學和數學學士學位, 2008 年在英國劍橋大學取得理論凝聚態物理學碩士學位。之後,江珀在美國生物化學研究公司 D. E. Shaw Research 擔任了 3 年科學助理,利用計算機模擬進行分子動力學研究,並開發了一種從這些模擬中提取關鍵數據的算法。2017 年,江珀在美國芝加哥大學取得理論化學博士學位,利用機器學習模擬蛋白質摺疊和動力學研究。之後,他又在芝加哥大學完成了博士後研究,繼續從事蛋白質預測深度學習模型的研究工作。2018 年起,江珀進入英國 DeepMind 公司擔任高級研究員。在 DeepMind 公司,江珀和同事開發了AlphaFold 系列模型,他也是 AlphaFold2 開發團隊的領導者。

《環球科學》雜誌2024年10月新刊推出“AI重塑結構生物學”系列專題文章,恰逢其時地對今年諾貝爾化學獎的成果及三位獲獎者的研究進行了深入解讀。文章系統梳理了計算蛋白質設計與結構領域的發展歷程,並詳盡解析了其中的重大突破與前沿進展。爲方便讀者系統完整地瞭解今年的獲獎成果,我們特將兩萬餘字的專題內容全文刊出。

撰文 | 亞塞明·薩普拉科格盧(Yasemin Saplakoglu)

翻譯 | 金燁 鍾博子韜

審校 | 張陽

打破僵局的“羅塞塔”

2020年12月,上百位計算科學家端坐在各自的電腦屏幕前,見證了科學新紀元的展開。他們因爲一場會議匯聚一堂。在這場友好的競爭中,一些人已經參與了近三十年,沉迷於探討一個不變的問題——著名的“蛋白質結構預測問題”。它解釋起來很簡單:人們能否憑藉最爲簡單的信息——一段蛋白質分子的一維序列,精準預測出它的三維結構?蛋白質維持着我們細胞與身體的活力和運轉,由於它的行爲取決於其形狀與結構,因此成功解答這一問題將深刻影響我們對疾病、新藥研發以及生命機制的理解。

這個會議每兩年舉辦一次,科學家會在會議中測試自己最新研發的蛋白質結構預測工具。然而,解決方案總是遙不可及,其中一些人賭上了自己的全部科研生涯,試圖提高預測的準確性。這場競爭始終處於嬰兒學步階段,所以大家並不認爲2020年會有所不同。

但是,他們錯了。就在那一週,一名叫約翰·江珀(John Jumper)的科學家在蛋白質結構預測這一領域嶄露頭角,他展示了一套全新的人工智能(AI)工具“阿爾法摺疊2”(AlphaFold2),它是谷歌位於英國倫敦的人工智能子公司“深度思維”(DeepMind)的研發成果。在在線視頻會議上,這名在該領域資歷尚淺的科學家報告的數據表明,AlphaFold2的蛋白質三維結構預測模型準確率超過90%,是緊隨其後的對手的5倍。

一瞬間,蛋白質結構預測從不可解的難題變成了不再令人痛苦的問題。人類思維陷入僵局,AI大獲成功,一舉震驚了生物學界。“我當時就驚呆了,”與會的美國哥倫比亞大學數學基因組學項目(Program for Mathematical Genomics)的系統生物學家穆罕默德·庫雷希(Mohammed AlQuraishi)說,“很多人不願意承認(AlphaFold2的成就)。”

但在總結髮言中,會議組織者約翰·莫爾特(John Moult)以不容置疑的口氣說道:AlphaFold2“在很大程度上解決了”蛋白質結構預測問題,自此徹底改變了蛋白質科學。莫爾特身穿黑色高領衫,坐在自家辦公室的書架前,在會議軟件上點擊自己的幻燈片,語氣激動又帶着一絲不祥的口吻:“這不是終結,而是開始。”

當谷歌的公關部門將這一消息在全球大肆宣揚之後,媒體爲之瘋狂。各大頭條口徑一致:AlphaFold2“將改變一切”。而那些將一生貢獻於探索單個蛋白質結構的結構生物學家們則心生恐懼,擔心自己會失業。一些人主張AlphaFold2會革新藥物研發,能讓生物學家快速確定蛋白質結構,創造全新的靶向藥物。其他人則反駁說這些結果大部分都是炒作,這個世界並不會因此出現什麼變化。莫爾特自己也無法理解這個橫空出世的新事物。會議結束時,他提出了一個每個人都想問的問題:“接下來怎麼辦?”

現在,時間已經過去了三年半,他這個問題終於能得到迴應了。毫無疑問,AlphaFold2確實改變了生物學家研究蛋白質的方式。然而,儘管AlphaFold2是強大的預測工具,但它並非無所不能。它非常巧妙地使用不同於科學家的方法解決了一部分蛋白質結構預測問題,卻無法取代生物實驗,反而更加凸顯了實驗的必要性。

也許AlphaFold2最大的影響力是讓生物學家注意到了AI的威力。它啓發了新的算法,例如設計出自然界中並不存在的全新蛋白質,也催生了新的生物技術公司以及實踐科學的新方法。它的新版本AlphaFold3在2024年5月上線,引領生物學預測技術進入下一階段:構建蛋白質與其他分子(諸如DNA或者RNA)結合的複合體結構。“這是迄今爲止最宏大的‘機器學習驅動科學’的故事。”庫雷希說道。

不過,AI無法填補的鴻溝仍然大量存在。這類工具無法模擬蛋白質隨着時間推移而發生的變化,或者說無法構建處於自身生存環境即細胞中的蛋白質的動態結構。而在科學家爲AlphaFold2的預測能力折服之前,人類對蛋白質結構背後隱藏秘密的不懈追求,已經持續了半個多世紀。

問題的誕生

一張摺紙不過是一層被壓縮的木漿,直到以特定方式摺疊,它才煥發新生。只需要幾次精準地翻卷和壓折,這張紙就能變成“算命大師”預言你的未來。在同一張紙上改變一些摺疊步驟,一隻紙鶴就此展翅而來,給收到它的人帶來好運。

同樣,一長串氨基酸分子鏈本身沒有任何功能,直到它自發摺疊成固有形狀,生物學家稱之爲蛋白質結構。蛋白質的結構決定了自身與其他生命分子結合或相互作用的方式,從而定義它在細胞中的作用。

地球上已知的蛋白質種類上億,未知的則更多。它們無所不能:血紅蛋白和肌紅蛋白在肌肉和身體中循環輸送氧氣。角蛋白爲頭髮、指甲與皮膚提供結構框架。胰島素協助葡萄糖進入細胞,轉化成能量。蛋白質可以呈現無數形狀結構,以匹配生命活動過程中無數的“工作需求”。“從原子到生態系統,(蛋白質結構)就像是一種通用語。”庫雷希打比方道,“萬物源自此處。”

細胞讓名爲氨基酸的小分子像雛菊花環一樣連起來形成多肽長鏈,製造出蛋白質。它所選擇的氨基酸取決於DNA提供的一連串指令。在這個創造過程中,多肽鏈一瞬之間就能彎曲扣合,精準摺疊成蛋白質最終的三維結構。一旦脫離分子組裝流水線,蛋白質就會立刻奔赴屬於自己的生物學工作。

如果蛋白質無法順利完成摺疊過程,災難將接踵而至,破壞身體功能。蛋白質錯誤摺疊或展開都會產生毒性,導致細胞死亡。許多疾病與身體障礙,例如鐮狀細胞貧血,都由蛋白質錯誤摺疊造成。此外,錯誤摺疊的蛋白質還會凝聚成斑塊,成爲阿爾茨海默病和帕金森病等神經退行性疾病的生物學標誌。

然而,無人確切知曉蛋白質摺疊究竟是如何發生的。這些簡單分子鏈中的序列信息如何編碼蛋白質的複雜結構?這是“我們能夠提出的最深刻的問題”,美國約翰·霍普金斯大學(Johns Hopkins University)大學的生物物理學名譽教授喬治·羅斯(George Rose)如此評價道。

科學家對這個問題的探索最早可追溯至20世紀30年代,但真正開始動手嘗試解謎則是在50年代中期。當時,生物化學家克里斯蒂安·安芬森(Christrian Anfinsen)將蛋白質加入化學溶液中,試圖打斷化學鍵展開蛋白質,或者令其錯誤摺疊。安芬森發現,被打開或錯誤摺疊的蛋白質會自發重構成正確結構。這個後來爲他贏得了諾貝爾獎的發現,表明蛋白質會根據其內部代碼形成三維結構,這個代碼是由它的氨基酸鏈書寫的。

於是,安芬森假設,我們應該能找到一種方法,通過氨基酸序列來預測蛋白質的形狀結構。這就是後來廣爲人知的“蛋白質摺疊問題”。

一旦多肽鏈組裝完成,蛋白質便能在千分之一秒內摺疊成形,速度之快讓分子生物學家塞勒斯·利文索爾(Cyrus Levinthal)困惑不已。在他1969年發表的論文《如何優雅摺疊》(How to Fold Graciously)中,利文索爾計算出,如果蛋白質嘗試每一種可能的摺疊方式,那麼組裝完畢所需的時間可能會無限漫長。他思索着,顯然一定有什麼方法能更直接地“護送”蛋白走在正確摺疊的道路上。

隨着時間的推移,蛋白質摺疊問題已經分化成了全新的類型。如今的科學家提出了三大主要問題:能否通過蛋白質氨基酸序列來預測蛋白質結構?蛋白質的摺疊編碼是什麼?它的摺疊機制又是怎樣的?

20世紀60年代早期,隨着首批實驗確定的蛋白質結構相繼問世,這些問題開始“鑽入”科學家的大腦。英國劍橋大學(University of Cambridge)的兩位生物學家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John Kendrew)讓蛋白質生長成晶體,用X射線轟擊後測量射線偏折的程度,這一技術便是X射線晶體學(X-ray crystallography)。如此一來,他們就能確定血紅蛋白和肌紅蛋白的三維結構。這一過程耗費了兩人二十多年的時間,最終爲他們帶來了諾貝爾獎。

自此之後,無數科研人員努力鑽研,不僅想要理解不同蛋白質不同的結構形態,還想要知道它們是如何形成的。“想要看清事物的樣貌是人的本性,因爲只有知其然,才能知其所以然。”英國格拉斯哥大學(University of Glasgow)的結構生物學家海倫·沃爾登(Helen Walden)解釋道。有些人從蛋白質化學入手,其他人則集中解決物理角度上的問題。實驗科學家展開艱苦的研究工作,重構蛋白質結構;計算生物學家以各種方式結合算法進行編程和重編程,通過模型和模擬來捕捉線索。

隨着被破解的蛋白質結構越來越多,這個領域需要新的方法來組織與共享信息。1971年,爲蛋白質結構存檔的蛋白質數據庫(Protein Data Bank)成立了。這個免費的數據庫成爲了需要了解蛋白質結構、探索生物學問題的研究者的可靠研究工具。蛋白質數據庫成立之初,裡面只保存了7種蛋白質結構。50年之後谷歌DeepMind用它來訓練AlphaFold2時,它所保存的蛋白質結構數量已超過14萬,這都是結構生物學家在實驗室內解析所得。

實驗科學家的苦惱

從20世紀70年代中期開始,珍妮特·桑頓(Janet Thorntom)每隔幾個月一定會收到一隻郵包,裡面是一盤12英寸磁帶,記錄着被存入蛋白質數據庫的新結構數據。作爲英國牛津大學(Oxford University)的生物物理學家,桑頓迫不及待地打開包裹,在新結構被發現後的第一時間展開分析。她收到的第一份磁帶中只有20個結構。

每一個蛋白質結構都凝結着數年研究的心血。通常情況下,讓單個蛋白質結晶,從中收集數據或解釋數據以解析出摺疊結構,需要一個博士生在研究生院裡投入四年或更長的時間。牛津大學生物物理系當時是全球X射線晶體學的研究中心之一。1965年,蛋白質晶體學領域的先驅之一——戴維·菲利普斯(David Phillips)首先確定了溶菌酶的結構——這是我們的免疫系統用來攻擊細菌的一種蛋白質。

使用X射線晶體學方法,牛津大學的生物物理學家繪製出了蛋白質電子密度圖譜,圖中電子集中的區域可能包含一個原子。桑頓和同事將電子密度圖譜打印到塑料薄片上,一張又一張地疊放起來,創造出了蛋白質地理的 “等高線圖”。

然後,他們將圖片轉變成物理模型。科學家將打印在塑料上的圖譜放入名爲“理查茲盒”(Richards box)的設備中,該設備1968年由牛津大學生物物理學家弗雷德裡克·理查茲(Frederic Richards)發明,並以他的名字命名。理查茲盒的內部有一面以一定角度傾斜的鏡子,能將圖片反射到工作區域內,這樣科學家就能真切地看清每一個原子之間的相對位置。接下來,他們使用圓球和小棍子,搭建出物理實體模型。

這一方法過程繁瑣,限制頗多。1971年,後來成爲著名晶體學家的路易絲·約翰遜(Louise Johnson)正在搭建磷酸酶的模型,它由842個氨基酸組成,是當時科學家研究的最大蛋白質。爲了建模,約翰遜必須爬上兩層樓高的理查茲盒,這是牛津爲了她的研究專門建造的。

模型建成後,科學家用尺來測量各原子之間的距離,確定蛋白質結構座標。“這個方法很古老,”桑頓說。接下來,他們將所有座標數據輸入計算機中,計算機版本的蛋白質結構看上去像一片密林,她繼續解釋道,原子雜亂聚集在一起,只有戴上3D眼鏡,纔開始能看到蛋白質的拓撲結構。“整個過程非常折磨人,”桑頓說,“但結果出來後又令人愉悅。”

經過年復一年的努力付出,一旦科研人員確信自己的蛋白質結構無誤,他們就將數據提交給蛋白質數據庫。1984年,數據庫內存放了152種蛋白質結構,到了1992年,這一數字增長至747。

就在實驗科學家努力建造物理模型的同時,另一批蛋白質生物學家——計算生物科學家卻另闢蹊徑。他們思考着安芬森對於可以通過氨基酸序列預測蛋白質結構的假說,並且有點兒過於自信了。

書寫自己的法則

20世紀60年代初,還是本科生的約翰·莫爾特打算成爲物理學家。然後,他了解到了蛋白質摺疊問題。“有人舉辦了一場講座,說生物太重要了,不能只留給生物學家。”他說,“我很自負地把這話當真了。”被講座深深吸引的莫爾特將自己的職業生涯轉向了另一個方向。

畢業之後,莫爾特進入了蛋白質晶體學領域。他破譯出若干蛋白質結構,包括β-內酰胺酶(一種能破壞青黴素的細菌酶)。1970年他在牛津大學獲得了分子生物物理學博士學位。但在開始博士後工作的時候,他厭倦了實驗方法,開始轉向日漸蓬勃的蛋白質計算領域。計算生物學家,可以說是實驗科學家的對立面,他們編寫計算機算法,嘗試證明安芬森是對的:給程序投喂氨基酸鏈,讓它生成正確的蛋白質結構。

從生物實驗轉向計算領域並非易事。莫爾特習慣了對每個蛋白質結構進行緩慢但細緻的研究。而在新領域中,關於算法的論文一篇接一篇,常常宣稱已經解決了蛋白質結構問題以及相關的子問題。

莫爾特對此持懷疑態度。“計算生物學領域發表的文章並不像我以前熟悉的研究那麼嚴謹。”他說,“這並不是因爲這個圈子裡的人都是騙子,而是因爲如果你進行計算研究,就是在虛擬世界中工作。”

在虛擬世界中,計算科學家編寫自己的法則,而自然世界的法則在此不發揮作用。他們設計自己的算法,好讓原子以某一方式凝聚在一起,或者讓蛋白質總是向右或向左摺疊。隨着時間的推移,模型與現實越來越遙遠。在一個完全處於自己掌控的世界中,人們很難始終保持嚴謹,莫爾特如此評價道。

儘管如此,他能看到這兩個領域各自的優勢。實驗科學家的研究細緻但緩慢;計算科學家迅速卻偏離生物物理的現實,所以他們經常出錯。於是,他想到,一定有一種方法,能夠將這兩個途徑結合起來。

開始“跺腳”

20世紀90年代初,莫爾特和同事剋日什托夫·菲德利斯(Krzysztof Fidelis)想出了一個辦法來規範領域內混亂的形勢。他們創立了一個羣體性科學實驗,稱爲“全球蛋白質結構預測比賽”(Critical Assessment of Structure Prediction,CASP)。

他們的思路很簡單,作爲CASP的組織者,莫爾特與菲德利斯會公佈一張氨基酸序列清單,這些序列所代表的蛋白質結構已被實驗科學家解析出來,但尚未公開發表。隨後,全球的計算科學團隊可以使用他們能想到的任何方法來預測蛋白質結構。將有一支獨立的科學家團隊評估後者的模型,將其與實驗確定的結構做對比。

這個主意被推行開來,CASP很快成爲了用計算生物學方法解決結構預測難題的試驗場。當時AI還未誕生,計算方法主要涉及分子物理學模擬。對於科學家來說,這正是將自己的想法付諸實驗,與同行公開測試的好機會。“這原本不是競賽。”桑頓說,“但結果卻成爲了一場競賽。”

每隔兩年,科學家齊聚阿西洛瑪會議中心(Asilomar conference center),這是一座位於美國加利福尼亞州蒙特利附近的古老教堂,曾是基督教新教衛理公會的靜修場所。會議期間,組織者宣佈競賽結果,計算生物學家彼此交流自己的方法。如果與會者不喜歡他們聽到的內容,莫爾特鼓勵學者們在木地板上跺腳表達意見。

“一開始,跺腳聲響成一片。”他說。曾跟隨桑頓學習過的英國倫敦大學學院(University College London)生物信息學教授戴維·瓊斯(David Jones)回憶道,“聲響就跟打鼓一樣。”如果會議陷入細節的泥沼,生物學家們就會跺腳;如果言過其實,他們也會跺腳;如果發言人不停重複或者過於囉嗦,他們還是會跺腳。當然,這些都是友好性跺腳,“並不令人生厭”。

無論出於何種原因,當嘈雜的跺腳聲傳入發言人的耳中,總會讓人尷尬。“感謝上帝,我發言的時候從來沒人跺腳。”瓊斯說道,他的團隊提出了一套名爲“穿針引線”(threading)的計算方法,這種方法將氨基酸序列“編織”進已知的蛋白質結構中,據此來匹配正確的結構。結果還不錯。“我們很滿意,之後一切就順理成章了。”瓊斯笑着回憶道,“還充滿樂趣。”

意大利帕多瓦大學(University of Padua)生物信息學教授西爾維奧·託薩託(Silvio Tosatto)說,當時大家都興奮不已。“人們認爲自己能成爲百萬富翁,因爲他們掌握了正確的算法,還有一些人覺得自己馬上就能得諾貝爾獎了。”

在最初幾年內,什麼都沒發生。當被問及當時CASP的預測結果提交情況時,莫爾特頓了一下說:“隨機是個不錯的說法。”有些方法的表現超出預期,例如“同源性建模”(homology modeling),這種方法將已知蛋白質結構作爲參照,用來推測未知的蛋白結構。其他方法則一無所獲。大部分結構預測 “看上去都很折磨人”,莫爾特說道。

“我樂於看到他們失敗。”荷蘭癌症研究所(Netherlands Cancer Insitute)和烏特勒支大學(Utrecht University)的結構生物學家阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)開玩笑道。他向CASP組織者提供實驗確定的結構,用於預測競賽。“這不是競爭,但我們喜歡在科學上互相逗樂。”

在這一過程中,明顯的領先者出現了。1996年,第二屆CASP結束之後,一位名叫戴維·貝克(David Baker)的年輕人邀請瓊斯一同坐車去機場。貝克聽過瓊斯的演講,正在鑽研自己的計算模型。雖然模型還沒準備好參加CASP,但他很想先和瓊斯聊一下。瓊斯在車上聽了他的想法,也沒想過以後還會再見。

然而,1998年下一輪競賽期間,貝克就帶着自己的“羅塞塔”(Rosetta)算法一鳴驚人。他成爲了“最難打敗的人”,瓊斯這樣評價道。羅塞塔這樣的算法模擬氨基酸分子中原子之間的相互作用,以此預測它們的摺疊方式。這“表明你確實可以預測蛋白質結構,”貝克解釋說,“但不夠好,也不夠精確,用途不大。”

2008年時,人類還能戰勝計算機。貝克當時已經在美國華盛頓大學(University of Washington)擁有了自己的實驗室。他開發了一款名爲“摺疊它”(Foldit)的免費在線遊戲,玩家需要將給定的氨基酸鏈摺疊成蛋白質結構。在一篇發表於《自然》(Nature)的論文中,他的團隊報告說在模擬蛋白質結構方面,人類玩家的表現超越了羅塞塔算法。

然而,人類的領先優勢並沒有持續太久。在21世紀10年代初,“協同演化”(co-evolution)這一概念的重大突破推動了領域的發展,後來還成爲了AI預測工具誕生的關鍵。這一概念已存在了幾十年,解釋起來相當簡單:通過比較數百個乃至數千個密切相關但彼此不同的蛋白質的氨基酸序列,科學家能夠識別出那些發生了突變氨基酸,重點是,還能確定它們是否與其他氨基酸同步突變。如果兩個氨基酸共同變化,它們很可能以某種方式相連。“你就能說:‘這兩個氨基酸在空間上可能很接近。’”美國勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory)的結構生物學家保羅·亞當斯(Paul Adams)解釋道。

但直到21 世紀10年代初,這種預測哪些氨基酸可能存在物理接觸的準確率依然很低,徘徊在20%~24%。後來,科學家注意到自己的統計學方法會引入錯誤,數據表明一些氨基酸存在接觸,但實際上並沒有。接下來,莫爾特瞭解到,幾十年來統計學家一直敏銳地知到這樣的錯誤確實存在。他說,當你回頭看時,你會想,“我怎麼會這麼蠢?”

計算生物學家改進了統計學工具。到2016年,氨基酸接觸預測的準確率攀升至47%,兩年之後則達到70%。貝克的算法便是建立在這一成功之上:2014年羅塞塔非常精準地生成了兩個蛋白質結構,CASP評估方甚至認爲貝克可能解決了蛋白質結構預測的難題。

協同演化的見解“絕妙無比”,亞當斯如此說道。在不使用機器學習的情況下,協同演化是“推動領域前進的重大事件之一”。然而,該領域的發展仍然有限。協同演化要求大量的相似蛋白質彼此比對,而實驗科學家解析蛋白質結構的速度沒那麼快,無法滿足計算科學家的需求。對此,莫爾特套用了一個演化生物學術語:研究蛋白質結構預測的進度是一種“間斷平衡”。有時候,大家覺得好像幾十億年都沒出現什麼好想法,然後,一些令人振奮的事情就會發生。

AlphaFold2一鳴驚人

2016年,戴維·瓊斯(David Jones)在《自然》(Nature)雜誌發佈的一篇新論文中瞥見了未來。在這篇論文中,谷歌(Google)旗下、位於英國倫敦的人工智能團隊深度思維的研究人員詳細描述了他們如何使用一種名爲“深度學習”(deep learning)的算法,在古老的圍棋遊戲中擊敗了人類冠軍。這一成果令瓊斯十分驚訝。“形勢正在變化,”他回憶起當時自己的想法,“我意識到了解深度學習迫在眉睫。”

深度學習是一種受人腦啓發而開發的人工智能方法。在大腦中,分子信息通過神經元組成的一個神經網絡傳遞。神經元是腦細胞的一種,它們有一些名爲樹突的小手臂,可以“抓住”鄰近神經元釋放的信號分子(也稱爲神經遞質),這些信號分子會告訴接收的神經元是否激活並傳播信號。“如果神經元接收到足夠多的刺激,那麼它就會激活並釋放信號分子,”美國布朗大學計算機科學教授邁克爾·利特曼(Michael Littman)說道。這些信號分子被釋放後,會傳遞給下一個神經元。

20世紀50年代,一些計算機科學家意識到,他們可以將電子比特連接在一起,創建一個“人工神經網絡”(Artificial Neural Network,ANN)。ANN中的每個單元都是一個節點,研究人員將其比作一個人工神經元:在ANN中,人工神經元接受來自其他人工神經元的信息,並通過計算決定是否需要向下一個人工神經元傳遞信號。信息會通過多層人工神經元傳播,以產生一個特定的結果,例如從一張圖像中識別出一隻狗。神經元層數越多,進行的計算就會越複雜。然而,早期的ANN僅有兩層神經元。在20世紀90年代,這一數量增加到三層,並一直維持了20年。“我們無法找到可靠的方法來創建更深層的網絡,”利特曼說道。

自20世紀90年代以來,包括瓊斯和約翰·莫爾特(John Moult)在內的結構生物學家就一直在嘗試將ANN應用於蛋白質科學。然而,淺層神經網絡的侷限性和稀疏的數據阻礙了他們前進。不過在大概十年之前,計算機科學家學會了如何更好地構建ANN,從而可靠地訓練更多層的網絡。ANN的深度從20層、50層、100層逐漸增加到數千層。“爲了將這些新網絡與上世紀90年代的ANN區分開來,人們開始稱其爲‘深度學習’,”利特曼說道,“如果說機器學習領域的人特別擅長哪件事,那一定是起一些有吸引力的名字。”深度學習徹底變革了人工智能,讓算法不僅在圖像和語音識別方面表現卓越,甚至在遊戲中擊敗了人類。

2016年3月,當DeepMind的聯合創始人戴米斯·哈薩比斯(Demis Hassabis)在韓國首爾觀看他的AI系統“阿爾法圍棋”(AlphaGo)在圍棋比賽中擊敗一位人類世界冠軍時,他突然回想起自己在大學時玩蛋白質摺疊遊戲Foldit的經歷。他不禁思考:既然DeepMind的研究人員能夠編寫一個模仿圍棋大師直覺的算法,他們是否也能開發出一個算法,去模擬Foldit玩家對生物學一無所知但仍能成功摺疊蛋白質的直覺呢?

美國芝加哥豐田計算技術研究院(Toyota Technological Institute at Chicago)的教授許錦波(Jinbo Xu)也意識到了深度學習在解決蛋白質結構預測中的潛力。當時,計算機科學家在卷積神經網絡(Convolutional Neural Networks,CNN)中取得了巨大成功,在這種網絡中,算法會將圖像分解爲小塊,並通過識別這些小塊之間的模式來處理圖像。受到這些圖像處理網絡的啓發,許錦波將這一技術引入蛋白質結構預測。他使用一種叫做矩陣的數學對象,來描述在空間上彼此接近的氨基酸,然後將這個矩陣作爲圖像輸入CNN。算法會在這些圖像中尋找規律,以預測蛋白質中各個原子的三維座標。

2016年,許錦波在預印本文庫arXiv上發佈了研究成果,並隨後將其發表在《公共科學圖書館·計算生物學》(PLOS Computational Biology)上。莫爾特說,“這項工作在該領域產生了深遠的影響,它向人們展示了‘如何使用深度學習來做這類事情(比如蛋白質結構預測)’。”沒過多久,許多蛋白質結構研究小組也開始嘗試深度學習。穆罕默德·庫雷希(Mohammed AlQuraishi)和他的研究團隊開發了首個完全依靠ANN直接預測蛋白質結構的方法,這類方法也被稱爲“端到端”方法——儘管預測效果並不理想。其他研究者也開始探索這種革命性的新方法。

“最初我並不完全知道自己想用深度學習來解決什麼具體問題,但我意識到我需要進入這一領域,”瓊斯說道。於是,他開始撰寫經費申請以尋找自己的方向,就在這時,他恰巧收到了來自DeepMind的電子郵件。他們詢問了瓊斯關於全球蛋白質結構預測比賽(CASP)的情況,並表示願意提供幫助。“我以爲他們的意思只是想說:我們擁有很多算力,”瓊斯說道。然而,在瓊斯見到他們之後,他發現谷歌顯然有更大的雄心壯志。而爲了實現這些目標,這家科技巨頭需要更多學術界的人才。

新秀登場

2016年,當瓊斯開始作爲顧問參與DeepMind的項目時——即後來的阿爾法摺疊(AlphaFold),約翰·江珀(John Jumper)正在美國芝加哥大學攻讀他的理論化學博士學位。江珀在青年時期不僅自學了編程,還展現出物理方面的天賦。所以當他進入大學時,儘管他的工程師父母擔心他將來可能很難找到工作,但他還是堅定選擇了數學和物理專業。“我一直認爲自己會成爲一名研究‘宇宙法則’的物理學家,”江珀說,“我一直很喜歡這種探索宇宙真理的想法。”

在美國範德比爾特大學(Vanderbilt University)就讀本科期間,他與費米實驗室的研究人員合作研究一種名爲夸克的亞原子粒子的獨特性質。一天,當他和很多研究人員一起坐在午餐桌旁時,他聽到了一個令人沮喪的消息。“我們正在設計的這個實驗,什麼時候會啓動?”江珀回憶起當時曾這樣問道。一位教授表示可能要等到他退休後,而另一位更年長的教授說,他可能看不到那一天了。

“我希望從事一些時間週期更短的科學研究,”江珀說道。本科畢業後,他開始攻讀凝聚態物理學的博士學位,但很快便輟學了。這之後他在位於紐約的D.E. 肖研究公司(D.E. Shaw Research)找到了一份工作,這家公司當時正在進行蛋白質動力學模擬的基礎研究。通過了解蛋白質如何運動和變化,他們希望能夠更好地理解各種疾病(例如肺癌)的致病機制。

這是江珀第一次瞭解到自己的工作具有潛在的重大意義:“這關乎人類的健康,能延長人們的生命”。在接下來的3年裡,江珀在公司的超級計算機上模擬蛋白質的運動,這些超級計算機專門用於加速分子動力學模擬。“有時候我花一天時間進行的模擬比我整個博士期間的總和都要多,”他說。

2011年,他再次攻讀博士學位,這次是在芝加哥大學學習理論化學。他仍然對蛋白質的結構和運動充滿興趣,但同時也爲學術界緩慢的研究進展而沮喪。“我不再能使用D.E. 肖研究公司那些定製的計算機硬件了,”江珀說道。他想知道是否可以使用人工智能——“當時我們稱之爲統計物理學”——來實現快速的蛋白質模擬,這個過程通常需要藉助先進的機器才能實現。於是他開始涉足機器學習和ANN。

也是在此期間,他開始思考蛋白質結構預測的問題。他認爲利用蛋白質數據庫(Protein Data Bank, PDB)中的結構作爲訓練數據就能解決這個問題——到2012年時,該數據庫已包含超過7.6萬個蛋白質結構。“我相信這些數據是足夠的,”江珀說道,“但當時的方法還不夠成熟。”

在博士期間,江珀一直致力於利用機器學習來模擬蛋白質的摺疊和運動過程。2017年,剛獲得博士學位的他聽聞DeepMind正在開展蛋白質結構預測,便申請了研究科學家的職位。“當時這個項目仍然是保密的,”江珀說道。在面試中,只要他提到蛋白質結構預測,DeepMind團隊就會迅速轉移話題,“然而,正是因爲他們這樣做了太多次,我才確信他們確實在做這件事情。”

2017年10月,江珀來到了DeepMind位於倫敦的辦公室。在瓊斯的幫助下,團隊已經在對AlphaFold進行深入的開發工作。“那段時間非常有趣,我們會不停地提出各種想法。”瓊斯說道,“最終一個好的核心想法浮現出來,團隊便開始沿着這個方向展開工作。”爲了訓練他們的算法,DeepMind團隊使用了PDB中超過14萬個蛋白質結構。他們將這些信息輸入到一個CNN中,但對人工智能架構本身沒有進行太多改動。“這是 ‘標準的機器學習’”,江珀說道。

到2018年春天,AlphaFold已經準備好參加CASP,與真正的蛋白質科學家們展開競爭。“這有點像F1賽車,”瓊斯回憶道,“你以爲你造了最好的車,但你不知道其他團隊造了什麼。”這場比賽的風險很高,DeepMind團隊討論了是否應該匿名參賽,畢竟他們不想冒着被羞辱的風險。“沒有人想失敗。”瓊斯說,“在學術界,這是研究工作的一部分。如果你失敗了就只能繼續前進,因爲你沒有其他選擇。但如果你是一家市值數十億美元的科技公司,嘗試做某事卻失敗了,這顯然會給外界留下不好的印象。”

他們最終還是決定以DeepMind的名義提交結果。在12月召開的CASP會議的前幾個月,瓊斯收到了CASP組織者的消息。他們建議DeepMind團隊來參加會議,因爲AlphaFold表現非常好,它在超過一半的蛋白質結構預測中,給出了最好的預測。儘管這次勝利並不算特別耀眼,其蛋白質結構預測總分只比第二名高13分,但也給人留下了深刻印象。“顯然,一些有趣的事情發生了,”莫爾特說道。

算法新生

這場勝利極大地鼓舞了DeepMind團隊,但他們深知距離徹底解決蛋白質結構預測問題還有一段很長的路要走。哈薩比斯再次將他們聚集在一起。“我們要繼續攻克這個問題嗎?”江珀回憶起哈薩比斯的話,“如果不繼續,那就去尋找那些我們能產生巨大影響的問題。”江珀繼續說,“有那麼一刻,我們決定要把這個問題徹底解決。”於是,他們重新回到起點,開始新一輪的研究。

憑藉着在物理、化學、生物學和計算領域的多樣化背景,江珀給那些頭腦風暴會議帶來了獨特的見解。不久後,他開始領導這個團隊,團隊的規模也從最初的6人擴大到了15人。“有一些非常特別的事情正在發生,”拉斐爾·湯曾德(Raphael Townshend)說道。2019年,他曾在DeepMind實習,後來創辦了由人工智能驅動的生物科技公司“原子人工智能”(Atomic AI)。

在學術界,專家們往往彼此分隔,各自研究一些獨立項目,很少尋求合作。而在DeepMind,來自統計學、結構生物學、計算化學、軟件工程等領域的專家們齊聚一堂,共同研究蛋白質結構預測問題。他們還擁有谷歌提供的龐大財力和計算資源。“我在博士期間需要花費幾個月完成的事情,在這裡一天就能完成,”湯曾德說道。

“位於倫敦的DeepMind辦公室充滿活力,而其中的大部分活力都來自江珀。”湯曾德說,“我認爲他是一個真正的天才,同時也是一個非常謙遜的人。”美國計算機科學家埃倫·鍾(Ellen Zhong)說道:“他深受團隊的喜愛。”鍾曾於2021年在DeepMind實習,現在是美國普林斯頓大學(Princeton University)的助理教授。

在江珀的領導下,團隊對AlphaFold進行了重構,開發了AlphaFold2。DeepMind設計了一種新型的轉換架構(Transformer)——“在過去5年中,這種深度學習模型幾乎推動了所有機器學習算法實現突破”,湯曾德說道。這種ANN通過調整連接的強度來建造更精確的數據表徵,在AlphaFold2中用於處理蛋白質的演化和結構數據。隨後,這些數據會被第二個Transformer架構用來預測一個蛋白質的三維結構。AlphaFold2將預測的結構與一些修正數據繼續輸入這些架構中,以進一步優化預測的蛋白質結構。

“當我們剛開始研發AlphaFold2時,算法表現得非常糟糕,但並沒有我們預期的那麼糟。”江珀說,“它得到了一些看起來有點像蛋白質的螺旋結構。”但隨着他們進一步優化算法,他們注意到預測的效率和準確性都大幅提高。“這確實讓人有些害怕。”江珀說道,“如果它表現得太好,通常意味着你做錯了什麼。”但他們檢查後沒有發現任何問題,AlphaFold2確實在正常工作。

團隊決定進行一項內部實驗,看看他們的系統是否對生物學家有所幫助。他們挑選了大約50篇發表在《科學》(Science)、《自然》(Nature)和《細胞》(Cell)等頂級期刊上的論文。這些論文不僅描述了一種新的蛋白質結構,還從蛋白質的結構中得出了一些關於其功能的見解。他們想看看AlphaFold2的表現能否與實驗人員費時費力獲得的研究成果相媲美。

於是,他們將這些氨基酸序列輸入AlphaFold2的預測引擎。對於每個序列,它給出的預測都很接近論文中的實驗獲得的蛋白質結構。然而,在DeepMind團隊看來,這仍然不夠準確,這些結構中缺少實驗研究人員從蛋白質中獲得的一些關鍵細節。“你認爲自己跑完了比賽,卻發現只是跑了一半,”江珀說道。在接下來的6個月裡,團隊進一步優化了系統,一點一點地改進細節。在2020年CASP的蛋白質結構預測名單發佈前幾周,他們又進行了另一次有效性測試,江珀對這次結果感到滿意。DeepMind在2020年春季向CASP提交了他們的預測結果,接下來是等待最終結果。

震驚世界

到初夏時,莫爾特收到了一封來自CASP評估員的電子郵件,寫着“看看這個,真是令人印象深刻”。郵件的附件是一個AlphaFold2預測的蛋白質結構。莫爾特非常驚訝,但他認爲這只是一次偶然的成功。

緊接着,他收到了一封又一封這樣的電子郵件。“這很不尋常,”他回憶起當時的想法。有3個、4個甚至一大堆近乎完美的蛋白質預測結構,而它們全部來自AlphaFold2。到夏末時,莫爾特說,“我們迅速意識到,有一些極其超乎想象的事情發生了。”

CASP評估員會將每個提交的蛋白質預測結構與相對應的、經過實驗獲得並驗證的結構進行比較,給出評分。滿分爲100分,意味着預測的結構與實際結構中的每一個原子都能完美匹配。莫爾特一直認爲,任何超過90分的結果都能表明算法已經有效地解決了蛋白質的結構預測問題。AlphaFold2預測的大多數結構都已經達到甚至超過了90分。會議召開的前幾個月,莫爾特打電話告訴了江珀這個消息。“我激動得爆了粗口,”江珀回憶道,“妻子當時還問我是否還好。”

2020年12月,新冠疫情暴發不足一年之際,江珀在CASP的視頻會議上展示了AlphaFold2。和其他與會者一樣,瓊斯在家觀看了會議。“我完全呆在那裡……看着一切徐徐展開,”他說,“我沒有發泄情緒的途徑,因爲同事們都不在身邊……我們都處於疫情防控中,哪也去不了。”

對於任何不是ANN專家的人來說,其中的概念聽起來會都很複雜。不過即便如此,結論卻很明確:DeepMind已經解決了蛋白質的結構預測問題,他們開發的AlphaFold2能夠基於蛋白質的氨基酸序列來準確預測其結構。“唉,我最喜歡的課題完蛋了,”瓊斯回憶道,“DeepMind殺死了比賽,一切都結束了。”多年以來,阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)一直向CASP提交未發表的蛋白質結構的實驗結果以供比賽使用。當他看到AlphaFold2預測的、他的研究團隊辛苦獲得的一個蛋白質結構時,他心想:“完了。”AlphaFold2完全正確地預測了該蛋白質的結構。在疫情防控期間,獨自在家的科學家們一致認爲蛋白質科學的世界至此永遠改變了。當他們展望這片新的領域時,心中只有一個問題:接下來怎麼辦?

從預測到創造

結構生物學家突然陷入了混亂。“一開始,許多人進行了深刻的反思”,西爾維奧·託薩託(Silvio Tosatto)說道,他從全球蛋白質結構預測比賽(CASP)的早期就開始參加這項比賽。一些結構生物學家擔心,他們的工作可能會變得過時。另一些人則表現出防禦性姿態,聲稱“阿爾法摺疊2”(AlphaFold2)的預測結果並不準確。

這一刻,那些長期致力於解決蛋白質結構預測問題的計算生物學家感到苦樂參半,他們其中一些人甚至已經研究了數十年時間。CASP賽後,穆罕默德·庫雷希(Mohammed AlQuraishi)撰寫了一篇博客文章,其中引用了一位與會者的話,他形容這感覺就像自己的孩子第一次離開家。

儘管對這種備受矚目的新工具感到不安,但許多科學家還是欣喜若狂。過去,那些不從事蛋白質結構研究的科學家,在進行涉及多學科問題的研究時,必須與結構生物學家合作,才能確定實驗中的蛋白質結構。現在,他們只需按幾個按鈕,只靠自己就能得到結構。

在媒體上,AlphaFold2被形容爲將“改變一切”的嶄新的人工智能(AI)突破。但科學家花了數月甚至數年的時間,才終於理清AlphaFold2的能力和侷限性。大約是在約翰·江珀(John Jumper)演講的6個月後,谷歌子公司“深度思維”(DeepMind)發表了他們的結果,並公開了AlphaFold2的底層代碼。生物學家開始嘗試使用這個工具。阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)說:“AlphaFold2發佈的第二天,我們就試着把它裝到了我們的圖形處理單元(GPU)服務器上。”

珍妮特·桑頓(Janet Thornton)表示:“我原本以爲AlphaFold2會失敗,但它實際上取得了驚人的成功。”漸漸地,人們開始意識到,AlphaFold2不僅不是一種威脅,反而可能成爲加速研究的催化劑。它沒有讓結構生物學家失業,而是給他們提供了一個新的工具,讓他們更好地完成工作。海倫·沃爾登(Helen Walden)說:“如果你只是把結構生物學家看作解析蛋白質結構的技術專家,那麼是的,結構生物學家當然會失業。”但這樣說就好比認爲,人類基因組計劃讓基因組學家變得多餘了,因爲他們不再能發表解析單個基因序列的論文了。

在許多情況下,結構生物學家的目標是通過研究蛋白質的結構來發現其功能。有了AlphaFold2,他們就能基於這種工具在幾分鐘內生成的蛋白質結構,提出關於蛋白質功能的假設,而不必事先通過數月甚至數年的實驗來解析結構。保羅·亞當斯(Paul Adams)說:“它在許多方面都推動結構生物學向着更好的方向發展,這並非一件壞事,反而會讓這個研究領域變得更加令人興奮。”

然而,AlphaFold2並未像一些人預測的那樣立即帶來各種新藥。研究人員很快了解到,這個工具也有侷限性:AlphaFold2的預測並不完美。佩拉基斯說,它預測的結果仍需通過實驗驗證,但你“可以更快地開始具體結構的研究”。現在,當他的學生開始一個新課題時,他們會首先使用AlphaFold2預測特定蛋白質的結構,然後再用實驗驗證。

佩拉基斯認爲,他和其他研究人員仍會在一定程度上繼續使用X射線晶體學。但是,爲了得到初始的蛋白質結構,許多人已經開始將深度學習預測的蛋白質結構與先進的電子顯微鏡技術(例如冷凍電子顯微術)結合使用。冷凍電子顯微術(cryo-EM)又稱冷凍電鏡術,是一種用於分析快速冷凍的含水生物樣品的透射電鏡成像技術,通過電子轟擊樣品進行分析。將這兩種技術相結合之後,研究人員就能迅速開展對蛋白質功能的研究,專注於研究更有趣的科學問題。庫雷希表示,AlphaFold2“極大推動了”冷凍電子顯微術的應用。

轉變已經開始了。2022年6月,《科學》(Science)的一期特刊揭示了人類核孔複合體近原子水平分辨率的結構。對於這個由30種不同蛋白質組成的龐大而複雜的蛋白質複合體,其結構解析幾十年來一直是生物學中的難題。這羣科學家使用AlphaFold2的預測結果,填補了核孔複合體中未能用冷凍電子顯微術解析的部分。江珀表示,當他讀到這篇論文,看到其他科學家利用AlphaFold2取得了生物學上的突破,就是在那一刻,他意識到“AlphaFold2確實非常重要”。

過去三年中,類似核孔複合體這樣的發現點綴了蛋白質科學領域的發展歷程。AlphaFold2已經預測了許多蛋白質結構,它們幫助科學家研究疾病並創造了新的藥物遞送工具。美國博德研究所(Broad Institute)的分子生物學家張鋒說:“它對我們非常有幫助。”他用AlphaFold2設計了一種分子注射器,用於將藥物遞送到人體細胞中。除了藥物遞送,瞭解蛋白質的結構也有助於藥物開發:例如,如果研究人員能找到緊密貼合靶標蛋白形狀並能改變其功能的分子,它就有潛力作爲藥物。儘管一些研究表明,AlphaFold2的預測結果並不如實驗得到的結構有用,但也有研究表明AlphaFold2的預測結果同樣有效。總的來看,AI工具對藥物發現的全面影響仍在逐步顯現。

然而,在預測已知蛋白質的結構和功能之外,一些生物學家已經在嘗試將AlphaFold2用於其他用途。他們轉而用人工智能設計自然界中不存在的蛋白質,這一技術對設計新型藥物至關重要。

開拓新領域

觀看了江珀在2020年CASP會議上的演講後,戴維·貝克(David Baker)幾乎立即就回到了他的羅塞塔(Rosetta)算法工作中。當時,谷歌尚未公開AlphaFold2的底層源代碼。即便如此,“我們開始嘗試他們介紹的一些想法”,貝克說道。就在谷歌DeepMind在《自然》(Nature)上發表AlphaFold2的同一天,貝克和團隊宣佈了AlphaFold2的競爭對手“羅塞塔摺疊”(RoseTTAFold),它也有極高的蛋白質結構預測精確度。RoseTTAFold同樣使用深度學習來預測蛋白質結構,但其底層架構與AlphaFold2非常不同。託薩託說:“科學想法一旦被提出,人們就可能對其進行逆向工程並嘗試在其基礎上進行構建,至少對那些擁有足夠資源的人而言是這樣。”

RoseTTAFold並不孤單。包括美國元宇宙(Meta)公司在內的其他AlphaFold2競爭者也開發了自己的算法,用於解決蛋白質結構預測或相關問題。一些公司已經擴展到了蛋白質以外的領域,例如拉斐爾·湯曾德(Raphael Townshend)所在的美國生物科技初創公司“原子人工智能”(Atomic AI),就使用深度學習來解析RNA的結構。然而,在單分子結構預測領域,目前還沒有算法能達到AlphaFold2的精度,桑頓說道。“我相信他們最終會做到這種精度,但我認爲要再現另一個那樣的‘AlphaFold2時刻’將會非常困難。”

CASP建立了一種卓有成效的競爭傳統。至少在大衆眼中,貝克和江珀將這種競爭延續了下去。貝克說:“他們可能覺得我在與他們競爭,但我覺得他們只是啓發了我們。”江珀則對此表示歡迎,他說:“讓人們在這個科學基礎上繼續開發是非常重要的。如果AlphaFold2沒有知識上的傳承,那對我來說將是一件很悲哀的事。”

貝克已經在發展他的項目傳承,重點關注蛋白質科學的新前沿領域——蛋白質設計。此前,生物學家受限於研究自然界中已經存在的蛋白質,但在貝克設想的科學中,他們可以設計全新的蛋白質,這些人爲設計的蛋白質可以專門用於利用陽光、分解塑料或作爲藥物和疫苗的基礎。

荷蘭胡佈雷赫特研究所(Hubrecht Institute)的結構生物學家丹尼·薩託(Danny Sahtoe)曾在貝克的指導下完成博士後研究,他說:“對於目前自然界中不同類型的蛋白質而言,其結構或形狀的數量相當有限。理論上,還存在更多的可能性。如果能有更多形狀,那也意味着蛋白質可以擁有更多功能。”

現任美國華盛頓大學(University of Washington)蛋白質設計研究所(Institute for Protein Design)所長的貝克說,蛋白質設計本質上是“蛋白質結構預測的逆向問題”。使用蛋白質結構預測算法時,科學家會將氨基酸序列輸入深度學習算法,並讓它輸出蛋白質結構。而蛋白質設計則不同,蛋白質設計師是將特定的蛋白質結構輸入算法,然後讓它輸出氨基酸序列。緊接着,他們會基於模型輸出的序列,再在實驗室中構建出設計的蛋白質。

AlphaFold2和RoseTTAFold本身無法生成這些序列,因爲它們的編程邏輯執行的是相反的操作。但貝克基於RoseTTAFold的神經架構,創建了一個專門用於設計蛋白質的迭代版本,名爲“RoseTTAFold擴散”(RoseTTAFold diffusion),簡稱“RF擴散”。薩託說,蛋白質設計領域已經存在了很長時間,但深度學習加速了這一進程,它使切實可行的蛋白質計算機模型的設計過程變得“極其快速”。過去,訓練有素的蛋白質設計師需要數週或數月的時間,才能創建一個新蛋白質的骨架。而現在,他們幾天之內甚至一夜之間就能完成。

貝克還更新了Foldit遊戲,將他的執念融入其中:玩家不再是構建蛋白質結構,而是設計蛋白質。這一嘗試確實富有成效。基於一些玩家設計的蛋白質,貝克實驗室已經撰寫了多篇論文。而且一名世界頂級Foldit玩家如今正就讀於華盛頓大學,是貝克一位同事的研究生。

貝克說:“我們真的理解蛋白質的摺疊過程嗎?如果我們設計出能摺疊成新結構的新序列,那就表明我們對蛋白質摺疊有了相當多的瞭解。從某種意義上說,你也可以將它看作蛋白質摺疊問題的一種解決方案。”

相信與懷疑

AlphaFold2的成功無疑改變了生物學家對人工智能的態度。長期以來,許多實驗生物學家並不相信計算方法,他們覺得一些機器學習方法可能會讓數據看起來很好,而實際使用時並非如此。然而,谷歌DeepMind的成功明確證明了“你可以用它進行嚴肅的科學研究”,庫雷希說道。現在,任何對這件事的懷疑都會被人反問:“那AlphaFold2呢?”許錦波,那位曾推進卷積神經網絡研究的計算生物學家說:“現在,生物學家開始相信我們的預測結果。而在以前,生物學家總是懷疑我們的預測是否可靠。”

這種信任的建立要歸功於AlphaFold2平臺的一個特性:它不僅能生成蛋白質的三維模型,還會自我評估預測的準確性,對結構中的每個部分給出從0到100的置信度評分。2022年7月,谷歌DeepMind發佈了2.18億種蛋白質的結構預測,幾乎涵蓋了世界上所有已知蛋白質。之後,亞當斯便決定開始分析AlphaFold2的自我評估結果。他將這些預測的結構與已通過實驗解析的蛋白質結構進行比較,並獨立評估它們的準確性。

亞當斯說:“好消息是,當AlphaFold2認爲自己正確的時候,它通常非常正確。當它認爲自己不對時,它通常也確實不對。”然而,在AlphaFold2對其預測結果“非常有信心”(置信度評分不低於90分,滿分爲100分)的情況下,大約在10%的例子中,預測結果與實驗結果不一致。

AI系統似乎具有一定的自我懷疑能力,這可能會導致人們過度依賴其結論。大多數生物學家將AlphaFold2視爲一種預測工具,但也有一些人走得太遠了。一些過去與結構生物學家合作的細胞生物學家和生物化學家,甚至用AlphaFold2取代了結構生物學家,並將其預測視爲真理。佩拉基斯說,有些科學家在發表論文中展示的蛋白質結構顯然是錯誤的,任何結構生物學家都能看出來。“但他們會說:‘好吧,那是AlphaFold2預測的結構。’”美國國立衛生研究院(NIH)的研究員勞倫·波特(Lauren Porter)表示:“一些人對這些深度學習模型的能力過於自信了。我們應該儘可能多地使用這些深度學習模型,但也需要以謹慎和謙遜的態度來對待它們。”

戴維·瓊斯(David Jones)聽說,有些從事計算解析蛋白質結構的科學家在爭取資金時遇到了困難。他說:“你知道的,普遍的看法是,DeepMind已經做到了,那爲什麼你還在做這個方向?”但瓊斯認爲,這項工作仍然是必要的,因爲AlphaFold2並非無懈可擊,他說:“(距離真正解決該領域的所有問題)依舊存在非常大的差距,有些事情它顯然做不到。”

雖然AlphaFold2在預測小型、簡單蛋白質的結構方面表現出色,但在預測包含多個組成部分的蛋白質複合體時,其準確性仍然較低。它也無法考慮蛋白質的環境因素或蛋白質與其他分子的結合,而這些因素會在自然狀態下改變蛋白質的形狀。例如,有時蛋白質需要被特定的離子、鹽或金屬包圍才能正確摺疊。沃爾登說:“目前,AlphaFold2在理解蛋白質所處環境方面還有些問題。”她的團隊已經通過實驗解析了幾個AlphaFold2無法預測的結構。

自然界中還存在幾類動態的蛋白質,它們的功能十分重要,但AlphaFold2對它們的結構預測準確性較差。這些會發生形變的蛋白質,也被稱爲摺疊轉換蛋白質(fold-switching protein),它們的結構並不是靜態的,其形狀會在與其他分子相互作用時發生變化。即使是相同的氨基酸序列,有些蛋白質也會摺疊成截然不同的形狀。波特說,摺疊轉換蛋白質“挑戰了序列編碼單一結構的範式,因爲它們顯然不只有一種結構”。與用於訓練DeepMind算法的數十萬種靜態、單一結構的蛋白質相比,用於訓練的摺疊轉換蛋白質只有大約100個例子,儘管肯定還有更多此類蛋白質存在。波特表示,“一般來說,這些算法是爲了預測單個摺疊結構而設計的”,因此有這樣的表現也許並不令人意外。

還有一些蛋白質會像汽車專賣店外的充氣人偶一樣胡亂擺動。固有無序蛋白(IDP)或固有無序蛋白質區域缺乏穩定的結構,它們會不斷地搖擺和重新形成。丹麥哥本哈根大學(University of Copenhagen)的計算蛋白質生物物理學教授克雷斯滕·林多夫-拉森(Kresten Lindorff-Larsen)說:“它們在很多方面都被人忽視了,僅僅是因爲它們有點煩人。”大約44%的人類蛋白質都包含一個由至少30個氨基酸組成的無序區域,“這是一個相對較大的比例”,林多夫-拉森表示。AlphaFold2能預測某個區域可能是固有無序的,但它不能告訴你這種無序狀態具體是什麼樣的。

對於江珀來說,AlphaFold2最讓他失望的點在於,它無法顯示兩種僅相差一個氨基酸(即點突變)的蛋白質之間的結構差異。他說,點突變“有時會對蛋白質的結構和功能產生相當顯著的影響,但AlphaFold2常常會忽視這些區別”,它會爲兩個序列生成相同的結構。2023年9月,DeepMind發佈了AlphaMissense,這是一種能預測此類點突變影響的深度學習算法。它無法展示結構上的變化,但會根據已知致病蛋白質中類似突變的信息,告知用戶該突變是否可能導致蛋白質致病或出現功能障礙。

然而,就算AlphaFold2能夠完美地預測所有蛋白質的結構,它仍然遠未達到模擬生命的程度。因爲在細胞中,蛋白質從來都不是單獨行動的。

AlphaFold3誕生

細胞內部複雜而混亂。細胞的外膜包裹着細胞內的生化環境,這裡密集地擠滿了各種分子部件——蛋白質、信號分子、信使RNA和細胞器等等。蛋白質彼此之間以及與其他分子相互結合,這會改變它們的形態與功能。

儘管AlphaFold2在預測單個蛋白質結構方面表現出色,但它並未幫助生物學家更深入地理解蛋白質在這種複雜天然環境中的表現。這正是該領域當前研究的方向。蛋白質科學領域的兩大人工智能巨頭——谷歌DeepMind和貝克領導的蛋白質設計研究所,目前正在改進他們的深度學習算法,用於預測蛋白質在與其他分子相互作用時的結構。2024年春天,兩個機構都發表了論文,描述了他們在該領域的類似進展。他們更新的算法——AlphaFold3和RoseTTAFold All-Atom,使他們能預測蛋白質與蛋白質、DNA、RNA和其他小分子結合時的結構。

生物學家纔剛剛開始測試這些更新。庫雷希表示,到目前爲止,AlphaFold3的準確性遠高於RoseTTAFold All-Atom,但這次並不像“AlphaFold2時刻”那樣是一次巨大的飛躍。對於預測一些大分子,例如RNA的結構,它的準確性仍低於其他基於物理的系統和實驗方法。

即便如此,這些新算法仍朝着正確的方向邁出了一步。蛋白質與其他分子之間的相互作用對其在細胞中的功能至關重要。爲了開發出能與蛋白質結合並按需改變其活性的藥物,研究人員需要了解兩者形成的複合體的結構。不過亞當斯表示,兩種算法都不太可能在短期內帶來新藥。他說:“這兩種方法的準確性仍然有限,但它們都在原有基礎上有了巨大進步。”

DeepMind的新產品還有一個重大變化。AlphaFold2的底層代碼是開源的,因此其他研究人員可以研究該算法並將其改造後用於自己的項目。然而,谷歌目前仍選擇將AlphaFold3的源代碼作爲商業機密保護起來,而不是公開分享。庫雷希說:“至少目前,沒人能像使用AlphaFold2那樣運行和使用AlphaFold3。”

早在AlphaFold3發佈之前,研究人員就已經在測試AlphaFold2,看它能否提供有關蛋白質在不同構象下的有用信息。美國布朗大學(Brown University)的化學與物理學副教授布倫達·魯本斯坦(Brenda Rubenstein)對激酶很感興趣,這是一類能激活其他蛋白質的蛋白質。具體來說,她想了解一種會導致癌症的激酶的作用機制,以便她針對這種激酶開發更精確的藥物。魯本斯坦的實驗室使用了一種基於物理的方法,通過牛頓定律映射原子的三維座標來對激酶的結構建模。這項研究已經耗費了兩年半的時間。

“大約一年前,我們說:能不能更快地完成這個過程呢?”魯本斯坦說道。於是,他們嘗試以一種新的方式使用AlphaFold2。通過給算法輸入相關蛋白質的數據,她發現AlphaFold2能以超過80%的準確性,預測該激酶在不同構象下的結構。庫雷希說,“如果用正確的方式使用AlphaFold2,你就能讓它輸出多個不同構象”,魯本斯坦的實驗室是發現這一點的幾個實驗室之一,“這件事非常振奮人心”。

庫雷希希望,深度學習能在2040年前實現模擬整個細胞及其內部的所有結構和動力學。然而,要實現這一目標,需要在實驗和計算兩個方面都取得飛躍性進展。

捷足先登

對許多生物學家而言,AlphaFold2是他們一直在等待的突破。CASP的目標一直都是:創建能根據序列預測蛋白質結構的計算工具。儘管如此,許多人忍不住要問:在如此多專家已經奮鬥了幾十年的情況下,爲何一個相對較新的團隊卻能破解蛋白質的代碼呢?不可否認,谷歌DeepMind的計算機和蛋白質科學家團隊爲這個問題帶來了全新的見解。與此同時,蛋白質科學的土壤已變得肥沃,已經準備好迎接深度學習的革命,庫雷希說道,“這些事情不是憑空出現的”。

在2020年CASP賽前,許多研究人員都已經預料到,蛋白質結構預測的突破會通過人工智能實現。湯曾德說:“一切都在朝那個方向發展。”但他們沒想到這種突破會來自一家市值數十億美元的科技公司,也沒想到它會來得這麼快。一些人認爲,AlphaFold2並不是什麼新的科學成就,不過是巧妙的工程設計。一些人對貝克的算法沒能奪冠感到驚訝,而另一些人則並不意外,因爲谷歌DeepMind擁有無與倫比的資源。桑頓說,每年大約有100個實驗室參加CASP,儘管他們已經開始採用AI技術,但他們“可能沒有DeepMind那樣的AI專業知識,也沒有那樣的算力,而DeepMind基本上可以使用無限的算力”。

桑頓還推測,谷歌在蛋白質科學方面缺乏專業知識,這反而可能釋放了他們的創造力。她表示,“他們心無旁騖”,專注於構建一個出色的人工神經網絡。而蛋白質生物學家則揹負了很多包袱:在開發AI工具時,他們總希望能捕捉到蛋白質摺疊過程中原子層面的分子物理和化學過程。DeepMind則採用了不同的方法:把氨基酸序列數據轉化爲三維結構,至於如何實現,這並不重要。沃爾登表示:“他們並沒有試圖解決蛋白質摺疊問題,我想這是此前許多預測方法嘗試在做的事。相反,他們實際上只是簡單粗暴地將原子的最終位置映射到空間中。有趣的是,他們可能正是因此才解決了蛋白質結構預測問題。”

對一些生物學家而言,這種方法沒能解決蛋白質摺疊問題。從結構生物學的早期階段開始,研究人員就希望能瞭解氨基酸鏈摺疊成蛋白質這一過程背後的規則。隨着AlphaFold2的出現,大多數生物學家認爲,結構預測問題已經解決。然而,蛋白質摺疊問題並未解決。埃倫·鍾(Ellen Zhong)說:“現在,你只是有了這個黑箱,它能以某種方式告訴你摺疊後的狀態,卻無法告訴你究竟如何到達那個狀態。”布朗大學的計算機科學家邁克爾·利特曼(Michael Littman)則表示,“這不是科學家解決問題的方式。”

美國約翰·霍普金斯大學(Johns Hopkins University)的生物物理學榮譽退休教授喬治·羅斯(George Rose)說,這聽起來可能像是“語義上的爭論,但當然不是這樣”。AlphaFold2可以基於它對數十萬個蛋白質結構的分析,識別出給定氨基酸序列可能的摺疊模式。但它無法告訴科學家關於蛋白質摺疊過程的任何信息。羅斯說:“對許多人而言,你並不需要知道這些,他們也不在乎。但科學,至少在過去500年左右的時間裡,它一直致力於理解事情的發生過程。”羅斯認爲,要理解以蛋白質爲基礎的生命動態、機制、功能和本質,你需要一個完整的故事,而這正是深度學習算法無法告訴我們的。

對約翰·莫爾特(John Moult)而言,機器做到了一些自己無法理解的事情,這沒什麼關係。他說:“我們都習慣了讓機器做我們做不到的事情。比如說,我沒法跑得像我的車那麼快。”而對於那些試圖研究蛋白質,並且只需要大致瞭解其外觀的分子生物學家來說,如何達到這個目標也並不重要。

波特表示:“但在我們真正瞭解蛋白質摺疊的原理之前,我們永遠不會有100%可靠的預測方法。我們必須瞭解基本的物理原理,才能做出最有依據的預測。”庫雷希則說:“我們一直在調整目標。我確實認爲,核心問題已經解決了。所以現在的重點是,接下來會發生什麼。”

即使生物學家還在繼續爭論這些話題,但對於這個無疑已經發生改變的領域,其他人已經開始展望未來,同時也回顧了其近來的發展歷程。有時,佩拉基斯會對過去的工作方式產生一陣懷舊之情。2022年,他的團隊用X射線晶體學解析了一種參與微管(爲細胞提供結構支撐的巨型棒狀結構)修飾的酶的結構。佩拉基斯說:“我意識到,我再也不會那樣做了。過去,在工作了幾個月之後,第一次看到結構被解析出來的時候,會讓人有一種非常特別的滿足感。”

AlphaFold2並沒有讓那些實驗變得過時,相反,它凸顯了這些實驗的必要性。它將歷史上截然不同的兩個學科聯繫在了一起,開啓了一場新的、激動人心的對話。

新世界

波特感嘆道,70年前,人們認爲蛋白質是一種膠狀物質。“再看看現在我們能看到什麼”,無論是自然界中存在的還是人爲設計的蛋白質,這樣一個龐大的蛋白質世界,在我們眼中變成了一個又一個結構。佩拉基斯表示,“相比於AlphaFold誕生之前,如今的蛋白質生物學領域變得更加令人興奮了。”這種興奮來自許多方面,包括基於結構的藥物發現可能會重新振興,科學家提出假設的速度會變快,以及它給理解細胞內複雜的相互作用帶來了希望。庫雷希說:“這種感覺就像是當年基因組學的那場革命。”對於生物學家,無論是實驗科學家還是在電腦前運行程序的計算科學家,這裡的數據都太多太多了,他們纔剛開始弄清楚如何處理這些數據。

但正如世界各地由人工智能帶來的其他突破一樣,這一突破也可能存在上限。AlphaFold2的成功建立在訓練數據的基礎上,即那些由耐心的實驗人員精心解析的數十萬個蛋白質結構。儘管AlphaFold3和相關算法在預測分子複合體結構方面已經取得了一些成功,但其準確性仍落後於它的前輩在單一蛋白質結構上的表現,部分原因是可用的訓練數據顯著減少了。

桑頓說,蛋白質結構預測問題“幾乎是AI解決方案的一個完美案例”,因爲算法可以在數十萬個以統一方式收集的蛋白質結構數據上進行訓練。然而,蛋白質數據庫(PDB)可能只是生物學中有組織的數據共享的特例。如果沒有高質量的數據用於訓練算法,它們也無法做出準確的預測。江珀表示:“我們很幸運,在我們遇到這個問題時,它正好已經到了可以解決的時機。”

沒人知道深度學習在解決蛋白質結構預測問題上的成功能否延續到其他科學領域,哪怕只是生物學的其他領域。但像庫雷希這樣的一些人對此持樂觀態度,他說:“蛋白質結構預測真的只是冰山一角。”例如,化學家也需要進行成本高昂的計算。庫雷希說,藉助深度學習,這些計算的速度已經比以前快了一百萬倍。

人工智能顯然能推動解決特定類型的科學問題,但在推進知識進展方面,它對科學家的幫助可能是有限的。庫雷希表示,“歷史上,科學一直是關乎理解自然的”,也就是理解生命和宇宙背後的過程。深度學習工具揭示的是解決方案而並非過程。如果科學通過這些工具向前發展,那它還是真正的科學嗎?庫雷希繼續說,“如果你能治癒癌症,你還會在乎所使用的療法是如何起效的嗎?未來幾年,這將是我們會不斷爭論的問題。”如果許多研究人員決定放棄理解自然的過程,那麼人工智能不僅會改變科學,它也會改變科學家。

與此同時,CASP的組織者們正面臨一個不同的問題:如何延續他們的競賽和會議。AlphaFold2是CASP的產物,它解決了人們組織這個會議原本要解決的主要問題。莫爾特說:“如今的CASP到底是爲了什麼?對我們而言,這是一個巨大的衝擊。”2022年,CASP會議在土耳其安塔利亞市舉行。儘管谷歌DeepMind並未參賽,但該團隊的存在感依然很強。瓊斯說:“無非就是人們使用了或多或少的AlphaFold。”他表示,從這個意義上說,谷歌還是贏了。

如今,一些研究人員對參加CASP的興趣也減弱了。許錦波說:“一看到那個結果,我就轉變了研究方向。”也有一些人仍在繼續改進自己的算法。比如瓊斯仍然涉足結構預測領域,但這對現在的他來說更多隻是一種愛好。諸如庫雷希和貝克等其他人,則在繼續開發新的結構預測和設計算法。在與一家市值數十億美元的公司競爭的前景面前,他們毫不畏懼。

莫爾特和會議的組織者們也在努力改進。下一輪CASP已於2024年5月開放報名。他希望深度學習能征服結構生物學的更多方面,比如RNA或生物分子複合體。莫爾特說:“這種方法已經在蛋白質結構預測這個問題上奏效了,而結構生物學領域還有許多其他相關問題。”

下一次CASP會議將於2024年12月在加勒比海碧藍的海水旁舉行。屆時,微風和煦,或許討論的氛圍也會十分和睦。曾經激烈的跺腳聲早已平息,至少表面上是這樣。今年的競賽會是什麼樣子,誰也無法預測。但如果從過去幾屆CASP中尋找線索的話,莫爾特知道,他只能期待一件事,“那就是驚喜”。

本文選自《環球科學》10月刊專題報道“AI重塑結構生物學”。