追問|計算醫學是如何讓“虛擬小人”吃“電子藥”的?
·“計算醫學也是大模型,是專業領域的專有模型。生成式人工智能,現在更多是指語言大模型,遠不是人工智能的終極形態,要知道人類超過八成的知識是不能被語言描述。語言大模型還處於大模型的初級階段,如同第三次工業革命開始時的網上聊天軟件。未來一定會在各自領域出現垂直類大模型。”
病史、疾病影像、藥物反應、生物標誌物、基因組學數據……現代醫學診療和研究正在生產海量的數據。現在,隨着大數據、人工智能等技術的發展,科學家們能夠在這些數據的基礎上建立更爲精緻的數學模型,揭示人體、疾病和藥物之間的複雜關係。
這一領域被稱爲“計算醫學”(Computational Medicine),是一門橫跨數學、計算機、生物學、醫學等多個領域的交叉學科。
計算醫學的出現是爲了應對生物系統的複雜性問題。以基因爲例,人類23條染色體上約有2.5萬基因,它們就像一個個“開關”,決定了人體的生物性狀。然而,這些基因“開關”相互聯接,互相影響,形成了一個複雜的非線性網絡。在這個網絡中,“牽一髮而動全身”,在認識某些複雜疾病時,人們很難將某個性狀完全歸因到特定基因上去。
擁有了機器學習等大數據建模技術之後,人們就能建立具備數以億計參數的複雜數學模型,去模擬同樣複雜的生物系統,重現和預測各種各樣的生物過程,實現人體的“數字孿生”。
通過這些模型,計算醫學可以幫助人們理解疾病與人體的關係,找出潛在的疾病靶點,幫助科學家們開發藥物。
除此之外,科學家們還能夠在這些模型中預測不同患者對藥物的反應,幫助制定更加精準的醫療方案,調整臨牀試驗計劃,甚至被人們期待降低傳統臨牀試驗的風險,利用模型來預測藥物安全性和有效性,減少依靠大規模入組患者人羣的高成本試錯。
“喂虛擬小人吃電子藥。”圖靈-達爾文實驗室副主任、哲源科技聯合創始人趙宇常常如是描述計算醫學的工作。趙宇是中國計算醫學的發起與倡導者之一,致力於以該技術體系推動創新藥物研發。
“虛擬小人”究竟是如何吃“電子藥”的?計算醫學與AIDD(人工智能輔助藥物設計)有何區別?與時下大火的生成式人工智能(AIGC)又有什麼關係?爲了回答這些問題,2024年5月21日,在上海舉辦的國際生物技術與醫藥研討會上,澎湃科技對趙宇進行了專訪。
【對話】
澎湃科技:你說的“虛擬小人”還好理解,“電子藥”是如何進行模擬的?
趙宇(圖靈-達爾文實驗室副主任、哲源科技聯合創始人):每一個藥物都有作用靶點(指生物體內能夠被藥物分子識別和結合的結構,如蛋白質、核酸和離子通道等)。我們所謂“電子藥”,不是去模擬化合物本身,而是藥物發生效應的機制,這些機制再抽象回來就是靶點信息。
從另一個角度可以這麼理解,比如說我們在臨牀上經常會有一些人對藥物無反應,有的人會是積極反應。把這兩個人羣放在一起,從底層信號通路層面去比對,其中的差異就是藥物的實現機制。所以“電子藥”實際上是通過(藥效-機制)映射關係比對出來的。
澎湃科技:以Alphafold爲代表的AIDD技術主要用於藥物分子的預測與開發,它與計算醫學有何區別?你似乎把計算醫學置於比AIDD和CADD(計算機輔助藥物設計)更加重要的位置,爲什麼?
趙宇:廣義上來說,AIDD、CADD通過大數據、人工智能等技術對藥物分子和作用機制進行建模,幫助發現新的藥用化合物,這也屬於計算醫學的一部分。但更強調的是計算醫學作爲認知生命的新技術體系,在對於疾病機制方面的發現作用,在計算醫學的AI+疾病工作,更加註重疾病和靶點之間的聯繫,而AIDD、CADD等計算化學工作則關注靶點和分子之間的聯繫。
我常說我們這個行業其實不需要那麼多分子。在之前的“以分子爲中心”模式中,我們常常是建立了一大堆分子,它們能幹什麼我們並不知道,缺乏對於生物學機制的理解,然後依靠臨牀醫學科學家一個個上臨牀去試。我們應該反過來,在理解疾病的情況下,探索疾病的靶點在哪兒,在細胞內還是細胞膜上,再回答需要大分子還是小分子,再進行藥物實驗。建立“以疾病爲中心”的藥物研發邏輯,這纔是底層邏輯,是第一性原理,分子發現應當建立其上。
因此,對於研發新藥物而言,疾病和靶點之間的聯繫更爲重要。一個可成藥的靶點,爲它作出一個專利的分子並不是太難的事,目前這一領域在國內發展的非常快。而探索疾病對應的靶點,在全球來講都是很困難的工作,一個靶點就是一個千億級的產業。
澎湃科技:計算醫學與生成式人工智能有何聯繫?
趙宇:計算醫學也是大模型,是專業領域的專有模型。生成式人工智能,現在更多是指語言大模型,遠不是人工智能的終極形態,要知道人類超過八成的知識不能被語言描述。語言大模型還處於大模型的初級階段,如同第三次工業革命開始時的網上聊天軟件。未來一定會在各自領域出現垂直類大模型。
語言模型有大量的語言數據用於訓練,基於統計學及概率分佈而建立。在生物醫藥領域,我們沒有那麼多數據,人類疾病數據天生就是“小數據”。有限的數據一經分層,每層數據非常少,很難通過語言大模型那樣的方式去“暴力”計算出來。那麼計算醫學要認知疾病,就要回到第一性原理,基於信息論,尋找每個人的根本性差異。
生成式人工智能模型應該向AI for Science方向上去努力。語言模型已經爲我們展現了一個非常好的前景,那麼,如果我們能結合數據,例如單細胞數據或真實的患者數據,再利用這些數據,我們就可以用生成式模型來建立全新的“AI for Science”。
澎湃科技:基因組學數據是探索疾病機制的主要基石。我們知道在傳統的基因-疾病關係的探索中,科學家們會通過動物或人體模型,對相關的基因變量進行控制和對比。請問計算醫學能代替這部分工作嗎?
趙宇:中國科學院院士、復旦大學校長金力教授說,基因之外皆爲表型。而之前大家的研究一直是“從基因型到表型”,或者是“從表型到表型”,建立了相關性,但無法建立因果,所以不能說取代,但是能用更優化的,或者說更接近生命的本質——穿透到DNA層面去理解這件事。
在臨牀中,人們都希望將疾病表型與病因建立聯繫。而在計算醫學中,我們希望從底層接觸到這些聯繫,在這個意義上,基因數據就是最穩定的輸入。因爲它比較穩定,因此在我們的工作中,其它類型的中間層數據並沒有全部用到,我們只是構建好了它們與底層基因數據之間的關係。
澎湃科技:你提到計算醫學能夠幫助對真實世界中的臨牀試驗作出調整,甚至在未來能夠取代一部分臨牀試驗。基於已知數據和統計學的疾病數學模型在什麼意義上能夠預測未知的藥效和安全風險?它的優勢和侷限性在哪裡?
趙宇:這個問題比較大。知識模型會出現的“幻覺”問題(含有貌似事實的虛假或誤導性資訊)爲例,單純依靠數據建立模型,就可能會產生過擬合,都產生錯誤的預測。
清華大學人工智能研究院院長、中國科學院院士張鈸教授提出,第三代人工智能的發展路徑是融合第一代的知識驅動和第二代的數據驅動的人工智能。計算醫學採用知識與數據雙驅動的人工智能來處理這個問題。幻覺問題,我們用真實世界的數據去修正;數據出現過擬合,我們通過建立的醫學生物知識去校準。通過這種方式,我們纔在底層數據邏輯上重新建構生命機制。
爲此,我們自主開發了專門用來理解生命科學知識的垂直領域模型——“超腦”。現代生物醫療的知識不斷細分,都是一個個“山頭”,可能在某一個領域研究已經很成熟的東西,在其它領域大家還在孜孜以求。而當我們把它們放到一起,通過知識推理和演繹,就會產生新的知識,這也是李國傑院士所講的“從知識產生知識”。
最大的優勢也是於此,我們不依賴人類已有的認知而產生大量新的發現。如果說有侷限的話,就是深度交叉學科下,鄰域知識很難理解,出現“顛覆性技術請被顛覆者評價”的現象。
澎湃科技:從上世紀90年代開始,計算醫學就在西方開始發展,就近年來的論文數量來看,美國在該領域處於相當領先的地位,在很多大學也專門開設有計算醫學專業。能否介紹一下目前國內的教學和研究狀況?
趙宇:國內計算化學、計算生物學這些都已經有了,但還沒有計算醫學這個學科。2020年,我們在國內重新定義計算醫學的維度,因爲面臨一個新的學科設置。
到現在爲止,其實國內還沒有這方面的教學,甚至對它的定義還是比較窄的。未來各行各業都要擁抱數字化,計算醫學是在最正確的趨勢(數字化)下最正確的賽道(生命科學),“晚革命不如早革命”,大家還是應當儘早地去理解學習。但我們也發現,這個行業的人才極其稀有,需要既懂IT,又懂BT(Biological Technology,生物技術)。
IT和BT團隊的人在一起簡直要“打架”。IT的人對沒有組織邊界的東西非常焦慮,而BT背景的人講的都是一個邏輯、一個故事,穿起一個想象的東西。因此需要一個“總師”級別的人,能站在多個背景的角度看問題,將問題拆解並分配給各個專業的人。
計算醫學到底需要什麼樣的人才?前不久我們在一篇文章中探討了這個問題,列出了高性能計算、生物信息學、基因組學、遺傳學等廿幾個學科。但凡深入其中一個領域,再對其它有所涉獵,我們認爲都是人才。我們希望大家能認識到人才培養中跨學科發展的重要性。
我經常說,當一個生物專家有數學思維,那麼計算醫學就能得到推進。