AI藥物化學家登Nature子刊:重現化學家知識,有望加速藥物研發

藥物發現是一個複雜的、多步驟的過程,其中涉及到許多化學和生物子學科的交叉領域。而人類藥物化學家憑藉其多年累計的專業知識在其中發揮着重要作用。

那麼,人工智能(AI)能否擔任藥物化學家在藥物發現中扮演的角色呢?答案或許是肯定的。

日前,來自諾華生物醫學研究所(NIBR)和微軟研究院科學智能中心(AI4Science)的研究團隊,共同提出了一個機器學習模型,該模型能部分重現職業化學家在工作中積累的集體知識,這類知識通常被稱爲“化學直覺”。

研究團隊認爲,這種方法或能作爲對分子建模的補充,使今後的藥物研發更加高效。

相關研究論文以“Extracting medicinal chemistry intuition viapreference machine learning”爲題,已發表在Nature子刊Nature Communications上。

機器學習重現藥物化學家專業知識

在藥物發現的“先導化合物優化”階段,不論是溼實驗室還是計算方面的藥物化學家,都扮演着至關重要的角色,因爲他們通常被要求確定哪些化合物需要合成和在後續優化輪次中進行評估。

爲了做到這一點,藥物化學家通常會審查包括活性、ADMET2 或靶標結構信息等化合物屬性在內的數據。因此,一個項目的成功不僅依賴於生成的實驗數據的質量,而且還依賴於從事藥物化學工作團隊決策的魯棒性和合理性。

藥物化學家之所以能夠更高效地做出決策,是因爲他們常常藉助專業知識對早期藥物發現的不同迭代中的成功因素具有直觀的瞭解。

儘管以前嘗試過使用基於規則的方法或簡單的化學信息學可行性評分來形式化這種知識,但要捕捉到藥物化學家評分中所涉及的微妙和複雜性依然是一個根本性的挑戰。

出於這一動機,該研究探索了是否可以將這種專業知識提煉爲機器學習模型的一部分。這樣的模型可以像已經在行業中報道的其他推薦系統一樣,在先導化合物優化或藥物發現的其他環節中作爲決策過程的輔助工具進行部署。

考慮到藥物化學目前主要依賴人工工作,不可避免地受到主觀偏見的影響。一些研究已經報告了藥物化學家之間以及藥物化學家內部評分的一致性較低。而在本研究中,研究人員希望通過借鑑多人遊戲中的策略來解決一些問題。

他們將一組分子排名的任務看作是一種偏好學習問題,然後用簡單的神經網絡來模擬人們的個體偏好。

具體來講,如上圖所示,分子被視爲競技比賽中的參與者,其中一方獲勝的概率由化學家提供的反饋確定。爲此,藥物化學家要在 Web 應用程序上回答預先指定的問題提示,並選擇兩種分子中的一種。在此過程中,共有 35 名諾華藥物化學家參與,最終共收集 5000 多個註釋。

而這些反饋,催生了一個隱式得分模型。該模型採用了一種具有兩個獨立神經網絡結構的模型,每一個分支都有固定的權重,用常見的化學信息學描述符對分子進行特徵化處理。在訓練期間,其參數通過二元交叉熵損失(BCE 損失)進行優化,該損失依賴於分子對的潛在得分差和化學家提供的反饋。

一旦訓練完成,可以推斷出任何任意分子的得分,然後可以將其用於下游化學信息學任務。

另外,該模型還可以更加準確地判斷不同藥物之間的相似性,該研究提出的學習評分函數比傳統的藥物相似性評估指標(QED)更加精準。

值得注意的是,爲了促進研究的可重複性和該領域的進一步發展,研究人員還提供了一個名爲“MolSkill”的軟件包,其中包含了該模型和匿名響應數據。

機器學習在藥物化學中的不足與應用

然而,儘管該模型可以重現藥物化學家在工作中積累的知識,但也存在一些侷限性。首先,爲捕捉化學直覺,數據收集過程中所提出的問題一直都很模糊。

另外,雖然提出的研究設計導致與以前的研究相比參與者之間的一致性更高,但成對比較方法也並不是完美的。

此外,“Flatland謬論”使得人類往往傾向於將高維問題簡化爲一小組可以認知追蹤的變量,而這種簡化可能受每個藥物化學家特點的影響。

然而,研究團隊表示,本次研究提出的模型不僅限於當前研究的應用範圍。具體來說,討論的框架可以擴展到藥物發現領域的其他可量化但卻昂貴的可觀測值。此外,它可以爲化學空間中尚未被探索的領域提供見解。

鑑於這一點,研究團隊相信一些流行的基於規則的過濾器(Filter)可以通過人工生成的訓練數據來學習,從而構建類似的架構,這種模型可以克服在進行推斷之前必須手動過濾化合物的主要限制。

在相同的方向上,所提出的評分方法也可以用於優先考慮合成化學庫中的組合生成化合物,這些化合物由於其天然新穎性而難以使用現有的規則方法進行篩選。

另一個研究方向則是檢驗該研究框架在前瞻性的、面向特定靶點的首要優化場景中的實用性,其中需要綜合考慮多個來源信息(如生物學特性、ADMET 等)。

研究團隊在論文中寫道:“機器學習方法可以設計成千上萬個化合物,高通量篩選等技術可以在藥物發現過程的早期階段突出顯示大量的候選化合物。本次提出的評分方法正被用於隱式地整合化學家的直覺,而無需手動檢查即可對化合物進行篩選。期望這種應用將在未來幾年內加速方法的採用和信任的提升。”