斯坦福伯克利重磅發現DNA Scaling Law,Evo榮登Science封面!AI設計DNA/RNA/蛋白質再突破

新智元報道

編輯:編輯部 HYZ

【新智元導讀】就在剛剛,AI設計DNA、RNA和蛋白質序列的能力再獲得顛覆性突破,研究登上Science封面。Evo模型能以無與倫比的準確性,解碼和設計從分子到基因組規模的對象了,合成生物學的工作方式,從此或將徹底顛覆。

Is DNA all you need?

AI可以實現從分子到基因組尺度的預測和生成任務了!

就在剛剛,這項研究登上了Science封面。

來自斯坦福和UC伯克利的研究人員,提出了一種全新的基因組基礎大模型——Evo。

利用基於深度信號處理進展的架構,Evo擴展到了70億參數,並在單核苷酸分辨率下實現了131千鹼基的上下文長度。

目前,項目已經在GitHub上開源。

論文地址:https://www.science.org/doi/10.1126/science.ado9336

開源項目:https://github.com/evo-design/evo

值得一提的是,研究人員重磅發現了DNA的Scaling Law!

經過270萬個原核生物和噬菌體基因組的訓練後,Evo在DNA、RNA和蛋白質模態上展現出的零樣本功能預測能力,可以與特定領域的語言模型相媲美,甚至直接超越。

生成合成CRISPR-Cas分子複合物和轉座子系統的結果表明,Evo在多模態生成任務上的表現也很出色。

此外,研究人員還首次使用語言模型,進行了蛋白質-RNA和蛋白質-DNA協同設計,驗證了Evo生成的CRISPR-Cas分子複合物以及IS200和IS605轉座子系統的功能活性。

利用從整個基因組中學習到的信息,Evo掌握了核苷酸序列的微小變化如何影響整個生物體的適應度,並能生成長度超過1兆鹼基的具有合理基因組架構的DNA序列。

有人表示,這項研究或許能使人們逆轉衰老。

世界首個AI生成CRISPR-Cas系統誕生

要知道,所有生物體的DNA序列中,都編碼着生命的基本指令,但理解它們卻很複雜。

即使是最簡單的微生物基因組也是如此,數百萬個鹼基對,編碼出DNA、RNA和蛋白質之間的相互作用。

這種複雜性存在於從單個分子到整個基因組的多個尺度上,代表着在進化時間中經過功能性選擇的龐大遺傳信息景觀。

如果能有一個模型,能在保持單核苷酸分辨率的同時,還能處理大型基因組序列,就可以幫助科學家提取出自然進化變異模式中蘊含的複雜分子相互作用功能信息了。

而今Evo的出現,讓這一切都可以實現了。

Evo是一個包含70億參數的基因組基礎模型,可以學習從單個核苷酸到整個基因組的生物複雜性

它預測、生成和設計整個基因組序列的能力,可能會改變合成生物學的工作方式!

因爲Evo瞭解跨模式的共同進化模式,所以研究人員決定證明它可以生成蛋白質和非編碼 RNA的大分子複合物。

至此,世界上第一個AI生成的CRISPR-Cas系統誕生了!

Evo還具有生成整個基因組規模的序列的潛力。

在單個GPU上,研究人員生成了超過650 KB的DNA序列。使用Evo對這個長度的序列進行採樣時可以發現,基因組包含數千個潛在的蛋白質編碼序列。

未來,研究人員還將把Evo擴展到真核和人類序列。

研究人員表示,Evo有極大潛力幫助或取代溼實驗室實驗,他對此感到非常興奮。

很多團隊都不得不對必需基因進行費力的CRISPR篩選,但他們直接用神經網絡的前向傳播將之取代了!

Evo模型架構

如前所述,Evo是一個基因組基礎模型,共有70億參數。

它通過使用單核苷酸(single-nucleotide)、字節級分詞方法,在高到131072個token的上下文進行了訓練。

爲了有效地以核苷酸分辨率對長序列進行建模,作者利用了基於深度信號處理新興技術的StripedHyena架構。

Evo是29層數據控制卷積算子(hyena層)與三層(10%)配備旋轉位置嵌入(RoPE)的多頭注意力交織的混合體。

Hyena層使用長短卷積濾波器的組合,依賴輸入的方式處理序列。這使得該層在過濾DNA中,可能出現的噪聲模式,以及將單核苷酸聚集成基序(motifs)方面特別有效。

模型混合最初是爲了解決狀態空間模型的缺點而提出的,最近已經證明可以提高獨立Hyena和Transformer架構的語言建模的scaling性能。

與上一代利用Hyena架構的DNA模型HyenaDNA相比,Evo基於改進的混合設計,可擴展到1000倍的模型大小和100倍的數據。

在訓練模型過程中,研究人員編制了一個OpenGenome的大型基因組數據集,其中包含了80000多個細菌和古細菌基因組,以及數百萬個預測的噬菌體和質粒序列,涵蓋了3000億個核苷酸token。

DNA的Scaling Law

爲了幫助Evo模型設計,作者對DNA序列建模進行了scaling law分析,以此確定訓練、架構細節和性能指標之間的關係。

一旦獲得了scaling law,它就作爲指導以最佳方式將訓練scaling到更大的模型和數據集。

具體來說,作者在四個架構中訓練了300多個模型:

Transformer++、Mamba、Hyena、StripedHyena。

Transformer++是最先進的Transformer,而Mamba是使用數據控制狀態空間模型的現代架構。

結果發現,Transformer++在所有計算預算下, 產生的困惑度明顯更差,字節分辨率架構效率低下的症狀。

與Transformer++相比,狀態空間和深度信號處理架構的縮放率都有所提高,其中Hyena和StripedHyena的scaling率最佳。

此外,在分析sclaing過程中,作者還觀察到StripedHyena在所有研究的模型大小和學習率中的穩定訓練。

他們還比較了架構計算最優邊界之外的性能,即分配的計算預算,可能是次優的。

與StripedHyena相比,Transformer++和Mamba在訓練過程中都經歷了數值不穩定性,並且在計算最佳邊界之外的scaling率性能下降更大。

從以上這些發現中,才使得研究人員選擇StripedHyena作爲Evo的架構。

Evo跨DNA、RNA和蛋白質模態學習

預測突變對蛋白質功能的影響

除了評估困惑度之外,研究人員接下來研究了Evo在生物相關下游任務中零樣本性能。

比如,在蛋白質序列或核苷酸編碼序列大型語料庫上,專門訓練的語言模型已經證明了預測突變對蛋白質功能的影響的能力,無需任何特定任務的微調監督。

由於Evo的訓練數據包含了蛋白質編碼序列,作者測試其是否也可以進行零樣本蛋白質功能預測。

這裡,他們利用了深度突變掃描(DMS)研究,將一組詳盡的突變引入蛋白質編碼序列,然後通過實驗測量這些突變對各種適應度指標的影響。

這些指標量化了功能活性。

氨基酸序列的語言模型似然或僞似然,被用來預測實驗適配性得分。

爲了使這項任務適用於核苷酸序列,作者使用了原始DMS研究中報告的野生型編碼序列(wild-type coding sequence)和核苷酸突變(材料與方法)。

在原核蛋白質的DMS數據集上,Evo的零樣本性能超過了測試中所有其他核苷酸模型,包括GenSLM。

Evo還達到了與主要蛋白質特異性語言模型相媲美的性能。

先前的研究表明,對於僅使用自監督預訓練的蛋白質語言模型來說,超出此性能範圍的改進是困難的,這表明Evo已經與最先進的細菌蛋白質語言建模競爭。

在人類蛋白質的DMS數據集上,Evo無法預測突變對適應度的影響,很可能是因爲預訓練數據集由原核序列組成。

然而,作者還觀察到野生型序列上的語言模型困惑度與適應度預測性能之間存在很強的關聯性,這表明對哺乳動物編碼序列進行額外的微調或未來的預訓練可以提高Evo的性能,而不僅僅是細菌蛋白。

預測突變對ncRNA功能的影響

接下來,作者測試了相同的預訓練模型是否可以學習有關的ncRNA功能信息,比如tRNA、rRNA、核酶。

對此,他們收集了ncRNA DMS數據集並使用實驗性ncRNA DMS研究的結果作爲基礎事實得分,來評估Evo進行零樣本ncRNA適應性預測的能力。

結果發現,Evo在這項任務中再次優於所有其他測試的核苷酸語言模型,包括RNA-FM。

另外,在測量5S rRNA突變對大腸桿菌生長速率影響的研究中,作者觀察到特別強的預測性能。

除了蛋白質序列之外,這些結果還表明Evo可以瞭解突變對ncRNA功能的影響。

預測調控DNA的活性

Evo的訓練也包含了原核調控DNA序列,作者研究了Evo是否已經學習了對調控DNA任務的有用信息。

接下來,他們將專注於啓動子序列預測基因表達和從核糖體結合位點(RBS)序列預測蛋白質表達。

對於監督啓動子活性(promoter activity)預測,作者使用來自單個研究的訓練和驗證分割來開發自迴歸模型,然後在來自其他研究的啓動子數據集上測試最終模型,以評估域外泛化能力。

下圖F展示了,四項研究中啓動子活性與零樣本語言模型可能性、序列GC含量或監督模型之間的相關性。

對於蛋白質表達預測,作者使用了Kosuri此前創建的數據集,其中除了啓動子外,還包含了RBS,除mRNA表達外還測量了蛋白質表達。

Evo的RBS序列零樣本可能性與蛋白質表達,具有弱相關性。

然而,當把啓動子和RBS序列鏈接在一起時,Evo的零樣本可能性顯著提高,這表明額外的調控序列,可以提供有用的功能背景。

Evo在啓動子-RBS序列上零樣本相關性,高於啓動子-RBS序列的GC含量、零樣本GenSLM似然性,以及RBS計算器——最先進的蛋白質表達預測器。

CRISPR-Cas分子複合物的生成設計

接下來,作者推斷Evo能夠生成涉及不同分子模態之間,相互作用的功能複合物。

在原核生物中,功能相關的基因通常被組織成操縱子,並在基因組序列上彼此相鄰。

因爲Evo學習涉及上下文內任何涉及遺傳元素的共變模式,所以模型應該理解編碼蛋白質和ncRNA分子之間的相互作用。

爲了證明這種能力,作者在含有CRISPR-Cas序列的基因組位點數據集上微調了Evo。

值得一提的是,CRISPR-Cas序列是由蛋白質和ncRNA組成的分子機器,共同引導適應性免疫對抗病毒感染。

DNA靶向Cas9核酸酶,通常在3000到4800鹼基對 (bp) 的編碼序列中編碼,並在基因組中與其同源的CRISPR陣列緊密相連。

CRISPR陣列轉錄產生的非編碼CRISPR RNA(crRNA)分子與Cas蛋白結合,生成序列特異性DNA靶向所需的功能性防禦複合物。

特別是對Cas9來說,第二個反式激活CRISPR RNA(tracrRNA)與crRNA形成雙鏈,從而產生一個完整的引導RNA(gRNA)。

在細菌和古生物中發現了多種多樣的CRISPR-Cas系統,例如基於Cas12或Cas13的系統,它們分別以DNA和RNA爲靶向。

研究人員從公共宏基因組和基因組序列中提取的72831個CRISPR-Cas基因座上微調Evo,爲Cas9,Cas 12和Cas 13添加特殊的提示token,這些標記被預先添加到每個訓練序列的開頭。

在採樣過程中,這些token通過提示相應的特殊token知道特定CRISPR-Cas系統類型的生成。

使用這三種Cas token提示中的每一種對8-kb序列進行採樣,會產生包含Cas編碼序列和CRISPR陣列的相干世代。

如果Evo代包含了用MinCED包檢測的CRISPR陣列,以及用Cas9、Cas 12或Cas 13特徵隱藏馬爾科夫模型(pHMM)返回的陽性命中開放閱讀框架(ORF),則將其分類爲Cas9、Cas 12或Cas 13序列。

與訓練數據集的序列比對顯示,一些用Cas9 pHMM預測的ORF與最接近的天然Cas9的蛋白質序列同一性也小於40%。

作者還發現,與僅在CRISPR-Cas序列上訓練的模型相比,在CRISPR-Cas基因座上微調的Evo模型在所有Cas亞型上產生的世代質量更高、更多樣化。

下圖E展示的是,通過pHNMR和CRISPR ncRNA預測算法確定在II型CRISPR系統中,EvoCas9-1基因中發現的核心蛋白編碼基因和ncRNA組分。

F是在於同源sgRNA和InM DNA靶向10:10:1摩爾比Cas9:sgRNA:target孵育後SpCas 9和EvoCas 9 -1切割反應的時程結果。

EvoCas 9 -1氨基酸序列與用於模型微調的Cas蛋白數據庫中,最接近的Cas9具有79.9%的同一性,與SpCas 9具有73.1%的同一性。

儘管EvoCas 9 -1的預測骨架結構類似於SpCas 9骨架結構,但EvoCas 9 -1的預測結構表現出更正的表面電荷分佈。

另外,來自SpCas 9晶體結構分離的sgRNA結構和通過AlphaFold 3模型預測的EvoCas 9 -1 sgRNA的結構,顯示出RNA二級結構的強烈一致性。

EvoCas 9 -1的AlphaFold 3共摺疊結構預測在其蛋白質、RNA和DNA組分中,得到了平均高達90的pLDDT評分。

轉座子系統的生成設計

除了分子複合物,Evo還學習多基因系統的基本模式。

可動遺傳因子(MGEs)通常包含多個基因的生物系統,並且在生命的所有領域中被發現。

它們的伺機傳播推動了序列變異,新基因功能、甚至是物種的形成。

MGE的IS200/IS605家族通過同源二聚體轉座酶TnpA與元件左端和右端處的末端髮夾相互作用,催化出「剝離-粘貼」轉座來傳播。

插入序列(IS)從單鏈DNA(ssDNA)中切除,形成含有RE-LE結的環狀產物,作爲插入到新的ssDNA目標位點的中間產物。

IS605元件還含有RNA引導的TnpB核酸酶和同源的ωRNA,它們偏向於轉座元件的自私遺傳。

研究人員基於10720個IS 605元件和219866個IS 200元件天然序列背景下微調Evo。

接下來,他們計算了自然IS 200/IS 605基因座上每個位置的條件概率的熵,並觀察到熵的急劇和持續增加,特別是與元素3'端相對應,這表明了Evo學會了MGE邊界的表示。

使用特殊的提示token,研究人員使用微調模型來生成IS200或IS605元素。

在這些生成序列內檢測到TnpA和TnpB蛋白質在訓練集中,最接近實力的距離上變化很大,對於訓練集中大於40%至50%同一性的預測結構具有一致的高ESMFold pLDDT值。

而且,序列長度分佈與訓練集中蛋白質緊密匹配。

爲了選擇用於實驗驗證的序列,作者通用與天然系統(ISSpn 6、ISStin 10、ISHp 608和ISDge 10)的相似性以及TnpA蛋白水平和DNA序列水平特徵進行過濾,並在體外實驗測試了24種IS200樣和24種IS605樣的設計。

然後,作者通過將體外轉錄產生的TnpA蛋白與含有假定左右端的ssDNA孵育,然後用外向引物進行聚合酶鏈反應 (PCR),以檢測TnpA介導的切除和插入。

如果發生切除,RE-LE結的形成會產生一條帶。如果供體含有其他目標位點,並且也發生了插入,則通過相同的PCR反應,在兩個ssDNA底物連接處產生條帶。

研究人員觀察到,24個Evo生成IS200樣元中有11個和24個Evo生成的IS605樣元中,有3個在體外顯示了切除和插入的證據。

這種活性還依賴於一個假定的催化酪氨酸的存在,以及ssDNA底物而不是雙鏈DNA(dsDNA),這與已知的IS200/IS605 TnpA機制一致。

爲了確定每個元件的精確邊界,研究人員對PCR產物進行了納米孔測序。

作爲對照,他們還檢測了天然IS200元件ISSpn6和IS605元件ISHp608,在這兩種情況下,都成功地檢測到了ISFinder標註的邊界。

在生成的元件中,有三個似乎也能利用一對以上的左端或右端進行移動。含有推定TnpB編碼序列的類IS605功能元件,還含有與已知ωRNAs構建的協方差模型顯著匹配(cmsearch E值小於0.001)的序列。

從整體上看,14個活性元件使用了一組不同的髮夾,編碼的功能性TnpA蛋白與微調數據庫的序列同一性低至67%。

通過長基因組上下文學習基因

在第二階段的預訓練中,Evo處理了具有131,072個token上下文的序列,其中還包含物種特異性token。

結果顯示,Evo在其131,072長度的上下文中,保持了單核苷酸分辨率。

這一點很重要,因爲如果單個核苷酸突變破壞了該基因的表達或功能,也可能導致生命無法維持。

研究人員在給定生物體基因組中每個編碼序列的開始處,插入提前終止密碼子,並測量這些變化對Evo似然值相對於野生型序列似然值的影響。

可以觀察到,在66k上下文下,Evo對數似然值的變化與58個基因組中的49個基因必要性顯著相關。

此外還可觀察到,爲模型提供超出基因序列的額外基因組上下文會帶來性能的顯著提升,尤其是從僅基因上下文到8k上下文。

從8k到66k上下文,平均預測性能相當,儘管在較低範圍的樣本上,性能確實隨着更長的上下文而提高。

對於一些基因組,66k上下文的zero-shot性能特別強,在lambda噬菌體必要性數據上AUROC達到0.90,在銅綠假單胞菌必要性數據上AUROC達到0.84。

在使用不同的計算機模擬突變策略時,如改變插入終止密碼子的數量或完全刪除基因序列,Evo似然值的變化也能指示基因必要性。

在基因組規模上生成DNA序列

研究人員使用Evo採樣生成了16個各約含1 Mb的序列,這是模型131 kb上下文長度的七倍多。相比之下,「最小」的細菌基因組長度約爲580 kb。

使用訓練數據集中的物種級標記來提示模型生成細菌基因組

結果顯示,Evo生成的編碼序列密度與自然基因組幾乎相同,且明顯高於隨機序列。

通過可視化觀察,自然序列和生成序列都顯示出相似的編碼組織模式,鄰近的序列通常具有相同的鏈方向;在細菌中,這些緊密相連的編碼序列組通常對應於功能相關的基因簇或操縱子。

使用ESMFold對這些編碼序列進行蛋白質結構預測時,幾乎所有序列都展現出了二級結構和球狀摺疊。而且,很多蛋白質還展現出了與天然蛋白相似的結構。

在生成的所有約16 Mb序列中,Evo還能夠生成128個tRNA序列,其反密碼子對應於所有經典氨基酸。

進一步觀察可以發現,包括GC含量、雙核苷酸頻率和某些密碼子使用模式在內的各種基因組範圍序列模式,與隨機序列相比都更接近自然基因組。

在準確性方面,Evo的物種特異性生成序列與其對應的自然參考序列之間存在強相關性,四核苷酸使用偏差(TUDs)的準確度足以重建生成序列間的自然系統發育關係。

此外,TGA和TAA終止密碼子出現頻率最高,而TAG最少見,這與之前在原核生物基因組中觀察到的模式一致。相比之下,隨機序列顯示出均勻分佈的終止密碼子比例。

這些分析共同表明,Evo生成的序列捕捉到了自然原核生物基因組特有的多層基因組特徵。

然而,也存在一些不自然的特徵。

首先,生成的序列不含有許多通常表明完整基因組的高度保守標記基因,在約16 Mb的樣本序列中,Evo僅生成了三個rRNA。

其次,很多蛋白質結構預測的可信度較低,偏向於進化上較簡單的α-螺旋型二級結構,且與自然蛋白質代表性數據庫中的任何條目的結構匹配度有限。

目前能力有限,未來潛力無限

一個能在基因組層面設計的模型,顯然有潛力推進治療發現,拓寬我們對基礎生物學的理解。

現在,球基因組與健康聯盟(GA4GH)已制定了基因工程技術監管原則。

研究人員表示,已開源該模型促進透明度,同時採取措施,將真核病毒排除在了預訓練數據集之外。

儘管這個第一代DNA基礎模型能力顯著,但仍有一些限制。

比如,研究人員僅僅是在3000億個原核生物token上預訓練了Evo,僅佔公開可用基因組數據中的極小部分。

另外,由於模型僅在原核生物數據上訓練,在預測突變對人類蛋白質適應度的功能影響時就能力有限。

而且與自然語言模型類似,Evo在保持長序列的連貫性和多樣性方面也面臨挑戰。

比如許多CRISPR-Cas生成結果存在明顯問題,如缺失或截斷的cas基因。

在基因組層面上,雖然Evo生成的兆鹼基長序列展示了對基因組組織的高層次理解,但在包含關鍵標記基因(如完整的rRNA集)方面仍有困難。

LLM也遇到了相似限制,通過增加參數、標記數據、prompt工程和人類偏好對齊一一改進,因此DNA模型或許也會遵循類似軌跡。

最後研究人員展望:Evo有望成爲下一代序列搜索算法的基礎,將生物工程和設計的範圍擴展到整個基因組的尺度。

參考資料:

https://www.science.org/doi/10.1126/science.ado9336