近期發(fā)表于《Science》期刊的一項研究發(fā)布了一款機器學(xué)習模型Evo。
Evo夠從分子到基因組尺度解碼和設計DNA、RNA及蛋白質(zhì)序列,精確程度無(wú)與倫比,這可能改變合成生物學(xué)的操作方式。Christina V. Theodoris在相關(guān)評論中寫(xiě)道,“預測細胞中各層次上突變的影響和設計DNA序列來(lái)控制細胞功能將發(fā)揮重要作用。”DNA僅用四種核苷酸編碼生命所需的全部遺傳信息?;蚪M序列的變異反映了自然選擇下的適應性,用于特定生物功能。這些變異推動(dòng)了生物體的進(jìn)化,使其能適應新的或變化的環(huán)境。
DNA測序技術(shù)的進(jìn)步促進(jìn)了基因組變異在全基因組水平上的圖譜繪制。這些數據結合新型機器學(xué)習算法,可以創(chuàng )建一個(gè)全面的模型,以理解DNA、RNA和蛋白質(zhì)的功能及其相互作用。盡管一些受大型語(yǔ)言模型(LLMs)啟發(fā)的研究人員嘗試將DNA視作一種“語(yǔ)言”并應用類(lèi)似技術(shù),目前的生成模型通常集中于單個(gè)分子或DNA片段。加上計算能力的限制,限制了這些模型在理解復雜生物過(guò)程中所需的更廣泛基因組互動(dòng)時(shí)的能力。
Arc 研究所Eric Nguyen領(lǐng)導的研究團隊基于StripedHyena架構,在一個(gè)由270萬(wàn)種進(jìn)化多樣的微生物基因組構成的數據集上進(jìn)行了訓練。根據Nguyen等人的說(shuō)法,Evo在預測和生成生物任務(wù)中表現卓越,包括預測細菌蛋白質(zhì)和RNA突變影響,以及基因調控建模,零樣本評估中 achieves 高準確率。
Evo還掌握了編碼與非編碼序列之間復雜的共同進(jìn)化關(guān)系,支持設計復雜生物系統,例如CRISPR-Cas系統和可轉座元件。在基因組層面,Evo能夠生成長(cháng)度超過(guò)1兆堿基的序列,其能力遠遠超越了之前的模型。Theodoris在評論中寫(xiě)道:“未來(lái)的模型或許可以從多樣化的人類(lèi)及其他真核生物基因組中學(xué)習,利用更長(cháng)的上下文范圍來(lái)捕獲更大基因組尺度上的遠距離基因組互動(dòng)。”
雜志:Science
DOI:10.1126/science.ado9336