在《Cell》期刊上發(fā)表的一項研究標志著(zhù)生成性人工智能首次成功設計合成分子的第一個(gè)實(shí)例,該實(shí)例可以成功控制健康哺乳動(dòng)物細胞中的基因表達?;蚪M調控中心(CRG)的研究人員開(kāi)發(fā)了一個(gè)能夠構思出自然界中前所未見(jiàn)的DNA調控序列的AI工具。該模型可以被指示生成符合特定標準的合成DNA片段,例如:“在干細胞中打開(kāi)此基因,該基因將變成紅細胞,而不是血小板。”
隨后,模型預測出在特定細胞類(lèi)型中所需的基因表達模式對應的DNA字母組合(A、T、C、G)。研究人員可以化學(xué)合成大約250個(gè)字母的DNA片段,并將其添加到病毒載體中,以便輸送到細胞中。
作為概念驗證,研究者要求AI設計合成片段,以在某些細胞中激活編碼熒光蛋白的基因,同時(shí)保持其他基因表達模式不變。他們從頭開(kāi)始創(chuàng )建這些片段,并將其投入小鼠的血細胞中,這些序列在基因組中隨機位置進(jìn)行融合。實(shí)驗的結果完全符合預期。
“這一技術(shù)的潛在應用前景廣闊。就像為生物學(xué)編寫(xiě)軟件一樣,為我們提供了新的方法,可以精確指導細胞的行為和發(fā)展,”該研究的第一作者、在巴塞羅那的基因組調控中心工作的Robert Frömel博士表示。
這項研究可能導致基因療法開(kāi)發(fā)人員僅在需要調節的細胞或組織中增強或抑制基因活性的新方法。同時(shí),它也為精細調控基因表達開(kāi)辟了新策略,從而提升效果,減少不良反應。
這項研究標志著(zhù)生成生物學(xué)領(lǐng)域的重要里程碑。迄今為止,該領(lǐng)域的進(jìn)展主要集中在蛋白質(zhì)設計方面,幫助科學(xué)家們更快地創(chuàng )造出全新的酶和抗體。然而,許多疾病的成因是特定細胞類(lèi)型下的基因表達異常,可能永遠不會(huì )有完美的蛋白質(zhì)替代方案。
圖片鏈接:https://www.eurekalert.org/multimedia/1071562
圖片信息:熒光報告基因被 AI 生成的增強子激活的細胞
基因表達由調控元件如增強子所控制,這些微小的DNA片段可以開(kāi)啟或關(guān)閉基因。為了修復存在的問(wèn)題,研究人員通常在基因組中尋找自然存在的增強子,來(lái)適應他們的需求,從而僅依賴(lài)于自然進(jìn)化所產(chǎn)生的序列。
AI生成的增強子可以幫助工程師設計自然界尚未創(chuàng )造出的超選擇性開(kāi)關(guān)。這些開(kāi)關(guān)能夠被設計成在特定細胞類(lèi)型中正好具有所需的開(kāi)啟和關(guān)閉模式,這種精細調控對于創(chuàng )造避免對健康細胞產(chǎn)生意外影響的產(chǎn)品至關(guān)重要。
然而,AI模型的開(kāi)發(fā)需要大量高質(zhì)量的數據,而歷史上增強子方面的數據相對缺乏。 “要為生物學(xué)創(chuàng )建語(yǔ)言模型,你必須理解細胞的‘語(yǔ)言’。我們致力于解讀這些增強子的語(yǔ)法規則,以便創(chuàng )造全新的詞匯和表達,”該研究的通訊作者、基因組調控中心的研究員Lars Velten博士解釋道。
為了構建他們的AI模型,研究人員通過(guò)進(jìn)行數千次關(guān)于血液形成的實(shí)驗,創(chuàng )建了大量的生物數據。他們研究了增強子及轉錄因子,后者也是控制基因表達的重要蛋白質(zhì)。
直到現在,研究增強子和轉錄因子的科學(xué)家們主要使用癌細胞系,因為這些細胞相對容易操作。相反,研究人員選擇健康細胞進(jìn)行研究,因為它們更能代表人類(lèi)生物學(xué)。他們的工作幫助揭示了塑造免疫系統和血細胞生成的微妙機制。
在五年的時(shí)間里,研究團隊合成了超過(guò)64,000個(gè)合成增強子,每一個(gè)都是精心設計的,旨在測試38種不同轉錄因子結合位點(diǎn)的不同排列和強度。這是截至目前在血細胞中建立的最大的合成增強子庫。
一旦將這些增強子插入細胞中,團隊準確追蹤了每個(gè)合成增強子在七個(gè)血細胞發(fā)育階段的活躍狀態(tài)。他們發(fā)現,雖然許多增強子在一種類(lèi)型的細胞中激活基因,但在另一種細胞中卻抑制基因表達。
大多數增強子的功能類(lèi)似于音量調節器,能夠提高或降低基因活性。令人驚訝的是,某些組合則像開(kāi)關(guān)一樣,可以同時(shí)關(guān)閉基因活性??茖W(xué)家們將這一現象稱(chēng)為“負協(xié)同效應”,即通常單獨能夠激活基因的兩個(gè)因子,當它們共同存在時(shí)可能會(huì )有效抑制該基因。
實(shí)驗數據對設定機器學(xué)習模型的設計原則至關(guān)重要。當模型獲得了足夠的關(guān)于合成增強子如何在真實(shí)細胞中改變基因活性的測量后,它能夠預測新的設計,達到開(kāi)/關(guān)結果,即使這些增強子在自然界中從未出現過(guò)。
這項研究旨在驗證技術(shù)在實(shí)踐中的可行性,然后再投入更大規模的研究。研究人員才剛剛開(kāi)始探索這一領(lǐng)域。目前已知,無(wú)論是人類(lèi)還是小鼠,估計都有1600種轉錄因子調控著(zhù)它們的基因組。
雜志:Cell
DOI:10.1016/j.cell.2025.04.017