澎湃新聞 2025-06-28 14:47:10
據(jù)《自然》報道,谷歌DeepMind新開發(fā)的人工智能(AI)模型AlphaGenome可以幫助科學家解析基因組序列中的“暗物質(zhì)”——非編碼區(qū),了解它們?nèi)绾斡绊懠毎麅?nèi)部運作并導致癌癥等疾病的發(fā)生。目前,從事非商業(yè)工作的研究人員可以使用編程接口通過DeepMind的服務器訪問該模型。這個AI模型在 6 月 25 日的預印本中進行了描述。
研究人員將大量基因組數(shù)據(jù)輸入機器學習系統(tǒng),訓練它們預測非編碼序列的作用。圖片來源:JuSun/iStock via Getty
2001年,《自然》發(fā)表由美、英、日、德、法、中六國科學家共同完成的人類基因組序列草圖。然而直到現(xiàn)在,約31億個堿基對中的許多仍然是待解之謎。
在長長的人類基因組序列中,98%是不直接參與蛋白質(zhì)編碼合成的基因,即非編碼區(qū),但它們可以影響蛋白質(zhì)活性,并包含了大量與疾病相關的變異位點。這一部分尤其讓科學家感到頭疼。
弄清楚DNA序列的作用很難,因為沒有現(xiàn)成的答案,就像AlphaFold預測蛋白質(zhì)3D結(jié)構一樣。從吸引一組細胞機器附著在染色體的特定部分并將附近的基因轉(zhuǎn)錄為RNA分子,到吸引影響基因表達發(fā)生地點、時間和程度的轉(zhuǎn)錄因子,單個DNA片段具有許多相互關聯(lián)的作用。例如,許多DNA序列通過改變?nèi)旧w的3D形狀來影響基因活性,從而限制或簡化轉(zhuǎn)錄機器的訪問。
幾十年來,科學家開發(fā)了數(shù)十種AI模型來理解基因組。其中許多都集中在單個任務上,例如預測基因表達水平或確定外顯子是如何被剪切并拼接到不同蛋白質(zhì)中的。而AlphaGenome正是一個“一體化”解釋DNA序列的工具。
AlphaGenome可以處理多達100萬個DNA堿基,這可能包括一個基因和無數(shù)個調(diào)節(jié)元件,并能針對多種生物特性進行數(shù)千次預測。而且,AlphaGenome在預測過程中對單個DNA堿基的變化十分敏感,這意味著科學家可以預測突變的影響。
DeepMind研究人員利用AlphaGenome分析了先前研究中發(fā)現(xiàn)的一種白血病患者的不同突變。該模型準確預測了非編碼區(qū)突變間接激活了附近的一個基因,后者是這種癌癥常見的驅(qū)動因素。
不過,研究人員表示,AlphaGenome僅基于人類和小鼠的基因組,以及其他相關實驗數(shù)據(jù)進行訓練,還沒有測試它在其他生物中的有效性。此外,AlphaGenome預測的準確性還有提升的空間。例如,該模型難以識別位于10萬多個堿基對以外的目標基因序列。
美國冷泉港實驗室的計算生物學家Peter Koo說,AlphaGenome和類似的模型尚未捕捉到不斷變化的細胞性質(zhì)如何影響DNA序列的功能。因為這些模型只能在一個固定環(huán)境中進行預測,而細胞是動態(tài)的:蛋白質(zhì)水平、DNA上的化學標簽和其他條件會隨著時間或細胞類型的不同而變化,這可能會改變同一序列的行為方式。
責編:周順
一審:周順
二審:劉文韜
三審:楊又華
來源:澎湃新聞
我要問