2021年8 月 26 日——一種名為 Atomic Rotationally Equivariant Scorer (ARES) 的新深度學習系統(tǒng)顯著改善了對 RNA 結(jié)構(gòu)的預測,而不是以前的人工智能 (AI) 模型。斯坦福大學研究人員在8 月 26 日發(fā)表在《科學》雜志上的一篇論文中描述了這一進展,它可能有助于科學家們發(fā)現(xiàn) RNA 的生物學功能,并為發(fā)現(xiàn)新型 RNA 靶向藥物鋪平道路。
像蛋白質(zhì)一樣,RNA 分子扭曲并折疊成復雜的 3D 形狀,使它們能夠執(zhí)行廣泛的細胞功能,包括催化反應、調(diào)節(jié)基因表達、調(diào)節(jié)先天免疫和感知小分子。
然而,盡管科學家對蛋白質(zhì)結(jié)構(gòu)的理解在過去十年中取得了長足的進步,但他們對 RNA 結(jié)構(gòu)的了解卻遠遠落后,盡管人類基因組中轉(zhuǎn)錄成 RNA 的部分大約是轉(zhuǎn)錄成 RNA 的部分的 30 倍。蛋白質(zhì)的代碼。
理解蛋白質(zhì)折疊的進展反映在預測模型的成功上,例如由谷歌 AI 分支 DeepMind 開發(fā)的AlphaFold。該模型通過利用數(shù)千種已知蛋白質(zhì)結(jié)構(gòu)中的序列-結(jié)構(gòu)關(guān)系,學會了如何根據(jù)氨基酸序列準確預測蛋白質(zhì)結(jié)構(gòu)。
然而,在 RNA 的情況下,可用的訓練數(shù)據(jù)要少得多。這部分是因為 RNA 結(jié)構(gòu)目前還沒有被很好地理解,并且因為 RNA 序列信息提供的關(guān)于 3D RNA 結(jié)構(gòu)的信息比蛋白質(zhì)的情況少。
為了解決這個問題,由斯坦福大學博士研究生、Atomic AI 創(chuàng)始人兼首席執(zhí)行官 Raphael Townshend 領(lǐng)導的研究人員設計了 ARES,以根據(jù)最小假設進行 RNA 結(jié)構(gòu)預測。ARES 深度神經(jīng)網(wǎng)絡接受每個原子的 3D 坐標和化學元素類型的結(jié)構(gòu)模型作為輸入,然后預測模型與未知真實 3D RNA 結(jié)構(gòu)的均方根偏差。
ARES 不包含關(guān)于結(jié)構(gòu)模型的哪些特征與評估其準確性相關(guān)的任何假設。即使是雙螺旋、堿基對、核苷酸和氫鍵等基本結(jié)構(gòu)概念也沒有預先編程到系統(tǒng)中。
與在數(shù)千種已知蛋白質(zhì)結(jié)構(gòu)上訓練的 AlphaFold 不同,ARES 訓練數(shù)據(jù)僅限于 18 個 RNA 分子,這些分子在 1994 年至 2006 年間發(fā)表了實驗確定的結(jié)構(gòu)。
為了評估 ARES 識別以前未見過的 RNA 的準確結(jié)構(gòu)模型的能力,斯坦福大學的研究人員編制了一個基準數(shù)據(jù)集,其中包含七年來在 RNA-Puzzles 競賽中獲勝的參賽作品,這是由 RNA 科學界組織的一項長期挑戰(zhàn). 根據(jù) RNA-Puzzles 的規(guī)則,當社區(qū)科學家通過實驗發(fā)現(xiàn)新的 RNA 結(jié)構(gòu)時,他們不會公布細節(jié),直到其他 RNA-Puzzles 參與者提交了他們的結(jié)構(gòu)預測,然后根據(jù)他們與該結(jié)構(gòu)的匹配程度進行判斷。實驗確定的結(jié)構(gòu)。
對于 RNA-Puzzles 數(shù)據(jù)集中的每個 RNA 結(jié)構(gòu),研究人員使用 Rosetta FARFAR2 采樣軟件生成了至少 1,500 個結(jié)構(gòu)模型。然后,他們應用經(jīng)過訓練的 ARES 神經(jīng)網(wǎng)絡為每個模型生成一個分數(shù)。還使用了其他三種評分方法進行比較。
使用 ARES,10 個得分最高的結(jié)構(gòu)模型包括 81% 的基準 RNA 的實驗正確模型。相比之下,其他三種評分方法在不到 50% 的時間內(nèi)包含正確的結(jié)構(gòu)。
接下來,研究人員將 ARES 的預測輸入到四輪新的 RNA-Puzzles 盲結(jié)構(gòu)預測挑戰(zhàn)賽中。四個實驗確定但未發(fā)表的待預測 RNA 結(jié)構(gòu)包括腺病毒 VA-I RNA、嗜熱地芽孢桿菌T-box 鑒別器 tRNAGly、枯草芽孢桿菌T-box tRNAGly 和諾卡氏菌T-box tRNAIIe(蛋白質(zhì)數(shù)據(jù)庫 ID) 6OL3、6PMO、6POM 和 6UFM)。對于所有四種 RNA,ARES “贏得”了挑戰(zhàn),產(chǎn)生了任何方法中最準確的結(jié)構(gòu)模型。
在未來的工作中,研究人員計劃為 ARES 提供除原子坐標和每個原子的化學元素類型之外的更多信息,以查看這種額外的輸入是否會提高性能。
標簽:
免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!