微生物序列數(shù)據(jù)庫包含有關(guān)酶和其他可適用于生物技術(shù)的分子的大量信息。但近年來這些數(shù)據(jù)庫變得如此之大,以至于很難有效地搜索感興趣的酶。
現(xiàn)在,麻省理工學(xué)院和哈佛大學(xué)布羅德研究所、麻省理工學(xué)院麥戈文腦研究所和美國國立衛(wèi)生研究院國家生物技術(shù)信息中心(NCBI)的科學(xué)家們開發(fā)了一種新的搜索算法,已識別出188種新的細菌基因組中罕見的CRISPR系統(tǒng),包含數(shù)千個單獨的系統(tǒng)。該作品發(fā)表在《科學(xué)》雜志上。
該算法來自CRISPR先驅(qū)張鋒的實驗室,使用大數(shù)據(jù)聚類方法快速搜索大量基因組數(shù)據(jù)。該團隊使用他們的算法,稱為基于快速局部敏感散列的聚類(FLSHclust)來挖掘三個主要公共數(shù)據(jù)庫,其中包含來自各種不尋常細菌的數(shù)據(jù),包括在煤礦、啤酒廠、南極湖泊和狗唾液中發(fā)現(xiàn)的細菌。
科學(xué)家們發(fā)現(xiàn)了令人驚訝的數(shù)量和多樣性的CRISPR系統(tǒng),包括可以編輯人類細胞DNA的系統(tǒng),其他可以靶向RNA的系統(tǒng),以及許多具有多種其他功能的系統(tǒng)。
新系統(tǒng)有可能用于編輯哺乳動物細胞,并且與當前的Cas9系統(tǒng)相比,脫靶效應(yīng)更少。它們有一天也可以用作診斷或作為細胞內(nèi)活動的分子記錄。
研究人員表示,他們的研究突顯了CRISPR前所未有的多樣性和靈活性水平,并且隨著數(shù)據(jù)庫的不斷增長,可能還有更多罕見的系統(tǒng)有待發(fā)現(xiàn)。
“生物多樣性是一個寶庫,隨著我們繼續(xù)對更多基因組和宏基因組樣本進行測序,越來越需要更好的工具,例如FLSHclust,來搜索序列空間以找到分子寶石,”聯(lián)合研究人員張說。該研究的資深作者,也是博德研究所的核心研究所成員。
張還是麻省理工學(xué)院麥戈文腦研究所的研究員、麻省理工學(xué)院神經(jīng)科學(xué)系的James和PatriciaPoitras教授(兼任腦與認知科學(xué)和生物工程系)以及霍華德休斯醫(yī)學(xué)研究所的研究員。NCBI的杰出研究員尤金·庫寧(EugeneKoonin)也是該研究的共同高級作者。
尋找CRISPR
CRISPR代表成簇規(guī)則間隔短回文重復(fù)序列,是一種細菌防御系統(tǒng),已被設(shè)計成許多基因組編輯和診斷工具。
為了挖掘新型CRISPR系統(tǒng)的蛋白質(zhì)和核酸序列數(shù)據(jù)庫,研究人員借鑒大數(shù)據(jù)社區(qū)的方法開發(fā)了一種算法。這種技術(shù)稱為局部敏感散列,將相似但不完全相同的對象聚集在一起。
使用這種方法,團隊可以在幾周內(nèi)從NCBI、其全基因組獵槍數(shù)據(jù)庫和聯(lián)合基因組研究所探測數(shù)十億個蛋白質(zhì)和DNA序列,而以前尋找相同物體的方法需要幾個月的時間。他們設(shè)計了算法來尋找與CRISPR相關(guān)的基因。
該研究的共同第一作者SoumyaKannan表示:“這種新算法使我們能夠在足夠短的時間內(nèi)解析數(shù)據(jù),從而真正恢復(fù)結(jié)果并做出生物學(xué)假設(shè)。”研究開始時,坎南是張實驗室的研究生,目前是哈佛大學(xué)的博士后研究員和初級研究員。HanAltae-Tran是該研究的另一位共同第一作者,他是張實驗室研究期間的研究生,目前是華盛頓大學(xué)的博士后研究員。
Altae-Tran說:“這證明了當你改進探索方法并使用盡可能多的數(shù)據(jù)時,你可以做些什么。”“能夠提高我們的搜索規(guī)模真是令人興奮。”
新系統(tǒng)
在他們的分析中,Altae-Tran、Kannan和他們的同事注意到,他們發(fā)現(xiàn)的數(shù)千個CRISPR系統(tǒng)屬于幾個現(xiàn)有類別和許多新類別。他們在實驗室中更詳細地研究了幾個新系統(tǒng)。
他們發(fā)現(xiàn)了已知I型CRISPR系統(tǒng)的幾種新變體,這些系統(tǒng)使用32個堿基對長的向?qū)NA,而不是Cas9的20個核苷酸的向?qū)АS捎谝龑?dǎo)RNA較長,這些I型系統(tǒng)有可能用于開發(fā)更精確的基因編輯技術(shù),不易發(fā)生脫靶編輯。
張的團隊證明其中兩個系統(tǒng)可以對人類細胞的DNA進行簡短的編輯。由于這些I型系統(tǒng)的大小與CRISPR-Cas9相似,因此可以使用當今CRISPR所用的相同基因傳遞技術(shù)將它們傳遞到動物或人類的細胞中。
其中一個I型系統(tǒng)還表現(xiàn)出“附帶活性”——CRISPR蛋白結(jié)合其靶標后核酸的廣泛降解??茖W(xué)家們已經(jīng)使用類似的系統(tǒng)進行傳染病診斷,例如SHERLOCK,這是一種能夠快速感應(yīng)單個DNA或RNA分子的工具。張的團隊認為新系統(tǒng)也可以適用于診斷技術(shù)。
研究人員還發(fā)現(xiàn)了一些IV型CRISPR系統(tǒng)的新作用機制,以及精確靶向RNA的VII型系統(tǒng),該系統(tǒng)有可能用于RNA編輯。其他系統(tǒng)有可能用作記錄工具(基因何時表達的分子文件)或用作活細胞中特定活動的傳感器。
挖掘數(shù)據(jù)
科學(xué)家們表示,他們的算法可以幫助尋找其他生化系統(tǒng)。Altae-Tran說:“任何想要使用這些大型數(shù)據(jù)庫來研究蛋白質(zhì)如何進化或發(fā)現(xiàn)新基因的人都可以使用這種搜索算法。”
研究人員補充說,他們的發(fā)現(xiàn)不僅說明了CRISPR系統(tǒng)的多樣性,而且大多數(shù)都很罕見,只在不尋常的細菌中發(fā)現(xiàn)。
“其中一些微生物系統(tǒng)僅在煤礦水中發(fā)現(xiàn),”坎南說。“如果有人對此不感興趣,我們可能永遠不會看到這些系統(tǒng)。擴大我們的采樣多樣性對于繼續(xù)擴大我們所能發(fā)現(xiàn)的多樣性非常重要。”
標簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!