幾十年來(lái),Y 染色體(人類兩條性染色體之一)由于其結(jié)構(gòu)的復(fù)雜性,一直給基因組學(xué)界的測(cè)序帶來(lái)巨大挑戰(zhàn)?,F(xiàn)在,基因組中這一難以捉摸的區(qū)域已被完全測(cè)序,這一壯舉最終完成了一套端到端的人類染色體,并為人類基因組參考添加了 3000 萬(wàn)個(gè)新堿基,其中大部分來(lái)自測(cè)序困難的衛(wèi)星 DNA。這些堿基揭示了 41 個(gè)額外的蛋白質(zhì)編碼基因,并為研究與繁殖、進(jìn)化和種群變化相關(guān)的重要問(wèn)題的人們提供了重要的見(jiàn)解。
由加州大學(xué)圣克魯斯分校生物分子工程助理教授 Karen Miga 共同領(lǐng)導(dǎo)的端粒到端粒 (T2T) 聯(lián)盟的研究人員在《自然》雜志上發(fā)表的一篇新論文中宣布了這一成果。完整的、帶注釋的 Y 染色體參考可在 UCSC 基因組瀏覽器上使用,并可通過(guò) Github 訪問(wèn)。
“就在幾年前,人類 Y 染色體的一半(參考文獻(xiàn)中)缺失了,即具有挑戰(zhàn)性、復(fù)雜的衛(wèi)星區(qū)域,”該論文的共同主要作者、加州大學(xué)圣克魯斯分校生物分子工程博士后學(xué)者莫妮卡·切喬娃 (Monika Cechova) 說(shuō)。“當(dāng)時(shí)我們甚至不知道它是否可以測(cè)序,這太令人困惑了。這確實(shí)是一個(gè)巨大的轉(zhuǎn)變。”
完成Y
當(dāng)科學(xué)家和臨床醫(yī)生研究個(gè)體的基因組時(shí),他們會(huì)將個(gè)體的 DNA 與標(biāo)準(zhǔn)參考的 DNA 進(jìn)行比較,以確定哪里存在變異。到目前為止,人類基因組的 Y 染色體部分存在很大的缺口,這使得理解變異和相關(guān)疾病變得困難。
Y染色體的結(jié)構(gòu)一直難以解碼,因?yàn)橐恍〥NA是以回文形式組織的——前后相同的長(zhǎng)序列——跨越超過(guò)一百萬(wàn)個(gè)堿基對(duì)。此外,之前版本的 Y 參考中缺失的 Y 染色體的很大一部分是衛(wèi)星 DNA,即大型、高度重復(fù)的非蛋白質(zhì)編碼 DNA 區(qū)域。在 Y 染色體上,兩個(gè)衛(wèi)星相互連接,使測(cè)序過(guò)程進(jìn)一步復(fù)雜化。
由于長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和新的創(chuàng)新計(jì)算組裝方法的進(jìn)步,研究人員能夠?qū)崿F(xiàn) Y 染色體的無(wú)縫讀取,這些方法可以處理重復(fù)序列并將測(cè)序的原始數(shù)據(jù)轉(zhuǎn)化為可用資源。這些新方法組合使團(tuán)隊(duì)能夠解決 Y 染色體的一些特別具有挑戰(zhàn)性的方面,例如精確定位回文序列中發(fā)生倒位的位置——一種可用于查找其他倒位的技術(shù)。論文中建立的方法將使科學(xué)家能夠完成更多人類 Y 染色體的端到端讀取,以更好地了解這種遺傳物質(zhì)如何影響不同的人類群體。
“Y 染色體缺乏先前參考基因組中最多的序列,”國(guó)家人類基因組研究所的科學(xué)家、該論文的主要作者 Arang Rhie 說(shuō)。“每當(dāng)我們嘗試進(jìn)行任何基于參考的分析時(shí),知道我們錯(cuò)過(guò)了 Y 的一半總是令人惱火。我真的很高興能夠策劃第一個(gè)完整的 Y,看看我們實(shí)際上缺少什么,以及我們現(xiàn)在可以做什么。”
2018年,Miga和她的同事發(fā)布了第一個(gè)人類Y染色體著絲粒的完整圖譜。第一個(gè)間隙閉合被認(rèn)為是獲得超長(zhǎng)數(shù)據(jù)的功勞,該數(shù)據(jù)建立在納米孔測(cè)序技術(shù)的基礎(chǔ)上,該技術(shù)起源于加州大學(xué)圣迭戈分校。當(dāng)時(shí)很明顯,新興技術(shù)和高覆蓋率長(zhǎng)讀長(zhǎng)數(shù)據(jù)集有潛力端到端地完成整個(gè)染色體,這導(dǎo)致了由 Phillippy 和 Miga 共同領(lǐng)導(dǎo)的 T2T 聯(lián)盟的成立。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!