對(duì)于下一代測序來說,這是一個(gè)激動(dòng)人心的時(shí)刻。在過去的一年里,多家新公司都進(jìn)入了美國市場,每家公司都有自己的新興平臺(tái)和新技術(shù)。盡管該領(lǐng)域的許多方面存在很多不確定性,但每個(gè)人都同意,未來將帶來更多的測序數(shù)據(jù)。而且,隨著儀器產(chǎn)生更多的數(shù)據(jù),計(jì)算平臺(tái)也必須迎難而上。
現(xiàn)在,博德研究所和1999年發(fā)明圖形處理單元(GPU)的硅谷微處理巨頭英偉達(dá)正在合作。兩家公司宣布建立合作伙伴關(guān)系,為Terra云平臺(tái)(Broad廣泛使用的基因組分析平臺(tái))提供Nvidia的AI和加速工具。他們說,結(jié)果將是更快地分析更多數(shù)據(jù)。
這種合作關(guān)系建立在幾個(gè)平臺(tái)的基礎(chǔ)上,這些平臺(tái)已經(jīng)改變了研究人員分析基因組數(shù)據(jù)的能力。
Broad的數(shù)據(jù)科學(xué)和數(shù)據(jù)工程小組開發(fā)了廣泛用于解釋序列數(shù)據(jù)的主力(通常作為FASTQ文件從序列器中取出)?;蚪M分析工具包(GATK)側(cè)重于DNA和RNA-seq數(shù)據(jù)的變異發(fā)現(xiàn)和基因分型。該程序在基因組學(xué)界被廣泛使用。但是,使用它需要對(duì)生物信息學(xué)有一定程度的熟悉。
最近,Broad與Verily Life Sciences合作開發(fā)了Terra平臺(tái),該平臺(tái)運(yùn)行在Google的云上。Terra 是一個(gè)可擴(kuò)展的開源平臺(tái),不僅允許研究人員訪問數(shù)據(jù),還可以運(yùn)行分析工具并允許協(xié)作。最重要的是,它易于使用,不需要與GATK相同的生物信息學(xué)背景。這是一種分析基因組的“點(diǎn)擊”方法,基因組學(xué)專家、組學(xué)博客作者Keith Robison博士指出。
此次合作將把英偉達(dá)的Clara Parabricks帶到Terra平臺(tái)上。英偉達(dá)醫(yī)療保健副總裁金伯利·鮑威爾(Kimberly Powell)表示,英偉達(dá)“在過去三年中一直致力于加速計(jì)算工具”。她指出,該程序在多云平臺(tái)上運(yùn)行,因此整個(gè)Terra平臺(tái)都可以利用它。
Parabricks 是一款用于測序數(shù)據(jù)二次分析的 GPU 加速軟件套件,現(xiàn)已在六個(gè)新的 Terra 工作流程中提供。用戶可以使用Clara Parabricks在大約一小時(shí)內(nèi)分析整個(gè)基因組(相比之下,基于CPU的環(huán)境需要24小時(shí))。對(duì)于 Broad 的 GATK 種系工作流程,在 GPU 上使用 Parabricks 進(jìn)行分析的成本不到一半。
Broad首席數(shù)據(jù)官兼Eric和Wendy Schmidt中心聯(lián)合主任Anthony Philippakis博士告訴GEN,NGS的計(jì)算需求(計(jì)算和存儲(chǔ)需求)只會(huì)繼續(xù)增長。他指出,過去圍繞降低試劑成本的話題已經(jīng)轉(zhuǎn)移到測序數(shù)據(jù)上。而且,這需要新一代硬件加速,以更便宜、更快、更好地處理數(shù)據(jù)。
此外,Nvidia 正在直接向 GATK 工具包貢獻(xiàn)一個(gè)新的深度學(xué)習(xí)模型。
使用大型語言模型(LLM),研究人員將開發(fā)DNA和RNA的基礎(chǔ)模型,以使用Nvidia的BioNeMo平臺(tái)更好地了解人類生物學(xué)。BioNeMo 是一個(gè) AI 應(yīng)用程序框架,其中包括用于蛋白質(zhì)和化學(xué)的預(yù)訓(xùn)練 LLM,可簡化訓(xùn)練、推理和擴(kuò)展。BioNeMo是Nvidia Nemo Megatron框架的擴(kuò)展,對(duì)化學(xué),蛋白質(zhì)和DNA / RNA序列具有特定領(lǐng)域。
BioNeMo允許開發(fā)人員有效地訓(xùn)練和部署具有數(shù)十億個(gè)參數(shù)的生物學(xué)LLM。來自兩個(gè)組織的團(tuán)隊(duì)將共同開展這項(xiàng)工作,創(chuàng)建新模型以添加到BioNeMo系列中,并在Terra平臺(tái)中提供。
在Nvidia的公司博客上,他們描述了四種預(yù)訓(xùn)練語言模型:
ESM-1:這種蛋白質(zhì)LLM最初由Meta AI Labs發(fā)表,處理氨基酸序列以生成可用于預(yù)測各種蛋白質(zhì)特性和功能的表示。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。
OpenFold:創(chuàng)建最先進(jìn)的蛋白質(zhì)建模工具的公私聯(lián)盟將通過BioNeMo服務(wù)訪問其開源AI管道。
MegaMolBART:經(jīng)過1億個(gè)分子的訓(xùn)練,這種生成化學(xué)模型可用于反應(yīng)預(yù)測、分子優(yōu)化和從頭分子生成。
ProtT5:該模型由慕尼黑工業(yè)大學(xué)RostLab領(lǐng)導(dǎo),包括NVIDIA合作開發(fā),將ESM-1b等蛋白質(zhì)LLM的功能擴(kuò)展到序列生成。
博德研究所的研究人員還將獲得Monai,一個(gè)用于醫(yī)學(xué)成像AI的開源深度學(xué)習(xí)框架,以及一個(gè)名為Nvidia rapids的GPU加速數(shù)據(jù)科學(xué)工具包,用于更快的數(shù)據(jù)準(zhǔn)備,可用于基因組單細(xì)胞分析。
很容易理解為什么Broad想要獲得Nvidia的GPU提供的功能。但英偉達(dá)為什么要采取這一舉措呢?“他們希望將GPU轉(zhuǎn)移到醫(yī)療保健領(lǐng)域,”Robison指出。而且,他們的目光可能超出了基因組。將這種帶寬帶到 Broad 意味著分析基因組學(xué)、轉(zhuǎn)錄組學(xué)、GWAS 研究、病理學(xué)、細(xì)胞成像和臨床健康記錄。
鮑威爾對(duì)此表示同意,并指出他們“才剛剛開始這項(xiàng)研究計(jì)劃”。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!