蛋白質(zhì)已經(jīng)進(jìn)化到能夠勝任各種任務(wù),從收縮肌肉到消化食物再到識(shí)別病毒。為了設(shè)計(jì)出更好的蛋白質(zhì)(包括抗體),科學(xué)家經(jīng)常在不同位置反復(fù)突變氨基酸(按順序排列以組成蛋白質(zhì)的單位),直到產(chǎn)生的蛋白質(zhì)具有更好的功能,例如引發(fā)更強(qiáng)的免疫反應(yīng)或更有效地從大氣中捕獲二氧化碳。
但可能的氨基酸序列比世界上的沙粒還要多。而找到最佳蛋白質(zhì),進(jìn)而找到最佳潛在藥物,通常成本高昂,甚至不可能。
斯坦福大學(xué)的科學(xué)家開發(fā)出了一種基于機(jī)器學(xué)習(xí)的新方法,可以更快、更準(zhǔn)確地預(yù)測(cè)導(dǎo)致更好抗體藥物的分子變化。
該方法于7月4日發(fā)表在《科學(xué)》雜志上,將蛋白質(zhì)骨架的3D結(jié)構(gòu)與基于氨基酸序列的大型語(yǔ)言模型相結(jié)合,使研究人員能夠在幾分鐘內(nèi)找到罕見且理想的突變,而這些突變通常只能通過(guò)詳盡的實(shí)驗(yàn)才能找到。
“人工智能和藥物開發(fā)領(lǐng)域的大量努力都集中在收集有關(guān)某種分子在某項(xiàng)任務(wù)中表現(xiàn)如何的大量數(shù)據(jù),以便計(jì)算機(jī)能夠?qū)W習(xí)到足夠的知識(shí)來(lái)設(shè)計(jì)出更好的版本,”金說(shuō)。“值得注意的是,我們已經(jīng)證明,結(jié)構(gòu)可以代替大量數(shù)據(jù),而計(jì)算機(jī)仍能學(xué)習(xí)。”
“現(xiàn)在,更多的抗體實(shí)際上有機(jī)會(huì)得到優(yōu)化,”同時(shí)也是Arc研究所創(chuàng)新研究員的Hie說(shuō)道。
彎曲成形
當(dāng)面臨尋找最佳氨基酸序列的挑戰(zhàn)時(shí),科學(xué)家通常會(huì)投入數(shù)百萬(wàn)美元,在微型、簡(jiǎn)化的生物系統(tǒng)中進(jìn)行測(cè)試。他們希望培養(yǎng)皿中最好的藥物也能成為人類的最佳藥物。
“這需要大量的猜測(cè)和檢查,”Hie說(shuō)。“許多智能算法的目標(biāo)是消除其中的猜測(cè)。”
為了加快這一進(jìn)程,科學(xué)家開發(fā)了類似ChatGPT的機(jī)器學(xué)習(xí)算法,該算法根據(jù)數(shù)百萬(wàn)種蛋白質(zhì)的氨基酸序列進(jìn)行訓(xùn)練,以預(yù)測(cè)理想的突變。
然而,這些模型通常會(huì)讓科學(xué)家發(fā)現(xiàn),一旦在實(shí)驗(yàn)室中產(chǎn)生序列,它們就會(huì)變得不穩(wěn)定或比開始時(shí)更糟糕。
部分原因是蛋白質(zhì)的功能不僅取決于氨基酸序列,還取決于該序列的三維結(jié)構(gòu)。例如,為了引發(fā)免疫反應(yīng),抗體必須具有正確的形狀才能與病毒表面的分子結(jié)合。
研究團(tuán)隊(duì)認(rèn)為,開發(fā)更好的預(yù)測(cè)算法的關(guān)鍵在于結(jié)構(gòu)。因此,他們將基于序列的大型語(yǔ)言模型確定的一長(zhǎng)串可能有益的突變限制為那些能夠保留起始蛋白質(zhì)3D形狀的突變。
試驗(yàn)場(chǎng)
2022年12月,該團(tuán)隊(duì)在最近停產(chǎn)的SARS-CoV-2抗體療法上進(jìn)行了測(cè)試。
“主流理論認(rèn)為,改進(jìn)這種抗體的嘗試會(huì)失敗,”醫(yī)學(xué)生、生物物理學(xué)研究生、這項(xiàng)研究的主要作者VarunShanker說(shuō)。“這種病毒太聰明了。它在數(shù)百萬(wàn)人中傳播的過(guò)程中不斷進(jìn)化,知道如何變異才能避開這些抗體。”
使用純序列模型來(lái)優(yōu)化蛋白質(zhì),效果僅提高了兩倍。但采用結(jié)構(gòu)引導(dǎo)方法后,該團(tuán)隊(duì)看到了25倍的提升。
“我們終于趕上了病毒,”同時(shí)也是SarafanChEM-H化學(xué)/生物界面培訓(xùn)項(xiàng)目研究員的Shanker說(shuō)道。
教舊模型新技巧
使用人工智能開發(fā)更好藥物的大部分努力都依賴于“訓(xùn)練”或“監(jiān)督”模型,這涉及生成有關(guān)獨(dú)特蛋白質(zhì)序列功能和性能的大量數(shù)據(jù)。這種方法需要大量時(shí)間,并會(huì)產(chǎn)生針對(duì)特定蛋白質(zhì)執(zhí)行特定任務(wù)的定制模型。
該模型不需要輸入任何有關(guān)蛋白質(zhì)的功能、功能如何或任何實(shí)驗(yàn)室實(shí)驗(yàn)的信息。由于結(jié)構(gòu)與功能緊密相關(guān),蛋白質(zhì)的坐標(biāo)成為性能的代表。
對(duì)于COVID抗體的研究,他們不僅將結(jié)構(gòu)限制在抗體本身,還將結(jié)構(gòu)限制在抗體與病毒結(jié)合時(shí)。從此,他們的模型無(wú)需任何訓(xùn)練就能“學(xué)會(huì)”抗體結(jié)合的一些規(guī)則。
早期實(shí)驗(yàn)表明,該方法可推廣到其他類型的蛋白質(zhì),如酶,它們有助于催化人體內(nèi)的化學(xué)反應(yīng)。到目前為止,研究人員發(fā)現(xiàn)該模型為科學(xué)家指明了數(shù)十種蛋白質(zhì),平均而言,其中一半比起點(diǎn)更好。
這一工具可能有助于快速應(yīng)對(duì)新出現(xiàn)或正在發(fā)展的疾病。它還降低了制造更有效藥物的門檻。
更強(qiáng)效的藥物意味著需要的劑量更低,這意味著一定劑量的藥物可以使更多患者受益。對(duì)于艾滋病毒等傳染病,研究表明,大劑量但不頻繁的抗體可以保護(hù)患者免受感染,這可能是一種變革。
該團(tuán)隊(duì)正在向任何人免費(fèi)提供他們的模型和代碼。
“這是一個(gè)令人興奮的例子,展示了深度學(xué)習(xí)的力量,它使構(gòu)建更好蛋白質(zhì)的過(guò)程變得民主化,”Shanker說(shuō)。“這不僅讓人們能夠開發(fā)新藥,還開辟了以前無(wú)法進(jìn)入的科學(xué)探索新領(lǐng)域。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!