印第安納州西拉斐特——使用機(jī)器學(xué)習(xí)進(jìn)行藥物開發(fā)的挑戰(zhàn)之一是為計(jì)算機(jī)創(chuàng)建一個(gè)從一組數(shù)據(jù)點(diǎn)中提取所需信息的過程。藥物科學(xué)家必須提取生物數(shù)據(jù)并訓(xùn)練軟件,以了解典型的人體將如何與藥物組合相互作用。
普渡大學(xué)的藥物發(fā)現(xiàn)研究人員創(chuàng)建了一個(gè)新的數(shù)據(jù)挖掘框架,用于訓(xùn)練機(jī)器學(xué)習(xí)模型。這個(gè)名為Lemon的框架可以幫助藥物研究人員更好地挖掘蛋白質(zhì)數(shù)據(jù)庫(PDB),這是一個(gè)擁有超過14萬種生物分子結(jié)構(gòu)的綜合資源,每周都有新的結(jié)構(gòu)發(fā)布。這項(xiàng)工作發(fā)表在10月15日的《生物信息學(xué)》雜志上。
普渡大學(xué)科學(xué)學(xué)院分析和物理化學(xué)助理教授Gaurav Chopra說:“PDB是藥物發(fā)現(xiàn)領(lǐng)域的重要工具。”問題是,整理所有積累的數(shù)據(jù)可能需要很多時(shí)間。機(jī)器學(xué)習(xí)可以有所幫助,但你仍然需要一個(gè)強(qiáng)大的框架,計(jì)算機(jī)可以從中快速分析數(shù)據(jù),以幫助創(chuàng)建一個(gè)安全有效的框架。。"
檸檬軟件平臺(tái)是一個(gè)帶有Python綁定的快速C 11庫,幾分鐘就能開采出PDB。在PDB加載所有傳統(tǒng)mmCIF文件大約需要290分鐘,但Lemon在8核電腦上應(yīng)用簡單的工作流程大約需要6分鐘。Lemon允許用戶編寫自定義函數(shù),將它們包含在其軟件包中,并以標(biāo)準(zhǔn)方式開發(fā)自定義函數(shù),從而為整個(gè)科學(xué)界生成獨(dú)特的基準(zhǔn)測試數(shù)據(jù)集。
與Chopra合作開發(fā)化學(xué)博士平臺(tái)的Jonathan Jonathan Fine表示:“沉積在PDB的實(shí)驗(yàn)結(jié)構(gòu)為結(jié)構(gòu)和計(jì)算生物學(xué)的科學(xué)和教育帶來了很多進(jìn)步,有助于推動(dòng)藥物開發(fā)等領(lǐng)域的發(fā)展。”“我們創(chuàng)建了Lemon作為一站式商店,可以快速挖掘整個(gè)數(shù)據(jù)庫,提取對藥物開發(fā)至關(guān)重要的有用生物信息?!?
Lemon之所以得名,是因?yàn)樗畛踔荚跒樗幬镌O(shè)計(jì)軟件創(chuàng)建基準(zhǔn)測試集,并識(shí)別lemon與在PDB無法很好建模的生物分子之間的相互作用。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!