醫(yī)生根據癥狀或在體內的位置使用標準的疾病分類來幫助診斷。這些分類被稱為疾病分類,可以幫助醫(yī)生知道哪些疾病是密切相關的,所以它們可能是由相同的潛在問題或相同的治療方法引起的。
了解疾病的一個重要部分是估計其遺傳度,即個體疾病的遺傳變異百分比是由遺傳變異和環(huán)境因素(如接觸污染、感染或創(chuàng)傷)引起的。傳統(tǒng)上,為了計算特定疾病的遺傳率,研究人員需要昂貴的數(shù)據集,其中應該包含各種醫(yī)學和遺傳數(shù)據以及家庭關系的詳細知識。在一項新的研究中,芝加哥大學的數(shù)據科學家估計了遺傳力,并利用電子健康記錄中的數(shù)據繪制了數(shù)千種疾病之間的關系圖。
該研究于2019年12月3日發(fā)表于《自然通訊》,計算了平均壽命內各種疾病患病率的統(tǒng)計曲線,表明這種趨勢傾向于發(fā)生在生命早期或晚期。研究人員還創(chuàng)建了“疾病嵌入”或疾病分組,根據健康記錄中的診斷代碼和注釋顯示這些疾病之間的密切關系。利用疾病嵌入揭示的這些曲線和模式的相似性,研究人員可以估計疾病之間的遺傳力和遺傳相關性。
UChicago的數(shù)據科學家、該論文的資深作者Andrey Rzhetsky博士說:“過去對疾病之間的遺傳力或遺傳與環(huán)境之間的相關性的每一個新的估計都是一件大事?!薄霸谶@里,我們可以估計成千上萬的遺傳力值和成千上萬的相關性,這在過去是非常昂貴和大規(guī)模的?!?
早發(fā)和晚發(fā)
為了建立該團隊的統(tǒng)計模型,本文的第一作者、博士后研究員耿耿介博士使用了Truven MarketScan的數(shù)據,這是一個11年間美國1.51億人不明健康索賠的數(shù)據庫。這些數(shù)據還包括丹麥國家患者登記中心(21年560萬)和瑞典國家健康登記中心(44年940萬)的數(shù)據。然后,他們創(chuàng)建了疾病流行率曲線,并繪制了各年齡段患病人口的百分比。
該曲線記錄了整個預期壽命期間疾病患病率的統(tǒng)計顯著變化。曲線的不同極端和形狀表明,疾病在年輕時(早發(fā))或老年時(晚發(fā))更常見。研究人員還可以識別曲線上的下降或峰值,這可能是可能影響疾病的環(huán)境觸發(fā)事件的信號,例如青春期、飲食變化、創(chuàng)傷或感染。
該團隊還利用神經網絡模型分析疾病何時出現(xiàn)在病歷中,建立了“疾病嵌入”或疾病之間的關系。這種分析是仿照自然語言處理,通過分析周圍的單詞來定義單詞的基本語義。在健康檔案中,疾病就像一個詞,其一生發(fā)展的歷史記錄就是一句話。例如,隨著醫(yī)生縮小診斷范圍,“頭痛”之后可能是“偏頭痛”。因此,當你把它們畫在二維地圖上時,頭痛似乎比胃痙攣更容易引起偏頭痛。
Rzhetsky說:“系統(tǒng)正在通過優(yōu)化每種疾病的20個參數(shù),從真實的一系列患者數(shù)據中學習?!薄霸谶@種情況下,考慮到患者過去的健康史,網絡試圖預測接下來會發(fā)生什么。你可以像醫(yī)生診斷時你腦子里想的那樣去想?!?
識別新模式
當他們研究數(shù)據時,出現(xiàn)了幾種模式。在美國數(shù)據中,早發(fā)疾病的數(shù)量多于晚發(fā)疾病,但在人群中的發(fā)病率較低。這可能是因為常規(guī)的新生兒篩查和兒童監(jiān)測往往會發(fā)現(xiàn)更多的疾病,或者是因為具有強烈遺傳成分的疾病往往會更早發(fā)作,導致更多的死亡。
當兩種疾病僅通過遺傳學密切相關時,流行曲線的形狀可能會有很大不同。如果僅通過環(huán)境因素聯(lián)系起來,它們非常相似,但當環(huán)境和遺傳相關性高時,曲線最相似。
研究人員還發(fā)現(xiàn),一些看似密切相關的疾病(如精神疾病)根據平均發(fā)病年齡被分為不同的組。例如,注意力缺陷多動障礙和自閉癥發(fā)作較早,而精神分裂癥、雙相情感障礙和抑郁癥往往發(fā)作較晚。
賈說,如此大的健康數(shù)據集的初始操作驗證了他們基于曲線形狀相似性的疾病分類方法。在高水平上,結果與疾病組之間公認的分類和關聯(lián)相匹配,但是發(fā)現(xiàn)了一些事故。比如發(fā)現(xiàn)寄生蟲感染與神經纖維瘤病、耳膜疾病、成骨不全(脆性骨病)、先天性眼部異常等一系列非傳染性疾病一致。
按年齡和性別劃分的疾病流行曲線以前從未像這項研究那樣進行過系統(tǒng)的比較(點擊此處查看500多種疾病的性別和國家分級流行曲線的可搜索數(shù)據庫)?,F(xiàn)在,該團隊希望改進這些工具,并使用它們來填補尚未充分研究的情況下的空白。
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!