帕特·貝內(nèi)特的處方比“吃幾片阿司匹林,早上給我打電話”要復(fù)雜一些。但在她的大腦中植入了四個嬰兒阿司匹林大小的傳感器,旨在解決令她和其他人感到沮喪的問題:失去清晰說話的能力。這些設(shè)備將貝內(nèi)特大腦中幾個與語音相關(guān)的區(qū)域的信號傳輸?shù)阶钕冗M的軟件,該軟件解碼她的大腦活動并將其轉(zhuǎn)換為計算機屏幕上顯示的文本。
貝內(nèi)特現(xiàn)年 68 歲,曾任人力資源總監(jiān),曾經(jīng)是一名馬術(shù)運動員,每天慢跑。2012年,她被診斷出患有肌萎縮側(cè)索硬化癥,這是一種進行性神經(jīng)退行性疾病,會攻擊控制運動的神經(jīng)元,導致身體虛弱,最終癱瘓。
“當你想到 ALS 時,你會想到手臂和腿部的影響,”貝內(nèi)特在通過電子郵件進行的采訪中寫道。“但在一群 ALS 患者中,一切都是從言語困難開始的。我無法說話。”
通常,ALS 首先出現(xiàn)在身體的外圍——手臂和腿、手和手指。對于貝內(nèi)特來說,惡化不是像典型的那樣從她的脊髓開始,而是從她的腦干開始。她仍然可以四處走動、穿衣服并用手指打字,盡管難度越來越大。但她無法再使用嘴唇、舌頭、喉部和下頜的肌肉來清晰地發(fā)音出音素(或聲音單位,例如“sh”),而這些是語音的組成部分。
盡管貝內(nèi)特的大腦仍然可以制定生成這些音素的方向,但她的肌肉無法執(zhí)行這些命令。
研究人員并沒有訓練人工智能識別整個單詞,而是創(chuàng)建了一個從音素解碼單詞的系統(tǒng)。這些是語音的子單位,它們形成口語單詞的方式與字母形成書面單詞的方式相同。例如,“Hello”包含四個音素:“HH”、“AH”、“L”和“OW”。
使用這種方法,計算機只需要學習 39 個音素就可以解讀英語中的任何單詞。這既提高了系統(tǒng)的準確性,又使其速度提高了三倍。
2022 年 3 月 29 日,斯坦福大學醫(yī)學院的一位神經(jīng)外科醫(yī)生在貝內(nèi)特大腦表面的兩個不同區(qū)域分別放置了兩個微型傳感器,這兩個區(qū)域都與語言產(chǎn)生有關(guān)。這些傳感器是皮質(zhì)內(nèi)腦機接口(iBCI)的組件。與最先進的解碼軟件相結(jié)合,它們旨在將伴隨語音嘗試的大腦活動轉(zhuǎn)化為屏幕上的文字。
手術(shù)后大約一個月,斯坦福大學的一組科學家開始每周兩次的研究課程,以訓練解釋她演講的軟件。四個月后,Bennett 嘗試的話語以每分鐘 62 個單詞的速度在計算機屏幕上轉(zhuǎn)換為單詞,是之前 BCI 輔助通信記錄的三倍多。
貝內(nèi)特寫道:“這些初步結(jié)果證明了這個概念,最終技術(shù)將迎頭趕上,讓不會說話的人也能輕松使用它。” “對于那些不會說話的人來說,這意味著他們可以與更大的世界保持聯(lián)系,也許可以繼續(xù)工作,維持朋友和家庭關(guān)系。”
接近說話的速度
進行手術(shù)的外科醫(yī)生杰米·亨德森 (Jaimie Henderson) 醫(yī)學博士說,貝內(nèi)特的速度開始接近英語使用者自然對話的每分鐘大約 160 個單詞的速度。
亨德森說:“我們已經(jīng)證明,你可以通過記錄大腦表面一個非常小的區(qū)域的活動來解碼想要的語音。”
神經(jīng)外科系的 John、Jean Blume-Robert 和 Ruth Halperin 教授 Henderson 是一篇描述該結(jié)果的論文的共同高級作者,該論文于 8 月 23 日發(fā)表在《自然》雜志上。
他的共同資深作者、電氣工程和生物工程教授 Krishna Shenoy 博士在研究發(fā)表前去世。
弗蘭克·威利特 (Frank Willett) 博士是霍華德休斯醫(yī)學研究所的一名科學家,隸屬于亨德森和謝諾伊于 2009 年共同創(chuàng)立的神經(jīng)修復(fù)轉(zhuǎn)化實驗室,他與研究生艾琳·昆茲 (Erin Kunz) 和范超飛 (Chaofei Fan) 共同擔任該研究的主要作者。
2021 年,Henderson、Shenoy 和 Willett 是《自然》雜志上發(fā)表的一項研究的共同作者,該研究描述了他們成功地使用 iBCI 將癱瘓者想象的筆跡轉(zhuǎn)換為屏幕上的文本,達到了每分鐘 90 個字符或 18 個單詞的速度—迄今為止 iBCI 相關(guān)方法的世界紀錄。
2021年,貝內(nèi)特了解了亨德森和謝諾伊的工作。她聯(lián)系了亨德森并自愿參加臨床試驗。
怎么運行的
亨德森植入貝內(nèi)特大腦皮層(大腦最外層)的傳感器是微小硅電極的方形陣列。每個陣列包含 64 個電極,排列成 8×8 網(wǎng)格,彼此間隔的距離約為信用卡厚度的一半。電極穿透大腦皮層的深度大致等于兩個堆疊的四分之一的深度。
植入的陣列連接到細金線上,這些細金線通過用螺釘固定在頭骨上的基座引出,然后通過電纜連接到計算機。
人工智能算法接收并解碼貝內(nèi)特大腦發(fā)出的電子信息,最終教會自己區(qū)分與她試圖表達構(gòu)成英語口語的 39 個音素中的每一個相關(guān)的不同大腦活動。
它將對貝內(nèi)特嘗試的音素序列的最佳猜測輸入到所謂的語言模型中,該模型本質(zhì)上是一個復(fù)雜的自動更正系統(tǒng),它將音素流轉(zhuǎn)換為它們所代表的單詞序列。
“這個系統(tǒng)經(jīng)過訓練,知道哪些單詞應(yīng)該出現(xiàn)在其他單詞之前,以及哪些音素構(gòu)成哪些單詞,”威利特解釋道。“如果某些音素被錯誤地解釋,仍然可以進行很好的猜測。”
熟能生巧
為了教會算法識別哪些大腦活動模式與哪些音素相關(guān),貝內(nèi)特進行了大約 25 次訓練,每次持續(xù)約四個小時,在此期間,她嘗試重復(fù)從由對話樣本組成的大型數(shù)據(jù)集中隨機選擇的句子在打電話的人們中間。
舉個例子:“過去五年才這樣。” 另一個:“我就在中間離開了。”
當她嘗試背誦每個句子時,貝內(nèi)特的大腦活動會被解碼器翻譯成音素流,然后由自動更正系統(tǒng)組裝成單詞,并顯示在屏幕上原始內(nèi)容下方。然后屏幕上就會出現(xiàn)新的句子。
Bennett 在每次訓練中重復(fù) 260 到 480 個句子。隨著貝內(nèi)特嘗試演講時 大腦活動的熟悉,整個系統(tǒng)不斷改進。
iCBI 的預(yù)期語音翻譯能力在培訓課程中使用的不同句子上進行了測試。當句子和單詞組裝語言模型僅限于 50 個單詞的詞匯時(在這種情況下,所使用的句子是從特殊列表中抽取的),翻譯系統(tǒng)的錯誤率為 9.1%。
當詞匯量擴展到 125,000 個單詞(大到足以組成幾乎任何你想說的內(nèi)容)時,錯誤率上升到 23.8%——遠非完美,但與之前的技術(shù)水平相比已經(jīng)邁出了步。
“這是一個科學的概念證明,而不是人們可以在日常生活中使用的實際設(shè)備,”威利特說。“但這對于恢復(fù)無法說話的癱瘓患者的快速溝通來說是一個巨大的進步。”
貝內(nèi)特寫道:“想象一下,當非語言的人能夠用語言表達自己的想法時,購物、赴約、點餐、去銀行、打電話、表達愛意或欣賞甚至爭論等日?;顒訉卸嗝床煌?rdquo;即時的。”
本研究中描述的設(shè)備僅授權(quán)用于研究用途,不可商用。這項注冊臨床試驗是在 BrainGate 的支持下進行的,BrainGate 是一個多機構(gòu)聯(lián)盟,致力于推進腦機接口在假肢應(yīng)用中的使用,由研究合著者、神經(jīng)學家 Leigh Hochberg 博士領(lǐng)導麻省總醫(yī)院、布朗大學和弗吉尼亞州普羅維登斯(羅德島)醫(yī)療保健系統(tǒng)的研究員。
標簽:
免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!