孩子們通過觀察周圍的環(huán)境、傾聽周圍的人以及他們所見所聞之間的聯(lián)系來學(xué)習(xí)語言。此外,它有助于孩子建立他們語言的語序,如主語和動詞在句子中的位置。
在計算中,學(xué)習(xí)語言是句法和語義分析器的任務(wù)。這些系統(tǒng)是在人類注釋句子上訓(xùn)練的,這些句子描述了單詞背后的結(jié)構(gòu)和含義。解析器在網(wǎng)絡(luò)搜索、自然語言數(shù)據(jù)庫查詢和語音識別系統(tǒng)如Alexa和Siri中變得越來越重要。很快,它們也可能被用于家庭機器人。但是對于不太常見的語言來說,收集注釋數(shù)據(jù)既耗時又困難。另外,人類并不總是認(rèn)同注釋,注釋本身也未必能準(zhǔn)確反映人的自然說話方式。
在本周的自然語言處理經(jīng)驗方法會議上發(fā)表的一篇論文中,麻省理工學(xué)院的研究人員描述了一種解析器,它可以通過觀察和學(xué)習(xí)更緊密地模仿兒童的語言習(xí)得過程,這可以大大擴展解析器的能力。為了學(xué)習(xí)語言的結(jié)構(gòu),解析器在沒有其他信息的情況下觀察標(biāo)題視頻,并將單詞與記錄的對象和動作相關(guān)聯(lián)。給定一個新句子,解析器可以使用它已經(jīng)學(xué)會的語言結(jié)構(gòu)來準(zhǔn)確預(yù)測句子的意思,而無需視頻。
這種“弱監(jiān)督”方法——這意味著它需要有限的訓(xùn)練數(shù)據(jù)——模仿了孩子們?nèi)绾斡^察周圍的世界,在沒有任何人提供直接背景的情況下學(xué)習(xí)語言。據(jù)研究人員介紹,這種方法可以擴展數(shù)據(jù)類型,減少訓(xùn)練解析器的工作量。例如,一些直接注釋的句子可以與許多更容易獲得的字幕視頻相結(jié)合,以提高性能。
將來,解析器可以用來改善人和機器人之間的自然交互。例如,配備解析器的機器人可以不斷觀察其環(huán)境,以增強其對口語命令的理解,包括當(dāng)口語句子不完全符合語法或不清晰時?!叭藗冇闷?、連續(xù)的思想和令人困惑的語言相互交談。你希望家里有一個能適應(yīng)他們特定說話方式的機器人.并且仍然能夠發(fā)現(xiàn)它們的含義?!弊髡撸篈ndre Babu,麻省理工學(xué)院麥戈文研究所計算機科學(xué)與人工智能實驗室(CSAIL)和腦、腦與機械中心(CBMM)研究員。
解析器還可以幫助研究人員更好地理解兒童是如何學(xué)習(xí)語言的。合著者說:“孩子可以通過不同的方式獲得多余的補充信息,包括聽父母和兄弟姐妹談?wù)撌澜?,以及觸覺信息和視覺信息,[幫助他或她]了解世界。首席研究科學(xué)家、CSAIL信息實驗室集團負(fù)責(zé)人鮑里斯卡茨。“這是一個驚人的問題,要處理所有這些同時發(fā)生的感官輸入。這項工作是理解這種學(xué)習(xí)在世界上是如何發(fā)生的更大一部分?!北疚墓餐髡邽椋旱谝蛔髡逤andace Ross,電氣工程與計算機科學(xué)系和CSAIL研究生,CBMM研究員;Yevgeni Berzak' 17博士,腦與認(rèn)知科學(xué)系計算心理語言學(xué)組博士后;以及CSAIL研究生Battushig Myanganbayar。
視覺學(xué)習(xí)者
在他們的工作中,研究人員將語義分析器與計算機視覺組件相結(jié)合,在視頻中訓(xùn)練對象、人和活動。語義分析器通常是在用代碼注釋的句子上訓(xùn)練的,代碼將每個單詞的含義與單詞之間的關(guān)系聯(lián)系起來。有些人受過靜態(tài)圖像或計算機模擬方面的訓(xùn)練。羅斯說,新的解析器是第一個使用視頻進(jìn)行訓(xùn)練的解析器。在某種程度上,視頻在減少歧義方面更有用。如果解析器不確定句子中的動作或?qū)ο螅梢詤⒖家曨l來澄清事情。羅斯說:“有時間成分——物體之間以及物體與人之間的相互作用——也有靜態(tài)圖像或高級屬性,這些都不能只用語言來看。
研究人員匯編了一個由大約400個視頻組成的數(shù)據(jù)集,這些視頻描述了人們的許多行為,包括拿起或放下物體,然后走向它們。眾包平臺機器人土耳其人的參與者隨后為這些視頻提供了1200個字幕。他們保留了840個視頻標(biāo)題的例子進(jìn)行訓(xùn)練和調(diào)整,并用360個進(jìn)行測試。Barbu說,使用基于視覺的解析的一個優(yōu)勢是“你不需要幾乎相同數(shù)量的數(shù)據(jù)——盡管你有(數(shù)據(jù)),但你可以將其擴展到一個巨大的數(shù)據(jù)集”。
在訓(xùn)練中,研究人員為解析器提供了確定句子是否準(zhǔn)確描述給定視頻的目標(biāo)。它們?yōu)榻馕銎魈峁┮曨l和匹配標(biāo)題。解析器提取標(biāo)題的可能含義作為邏輯數(shù)學(xué)表達(dá)式。比如“女人在摘蘋果”這句話可以表達(dá)為:xy .這些表情和視頻被輸入到由巴布和其他研究人員開發(fā)的名為“情感跟蹤器”的計算機視覺算法中。該算法查看每個視頻幀,以跟蹤對象和人如何隨時間變化,從而確定動作是否如所描述的那樣播放。這樣就決定了視頻的意思是否正確。
關(guān)系
物體、人和動作的最接近匹配表示的表達(dá)成為標(biāo)題最可能的意思。最初,表達(dá)式可以引用視頻中許多不同的對象和動作,但可能含義的集合被用作訓(xùn)練信號,這有助于解析器不斷降低可能性?!巴ㄟ^假設(shè)所有的句子都必須遵循相同的規(guī)則,它們都來自相同的語言,你可以通過查看許多標(biāo)題視頻來進(jìn)一步縮小它們的含義,”Barbu說。
p>簡而言之,解析器通過被動觀察來學(xué)習(xí):為了確定視頻的標(biāo)題是否為真,解析器必然必須識別標(biāo)題的最高概率含義。“判斷視頻句子是否屬于視頻的唯一方法是[經(jīng)過]中間步驟,'句子是什么意思?'否則,你不知道如何連接兩者,“巴布解釋道。“我們不會給系統(tǒng)賦予句子的含義。我們說,'有一個句子和一個視頻。句子必須適用于視頻。找出一些中間表示,使視頻成為現(xiàn)實。'”訓(xùn)練為學(xué)習(xí)單詞產(chǎn)生句法和語義語法。給定一個新句子,解析器不再需要視頻,而是利用其語法和詞匯來確定句子結(jié)構(gòu)和含義。最終,這個過程正在學(xué)習(xí)“好像你還是個孩子”,巴布說。“你看到周圍的世界,聽到人們說話以學(xué)習(xí)意義。有一天,我可以給你一個句子并詢問它意味著什么,即使沒有視覺,你也知道它的含義。”在未來的工作中,研究人員對建模相互作用感興趣,而不僅僅是被動觀察。“兒童在學(xué)習(xí)時會與環(huán)境互動。我們的想法是建立一個也會使用感知來學(xué)習(xí)的模型,”羅斯說。這項工作是支持的,一部分由CBMM,美國國家科學(xué)基金會,福特基金會研究生研究獎學(xué)金,豐田研究所和麻省理工學(xué)院,IBM腦啟發(fā)多媒體理解項目。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!