石川市-人類有能力識別他人的情緒,但機(jī)器人卻無法做到這一點(diǎn)。盡管機(jī)器人和虛擬代理完全具備通過語音與人進(jìn)行通信的能力,但它們僅擅長處理邏輯指令,這極大地限制了人機(jī)交互(HRI)。因此,HRI的大量研究都是關(guān)于語音情感識別的。但是首先,我們?nèi)绾蚊枋銮榫w?
幸福,悲傷和憤怒之類的分類情感已為我們所很好地理解,但機(jī)器人很難記錄這些情感。研究人員專注于“維數(shù)情感”,它構(gòu)成了自然語言中的漸進(jìn)式情感過渡。“持續(xù)的多維情感可以幫助機(jī)器人捕捉說話者情感狀態(tài)的時(shí)間動(dòng)態(tài),并相應(yīng)地實(shí)時(shí)調(diào)整其互動(dòng)和內(nèi)容的方式,”科學(xué)技術(shù)高等研究院(JAIST)的Masashi Unoki教授解釋說。關(guān)于語音識別和處理。
研究表明,模擬人耳工作的聽覺感知模型可以生成所謂的“時(shí)間調(diào)制提示”,它可以忠實(shí)地捕捉維度情感的時(shí)間動(dòng)態(tài)。然后可以使用神經(jīng)網(wǎng)絡(luò)從這些線索中提取反映該時(shí)間動(dòng)態(tài)的特征。然而,由于聽覺感知模型的復(fù)雜性和多樣性,特征提取部分變得非常具有挑戰(zhàn)性。
在神經(jīng)網(wǎng)絡(luò)上發(fā)表的一項(xiàng)新研究中,Unoki教授和他的同事,包括來自天津大學(xué)的彭志超(主持研究),來自彭城實(shí)驗(yàn)室的黨建武和來自JAIST的Masato Akagi教授,現(xiàn)在從認(rèn)知神經(jīng)科學(xué)的最新發(fā)現(xiàn)中獲得的靈感表明,我們的大腦通過對頻譜-時(shí)間調(diào)制的組合分析,形成了具有不同頻譜(即頻率)和時(shí)間分辨率的自然聲音的多種表示形式。因此,他們提出了一種新穎的功能,稱為多分辨率調(diào)制濾波耳蝸圖(MMCG),它以不同的分辨率組合了四個(gè)經(jīng)過調(diào)制濾波的耳蝸圖(輸入聲音的時(shí)頻表示),以獲得時(shí)間和上下文調(diào)制提示。為了說明耳蝸圖的多樣性,研究人員設(shè)計(jì)了一種稱為“長短期記憶”(LSTM)的并行神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),該模型對耳蝸圖的多分辨率信號的時(shí)間變化進(jìn)行了建模,并對兩個(gè)耳蝸的兩個(gè)數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。自發(fā)的講話。
標(biāo)簽: 神經(jīng)科學(xué)
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!