當(dāng)人類看一個場景時,他們會看到物體以及它們之間的關(guān)系。在您的辦公桌上,可能有一臺筆記本電腦放在電話的左側(cè),在電腦顯示器的前面。
許多深度學(xué)習(xí)模型很難以這種方式看待世界,因為它們不了解單個對象之間的糾纏關(guān)系。如果不了解這些關(guān)系,設(shè)計用來幫助廚房里的人的機(jī)器人將難以遵循“拿起爐子左側(cè)的抹刀并將其放在砧板上”這樣的命令。
為了解決這個問題,麻省理工學(xué)院的研究人員開發(fā)了一種模型,可以理解場景中對象之間的潛在關(guān)系。他們的模型一次表示一種個體關(guān)系,然后結(jié)合這些表示來描述整個場景。這使模型能夠從文本描述中生成更準(zhǔn)確的圖像,即使場景包含多個以不同關(guān)系排列的對象也是如此。
這項工作可應(yīng)用于工業(yè)機(jī)器人必須執(zhí)行復(fù)雜的多步驟操作任務(wù)的情況,例如在倉庫中堆放物品或組裝電器。它還使該領(lǐng)域更接近于使機(jī)器能夠像人類一樣從環(huán)境中學(xué)習(xí)并與之交互。
“當(dāng)我看著一張桌子時,我不能說 XYZ 位置有一個物體。我們的頭腦不是那樣工作的。在我們的腦海中,當(dāng)我們理解一個場景時,我們是基于對象之間的關(guān)系來真正理解它的。我們認(rèn)為,通過構(gòu)建一個可以理解物體之間關(guān)系的系統(tǒng),我們可以使用該系統(tǒng)更有效地操縱和改變我們的環(huán)境,”計算機(jī)科學(xué)與人工智能實驗室 (CSAIL) 博士生和合作伙伴 Yilun Du 說。 - 論文的主要作者。
杜與共同主要作者李雙(CSAIL 博士生)和伊利諾伊大學(xué)厄巴納-香檳分校的研究生劉楠共同撰寫了這篇論文;以及 Joshua B. Tenenbaum,腦與認(rèn)知科學(xué)系的 Paul E. Newton 認(rèn)知科學(xué)與計算職業(yè)發(fā)展教授,CSAIL 成員;資深作者 Antonio Torralba,Delta Electronics 電氣工程和計算機(jī)科學(xué)教授,CSAIL 成員。該研究將在 12 月的神經(jīng)信息處理系統(tǒng)會議上發(fā)表。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!