麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 和谷歌研究中心的研究人員可能剛剛進(jìn)行了數(shù)字魔法——以擴(kuò)散模型的形式,可以改變圖像中物體的材質(zhì)屬性。
該系統(tǒng)名為 Alchemist,允許用戶改變真實(shí)圖片和 AI 生成圖片的四個(gè)屬性:粗糙度、金屬度、反照率(物體的初始基色)和透明度。作為圖像到圖像的擴(kuò)散模型,可以輸入任何照片,然后在 -1 到 1 的連續(xù)范圍內(nèi)調(diào)整每個(gè)屬性以創(chuàng)建新的視覺(jué)效果。這些照片編輯功能可能會(huì)擴(kuò)展到改進(jìn)視頻游戲中的模型、擴(kuò)展 AI 在視覺(jué)效果方面的能力以及豐富機(jī)器人訓(xùn)練數(shù)據(jù)。
Alchemist 背后的魔力始于一個(gè)去噪擴(kuò)散模型:在實(shí)踐中,研究人員使用了 Stable Diffusion 1.5,這是一個(gè)文本到圖像的模型,因其逼真的效果和編輯功能而備受贊譽(yù)。之前的研究基于這個(gè)流行的模型,使用戶能夠進(jìn)行更高級(jí)別的更改,例如交換對(duì)象或改變圖像的深度。相比之下,CSAIL 和 Google Research 的方法應(yīng)用此模型來(lái)關(guān)注低級(jí)屬性,通過(guò)獨(dú)特的基于滑塊的界面修改物體材料屬性的更精細(xì)的細(xì)節(jié),其性能優(yōu)于其他同類產(chǎn)品。
雖然之前的擴(kuò)散系統(tǒng)可以為圖像變出一只兔子,但 Alchemist 可以將同一只動(dòng)物變成半透明的。該系統(tǒng)還可以使小黃鴨呈現(xiàn)出金屬質(zhì)感,去除金魚(yú)的金色,并使舊鞋發(fā)亮。Photoshop 等程序具有類似的功能,但此模型可以更直接地更改材料屬性。例如,在廣泛使用的應(yīng)用程序中,修改照片的金屬外觀需要幾個(gè)步驟。
“當(dāng)你看到自己制作的圖像時(shí),結(jié)果往往與你想象的并不完全一致,”麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)博士生、CSAIL 附屬機(jī)構(gòu)、一篇描述這項(xiàng)工作的新論文的主要作者 Prafull Sharma說(shuō)道。“你想在編輯圖片時(shí)控制它,但圖像編輯器中現(xiàn)有的控件無(wú)法更改材質(zhì)。借助 Alchemist,我們利用文本到圖像模型輸出的照片級(jí)真實(shí)感,并梳理出一個(gè)滑塊控件,讓我們可以在提供初始圖片后修改特定屬性。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!