研究人員開(kāi)發(fā)了一種人工智能模型,以幫助計(jì)算機(jī)更有效地使用更廣泛的語(yǔ)言。
非洲語(yǔ)言很少受到計(jì)算機(jī)科學(xué)家的關(guān)注,因此非洲的大片地區(qū)幾乎沒(méi)有自然語(yǔ)言處理能力?;F盧大學(xué) David R. Cheriton 計(jì)算機(jī)科學(xué)學(xué)院的研究人員開(kāi)發(fā)的新語(yǔ)言模型開(kāi)始填補(bǔ)這一空白,使計(jì)算機(jī)能夠分析非洲語(yǔ)言文本以執(zhí)行許多有用的任務(wù)。
研究人員稱之為 AfriBERTa 的新神經(jīng)網(wǎng)絡(luò)模型使用深度學(xué)習(xí)技術(shù)為低資源語(yǔ)言實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
該神經(jīng)語(yǔ)言模型專門用于 11 種非洲語(yǔ)言,例如阿姆哈拉語(yǔ)、豪薩語(yǔ)和斯瓦希里語(yǔ),這些語(yǔ)言的總?cè)藬?shù)超過(guò) 4 億。盡管僅從 1 GB 的文本中學(xué)習(xí),但它實(shí)現(xiàn)了與現(xiàn)有最??佳模型相媲美的輸出質(zhì)量,而其他模型需要數(shù)千倍的數(shù)據(jù)。
滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)碩士生 Kelechi Ogueji 說(shuō):“預(yù)訓(xùn)練的語(yǔ)言模型已經(jīng)改變了計(jì)算機(jī)處理和分析從機(jī)器翻譯到問(wèn)答等任務(wù)的文本數(shù)據(jù)的方式。”“可悲的是,非洲語(yǔ)言幾乎沒(méi)有受到研究界的關(guān)注。”
“其中一個(gè)挑戰(zhàn)是神經(jīng)網(wǎng)絡(luò)的構(gòu)建需要大量的文本和計(jì)算機(jī)。與擁有大量可用文本的英語(yǔ)不同,全世界使用的大約 7,000 種語(yǔ)言中的大多數(shù)都可以歸為資源匱乏的特征,因?yàn)槿狈捎玫臄?shù)據(jù)來(lái)饋送數(shù)據(jù)饑渴的神經(jīng)網(wǎng)絡(luò)。”
大多數(shù)這些模型使用稱為預(yù)訓(xùn)練的技術(shù)工作。為了實(shí)現(xiàn)這一點(diǎn),研究人員向模型展示了一些文字被掩蓋或掩蓋的文本。然后模型必須猜測(cè)被屏蔽的詞。通過(guò)重復(fù)這個(gè)過(guò)程數(shù)十億次,該模型學(xué)習(xí)了單詞之間的統(tǒng)計(jì)關(guān)聯(lián),這模仿了人類的語(yǔ)言知識(shí)。
“能夠?qū)δ承┫掠稳蝿?wù)同樣準(zhǔn)確的模型進(jìn)行預(yù)訓(xùn)練,但使用極少的數(shù)據(jù)有很多優(yōu)勢(shì),”計(jì)算機(jī)科學(xué) Cheriton 主席兼 Ogueji 的顧問(wèn) Jimmy Lin 說(shuō)。“需要更少的數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)言模型意味著需要更少的計(jì)算,從而降低與運(yùn)營(yíng)海量數(shù)據(jù)中心相關(guān)的碳排放。較小的數(shù)據(jù)集也使數(shù)據(jù)管理更實(shí)用,這是減少模型中存在的偏差的一種方法。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!