久久九九久久九九这里只有精品首页,亚洲人成人77777网站,亚洲精品成人无码影院

導(dǎo)讀研究人員開(kāi)發(fā)了一種人工智能模型，以幫助計(jì)算機(jī)更有效地使用更廣泛的語(yǔ)言。非洲語(yǔ)言很少受到計(jì)算機(jī)科學(xué)家的關(guān)注，因此非洲的大片地區(qū)幾乎沒(méi)

研究人員開(kāi)發(fā)了一種人工智能模型，以幫助計(jì)算機(jī)更有效地使用更廣泛的語(yǔ)言。

非洲語(yǔ)言很少受到計(jì)算機(jī)科學(xué)家的關(guān)注，因此非洲的大片地區(qū)幾乎沒(méi)有自然語(yǔ)言處理能力?；F盧大學(xué) David R. Cheriton 計(jì)算機(jī)科學(xué)學(xué)院的研究人員開(kāi)發(fā)的新語(yǔ)言模型開(kāi)始填補(bǔ)這一空白，使計(jì)算機(jī)能夠分析非洲語(yǔ)言文本以執(zhí)行許多有用的任務(wù)。

研究人員稱之為 AfriBERTa 的新神經(jīng)網(wǎng)絡(luò)模型使用深度學(xué)習(xí)技術(shù)為低資源語(yǔ)言實(shí)現(xiàn)了最先進(jìn)的結(jié)果。

該神經(jīng)語(yǔ)言模型專門用于 11 種非洲語(yǔ)言，例如阿姆哈拉語(yǔ)、豪薩語(yǔ)和斯瓦希里語(yǔ)，這些語(yǔ)言的總?cè)藬?shù)超過(guò) 4 億。盡管僅從 1 GB 的文本中學(xué)習(xí)，但它實(shí)現(xiàn)了與現(xiàn)有最??佳模型相媲美的輸出質(zhì)量，而其他模型需要數(shù)千倍的數(shù)據(jù)。

滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)碩士生 Kelechi Ogueji 說(shuō)：“預(yù)訓(xùn)練的語(yǔ)言模型已經(jīng)改變了計(jì)算機(jī)處理和分析從機(jī)器翻譯到問(wèn)答等任務(wù)的文本數(shù)據(jù)的方式。”“可悲的是，非洲語(yǔ)言幾乎沒(méi)有受到研究界的關(guān)注。”

“其中一個(gè)挑戰(zhàn)是神經(jīng)網(wǎng)絡(luò)的構(gòu)建需要大量的文本和計(jì)算機(jī)。與擁有大量可用文本的英語(yǔ)不同，全世界使用的大約 7,000 種語(yǔ)言中的大多數(shù)都可以歸為資源匱乏的特征，因?yàn)槿狈捎玫臄?shù)據(jù)來(lái)饋送數(shù)據(jù)饑渴的神經(jīng)網(wǎng)絡(luò)。”

大多數(shù)這些模型使用稱為預(yù)訓(xùn)練的技術(shù)工作。為了實(shí)現(xiàn)這一點(diǎn)，研究人員向模型展示了一些文字被掩蓋或掩蓋的文本。然后模型必須猜測(cè)被屏蔽的詞。通過(guò)重復(fù)這個(gè)過(guò)程數(shù)十億次，該模型學(xué)習(xí)了單詞之間的統(tǒng)計(jì)關(guān)聯(lián)，這模仿了人類的語(yǔ)言知識(shí)。

“能夠?qū)δ承┫掠稳蝿?wù)同樣準(zhǔn)確的模型進(jìn)行預(yù)訓(xùn)練，但使用極少的數(shù)據(jù)有很多優(yōu)勢(shì)，”計(jì)算機(jī)科學(xué) Cheriton 主席兼 Ogueji 的顧問(wèn) Jimmy Lin 說(shuō)。“需要更少的數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)言模型意味著需要更少的計(jì)算，從而降低與運(yùn)營(yíng)海量數(shù)據(jù)中心相關(guān)的碳排放。較小的數(shù)據(jù)集也使數(shù)據(jù)管理更實(shí)用，這是減少模型中存在的偏差的一種方法。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

新的人工智能將自然語(yǔ)言處理的力量帶到非洲語(yǔ)言中

猜你喜歡

最新文章