MIT CSAIL使用無監(jiān)督學(xué)習(xí)進(jìn)行語言翻譯
機(jī)器學(xué)習(xí)為比以往更快,更準(zhǔn)確的語言翻譯鋪平了道路,但它不是巴貝爾魚。來自谷歌,亞馬遜,微軟和其他公司的尖端系統(tǒng)需要人工智能(AI)模型來攝取數(shù)百萬手工翻譯的文檔,用于查找目標(biāo)語言中匹配的單詞和短語。但對(duì)于缺乏大型語料庫的數(shù)千種方言而言,這不是一種可行的方法。
這就是為什么麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CASAIL)的研究人員采用了不同的方法。在本周將在自然語言處理經(jīng)驗(yàn)方法會(huì)議上發(fā)表的一篇論文中,他們描述了一個(gè)無監(jiān)督的模型 - 即從未經(jīng)明確標(biāo)記或分類的測試數(shù)據(jù)中學(xué)習(xí)的模型 - 可以在兩種語言的文本,兩者之間沒有直接的翻譯數(shù)據(jù)。
它跟隨Facebook進(jìn)軍無人監(jiān)督的機(jī)器學(xué)習(xí)翻譯。8月,F(xiàn)acebook AI Research(FAIR) - 與該公司的應(yīng)用機(jī)器學(xué)習(xí)部門合作 - 設(shè)計(jì)了一個(gè)模型,該模型使用逐字翻譯,語言模型和反向翻譯的組合,以超越語言配對(duì)系統(tǒng)。
“[我們的]模型將兩種語言中的單詞視為一組向量,并通過基本保留關(guān)系將[這些向量]從一組映射到另一組,”CSAIL研究員和該論文的共同作者Tommi Jaakkola告訴麻省理工學(xué)院新聞?!斑@種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內(nèi)容?!?/p>
該方法的核心是所謂的Gromov-Wasserstein距離,這是一種統(tǒng)計(jì)度量,記錄一個(gè)計(jì)算空間中點(diǎn)之間的距離,并將它們與另一個(gè)計(jì)算空間中類似的距離點(diǎn)進(jìn)行匹配。在這里,它適用于嵌入 - 被稱為向量的單詞的數(shù)學(xué)表示 - 具有相似意義的單詞聚集在一起。最后,該模型能夠?qū)⑶度胫械南蛄颗c相對(duì)距離最密切相關(guān),這些符號(hào)可能是直接翻譯。
研究人員的系統(tǒng) - 在FASTTEXT上訓(xùn)練和測試,F(xiàn)ASTTEXT是110種語言對(duì)的公開詞匯嵌入的數(shù)據(jù)集 - 指定了一種語言的單詞嵌入中類似的距離向量與第二語言中的類似聚類相對(duì)應(yīng)的概率。它量化了具有數(shù)值的語言之間的相似性,在兩次嵌入中計(jì)算向量之間的距離。
向量越近,得分越接近零。法語和西班牙語等浪漫語言傾向于1,而中文與其他主要語言配對(duì)時(shí)則介于6到9之間。

研究人員承認(rèn),對(duì)齊詞嵌入并不是一種全新的方法,但系統(tǒng)對(duì)關(guān)系距離的使用使得它比以前的實(shí)現(xiàn)更有效,需要一小部分計(jì)算能力,很少或沒有調(diào)整。
“該模型不知道[一年中有幾個(gè)月]”,例如,CSAIL博士生和該論文的第一作者David Alvarez-Melis說?!八恢烙幸唤M12個(gè)點(diǎn)與另一種語言中的12個(gè)點(diǎn)對(duì)齊,但它們與其他單詞不同,所以它們可能很好地結(jié)合在一起。通過找到每個(gè)單詞的這些對(duì)應(yīng)關(guān)系,它然后同時(shí)對(duì)齊整個(gè)空間?!?/p>
這不是機(jī)器翻譯領(lǐng)域最近唯一的創(chuàng)新。10月,百度開發(fā)了一個(gè)能夠同時(shí)翻譯兩種語言的AI系統(tǒng)。6月份,谷歌 在谷歌翻譯iOS和Android上提供了59種語言的離線神經(jīng)機(jī)器翻譯。