谷歌,微軟,百度在8月創(chuàng)紀錄地加速NMT研究


2018-10-12 13:56:56

機器翻譯

根據(jù)提交給Arxiv.org的研究論文研究,神經(jīng)機器翻譯(NMT)研究似乎在2018年7月在經(jīng)歷了今年上半年的激增之后略有放緩。然而,到2018年8月,他們獲得了這個蕭條,實際上超過了5月份,成為迄今為止最繁忙的月份。

在Arxiv平臺上發(fā)表的關于提及NMT標題或摘要的研究在上個月達到了創(chuàng)紀錄的57篇論文,與5月份的55相比略有上升。當然,有一點需要注意,一些關于Arxiv的搜索結果是誤報,而另一些則更新了已經(jīng)出現(xiàn)過的論文的重新提交。考慮到這些因素,所有搜索結果中有33個完全是關于NMT的,并且是新提交的。

值得注意的是,過去幾個月提交給Arxiv的許多論文也將在2018年10月31日至11月1日在比利時布魯塞爾舉行第三屆機器翻譯會議(WMT 2018)上發(fā)表。

BLEU再次遭遇火災

雙語評估替代(BLEU)是目前評估NMT輸出的方法,但隨著有多少研究人員提倡更新,更好的標準,這可能很快就會改變。在Slator最近對NMT研究的報道中,作者SamuelL?ubli和著名研究人員Rico Sennrich博士和Martin Volk博士發(fā)現(xiàn),BLEU方法無意中成為了一個更大問題的一部分。

NMT輸出已經(jīng)變得如此流暢,以至于BLEU以及當前的研究社區(qū)標準已不再足夠。他們認為,現(xiàn)在是文件層面而不是句子層面評估的時候了。

這是由Antonio Toral博士,Sheila Castilho博士,Ke Hu博士和Andy Way博士的另一篇論文得出的結論,Toral和Way直接慷慨地提供了Slator。就像L?ubli,Sennrich和Volk的論文一樣,這一點在當前測量輸出流暢性的標準中看到了同樣的缺陷,這需要改變NMT研究的方式。研究界目前的評估標準不再能準確反映NMT的進展。

自從NMT研究在過去幾年開始崛起以來,BLEU對NMT研究局限性一直是一個棘手的問題,Slator在2018年NMT報告中談到的許多專家都在積極倡導,尋找和提出替代方案。

今年8月谷歌,微軟,百度非常活躍

雖然眾所周知,知名人士不時為研究做出貢獻,但去年8月,谷歌,微軟和百度都非?;钴S,至少在提交的新研究論文方面如此。

谷歌在2018年8月提交了六份研究論文,其中大部分旨在深入挖掘如何改進NMT流程或產(chǎn)出。谷歌研究人員推出了SentencePiece,這是一種將NMT的原始句子輸入標記(和去標記)為子詞的工具,這些子詞更易于處理NMT引擎。他們還介紹了他們所謂的SwitchOut,這是一種數(shù)據(jù)增強算法,最終可以在保持質量的同時改善NMT流程。

谷歌研究人員重新審視基于字符的NMT和如何標記的順序由NMT系統(tǒng)產(chǎn)生影響其輸出,以及新的,基于樹的解碼器是增加語法信息,以NMT模型回譯的低資源語言(在研究Facebook也參與其中的論文)。

微軟還提交了四篇論文中更深層次的問題。他們的研究人員使用優(yōu)化器來防止 NMT模型中的微調問題,從而提高處理速度,并研究應用于NMT時強化學習的潛力他們還通過同樣改進雙向翻譯,致力于風格轉移和提高NMT輸出。

與此同時,中國科技巨頭百度研究了NMT組件之一的光束搜索局限性,并在神經(jīng)網(wǎng)絡訓練期間添加了多個參考,以及如何利用這種方法生成偽參考。百度研究人員于2018年8月向Arxiv提交了三篇論文。

谷歌,微軟,百度在8月創(chuàng)紀錄地加速NMT研究

值得注意的是,那個月還有另一家中國巨頭出席了會議:阿里巴巴的研究人員使用了一種名為半自回歸變壓器(SAT)的改進模型,將處理速度提高了近六倍,相同輸出質量提高了約90%。

有趣的是,這些大型科技品牌提交的論文的研究方向反映了去年8月Arxiv大部分論文的研究課題。研究人員似乎熱衷于弄清楚NMT模型的內部工作原理以提高輸出和處理速度,其他一些人則研究了低資源語言,如前所述,評估中需要文檔級環(huán)境。