2018年5月17日,在SlatorCon活動(dòng)期間,神經(jīng)機(jī)器翻譯(NMT)通常占據(jù)顯著位置,SlatorCon London是Nobu例外。在活動(dòng)大會(huì)上,活動(dòng)合作伙伴Systran的全球首席技術(shù)官Jean Senellart討論了NMT的一個(gè)方面,他也發(fā)現(xiàn)了令人興奮和可怕的一面:開(kāi)源競(jìng)爭(zhēng)。
Senellart簡(jiǎn)要介紹了已有50年歷史的機(jī)器翻譯。公司希斯特蘭,這個(gè)公司經(jīng)驗(yàn)豐富并直接參與所有機(jī)器翻譯技術(shù)的生產(chǎn)級(jí)部署-從常規(guī)機(jī)器翻譯到統(tǒng)計(jì)機(jī)器翻譯再到NMT。
他還談到了開(kāi)放NMT的成功,開(kāi)源NMT框架Systran和哈佛大學(xué)共同努力向觀眾介紹法國(guó)。公司Ubiqus加入他們合資公司的最新情況。
自2017年初發(fā)布以來(lái),OpenNMT已經(jīng)發(fā)展成為第二大開(kāi)源NMT項(xiàng)目,包括18個(gè)主要版本,3300個(gè)星號(hào)和1020個(gè)Github分支,6次完整的代碼重構(gòu)。
這就是Senellart談到他演講核心的地方:“我們?cè)谡務(wù)?000行代碼。我們同時(shí)討論的有大有小。”
當(dāng)塞尼拉特說(shuō)他在談?wù)搨ゴ蟮氖虑闀r(shí),他通常指的是NMT如何徹底改變了珠穆朗瑪峰的歷史。
在演講中,Senellart展示了基于規(guī)則的MT在1968年投入生產(chǎn),并一直保持主導(dǎo)地位,直到2007年,統(tǒng)計(jì)MT足以用于生產(chǎn)。然后到了2016年,基本上兩年前的技術(shù)很快就會(huì)接手。
“SMT是IBM在20世紀(jì)90年代創(chuàng)立的。進(jìn)入工業(yè)化生產(chǎn)用了15年,”塞內(nèi)拉特說(shuō)?!癗MT于2014年由學(xué)術(shù)界推出,用了兩年時(shí)間才被業(yè)界接受?!?/p>
除了開(kāi)發(fā)速度和行業(yè)采用的巨大差異,Senellart還注意到了每種技術(shù)在被視為其主要資產(chǎn)方面的差異。在基于規(guī)則的機(jī)器翻譯中,資產(chǎn)是代碼和積累的語(yǔ)言資源。對(duì)于統(tǒng)計(jì)噸來(lái)說(shuō),資產(chǎn)就是數(shù)據(jù)。
塞內(nèi)拉特說(shuō):“數(shù)據(jù)越多,數(shù)據(jù)越好,等式就越簡(jiǎn)單?!?#34;將數(shù)據(jù)翻倍,你會(huì)得到一個(gè)藍(lán)色的觀點(diǎn)."他還指出,將機(jī)器翻譯統(tǒng)計(jì)系統(tǒng)化的第一次嘗試始于統(tǒng)計(jì)機(jī)器翻譯統(tǒng)治時(shí)期。
最后,NMT沖進(jìn)現(xiàn)場(chǎng),伴隨著另一項(xiàng)資產(chǎn)轉(zhuǎn)移:“我們不再談?wù)摯髷?shù)據(jù);我們談?wù)摰氖呛玫臄?shù)據(jù),”塞內(nèi)拉特說(shuō)。
除了數(shù)據(jù)資產(chǎn)思維方式的改變,Senellart強(qiáng)調(diào)NMT的開(kāi)源方面也很重要?!叭绻憧纯催^(guò)去兩年,每個(gè)月都會(huì)有兩個(gè)關(guān)于NMT的新開(kāi)源項(xiàng)目,所以這是不可思議的,”他說(shuō)。
雖然這看起來(lái)令人鼓舞,但塞內(nèi)拉特指出,其中許多人正在“死亡”,即新項(xiàng)目沒(méi)有得到維持。甚至谷歌會(huì)啟動(dòng)一個(gè)新的開(kāi)源項(xiàng)目,只是放棄維護(hù)而轉(zhuǎn)向新技術(shù)或開(kāi)發(fā),這反映了NMT技術(shù)發(fā)展的速度。
Senellart還提醒人們,盡管大多數(shù)開(kāi)源項(xiàng)目來(lái)自學(xué)術(shù)界,但最活躍的項(xiàng)目來(lái)自行業(yè)參與者。例如,谷歌處理最大的開(kāi)源項(xiàng)目和最多的活動(dòng),其次是Systran自己的開(kāi)放NMT。名單上的第三個(gè)是臉書(shū)。
“如果你看看過(guò)去兩年,每個(gè)月都會(huì)有兩個(gè)關(guān)于NMT的新開(kāi)源項(xiàng)目,這太不可思議了。”- Sigstran全球首席技術(shù)官Jean Senellart
Senellart指出,這很“奇怪”,因?yàn)樵诖酥?,谷歌、亞馬遜和Salesforce等大型技術(shù)。公司沒(méi)有積極的開(kāi)源文化。他接著說(shuō),技術(shù)的發(fā)展通常是一篇論文發(fā)表以后,這通常是在Arxiv.org的研究數(shù)據(jù)庫(kù)中找到的。
“不開(kāi)放的玩家很少,那些沒(méi)有開(kāi)源項(xiàng)目的玩家,”Senellart說(shuō),他們中的一些人認(rèn)為deepL、全知和微軟都是。然而,他們確實(shí)公布了他們的“數(shù)字”,就像成績(jī)單一樣,他們公布了使用BLEU等測(cè)量結(jié)果的NMT發(fā)動(dòng)機(jī)的性能。
所以這就是開(kāi)源的好處之一:即使是競(jìng)爭(zhēng)對(duì)手之間也有合作。
根據(jù)Senellart的說(shuō)法,2017年有250種關(guān)于NMT的出版物?!笆澜缟蠜](méi)有人。公司你可以復(fù)制250篇論文,只是為了檢查它們是對(duì)還是錯(cuò),這就是為什么今天開(kāi)源是必要的原因之一。
事實(shí)上,Senellart指出,NMT技術(shù)發(fā)展如此之快,以至于在14個(gè)月內(nèi),所使用的技術(shù)發(fā)生了三次主要的范式轉(zhuǎn)變。第一批研究人員使用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN),然后他們蜂擁至臉書(shū)領(lǐng)導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)(CNN),最后是谷歌的自我注意力轉(zhuǎn)換器模型。
Senellart在技術(shù)發(fā)展和人類如何處理語(yǔ)言和翻譯之間畫(huà)了一條有趣的平行線。RNN按順序處理翻譯,每個(gè)單詞都包含單詞。CNN更一般地處理單詞序列。最后,基于注意力的方法字面上更關(guān)注文本的某些部分,這可能會(huì)對(duì)文本的理解和翻譯產(chǎn)生很大的影響。
“世界上沒(méi)有人。公司你可以復(fù)制250篇論文,只是為了檢查它們是對(duì)還是錯(cuò),這是今天開(kāi)源的必需品之一。"
當(dāng)然,隨著好事的到來(lái),壞事是開(kāi)源競(jìng)爭(zhēng)加快了開(kāi)發(fā)速度,這也意味著積極的參與者必須“為生存而戰(zhàn)”,Senellart說(shuō)。
“開(kāi)源項(xiàng)目非常脆弱,”他解釋道。Systran必須支持開(kāi)放NMT的用戶和社區(qū),共享數(shù)據(jù),甚至失敗的實(shí)驗(yàn),修復(fù)問(wèn)題,使一切穩(wěn)定和兼容,等等。
“我記得一年前,我接到一個(gè)來(lái)自Booking.com的電話,他使用了開(kāi)放的NMT,”Senellart告訴觀眾?!八麄儎倓倖?wèn)我是否會(huì)在一年內(nèi)打開(kāi)NMT,因?yàn)槲覀儸F(xiàn)在開(kāi)始生產(chǎn)。你能保證一年之內(nèi)你還在嗎?”
編譯:語(yǔ)言學(xué)家上海翻譯公司