亞馬遜、微軟、IBM雙定制神經(jīng)機(jī)器翻譯
自2018年7月谷歌公開發(fā)布定制神經(jīng)機(jī)器翻譯(NMT)和AutoML翻譯以來,幾個(gè)月后,其他科技巨頭都在年底前推動(dòng)他們的進(jìn)展。
雖然亞馬遜在其大型AWS Re:Invent 2018大會(huì)期間沒有發(fā)布任何關(guān)于亞馬遜翻譯的重要信息,但AWS博客確實(shí)在2018年11月27日發(fā)布了關(guān)于自定義術(shù)語推出的信息。顧名思義,自定義術(shù)語允許客戶使用它們。公司和亞馬遜NMT引擎特定領(lǐng)域詞匯表。
根據(jù)公告,在使用自定義術(shù)語功能時(shí),亞馬遜翻譯將掃描客戶端的術(shù)語文件,然后提供翻譯請求的最終輸出。源文本中術(shù)語條目之間的任何精確匹配都將被用戶建議的術(shù)語翻譯所替換。
-下載Slator 2019神經(jīng)機(jī)器翻譯報(bào)告,了解神經(jīng)機(jī)器翻譯最新技術(shù)及其部署的最新見解-
斯萊特2019年神經(jīng)機(jī)器翻譯報(bào)告:部署NMT投入運(yùn)營
斯萊特報(bào)告
32頁,NMT最新技術(shù),5個(gè)案例分析,30條評(píng)論,NMT每日運(yùn)營。
現(xiàn)在購買85美元
公告還澄清說,這個(gè)功能幾乎是一個(gè)查找和替換功能:“在這個(gè)時(shí)候,自定義項(xiàng)功能是一個(gè)覆蓋機(jī)制。它不會(huì)根據(jù)您組織的術(shù)語來訓(xùn)練自定義模型。
與此同時(shí),微軟于2018年12月5日宣布,微軟定制翻譯器已作為“通用版”發(fā)布。微軟自定義翻譯器允許云服務(wù)用戶使用自己的數(shù)據(jù)進(jìn)行訓(xùn)練。公司基于股票神經(jīng)機(jī)器翻譯(NMT)引擎,創(chuàng)建適應(yīng)域名的定制引擎。
自定義翻譯器于2018年5月在微軟Build 2018活動(dòng)期間首次公布。然而,最初的版本只是一個(gè)私人測試版,或者微軟所說的“預(yù)覽版”。
微軟定制翻譯的定價(jià)遵循其在NMT的分層策略。Custom Translator每月免費(fèi)提供前200萬字的“標(biāo)準(zhǔn)翻譯和定制訓(xùn)練的任意組合”。此外,定價(jià)遵循現(xiàn)收現(xiàn)付模式,標(biāo)準(zhǔn)翻譯的批量折扣為每百萬字符10美元,定制翻譯的批量折扣為每百萬字符40美元。
培訓(xùn)的來源按照每百萬美元10美元和培訓(xùn)數(shù)據(jù)的目標(biāo)特征分別定價(jià),每個(gè)培訓(xùn)課程的上限為300美元。同時(shí),每個(gè)地區(qū)每個(gè)月都會(huì)托管定制的翻譯模型。費(fèi)用它是十美元。Microsoft Translator目前支持60多種語言,其中41種被標(biāo)記為NMT支持。
自定義翻譯是AutoML翻譯的直接競爭對(duì)手。相比之下,谷歌的云翻譯費(fèi)用每百萬個(gè)字符20美元,每月最多10億個(gè)字符,而AutoML翻譯在前兩個(gè)小時(shí)后每小時(shí)訓(xùn)練一次。費(fèi)用它是76美元。此外,AutoML翻譯的“預(yù)測”功能在前50萬個(gè)字符之后每百萬個(gè)字符收費(fèi)80美元。“此外,AutoML Translate雙向支持50種語言對(duì)。
自定義翻譯和自動(dòng)翻譯的一個(gè)區(qū)別似乎是訓(xùn)練數(shù)據(jù)。AutoML翻譯需要嚴(yán)格的并行段,而定制翻譯器可以使用不并行的雙語訓(xùn)練數(shù)據(jù)和單語數(shù)據(jù)來補(bǔ)充并行訓(xùn)練數(shù)據(jù)。允許用戶上傳單語數(shù)據(jù)可能意味著微軟的解決方案對(duì)許多自己無法訪問大量并行/雙語數(shù)據(jù)的翻譯終端買家特別有吸引力。
雖然IBM最近在神經(jīng)機(jī)器翻譯方面保持相對(duì)低調(diào),但這公司我有自己的沃森語言翻譯NMT產(chǎn)品。12月6日,IBM宣布Watson現(xiàn)在保留了源翻譯和目標(biāo)翻譯之間的文檔格式,這應(yīng)該有助于。公司在行動(dòng)中部署NMT。
Ubiqus首席執(zhí)行官文森特·阮(Vincent Nguyen)在2018年蘇黎世SlatorCon演講組中提出了在機(jī)器翻譯輸出中保留格式的問題。
“作為一名LSP,你將關(guān)注細(xì)節(jié),”Nguyen說?!袄纾總€(gè)人都在文檔中使用標(biāo)簽。標(biāo)記以粗體使用,僅用于文檔中的斜體。誰將不得不與標(biāo)簽打交道?”翻譯人員不想重新插入所有標(biāo)簽,但它不會(huì)出現(xiàn)在機(jī)器翻譯的輸出中,”他說,并補(bǔ)充說,研究人員只關(guān)注純文本輸出在生產(chǎn)領(lǐng)域,則完全不同。我們真的必須適應(yīng)生產(chǎn)環(huán)境和工作流程,”Ubiqus首席執(zhí)行官總結(jié)道。
IBM的公告列出了從Microsoft Office到Open-Office支持的文件類型,以及包括PDF和HTML在內(nèi)的其他文件類型。該公告還表示支持22種語言。
至于定價(jià),IBM區(qū)分了Lite、標(biāo)準(zhǔn)和定制定價(jià)計(jì)劃。Lite允許用戶每月免費(fèi)翻譯100萬個(gè)字符,而標(biāo)準(zhǔn)計(jì)劃允許用戶每月翻譯25萬個(gè)字符,每千個(gè)字符收費(fèi)超過2美元。費(fèi)用。
這種定價(jià)結(jié)構(gòu)在Twitter上引起了一些關(guān)注。歐盟ADAPT中心的安迪·威(Andy Way)教授對(duì)“奇怪”的配置感到不解:“如果翻譯小于100萬字符,標(biāo)準(zhǔn)計(jì)劃比Lite還貴。為什么不免費(fèi)給你這個(gè),開始收費(fèi)?”