日逼无码,亚洲AⅤ无码一区二区三区蓝牛,欧美 第3页,大香蕉淫欲网

好育寶

好育寶

如何通過譯前編輯提高機(jī)器翻譯的輸出質(zhì)量?

admin 108 179

后期編輯不是您可以實施的唯一手動干預(yù)。鎮(zhèn)上還有一個孩子:預(yù)編輯。

什么是預(yù)編輯?

預(yù)編輯過程在通過MT之前修改技術(shù)文檔:改進(jìn)源以提高原始輸出的質(zhì)量。好的前期編輯會減少甚至消除后期編輯的工作量。

與后期編輯一樣,resource在理想情況下是一個專門的編輯器,可以從MT引擎的角度分析文本塊并預(yù)測潛在的輸出錯誤。預(yù)編輯將通過減少句子長度、避免復(fù)雜或模糊的句法結(jié)構(gòu)、確保術(shù)語一致性和使用冠詞來編輯以促進(jìn)機(jī)器翻譯。

編輯器應(yīng)該運(yùn)行自動修訂工具,例如根據(jù)特定于項目的詞匯拼寫檢查源文本,以及部署高級語法檢查工具。此外,他/她可以標(biāo)記源文檔中不需要翻譯的元素。

這些預(yù)編輯技術(shù)對于人工翻譯項目也很有價值。許多開發(fā)大量單語和多語言材料的組織在其本地化最佳實踐中包含了類似的流程。從一開始就以這種方式寫作,對整體質(zhì)量和生產(chǎn)率產(chǎn)生了許多積極的下游影響。多語言雜志在這里描述了這些寫作方法。

多少預(yù)編輯就夠了?

就像機(jī)器翻譯中的一切:取決于源質(zhì)量和所需的輸出質(zhì)量。

像后期編輯一樣,您需要測量源和目標(biāo)之間的變化,以便將預(yù)編輯電平校準(zhǔn)到您需要的輸出質(zhì)量。盡管它們已經(jīng)以這樣或那樣的形式存在了60多年,但用于測量文本變化的工具仍在我們的行業(yè)中積極發(fā)展。

通常基于Levenshtein著名的“編輯距離”算法,最先進(jìn)的工具使用巧妙的算法來衡量實際的編輯工作量。要實現(xiàn)目標(biāo)質(zhì)量的一定百分比的變化需要付出多少努力,這項工作的成本是多少?衡量這些變化有助于進(jìn)一步計算ROI。

同時,為了獲得基本的測量值,您可以使用編輯器對源文本進(jìn)行燈光測試并完成預(yù)編輯,通過MT運(yùn)行每個編輯級別的結(jié)果,并讓專業(yè)的語言專家檢查這些輸出以確定質(zhì)量差異。也可以使用自動評分——比如BLEU,GTM,Meteor,TER等。-測量機(jī)器翻譯輸出的相似性。

只有在衡量之后,你才能做出何時允許預(yù)編輯的商業(yè)決定。

何時考慮預(yù)編輯

會有一個轉(zhuǎn)折點(diǎn)。你最好把錢花在前期剪輯而不是后期剪輯上,反之亦然。問題是“什么時候?”

當(dāng)技術(shù)或用戶文檔要翻譯成三種以上的語言時,通常會實現(xiàn)預(yù)編輯ROI。所以翻譯成幾十種語言的時候,前期編輯過程的投資回報肯定是值得考慮的。為什么不在MT之前用一個資源,而在之后用幾十個?

然而,預(yù)編輯并不總是正確的方法,也不總是必要的:如果您的源質(zhì)量已經(jīng)很好(由人工審查和自動檢查確定),并且您的MT引擎可以通過領(lǐng)域詞典和翻譯來微調(diào)其內(nèi)存,那么簡單的后期編輯過程可能就是確保有意義的翻譯所需要的全部。

那里有工具嗎?

編劇不可能記住所有這些規(guī)則,沒有辦法,沒有辦法。一些源代碼質(zhì)量改進(jìn)技術(shù)可能會有所幫助。

傳統(tǒng)的TM技術(shù)可以促進(jìn)源創(chuàng)建。源內(nèi)容庫可以為作者提供有用的反饋。例如,它可以識別多個作者正在生成非常相似的內(nèi)容,并識別差異,以便隨著時間的推移,作者和產(chǎn)品之間的寫作風(fēng)格可以保持一致。

通用預(yù)編輯插件或自動預(yù)編輯規(guī)則可以幫助作者在MT之前重新編寫源文本。

簡化的技術(shù)英語或受控語言工具為本地化的寫作規(guī)則提供了一些自動形式化,包括短句、主動發(fā)音和標(biāo)準(zhǔn)詞序。(然而,作者可能會使用工具來簡化或控制他們的工作——請看我的博客“為什么作者討厭受控語言?!?

特定于程序或客戶的定制工具可以識別拼寫、語法和首選術(shù)語。這些基本上是語法檢查器檢查堅果:為特定程序定制的規(guī)則??梢詫⑦@種方法視為自定義的自動樣式指南。

準(zhǔn)備預(yù)編輯

前期編輯工作有許多優(yōu)點(diǎn),如:

提高生產(chǎn)力。在源內(nèi)容不是很好的情況下,徹底的一次性預(yù)編輯會提高M(jìn)T輸出的質(zhì)量,節(jié)省各目標(biāo)語言的后期編輯時間。目標(biāo)越多,節(jié)省的時間就越多。

質(zhì)量改進(jìn)和更好的客戶體驗。簡單來說,更好的內(nèi)容對用戶更有效。如果你有更好的源代碼和更清晰的翻譯,支持成本就會下降。

削減開支。好的源代碼內(nèi)容,強(qiáng)大的MT引擎,好的過往內(nèi)容,一個五種目標(biāo)語言50萬字的翻譯程序,可以輕松節(jié)省20%。顯然,這超過了典型MT+全PE工作節(jié)省的成本,后者可以降低10%左右的成本。

如何開始

雖然前期編輯可能不會完全消除后期編輯的需要,但值得一試。首先評估你的源內(nèi)容的MT效果。如果很差,做一些涉及不同程度的預(yù)編輯的測試。相對于潛在的增量,這是一項非常省力的投資。無論如何,如果你在考慮MT計劃,你會測試源和翻譯的內(nèi)容。

如何通過譯前編輯提高機(jī)器翻譯的輸出質(zhì)量?

從那里,您可以導(dǎo)航特定語言集的特定項目的預(yù)編輯過程。您可以將這項工作與相同規(guī)模和語言集的過去項目的成本進(jìn)行比較。

你曾經(jīng)改進(jìn)過源文件作為提高機(jī)器翻譯輸出的策略嗎?你如何優(yōu)先獲得最大價值?