質(zhì)量評估是一種用于自動提供機器翻譯輸出的質(zhì)量指示而不依賴于人類參考翻譯的方法。用更簡單的術語來說,它是一種在沒有人為干預的情況下找出MT系統(tǒng)產(chǎn)生的翻譯好壞的方法。
在我們詳細討論量化寬松問題之前,最好的一點是評估和估算之間的區(qū)別。您可以通過兩種主要方式評估MT輸出的質(zhì)量:人工評估和自動評估(有不同的方法可以在沒有人為干預的情況下提供翻譯質(zhì)量評分)。
傳統(tǒng)上,為了自動評估任何給定MT輸出的質(zhì)量,需要由人工翻譯器創(chuàng)建的參考翻譯。然后可以將MT輸出和參考轉(zhuǎn)換之間的差異和相似性轉(zhuǎn)換為分數(shù)以確定所述輸出的質(zhì)量。這是BLEU或NIST等某些方法所采用的方法。
質(zhì)量評估的主要區(qū)別在于它不需要人工參考翻譯。
QE是基于某些特征的質(zhì)量預測。例如,這些特征可以是源和目標中的名詞或介詞短語的數(shù)量,命名實體的數(shù)量等等。利用這些特征,使用諸如機器學習之類的技術,可以創(chuàng)建QE模型以獲得表示翻譯質(zhì)量估計的分數(shù)。
在eBay,我們使用MT來翻譯搜索查詢,項目標題和項目描述。為了培訓我們的MT系統(tǒng),我們與幫助我們對內(nèi)容進行后期編輯的供應商合作。由于我們的內(nèi)容具有挑戰(zhàn)性(用戶生成,類別的多樣性,數(shù)以百萬計的列表等),估計編輯后的努力程度的方法肯定會增加價值。QE可以幫助您以自動方式獲取有關此信息的重要信息。例如,可以估計有多少段具有非常低質(zhì)量的翻譯,并且可以被丟棄而不是后期編輯。
烏魯木齊市翻譯公司那么,在QE的幫助下你能做些什么呢?首先,估計分段和文件級別的翻譯質(zhì)量。細分級別的分數(shù)可以幫助您定位后期編輯,只關注對后期編輯有意義的內(nèi)容。您還可以估算編輯后的工作量/時間。假設具有低質(zhì)量得分的片段花費更多時間進行后期編輯將是相當安全的。也可以根據(jù)QE分數(shù)比較MT系統(tǒng),看看哪一個表現(xiàn)更好。如果您要確定應該使用哪個引擎,或者新版本的引擎是否比其前一個更好地工作,這將特別有用。