日逼无码,亚洲AⅤ无码一区二区三区蓝牛,欧美 第3页,大香蕉淫欲网

好育寶

好育寶

機(jī)器翻譯-質(zhì)量輸入問(wèn)題

admin 95 51

免費(fèi)翻譯對(duì)我們大多數(shù)人來(lái)說(shuō)是一件很棒的事情——我完全希望看到它發(fā)生。鑒于我的整個(gè)生意和生計(jì)都依賴于銷售翻譯和語(yǔ)言服務(wù),許多人對(duì)此感到驚訝。但是,我們需要區(qū)分機(jī)器翻譯(MT)目前能用來(lái)做什么,不能用來(lái)做什么。我相信有一點(diǎn)是我喜歡聽故事,這很好地總結(jié)了這一點(diǎn):

不需要進(jìn)入太多的細(xì)節(jié),世界應(yīng)該知道一些關(guān)于免費(fèi)翻譯引擎如何工作的事情——或者,更重要的是,它們最初是如何通過(guò)語(yǔ)言獲得的。

每創(chuàng)建一個(gè)網(wǎng)頁(yè),作為開發(fā)人員,都會(huì)在里面添加語(yǔ)言代碼(不管你知不知道)。所以,谷歌可以理直氣壯地貶損它寫的語(yǔ)言——沒(méi)人讀過(guò)。然后,他們開始匹配他們找到的所有不同的句子或短語(yǔ),并賦予它們意義。所以我們基本上有語(yǔ)言1和語(yǔ)言2。機(jī)器翻譯引擎查看語(yǔ)言1中的短語(yǔ)是如何書寫的,并檢查該文本是否不同于語(yǔ)言2中的數(shù)百萬(wàn)不同來(lái)源。

因此,當(dāng)你訪問(wèn)Google Translate,詢問(wèn)如何用語(yǔ)言2說(shuō)出一個(gè)短語(yǔ)時(shí),它會(huì)為你提供它認(rèn)為最有可能的回答。一般都是對(duì)的?;蛘哒f(shuō),夠近了。它看到的一些東西可以從引擎訪問(wèn)的專業(yè)翻譯文檔的平行文本中獲得——所以你可以想象,這將是相當(dāng)不錯(cuò)的。

但最終,這種模式依賴于購(gòu)買和接收越來(lái)越多的數(shù)據(jù),并根據(jù)我們說(shuō)話的方式評(píng)估越來(lái)越多的內(nèi)容——它可以通過(guò)聊天和社交媒體應(yīng)用程序、博客和網(wǎng)頁(yè)來(lái)訪問(wèn)這些信息。問(wèn)題是更多的數(shù)據(jù)并不會(huì)帶來(lái)更好的質(zhì)量。事實(shí)上,這是相反的意思。這只是意味著它捕捉到了那里的任何東西。

所以它掃描了很多公共領(lǐng)域的內(nèi)容,比如連接達(dá)伊沙和沙特阿拉伯的想法的內(nèi)容,所以它認(rèn)為一個(gè)是另一個(gè)最有可能的翻譯,或者錯(cuò)誤地把這些詞映射成其他詞的對(duì)應(yīng)詞。語(yǔ)言。

它不止于此:

毫無(wú)疑問(wèn),這不是谷歌的故意行為——但正如它在辯護(hù)中所說(shuō)的那樣,”...我們的系統(tǒng)根據(jù)網(wǎng)絡(luò)上已有的翻譯自動(dòng)生成翻譯,所以當(dāng)用戶指出這樣的問(wèn)題時(shí),我們表示感謝。”

為了量化這一點(diǎn),他們的引擎將盲目掃描大量不同語(yǔ)言創(chuàng)建和討論的內(nèi)容,并在這些語(yǔ)言中進(jìn)行匹配(無(wú)需閱讀)。每天涌入網(wǎng)絡(luò)的各種語(yǔ)言的數(shù)十億個(gè)詞,都在不斷地與國(guó)外同類產(chǎn)品進(jìn)行比較、排列和匹配。

機(jī)器翻譯-質(zhì)量輸入問(wèn)題

這個(gè)自動(dòng)過(guò)程的目的不是集中在正確的發(fā)音或我們所知道的“正確性”上,而只是以一種更常見的方式。最根本的問(wèn)題是,在許多情況下,真正發(fā)生的是包含不正確的數(shù)據(jù)或短語(yǔ)用法的趨勢(shì)。這可能不會(huì)妨礙大多數(shù)用戶從MT中獲得巨大的價(jià)值,無(wú)論是作為對(duì)話輔助,輔助基本的旅行和生存語(yǔ)言,還是作為學(xué)習(xí)工具,但這種數(shù)據(jù)收集方法如果依賴于商業(yè)或?qū)I(yè)使用,很可能會(huì)導(dǎo)致破壞性的結(jié)果。

不幸的是,隨著社交媒體的增長(zhǎng)和輸入機(jī)器翻譯的數(shù)據(jù)量和廣度,它們實(shí)際上會(huì)變得更差,然后變得更好。