日逼无码,亚洲AⅤ无码一区二区三区蓝牛,欧美 第3页,大香蕉淫欲网

TAUS推出匹配數(shù)據(jù)

當前位置:首頁>輔助生殖

TAUS推出匹配數(shù)據(jù)
  • 作者:admin
  • 日期:2024-04-11
  • 點擊量:14

阿姆斯特丹,2019年1月16日-TAUS推出匹配數(shù)據(jù):一種為機器翻譯(MT)引擎的訓練和調(diào)整選擇語言數(shù)據(jù)的新技術(shù)。這種新方法非常適合新一代的神經(jīng)機器翻譯,并且對訓練數(shù)據(jù)的質(zhì)量更加敏感。匹配數(shù)據(jù)使機器翻譯開發(fā)者和語言服務(wù)提供商能夠有效地編譯定制語料庫,以便基于樣本數(shù)據(jù)集構(gòu)建他們自己的特定領(lǐng)域翻譯解決方案。

"為機器翻譯訓練尋找語言數(shù)據(jù)一直是一個巨大的挑戰(zhàn)."TAUS導(dǎo)演賈普·范德梅爾說。“從特定領(lǐng)域選擇數(shù)據(jù)幾乎是不可能的。在2010年,我們已經(jīng)開始確定一個場景,其中一個樣本數(shù)據(jù)集,一個簡單的特定領(lǐng)域翻譯記憶庫,將幫助我們的用戶從TAUS數(shù)據(jù)云中的數(shù)十億個片段中編譯一個完全個性化的語料庫。實現(xiàn)這一目標的技術(shù)尚未實現(xiàn),但現(xiàn)在因為DatAptor項目而成為現(xiàn)實?!?/p>

廣告

TAUS推出匹配數(shù)據(jù)

DatAptor項目是阿姆斯特丹大學邏輯、語言和計算研究所承擔的一個研究項目,由Khalil Sima'an教授領(lǐng)導(dǎo),荷蘭STW資助。該項目的合作伙伴是英特爾、歐盟委員會翻譯總司和TAUS。從2013年到2016年,一組研究人員探索了不同的方法,使大量數(shù)據(jù)的數(shù)據(jù)選擇無縫有效。

“我們的夢想是讓萬維網(wǎng)本身成為所有數(shù)據(jù)選擇的來源,”哈利勒·西瑪安教授說,“但我們決定更溫和地開始,使用非常大的TAUS數(shù)據(jù)庫作為我們的狩獵場。在DatAptor中,我們了解到每個域都是許多子域的混合。在一個非常大的庫中,子域組合學包含了大量新的和未開發(fā)的選項。因此,如果用戶提供表示感興趣領(lǐng)域的查詢語料庫,匹配數(shù)據(jù)方法可以在存儲庫中找到合適的選擇。”

匹配數(shù)據(jù)方法通過將混合領(lǐng)域搜索語料庫中的所有句子索引為可搜索的實體,來反轉(zhuǎn)典型的搜索方法。因此,匹配數(shù)據(jù)將返回高保真數(shù)據(jù),并為每個細分受眾分配匹配分數(shù)。用戶可以根據(jù)需要決定下載小型、中型或大型選項。

Oracle國際產(chǎn)品解決方案與新TAUS匹配數(shù)據(jù)服務(wù)合作開發(fā)了一個口語語料庫,用于中文與英語、韓語、日語、西班牙語和巴西葡萄牙語之間的一般在線對話和聊天。Oracle語言專家進行了深入的語言學評測,匹配數(shù)據(jù)檢索出的片段平均質(zhì)量得分為84%。

Jaap van der Meer說:“匹配數(shù)據(jù)被設(shè)計成一種行業(yè)社區(qū)服務(wù)。任何人都可以通過提供查詢語料庫來開始新的領(lǐng)域語料庫。產(chǎn)生的領(lǐng)域語料庫被提供在TAUS匹配數(shù)據(jù)庫中,供有興趣改進其全球內(nèi)容解決方案的每個人使用。這個版本的匹配數(shù)據(jù)是我們打開數(shù)據(jù)市場的雄心勃勃的道路上的第一步?!?/p>

欲了解更多信息,請訪問:

十年來,TAUS數(shù)據(jù)云教會了我們?nèi)绾谓鉀Q數(shù)據(jù)鴻溝。

匹配數(shù)據(jù)白皮書

關(guān)于TAUS

TAUS,一個語言數(shù)據(jù)網(wǎng)絡(luò),是一個獨立和中立的貿(mào)易組織。我們通過活動計劃和在線用戶組發(fā)展社區(qū),并通過分享知識、指標和數(shù)據(jù),幫助翻譯行業(yè)的所有利益相關(guān)者開發(fā)更好的服務(wù)。我們?yōu)檎Z言和翻譯服務(wù)的買家和提供商提供數(shù)據(jù)服務(wù)。

分享知識和數(shù)據(jù)有助于TAUS成員決定有效的本地化策略。指標支持更有效的過程和質(zhì)量評估的標準化。這些數(shù)據(jù)可以提高翻譯自動化。

TAUS開發(fā)了API,通過自己的翻譯平臺和工具,會員可以訪問DQF、質(zhì)量儀表板和TAUS數(shù)據(jù)市場等服務(wù)。大多數(shù)主要的翻譯技術(shù)都內(nèi)置了TAUS指標和數(shù)據(jù)。