[公司名翻譯成日語][云譯途翻譯公司]。
本文轉自:AI科技評論
作者 | 張家俊
編輯 | 叢 末機器翻譯旨在利用計算機實現(xiàn)自然語言之間的自動翻譯,一直是自然語言處理與人工智能領域的重要研究方向,近年來更是取得了突破性進展,已成為大眾較為熟知和常用的技術現(xiàn)在一提起機器翻譯技術的起源,對該研究領域稍有了解的人們都知道是美國的瓦倫·韋弗(Warren Weaver,后面簡稱韋弗)最先于1947年提出機器翻譯概念并于1949年7月正式記錄于名為《翻譯》的備忘錄。不過,可能大多數(shù)人不是特別了解韋弗究竟是何許人也以及他怎么會提出機器翻譯的概念。作為機器翻譯領域的一名研究者,我對這些問題非常感興趣,也希望讓更多人了解機器翻譯概念誕生的那些趣事和史實。瓦倫·韋弗如果讓大家猜測的話,可能會認為韋弗是一位從事語言翻譯的學者,由于人工翻譯任務繁重從而產(chǎn)生利用計算機進行自動翻譯的想法。其實不然,他的人生經(jīng)歷著實會讓人驚嘆不已。如果您認為他提出了機器翻譯的概念已經(jīng)足夠偉大,那么可以再告訴您韋弗是位數(shù)學家,二戰(zhàn)期間曾幫助美軍革新了防控火控系統(tǒng)和轟炸機技術,而且他首次提出了分子生物學的概念,他還與信息論之父香儂一同撰寫了劃時代意義的著作《通信的數(shù)學原理》(The Mathematical Theory of Communication)。有點尷尬的發(fā)現(xiàn),機器翻譯似乎僅僅是他的一個小小愛好而已。如此多不同領域的貢獻竟然集中于一人之身,足見韋弗的不凡之處??赡芪覀儠幸蓡?,韋弗到底從事哪種職業(yè)呢?實際上很難用教授、研究員或者科學家某個稱謂概括他的職業(yè)生涯。下面,讓我們慢慢走進韋弗的人生。1韋弗1894年7月17日出生于美國威斯康星州的里茲堡市,從小酷愛各種搗鼓,立志成為一名工程師。進入威斯康星大學后,受到查爾斯·斯萊希特(Charles Slichter)和馬克思·馬森(Max Mason)兩位老師的影響(需要重點記得馬森,他似乎要對韋弗的職業(yè)生涯負責到底),韋弗發(fā)現(xiàn)自己的興趣和熱情并不在工程技術,而是應用數(shù)學和理論物理,從而毅然轉向數(shù)學,于1916年獲得數(shù)學學位,并于1917年獲得了土木工程的學位,看來他還是沒有完全放棄工程技術。大學畢業(yè)后在馬森的推薦下去施羅普大學(大名鼎鼎的加州理工學院的前身)做過短暫的數(shù)學老師,之后在美國空軍服役了兩年。退役后回到威斯康星大學繼續(xù)博士研究,1921年獲得博士學位。畢業(yè)后留校擔任數(shù)學教授,并于1928年起擔任威斯康星大學數(shù)學系主任,按照韋弗自己的說法他不太擅長數(shù)學研究,如果這樣下去人生注定平淡無奇。這時候,韋弗的人生導師馬森再次出場,先是邀請韋弗一起撰寫了經(jīng)典物理教科書《電磁場》(The electromagnetic field),并且在其擔任洛克菲勒基金會總裁后力邀韋弗擔任馬森之前負責的該基金會自然科學部的主任。洛克菲勒基金會總部位于紐約,換工作的話意味著不僅要搬家還要面臨職業(yè)方向的轉變,從大學教授變成科研項目管理人員可能并不那么吸引人。但是,韋弗思考良久后決定跟隨老師到紐約去,1932年正式就任洛克菲勒基金會自然科學部主任,從此開啟了他不凡的科學探索、規(guī)劃和管理生涯。這里要稍微介紹一下給韋弗提供充分施展其才華的洛克菲勒基金會。洛克菲勒基金會正式成立于1913年,已經(jīng)是一個百年老字號,也差不多是世界范圍內(nèi)慈善事業(yè)做得規(guī)模最大成果最多的私人基金會。這里簡單列舉幾點我們可能比較熟知的成就:1,醫(yī)學領域,洛克菲勒基金會建立了現(xiàn)代公共衛(wèi)生領域,開發(fā)疫苗幫助根除黃熱病和瘧疾等疾??;2,農(nóng)業(yè)領域,推動了20世紀第三世界國家農(nóng)業(yè)生產(chǎn)技術改革的綠色革命;3,信息領域,資助了于1956年召開的標志人工智能起源的達特茅斯會議;4,在中國,資助建立了北京協(xié)和醫(yī)學院及其附屬北京協(xié)和醫(yī)院。洛克菲勒基金會的偉大成就還有很多很多。有了這樣的舞臺,韋弗得以大展拳腳,盡情展現(xiàn)其對未來科學趨勢把控和科研管理的才能。2洛克菲勒基金會的錢很多,理論上想資助什么就資助什么,那么資助方向就顯得尤為重要。上任伊始,韋弗憑借其物理學背景以及對生物技術即將爆發(fā)的敏銳嗅覺,成功說服洛克菲勒基金會的董事會將資助重點從物理學轉向生物學中的新興領域(當然,這個過程應該也得到了總裁兼老師馬森的大力支持)。方向只要對了,一切就會順利。僅僅5-6年時間,這些新興領域被資助的科研項目進展十分迅速,1938年韋弗在基金會自然科學年報中將這些生物學中新興技術統(tǒng)稱為分子生物學。由此,分子生物學的概念誕生了,從而開辟了一個嶄新的生物、化學與物理交叉融合的學科方向?,F(xiàn)在,我們熟知的DNA研究以及新冠肺炎中的核酸檢測都屬于分子生物學領域。在韋弗的推動下,洛克菲勒基金會資助了這一領域的諸多研究者,其中很多學者若干年后都成為了具體學術方向的執(zhí)牛耳者。舉個例子,1954-1965年分子生物學相關領域洛克菲勒基金會資助的學者中有15位獲得了諾貝爾獎(該領域一共18位),可以說韋弗的最大貢獻之一就是極大地推動了20世紀全球生物學的發(fā)展。3在擔任洛克菲勒基金會自然科學部主任期間,韋弗一直保留著他對應用數(shù)學(特別是概率和統(tǒng)計)的研究熱情。其中,一個突出成就是1949年與克勞德·香儂(Claude Shannon)共同撰寫了劃時代意義的著作《通信的數(shù)學原理》。不過,香儂一直在貝爾實驗室工作,實際上兩人并沒有交集,那么為什么會成為這部巨著的共同作者呢?其中的故事非常有趣。1948年,香儂在貝爾系統(tǒng)科學雜志《Bell System Technical Journal》上發(fā)表了《通信的一個數(shù)學理論》(A Mathematical Theory of Communication),奠定了信息論和通信理論的基石。這樣來看信息論的奠基性工作跟韋弗一點關系沒有。但是,香儂著作中的數(shù)學描述比較晦澀難懂,而且闡述該理論僅適用于工程通信領域,因此該著作的受眾很少。韋弗一直對信息論保持很高的興趣,并且理解非常深刻,也有自己獨到的見解,他于是采用通俗易懂的語言闡述并擴展了香儂的理論,并于1949年在《科學美國人》(Science American)雜志上發(fā)表了《通信中的數(shù)學》(The Mathematics of Communication)。時任美國伊利諾伊大學出版社主編的威爾伯·施拉姆教授(傳播學之父)認為兩者結合最完美,因此將韋弗和香儂的文章分別作為第一和第二部分重新修正編排,出版了劃時代意義的《通信的數(shù)學原理》(The Mathematical Theory of Communication)著作(從低調(diào)的“通信的一個數(shù)學理論”直接修改成了霸氣的“通信的數(shù)學原理”)?,F(xiàn)在,“香儂-韋弗模式”已經(jīng)成為通信和傳播領域無人不知的基本理論,足見韋弗在信息論的發(fā)展和傳播中扮演了何其重要的作用。4現(xiàn)在,讓我們回歸正題,探尋韋弗提出機器翻譯概念的過程以及對后續(xù)機器翻譯發(fā)展的影響。據(jù)韋弗本人回憶,整個過程源于他的一位杰出數(shù)學家朋友經(jīng)歷的真實故事。我們稱這位數(shù)學家朋友為P,他之前是德國人,在土耳其伊斯坦布爾待過一段時間,并且學習過土耳其語。該故事發(fā)生于二戰(zhàn)期間,由于戰(zhàn)爭的需要,那些年密碼學的研究十分盛行。有一天,P的一位同事F聲稱想出了一個解密算法,于是請P設計一段密文,然后測試一下這個解密算法。P對密碼學也十分感興趣,鑒于F不懂土耳其語,P想為難一下F,于是用土耳其語寫下包含100個詞語的一段話,然后將土耳其語中的非英文字母替換為英文字母,最后經(jīng)過稍微復雜點的替換等操作,生成了一段數(shù)字序列的密文。沒想到F第二天就將解碼結果呈現(xiàn)給P。雖然F聲稱沒能成功解碼出結果,只得到一串沒有意義的英文字母組成的字符串序列(由于不懂土耳其語,所以認為沒有意義),但是P稍加修改后就能還原土耳其語的信息。這個故事深深觸動了概率論和統(tǒng)計學背景的韋弗。
譯國譯民翻譯公司官網(wǎng)
本來韋弗就對語言翻譯有點興趣,這個在后面會提到。經(jīng)過深入思考,韋弗認為不同語言中字母頻率和組合方式等都具有相似的規(guī)律,因而可以通過利用這些特征進行語言的解密,也即語言的自動翻譯。但是,利用什么工具進行自動翻譯成為一個關鍵性問題。正好,1946年誕生了世界上第一臺電子計算機ENIAC,受語言解密和計算機的啟發(fā),韋弗于1947年提出了機器翻譯的思想,并與控制論之父諾伯特·維納針對機器翻譯的可行性進行了書信探討。首先一個疑問是韋弗為什么要和維納討論呢?實際上,一方面韋弗主導洛克菲勒基金會資助了維納,幫助其創(chuàng)立了控制論學科,彼此應該比較熟悉;另一方面,韋弗認為語言的自動翻譯是一個復雜系統(tǒng),而維納是復雜系統(tǒng)研究的權威,討論機器翻譯非維納不可。只不過,維納和韋弗僅討論了一個回合,并且認為機器翻譯面臨的假設空間太大、歧義性太強,基本不可行。韋弗非常失望,希望擺事實講道理繼續(xù)和維納探討,最終想說服維納,可是然后就沒有了然后。韋弗深知要讓機器翻譯的概念被人們(當然也包括維納)接受,就需要提出切實可行的設計方案和實現(xiàn)技術,證明其可行性。于是,韋弗經(jīng)過兩年的思考,并且在1948年與有類似想法的英國倫敦大學伯克貝克學院的布斯(Andrew D. Booth)進行了深入探討,最終于1949年7月正式在《翻譯》備忘錄中提出機器翻譯概念以及四種可能的實現(xiàn)策略。第一種實現(xiàn)策略基于簡單的詞語替換方法,其核心是解決詞義消岐問題。韋弗認為一種自然語言到另一種自然語言的自動轉換面臨的關鍵問題是不同語境中的詞語多義現(xiàn)象。他提出的一個可行方案是用N個詞語窗口的上下文信息來幫助預測中心詞語的語義,并且認為N不需要太大。該思想在最初實現(xiàn)的基于直接轉換的機器翻譯方法中得到了應用。第二種實現(xiàn)策略假設語言是一種邏輯表達。語言之間的自動轉換就可以形式化為一種邏輯表達到另一種邏輯表達的自動推導。韋弗希望利用這個策略說明機器翻譯是形式上可解決的。后來,基于規(guī)則的翻譯方法和統(tǒng)計機器翻譯中基于同步上下文無關文法的譯文推導模型與該策略的基本思想可以說是一致的。第三種實現(xiàn)策略假設語言間的自動翻譯實際上可以看作通信過程,即一種輸入信號(未知的目標語言文本,也可以稱為密碼學中的明文)經(jīng)過信道輸出另一種信號(可觀察的源語言,密碼學中的密文),翻譯過程就是根據(jù)輸出信號恢復輸入信號的過程。作為信息論先驅(qū)的韋弗受到二戰(zhàn)期間破譯密碼的啟發(fā),認為機器翻譯實際上與密碼破譯問題十分類似,挖掘兩種語言之間的統(tǒng)計模式就可以實現(xiàn)語言的自動轉換。1990年左右統(tǒng)計機器翻譯的興起就是基于這個策略的基本思想。第四種實現(xiàn)策略假設所有語言之間存在相同的邏輯特征,可以視為一種通用語言或者中間語言。韋弗認為源語言到目標語言的自動翻譯可以首先將源語言轉換為中間語言,然后再從中間語言轉換為目標語言。后來,美國卡內(nèi)基梅隆大學開發(fā)的JANUS機器翻譯系統(tǒng)就采用了基于中間語言的翻譯方法。不過,中間語言的定義和表示一直是一個未解難題。當前,基于統(tǒng)一編碼器和解碼器的多語言神經(jīng)機器翻譯框架本質(zhì)上類似于基于中間語言的翻譯思想。所有語言通過相同的編碼器生成分布式的語義表示,然后解碼器從分布式語義表示生成目標語言??梢钥闯?,上述第一種策略到第四種策略,想法越來越大膽,難度也越來越大。不過,從歷史的發(fā)展來看基本上符合機器翻譯方法的進階過程,不得不佩服韋弗對未來科學發(fā)展的戰(zhàn)略眼光。機器翻譯的概念誕生后,逐漸吸引了越來越的學者進入這個新興研究領域。三年后,韋弗主導洛克菲勒基金會資助了1952年6月17-20日于麻省理工學院召開的第一屆機器翻譯會議,會議由另一位機器翻譯先驅(qū)巴爾-希列爾(Yehoshua Bar-Hillel,大數(shù)學家、哲學家、羅輯學家和語言學家)組織,一共18位專家與會。后來的事情大家就比較熟悉了,例如1954年第一個機器翻譯系統(tǒng)在紐約公開演示,1976年加拿大的天氣預報機器翻譯系統(tǒng)讓人眼前一亮,1990年左右IBM的統(tǒng)計機器翻譯模型誕生,推動了谷歌、微軟和百度等在線翻譯系統(tǒng)的開發(fā),2014年之后深度學習給機器翻譯帶來了突破性進展。5從1932年擔任自然科學部主任到1959年退休,韋弗將其大半的職業(yè)生涯都貢獻給了洛克菲勒基金會。退休后被邀請繼續(xù)擔任了5年斯隆基金會(Alfred P Sloan Foundation)的副總裁。退休后直至1978年去世的十幾年,韋弗一方面利用更多時間陪伴家人,以另一方面開始將更多精力放在自己的興趣上。從后續(xù)的著作來看,韋弗的興趣主要集中于概率論和語言翻譯。1963年,韋弗出版了一本科普專著《幸運女神:概率理論》(Lady Luck: The Theory of Probability),希望將概率理論介紹給更廣泛的人群。在語言翻譯方面,韋弗并沒有繼續(xù)研究機器翻譯方法,而是對文學作品的不同語言的翻譯版本產(chǎn)生了興趣。作為劉易斯·卡羅爾(Lewis Carroll)的超級粉絲,韋弗對《愛麗絲夢游仙境》不同語言的翻譯版本特別感興趣。1964年,韋弗出版了另一本專著《很多語言中的愛麗絲》(Alice in Many Tongues),在這部著作中他詳細對比了40種不同語言的版本,希望傳遞給大家一個信息:將《愛麗絲夢游仙境》翻譯為其他語言面臨非常大的挑戰(zhàn)。但是韋弗不可能懂40種語言,于是他采用了一種back-translation的方法,將其他語言回翻為英語,然后再對比不同的英語版本。Back-translation的概念對如今神經(jīng)機器翻譯的研究者來說太熟悉不過了,已經(jīng)成為神經(jīng)機器翻譯領域的流行技術,也是各種機器翻譯競賽的必備技術。不過,back-translation的技術應用于神經(jīng)機器翻譯也只是在2016年被正式提出,沒想到的是韋弗老爺子早在半個多世紀前就已經(jīng)在利用back-translation的思想了,還能說什么呢,除了佩服還是佩服。從韋弗的人生經(jīng)歷以及所取得的成就中我們至少可以得到兩點啟示。首先,興趣是成功的關鍵因素。其次,對趨勢和方向的把控和選擇不僅決定個人的成就,也將對國家和全球的技術發(fā)展起到至關重要的作用。參考文獻:Warren Weaver. 1955. Translation. Machine Translation of Languages, 14:15-23, 1955.Weaver, Warren. 1964. Alice in Many Tongues: The Translations of “Alice in Wonderland.” Madison: University of Wisconsin Press.Warren Weaver. National Academy of Sciences. 1987. Biographical Memoirs: V.57. Washington, DC: The National Academies Press.Lily E. Kay. 1996. The Molecular Vision of Life: Caltech, the Rockefeller Foundation, and the Rise of the New Biology, Oxford University Press, Reprint 1996.John Hutchins.1998. Milestones in machine translation. Language Today, no. 13. 1998. pp. 12-13.本文作者:張家俊,中國科學院自動化研究所研究員,主要研究方向為機器翻譯、自然語言處理、深度學習。知乎專欄:https://www.zhihu.com/people/zhang-jia-jun-29-18【夸克翻譯在線下載】。【簡繁翻譯的拼音】?!卷n語人工翻譯在線】?!九恼辗g英文在線】?!究淇朔g百度百科】?!居忻姆g公司】。
版權聲明:文章來源網(wǎng)絡聚合,如有問題請聯(lián)系刪除。