最近,我們報(bào)道了一個(gè)相當(dāng)令人震驚的消息,谷歌的翻譯設(shè)備在人工智能術(shù)語(yǔ)方面有了重大飛躍——似乎一直都是這樣。使用機(jī)器學(xué)習(xí),谷歌翻譯“教授”本身就是一種更好的方法,通過(guò)發(fā)明自己的語(yǔ)言來(lái)翻譯不熟悉的語(yǔ)言,并有效地充當(dāng)中間人。
看過(guò)《終結(jié)者》電影的人都知道,一旦天網(wǎng)的人工智能系統(tǒng)有了自我意識(shí),事情就會(huì)迅速變得梨形。
所以你可能會(huì)有點(diǎn)驚慌地發(fā)現(xiàn),機(jī)器正在悄悄地開始做出自己的創(chuàng)造性決定?!督K結(jié)者》中,天網(wǎng)迅速?gòu)淖晕乙庾R(shí)走向核災(zāi)難。
機(jī)器思考和學(xué)習(xí)的時(shí)代即將到來(lái)。在硅谷,互聯(lián)網(wǎng)巨頭百度在語(yǔ)音合成方面取得了突破,使人工智能能夠快速學(xué)習(xí)表達(dá)口語(yǔ)。事實(shí)上,這些機(jī)器現(xiàn)在可以在幾個(gè)小時(shí)內(nèi)自學(xué)。
文本到語(yǔ)音系統(tǒng)以前是通過(guò)記錄個(gè)人(通常是演員)大聲朗讀的大量口語(yǔ)單詞和常用短語(yǔ)來(lái)創(chuàng)建的。
然后,它們以各種組合的形式提供,以適合作為語(yǔ)音時(shí)鐘、衛(wèi)星導(dǎo)航系統(tǒng)或自動(dòng)呼叫系統(tǒng)來(lái)接聽電話。
這種方法帶來(lái)了一些挑戰(zhàn),例如,如果系統(tǒng)需要擴(kuò)展,而原來(lái)的參與者不再可用,會(huì)發(fā)生什么情況。導(dǎo)航系統(tǒng)通常會(huì)圍繞這個(gè)問(wèn)題,要求原演員記錄一些常見(jiàn)的單詞部分,然后拼湊成不常見(jiàn)的街道名稱。
演員會(huì)記錄常見(jiàn)的地名,如“高街”,但對(duì)于非常不常見(jiàn)的地名,如托基的Helevoetssluisway(以荷蘭小鎮(zhèn)的雙子城命名),系統(tǒng)會(huì)粉碎演員的音節(jié)記錄,以獲得宣布單詞時(shí)可以做出的努力。
谷歌最近的研究提出用一個(gè)系統(tǒng)來(lái)克服這個(gè)問(wèn)題。相反,該系統(tǒng)從觀察到的語(yǔ)音中觀察聲波,并用它來(lái)發(fā)送任何文本的抄本。
神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)但仍需要人類訓(xùn)練,它仍需要克服一些計(jì)算挑戰(zhàn)才能用于現(xiàn)實(shí)世界。
部分問(wèn)題在于現(xiàn)實(shí)生活中語(yǔ)音太快,計(jì)算跟不上新的發(fā)展。谷歌的解決方案速度不夠快,無(wú)法與人對(duì)話。
最新發(fā)展
這就是百度剛剛介入的地方,在硅谷開發(fā)了自己的基于自訓(xùn)練深度學(xué)習(xí)算法的語(yǔ)音合成項(xiàng)目。
這一新的發(fā)展將一場(chǎng)演講分解為最小的可能組成部分——現(xiàn)象——百度的人工智能可以調(diào)整這些音調(diào),從而為其產(chǎn)生的演講添加情感。
百度的系統(tǒng)不需要人工訓(xùn)練,可以快速獲取新數(shù)據(jù)。這說(shuō)明它也許能適應(yīng)新的語(yǔ)言。它還可以學(xué)習(xí)一種語(yǔ)言中不同的語(yǔ)音類型:例如,AI可以閱讀有聲書,并以不同的方式完成每個(gè)角色的語(yǔ)音。這為人機(jī)之間更真實(shí)、更有情感技巧的對(duì)話提供了新的可能性。
這在衛(wèi)生保健等敏感領(lǐng)域具有明顯的意義。如果互動(dòng)在情感上更加微妙,患者可能更容易接受AI。
最重要的是,百度的團(tuán)隊(duì)聲稱已經(jīng)克服了谷歌遇到的計(jì)算問(wèn)題。據(jù)估計(jì),新系統(tǒng)的速度比谷歌上一次迭代快400倍左右。這意味著系統(tǒng)可以足夠快地工作,在現(xiàn)實(shí)生活中發(fā)揮作用,例如通過(guò)不可預(yù)測(cè)的交易與人互動(dòng)。
談?wù)摍C(jī)器人的未來(lái)
隨著兩大互聯(lián)網(wǎng)巨頭將目光轉(zhuǎn)向語(yǔ)音合成,這一研究領(lǐng)域幾乎必然會(huì)快速推進(jìn)。人類一旦解決了人工對(duì)話的問(wèn)題,就會(huì)對(duì)商業(yè)、技術(shù)、社會(huì)產(chǎn)生很多影響。
通過(guò)自動(dòng)駕駛汽車和自動(dòng)檢測(cè)等技術(shù),可以更容易地向前推進(jìn),從而減少煩惱和重復(fù)。
自學(xué)系統(tǒng)的確是解決不可預(yù)測(cè)的談話情況的關(guān)鍵。目前人工智能的交互局限在相當(dāng)狹窄的范圍內(nèi);例如,自動(dòng)語(yǔ)音郵件可以從你那里得到一個(gè)電話號(hào)碼,或者用一個(gè)簡(jiǎn)單的是/否回答來(lái)回復(fù)。
能夠適應(yīng)新情況的語(yǔ)音合成系統(tǒng)開辟了新的可能性,例如與自動(dòng)駕駛汽車談判路線,或者向AI醫(yī)生描述你的癥狀。
改進(jìn)的語(yǔ)音合成也能更好地代表我們。因運(yùn)動(dòng)神經(jīng)元疾病等疾病而失去聲音的人,如果在失去說(shuō)話能力之前記錄下他們的聲音樣本,就可以通過(guò)計(jì)算機(jī)通信更好地反映他們的身份。
或者,計(jì)算機(jī)可以結(jié)合來(lái)自其年齡、性別和地區(qū)的多種聲音來(lái)創(chuàng)建一個(gè)公平的表示。
當(dāng)然,像這樣的新技術(shù)的出現(xiàn)也有負(fù)面影響。如果AI交互可以代替人類,可能會(huì)造成大量失業(yè)。

對(duì)于昂貴且容易出錯(cuò)的人類工作者來(lái)說(shuō),執(zhí)行服務(wù)行業(yè)等交易的需求要少得多。
我們認(rèn)為理所當(dāng)然的事情,比如人們?cè)诓蛷d等待,可能會(huì)變得更加罕見(jiàn)。社會(huì)變革,經(jīng)濟(jì)中斷,必然伴隨著可以和我們自由對(duì)話的機(jī)器的到來(lái)。