我:好吧,谷歌。你能告訴我今天如何使用文本到語音轉(zhuǎn)換技術(shù)嗎?
谷歌:當(dāng)然。你現(xiàn)在正在聽一個例子。
文本到語音轉(zhuǎn)換技術(shù)肯定還有很長的路要走。從可訪問性到教育再到客戶服務(wù),這種媒介有著廣泛的應(yīng)用,而且似乎還會進一步擴展——以及更多的語言。
它是用來做什么的?
語音合成,即人工生成人聲的過程,可以追溯到12世紀的自動機。第一臺從文本中產(chǎn)生類似人類聲音的計算機是在20世紀50年代。對于我們這些年齡足夠大的人來說,還記得20世紀70年代的Speak&Spell教育玩具,這也是一種文本到語音(TTS)設(shè)備,現(xiàn)在,任何與你交談的技術(shù)都在使用這項技術(shù)。
文本轉(zhuǎn)語音引擎由音咬數(shù)據(jù)庫組成,音咬數(shù)據(jù)庫可以由人類記錄,也可以由計算機聲學(xué)模型合成。當(dāng)輸入文本時,它將從數(shù)據(jù)庫轉(zhuǎn)換成適當(dāng)?shù)陌l(fā)音,并分組為短語、從句和句子。然后,對內(nèi)容進行分析,確定正確的時長、音調(diào)和語調(diào),通過合成器大聲說出來。
用途包括:幫助有閱讀或視覺障礙的人,有發(fā)音的語言學(xué)習(xí)者,或通過聽力課程學(xué)得更好的學(xué)生;自動公告(想想歐洲城市的火車站);有聲書;當(dāng)你打電話給銀行或客戶服務(wù)時,那些可愛的自動菜單(稱為IVRS或交互式語音應(yīng)答系統(tǒng))。
最后,我們都在我們的移動設(shè)備(Siri、OK Google和Cortana)、汽車(信息娛樂系統(tǒng)通過配對的手機讀取文本或電子郵件并提供駕駛方向)和家庭(使用文本到語音技術(shù))中使用文本到語音技術(shù)(亞馬遜Echo和谷歌Home背誦新聞文章、天氣預(yù)報和你的日歷)。當(dāng)您與設(shè)備通話時,附加的語音到文本組件將模擬聲音轉(zhuǎn)換為數(shù)字聲音,將其分解為音素,然后轉(zhuǎn)換為文本。然后,系統(tǒng)執(zhí)行命令或搜索請求的內(nèi)容,并使用TTS為您朗讀。
把訓(xùn)練提高到一個新水平
在電子學(xué)習(xí)、演示、操作視頻、培訓(xùn)和演示中添加聲音似乎是一個明智的選擇:人們可以觀看或收聽,任務(wù)或過程是一個接一個播放的,以允許在進行的同時收聽。打印機技術(shù)員跪在機器里,沒有人能停下來看屏幕。
但就像機器翻譯是一種翻譯已經(jīng)過于昂貴的內(nèi)容的方式一樣,TTS可以為訓(xùn)練和操作視頻提供音頻,它只需要閱讀信息而不需要打磨,因此營銷風(fēng)格流暢。根據(jù)JBI工作室的說法,文本到語音系統(tǒng)可以在大約5分鐘內(nèi)將1萬字的內(nèi)容轉(zhuǎn)換成音頻文件,而語音人才需要大約8個小時才能完成同樣的操作。試想將視頻腳本本地化,輕松錄制成各種TTS聲音,而不是購買人才的時間和成本。
語言比比皆是。
除了英語,還有許多語言的TTS選項。各大電腦和手機操作系統(tǒng)都在一定程度上內(nèi)置了文字轉(zhuǎn)語音功能。Windows和谷歌有26種語言,而蘋果支持30種語言。Linguatec的語音閱讀器軟件有4個不同的版本,45種語音提供70多種語音語言。ISpeech提供30種不同語言的在線和云TTS解決方案,包括香港粵語和阿拉伯語,部分提供男女聲。
一些機器翻譯軟件也提供TTS——非常適合語言學(xué)習(xí)者。谷歌翻譯提供32種語言的文本到語音轉(zhuǎn)換。LEC的產(chǎn)品包括10種雙向語言對的TTS。PROMT的離線和在線翻譯移動應(yīng)用程序提供語音到文本和文本到語音的轉(zhuǎn)換。語言學(xué)家翻譯公司在線MT工具只支持12種語言,但是可以倒著翻譯,大聲朗讀。
有趣的是,看看iSpeech Obama和iSpeech Bush:應(yīng)用程序,它會說出你用總統(tǒng)的聲音輸入的任何東西。
好吧,但是它們聽起來像機器人嗎?
有人做到了,有人做不到,但是WarGames真正的機器人語音的日子已經(jīng)一去不復(fù)返了。Ivona的SpeechCloud是一個網(wǎng)絡(luò)服務(wù),提供23種語言的51種TTS。聲音聽起來很棒。
你好,我叫莎莉。我是伊芙娜的聲音之一...信用:IVONA軟件(亞馬遜公司)
事實上,當(dāng)我通過iSpeech和Linguatec的產(chǎn)品演示運行各種語言的文本時,我發(fā)現(xiàn)英語的聲音其實是最不穩(wěn)定的。其他語言也有更準確的發(fā)音和語調(diào)。
文本到語音技術(shù)似乎將自然聽覺內(nèi)容嵌入到我們生活的方方面面價格合理的多語言音頻解決方案進一步彌合了語言鴻溝。似乎未來會告訴我們。