語音技術(shù)方式講可分為波形編輯合成、參數(shù)分析合成以及規(guī)則合成等三種。
波形編輯合成,這種合成方式以語句、短語、詞或音節(jié)為合成單元,這些單元被分別錄音后直接進行數(shù)字編碼,經(jīng)適當(dāng)?shù)臄?shù)據(jù)壓縮,組成一個合成語音庫.重放時,根據(jù)待輸出的信息,在語料庫中取出相應(yīng)單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出語音.這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統(tǒng)結(jié)構(gòu)簡單,價格低廉,但合成語音的數(shù)碼率較大,存儲量也大,因而合成詞匯量有限。
參數(shù)分析合成,這種合成方式多以音節(jié)、半音節(jié)或音素為合成單元.首先,按照語音理論,對所有合成單元的語音進行分析,提取有關(guān)語音參數(shù),這些參數(shù)經(jīng)編碼后組成一個合成語音庫;輸出時,根據(jù)待合成的語音的信息,從語音庫中取出相應(yīng)的合成參數(shù),經(jīng)編輯和連接,順序送入語音合成器.在合成器中,通過合成參數(shù)的控制,將語音波形重新還原出來。
規(guī)則合成,這種合成方式通過語音學(xué)規(guī)則來產(chǎn)生目標(biāo)語音.規(guī)則合成系統(tǒng)存儲的是較小的語音單位(如音素、雙音素、半音節(jié)或音節(jié))的聲學(xué)參數(shù),以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)則.當(dāng)輸入字母符號時,合成系統(tǒng)利用規(guī)則自動地將它們轉(zhuǎn)換成連續(xù)的語音波形.由于語音中存在協(xié)同發(fā)音效應(yīng),單獨存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以,合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效應(yīng)后,歸納其規(guī)律而制定的如共振峰頻率規(guī)則、時長規(guī)則、聲調(diào)和語調(diào)規(guī)則等.由于語句中的輕重音,還要歸納出語音減縮規(guī)則。
1. 提高合成語音的自然度
提高合成語音的自然度仍然是高性能文語轉(zhuǎn)換的當(dāng)務(wù)之急.就漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大. -----基于語音數(shù)據(jù)庫的語音合成方法有望進一步提高語音合成的自然度. 因為這是一種采用自然語音波形直接拼接的方法,進行拼接的語音單元是從一個預(yù)先錄下的自然語音數(shù)據(jù)庫中挑選出來的,因此有可能最大限度地保留語音的自然度.但由此產(chǎn)生了一系列新的需要研究的問題,包括:如何確定語音合成的基元,根據(jù)什么準(zhǔn)則去挑選合適的基元;韻律參數(shù)定量化問題,對數(shù)據(jù)庫進行定標(biāo)問題;以及如何將統(tǒng)計的方法和規(guī)則方法相結(jié)合使機器能自動發(fā)現(xiàn)和找出所需的語音單元,保證最高的合成語句自然度等等. -----無論用哪種合成方法,韻律規(guī)則的總結(jié),特別是連續(xù)語音的韻律規(guī)則總結(jié),盡可能將定性的規(guī)則描述定量化,對自然度始終有最重要的影響.還有前端文本處理, 對合成語音的自然度也具有舉足輕重的影響, 完整全面的解決, 需要自然語言理解的突破。
2 豐富合成語音的表現(xiàn)力