宋吉峰,周智成,謝代鈺,陳新凌,張旻鈺
(廣西電網(wǎng)電力調(diào)度控制中心,廣西 南寧 530023)
廣西電網(wǎng)電力調(diào)度控制中心原來的電力調(diào)度自動(dòng)化系統(tǒng)主要依靠人為錄音實(shí)現(xiàn)語音報(bào)警功能,存在一定的局限性。因此,需調(diào)整和優(yōu)化能量管理系統(tǒng),利用語音合成技術(shù),實(shí)現(xiàn)電力調(diào)度自動(dòng)化系統(tǒng)語音報(bào)警功能,彌補(bǔ)人為錄制的缺陷。
語音技術(shù)可將輸入的語音轉(zhuǎn)換為語言代碼。轉(zhuǎn)換過程中,無論是傳輸效率還是存儲(chǔ)空間,都優(yōu)于直接傳輸和直接存儲(chǔ)。此外,語音技術(shù)可將連續(xù)語音信號(hào)轉(zhuǎn)換為有限符號(hào)集中代碼,便于工作人員理解和溝通。語音合成技術(shù)可廣泛應(yīng)用于多方面,如自動(dòng)口語翻譯、聲控及語音通信系統(tǒng)等。
(1)支持語種較多,包括英語、普通話及粵語等。
(2)合成音色眾多,可提供眾多發(fā)音人錄制的音庫,可為粵英混讀和中英混讀提供支持。不同音庫具有不同采樣率的音庫安裝包,主要有16kb/s、8kb/s、6kb/s及11kb/s等。
(3)語氣表現(xiàn)能力較強(qiáng)。系統(tǒng)引入感嘆、疑問及反問等語氣,可自動(dòng)識(shí)別當(dāng)前合成的句子的感嘆語氣和疑問語氣類型,增強(qiáng)了合成語音的表現(xiàn)力[1]。
(4)可處理數(shù)字、多種語音及英文字符串的合成,提升了數(shù)值和數(shù)字識(shí)別效果。同時(shí),讀法規(guī)則匹配度高、數(shù)值和數(shù)字朗讀準(zhǔn)確率高、發(fā)音圓潤豐滿以及節(jié)奏感較強(qiáng)。
(5)短語組詞效果明顯。系統(tǒng)依據(jù)短語合成特征,在音庫中增加了眾多短語語料,合成效果明顯。單音發(fā)音準(zhǔn)確率高,合成短語和句子較清晰,合成的句首單元和句末單元效果較自然。
(6)可將合成語音和背景音有機(jī)結(jié)合,使用戶在具體應(yīng)用中擁有更好的合成語音體驗(yàn)。加入MP3格式背景音樂的支持,擴(kuò)大了用戶對背景音樂的選擇范圍[2]。
(7)系統(tǒng)擁有批量處理預(yù)錄音的工具。此工具可對預(yù)錄音進(jìn)行有效的批量刪除、添加、格式變換、分解及合并。
(8)遠(yuǎn)程監(jiān)控圖形界面,管理網(wǎng)絡(luò)資源和語音合成服務(wù),并具備語音資源管理接口和多引擎管理接口。
與人工錄音相比,語音合成技術(shù)具有以下優(yōu)勢:
(1)系統(tǒng)的語音發(fā)音效果完整,且效果較統(tǒng)一;
(2)如果增加調(diào)度自動(dòng)化系統(tǒng)的容量,語音報(bào)警系統(tǒng)功能無需任何系統(tǒng)的語音維護(hù);
(3)語音報(bào)警準(zhǔn)確率較高,避免了人為錄制語音文件造成的失誤;
(4)升級(jí)便捷,即升級(jí)相應(yīng)系統(tǒng)只需升級(jí)語音合成系統(tǒng)的語音報(bào)警音庫;
(5)語音合成較迅速,幾乎無間歇和停頓。
報(bào)警服務(wù)器端具備的功能:可依據(jù)報(bào)警類型和報(bào)警等級(jí)進(jìn)行差異性設(shè)置,可取消原來的設(shè)置和報(bào)警次數(shù)的設(shè)置;可設(shè)置各種事項(xiàng)的報(bào)警和報(bào)警次數(shù),確認(rèn)報(bào)警事項(xiàng)的報(bào)警是否完成;可靈活選擇發(fā)音人;可調(diào)節(jié)音調(diào)和音速;設(shè)置時(shí)間、數(shù)字及字符的讀法[3]。
語音合成技術(shù)的語音報(bào)警系統(tǒng)可利用傳輸控制協(xié)議——客戶-服務(wù)器的方式實(shí)現(xiàn)語音報(bào)警。客戶端的微型計(jì)算機(jī)安裝TTS軟件,服務(wù)器端需在電力調(diào)度自動(dòng)化系統(tǒng)數(shù)據(jù)采集和監(jiān)控服務(wù)器上運(yùn)行。兩臺(tái)服務(wù)器可進(jìn)行服務(wù)器端的配置,實(shí)現(xiàn)雙機(jī)備用的功能。硬件把關(guān)器為客戶端提供支持,而一套軟件只具備一個(gè)硬件把關(guān)器,因此只能安裝在一臺(tái)微型計(jì)算機(jī)上[4]。
TTS軟件應(yīng)用于電力調(diào)度自動(dòng)化系統(tǒng),如圖1所示。兩個(gè)語音報(bào)警進(jìn)程都在SCADA系統(tǒng)上運(yùn)行,相互配合。

圖1 TTS軟件應(yīng)用于電力調(diào)度自動(dòng)化系統(tǒng)
第一,合成效率。合成效率是語音報(bào)警系統(tǒng)合成語音的投入與產(chǎn)出的比例。由于目前中英文之間合成效率差距較大,使用中英文的混合文本的合成效率作為平均效率。第二,占用內(nèi)存。測試程序,以確定系統(tǒng)占有的字符數(shù)。第三,響應(yīng)時(shí)間,即任務(wù)從執(zhí)行到完成的時(shí)間。第四,CUP占用,即測試程序CUP占用時(shí)間和系統(tǒng)中CPU占用時(shí)間的比值。第五,實(shí)時(shí)標(biāo)準(zhǔn),最長合成時(shí)間不大于3 s,平均合成時(shí)間不大于2 s[5]。
TTS軟件語音合成迅速,內(nèi)存約為205 MB。完成語音合成任務(wù)時(shí),CPU占用內(nèi)存為2%,平均合成時(shí)間控制在1 s內(nèi)。
由于傳統(tǒng)語音報(bào)警由人為操作錄制,錄制準(zhǔn)確率低、效果差。廣西電網(wǎng)電力調(diào)度控制中心更新電力調(diào)度自動(dòng)化系統(tǒng),利用語音合成技術(shù)開發(fā)語音報(bào)警系統(tǒng)。該系統(tǒng)運(yùn)行效率較高,語音效果統(tǒng)一、連續(xù),運(yùn)行效果明顯,且語音報(bào)警免維護(hù)[6]。
提升合成語音的自然度是轉(zhuǎn)換高性能文語的要求。雖然已基本解決了詞組和單字的自然度和理解度,但句子和整篇的自然度還存在較大問題。歸納韻律規(guī)則尤其是歸納連續(xù)語音韻律規(guī)則,用定性規(guī)則描述定量化,極大地影響合成語音的自然度。此外,處理前段文本也會(huì)影響合成語音的自然度,突破自然語言的理解,以促進(jìn)語音合成技術(shù)的良好發(fā)展[7]。
目前,國內(nèi)外大多依據(jù)文語轉(zhuǎn)換系統(tǒng)進(jìn)行語音合成研究,解決問題面較狹窄,不能滿足不同年齡段、不同語氣特征及情感的表現(xiàn)需求。隨著社會(huì)的不斷發(fā)展,人們對人機(jī)交互的要求越來越高,需豐富語音合成的表現(xiàn)力,增加音庫個(gè)數(shù)和容量。因此,需利用參數(shù)合成法分析參數(shù)特征,調(diào)整年齡、語調(diào)及語氣,使合成語音擁有更強(qiáng)的表現(xiàn)力。此外,需降低語音合成技術(shù)的難度。為促進(jìn)語音合成技術(shù)的廣泛應(yīng)用,需降低音庫容量。目前,合成語音的存儲(chǔ)容量能滿足工作站等硬件平臺(tái),但難以負(fù)擔(dān)商務(wù)通、無線通信手機(jī)等設(shè)備。
語音合成技術(shù)在電力調(diào)度自動(dòng)化系統(tǒng)中應(yīng)用效果較好。但是,隨著社會(huì)的不斷發(fā)展,語音合成技術(shù)還需不斷進(jìn)步,尤其是在語音的自然度、表現(xiàn)力及難度等方面。