999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別在船用三維羅經仿真系統中的應用

2018-03-01 02:47:04,,
船海工程 2018年1期
關鍵詞:指令信號模型

,,

(大連海事大學 航海動態仿真和控制交通行業重點實驗室,遼寧 大連 116026)

陀螺羅經是船舶定位和導航系統的重要設備,由于其價格昂貴,在教學培訓中采用真機操作成本較高。航海仿真系統作為航海教育裝備的重要組成部分,在船員培訓及日常教學中的作用日益突出[1]。為此,大連海事大學基于虛擬現實技術開發了三維SPERRY MK37型陀螺羅經仿真系統,該系統可模擬實驗室和實船兩種環境,實現了部件識別、拆裝等功能[2]。雖然三維仿真系統具有很好的環境真實感,但是由于多種三維場景的加入使得系統的復雜程度提高,同時該仿真系統的交互采用傳統的鼠標及鍵盤方式,而在教學培訓中,面向用戶多為不熟悉該設備的人員,在虛擬環境中通過鼠標鍵盤操作漫游到部件位置進行交互操作比較困難,這使得本來具有良好沉浸感的羅經仿真系統操作起來比較繁瑣,在一定程度上影響了用戶的使用。

近年來語音識別技術在智能家居的語音控制系統和車載語音識別系統等很多領域獲得應用[3- 6]。語音控制是人類最自然的溝通方式,但是在船舶及航海仿真領域卻鮮有耳聞。通過語音交互簡化仿真系統的操作,用戶只需發出交互指令就可以操控羅經仿真系統,使該仿真系統的交互變得更加便捷,從而提升用戶體驗效果。因此,考慮以現有的三維SPERRY MK37型陀螺羅經仿真系統為基礎,通過研究語音信號預處理、特征提取及語音識別解碼的關鍵技術,設計羅經仿真系統的語音交互功能。

1 語音識別關鍵技術

語音識別本質上是一種模式識別系統,主要包括特征提取、模式匹配和參考模式庫等3個基本單元,其核心是構造語音特征矢量序列和模型參考字符序列之間的映射關系。語音識別的主要類型有特定人語音識別、非特定人語音識別、孤立詞語音識別及連續語音識別。其中,孤立詞識別主要采用動態時間規整(dynamic time warping, DTW)解決參考模板的特征矢量序列和輸入語音特征矢量序列之間長短不一的匹配問題[7];隱馬爾科夫模型(hidden markov models, HMM)作為孤立詞識別和連續語音識別中建立聲學模型的一種技術,具有多年的應用歷史,是語音識別中的基礎算法[8];與此同時,在當前對大詞匯量連續語音識別需求環境下,深度學習成為研究熱點,以深度神經網絡(deep neural network, DNN)及卷積神經網絡(convolutional neural network, CNN)為代表的研究方法在大詞匯量連續語音識別中取得了很好的應用效果[9- 10]。基于模式匹配的語音識別系統構成見圖1。

圖1 語音識別系統構成

1.1 語音信號預處理

語音識別信號預處理階段主要是對語音信號在時域中進行處理,預處理主要包括信號預加重和加窗分幀操作。由于語音信號低頻部分能量大,高頻段信號能量小,輸出噪聲的功率譜密度隨頻率的平方增加,因此信號的低頻信噪比很大,高頻部分信噪比不足,導致傳輸困難。可對語音的高頻部分實施加重,提高高頻信號的分辨率,從而提升信號的傳輸質量。

假設語音信號在短時內(10~30 ms)是平穩的。通過對語音信號實施加窗操作,窗函數在語音信號上滑動,將語音信號分幀,獲得短時平穩信號。目前語音信號處理中主要的窗函數有矩形窗、漢明(Hamming)窗及漢寧(Hanning)窗,一般漢明窗應用較多,本文采用此窗函數對語音信號進行平滑處理,漢明窗函數如下。

(1)

式中:n為窗口長度[11]。觀察語音信號的時域波形是直觀的分析方式,圖3所示為羅經控制命令短語“master compass”在時域中的語音波形。

圖2 “Master compass”信號時域波形

1.2 語音信號的特征提取

在時域分析中語音信號表現為幅度隨時間變化的函數,波形為同一時刻信號效果的疊加,雖然能直觀地觀測到語音信號波形的變化,但直接對時域信號進行處理卻比較困難,需要在頻域上進行矢量化操作提取語音信號的特征。特征參數的選取直接影響語音識別的質量,目前常見的特征參數提取方法有線性預測倒譜系數(LPCC)法和梅爾頻率倒譜系數(MFCC)法。(MFCC)法將語音的產生機制與人耳的聽覺感知特性相結合,是語音識別中應用廣泛且有效的特征提取方法。本文的特征提取也采用該方法。

由于人耳的聽覺是一個非線性的系統,對聲音的敏感度和聲音音頻不成比例,梅爾頻率在1 000 Hz以下趨于線性分布,1 000 Hz以上趨于對數分布,且梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,比其他的對數倒譜的頻帶更接近人類的聽覺系統。因此,MFCC可以解決頻率分布不一致的問題,梅爾頻率與線性頻率的轉換關系為

Mel(f)=2 595lg(1+f/700)

(2)

式中:Mel(f)表示梅爾頻率;f為線性頻率。MFCC參數計算主要包括分幀和濾波器分析兩個階段,其計算流程如圖4所示。

圖3 MFCC參數計算流程

計算MFCC過程中,在濾波器組分析之前需要將時域信號轉變為頻域信號,基于離散傅里葉變換的基礎,通過快速傅里葉變換實現轉化。取N為200,采用快速傅里葉變換將羅經控制命令短語“Master compass”的時域信號轉化成頻域信號,得到語音信號的頻譜,如圖5所示。

圖4 “Master compass”信號頻譜

經過快速傅里葉變換得到的頻域信號,通過Mel濾波器組進行濾波轉換得到梅爾頻率。在離散余弦變換之前,對所有濾波器輸出做對數運算,然后做離散余弦變換,最終得到MFCC,具體過程如下。

i=1,2,…,L

(3)

式中:s(m)為第m個濾波器的輸出;L為MFCC的階數,本文采用kaldi語音識別工具對訓練音頻數據進行特征提取,L=13,即MFCC為13維的特征矩陣。圖6所示為“master compass”音頻經過特征提取得到的部分MFCC特征矩陣。

圖5 “Master compass” 部分MFCC特征矩陣

1.3 識別解碼

聲學模型和語言模型是影響識別解碼質量的關鍵,聲學模型通過大量音頻語料進行模型訓練得到;基于統計的語言模型通過海量文本語料根據統計規則訓練而成,具有代表性的為N- Gram統計語言模型。羅經仿真系統交互指令為英文短語,語言復雜程度較小,選取音素為聲學模型建模單元,采用2- Gram統計語言模型進行語言模型的建模。在解碼識別階段由聲學模型解碼得到音素,音素在詞典中的隨機匹配過程得出單詞,再通過統計語言模型進行詞組搜索運算,得到概率最大的路徑即為短語指令識別結果,最終完成解碼識別過程。識別解碼過程如圖6所示。

圖6 語音識別解碼過程

2 語音識別功能的實現

采用Speech SDK5.1進行船用三維羅經仿真系統語音交互功能的二次開發。該資源包應用層包含語音識別和語音合成程序。語音識別(SR)由語音識別引擎負責管理,語音合成引擎負責控制語音合成(TTS)程序,同時語音應用程序接口(SAPI)和設備驅動接口(DDI)用于語音技術開發,Speech SDK5.1結構見圖7。

圖7 Speech SDK 5.1結構

2.1 語音交互功能設計

語音應用程序接口提供兩種語法規則識別類型:一種是聽寫型(dictation),該類型使用引擎中的海量文本,識別速度慢且識別率較低;另一種為命令控制型(command and control),該類型通過在開發時定義識別語法規則,使識別引擎減小搜索量,從而提高識別效率。通過前文識別解碼的研究得知,如果解碼網絡過大,搜索概率最大路徑所耗費資源較大,從而影響識別解碼的質量。考慮到羅經設備的控制命令多為固定短語,且數量有限,本文采用命令控制型語法規則,在語法規則中定義了船用三維羅經的待識別指令,縮減解碼的范圍,共39條操作命令(例如“Power on” “Hold on”,“Electronic control box”等)。語音交互功能開發流程如下:①初始化COM端口;②創建識別引擎及上下文接口;③設置識別消息及興趣事件(對識別內容進行反饋,做出相應的操作);④創建語法規則為命令控制型;⑤獲取識別消息進行交互處理。三維羅經仿真系統語音交互流程如圖8所示。

圖8 三維羅經仿真系統語音交互流程

2.2 應用效果及結果分析

在實驗室安靜的環境中,對船用三維羅經仿真系統中的語音交互功能進行測試,系統平臺為Windows8.1,音頻采集設備為Edifier- K800頭戴式麥克風。操作者給出羅經交互命令,識別結果顯示在主界面上,如命令識別正確則確認,語音合成系統復述正確命令,然后仿真系統進行相應的操作;反之如果命令識別錯誤,則取消,同時語音合成系統發音提示再次給出命令,語音交互實現如圖9所示。

圖9 三維羅經仿真系統語音交互操作

在三維羅經仿真系統中,對15人進行了語音交互測試,每人隨機給出30個待識別指令,其部分識別結果統計見表1。

由表1可見,該仿真系統語音交互功能具有較高的識別率,基本能滿足三維羅經仿真系統交互需求。其中“Power on”指令和“Hold on”指令識別率較低,且在測試中當測試人發出“Power on”指令時,容易被混淆識別為“Hold on”,導致該指令統計識別率降低。通過分析上述兩指令信號的時域波形圖與頻域頻譜圖,發現兩者較為相似,如圖11所示,這是兩個指令識別率較低的原故。因此,在語法規則中,添加交互功能相同與“Power on”的交互指令“Switch on”,當用戶發出交互指令“Power on”控制羅經系統電源箱開機容易發生誤識別時,可以選擇“Switch on”指令進行開機操作來避免與“Hold on”發生混淆識別,進而提高語音交互的準確度。

表1 語音交互識別率部分統計結果

圖10 “Power on”和“Hold on”波形及頻譜

3 結論

在已有的船用三維羅經仿真系統的基礎上,應用語音識別技術實現仿真系統的語音交互功能。通過測試結果可以得該仿真系統語音交互功能具有較高的識別率,基本可以滿足用語音控制三維羅經仿真系統的要求,使羅經仿真系統在具有良好沉浸感的同時方便用戶操作,提升了用戶的體驗效果,對于語音識別技術應用于其他航海仿真系統具有借鑒作用。同時,在三維航海仿真系統中通過將語音識別技術與虛擬現實技術相結合,對航海仿真系統的智能化發展具有促進意義。在后續的研究中,信號相似度較高的語音指令容易誤識別的問題亟需解決,同時需要研究如何在模擬器噪聲環境下提高語音識別的識別率,擴大語音識別在航海模擬器領域的識別范圍,使得語音交互可以準確無誤的操作其他航海仿真設備。

[1] 金一丞,尹勇. STCW公約馬尼拉修正案下的航海模擬器發展戰略[J].中國航海,2012,35(3):5- 10.

[2] 劉晶晶,任鴻翔,尹金崗,等.多平臺的船用陀螺羅經交互仿真系統[J].大連海事大學學報,2016,42(1):17- 20.

[3] KUMAR P S, SURAJ S, SUBRAMANIAN R V, et al. Voice operated micro air vehicle[J]. International journal of micro air vehicles,2014,6(2):129- 137.

[4] PAI N, CHEN S, CHEN P, et al. Application of HMM- based chinese speech recognition on internet of things for smart home systems[J]. ICIC express letters, part B: applications,2016,7(9):1901- 1909.

[5] 張鳳軍,戴國忠,彭曉蘭.虛擬現實的人機交互綜述[J].中國科學:信息科學,2016,46(12):1711- 1736.

[6] 金一丞,尹勇.航海模擬器[M].北京:科學出版社,2013.

[7] MYERS C S, RABINER L R, ROSENBERG A E. Performance trade- offs in dynamic time warping algorithms for isolated word recognition[J]. IEEE transactions on acoustics speech & signal processing,1979,28(6):623- 635.

[8] ZARROUK E, BEN AYED Y, GARGOURI F. Hybird continuous speech recognition systems by HMM, MLP, and SVM: a comparative study[J]. International journal of speech Technology,2014,17(3):223- 233.

[9] MAAS A L, QI P, XIE Z, et al. Building DNN acoustic models for large vocabulary speech recognition[J]. computer speech & language,2016,41(C):195- 213.

[10] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]: IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE,2013:8614- 8618.

[11] 張雪英.數字語音處理及Matlab仿真[M].北京:電子工業出版社,2010.

[12] KUMAR Y R, BABU A V, KUMAR K A N, et al. Modified Viterbi decoder for HMM based speech recognition system[C]∥ International Conference on Control, Instrumentation, Communication and Computational Technologies. IEEE,2014:470- 474.

猜你喜歡
指令信號模型
一半模型
聽我指令:大催眠術
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
ARINC661顯控指令快速驗證方法
測控技術(2018年5期)2018-12-09 09:04:26
LED照明產品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
主站蜘蛛池模板: 成人一级黄色毛片| 天堂中文在线资源| 欧美色视频在线| 国产噜噜在线视频观看| 色综合中文| 国产精品无码一区二区桃花视频| 91九色国产在线| 无码AV动漫| 1024你懂的国产精品| 欧美福利在线| 91在线一9|永久视频在线| 国产91精品久久| 91福利在线观看视频| 亚洲欧美一区二区三区图片| 久久国产精品嫖妓| 国产国拍精品视频免费看| 三区在线视频| 99热亚洲精品6码| 久久久久人妻精品一区三寸蜜桃| 日本不卡视频在线| 精品视频在线一区| 日本成人福利视频| AV在线麻免费观看网站 | 超碰精品无码一区二区| 亚洲天堂成人在线观看| 99这里只有精品在线| 国产激爽大片在线播放| 人妻91无码色偷偷色噜噜噜| 青青国产视频| 亚洲Av激情网五月天| 欧美v在线| 欧美日韩理论| 午夜电影在线观看国产1区| 国产精品高清国产三级囯产AV| 永久免费精品视频| 亚洲人精品亚洲人成在线| 美女无遮挡拍拍拍免费视频| 亚洲V日韩V无码一区二区 | 国产v欧美v日韩v综合精品| 国产福利不卡视频| 欧美日韩国产综合视频在线观看| 日本一本在线视频| 尤物成AV人片在线观看| 99久久精品国产自免费| 国产成人盗摄精品| 国产精品网址你懂的| 亚洲天堂视频在线免费观看| 久久久久久午夜精品| 国产原创演绎剧情有字幕的| 亚洲91在线精品| 熟妇人妻无乱码中文字幕真矢织江| 国产9191精品免费观看| 一区二区三区在线不卡免费 | 精品久久久久久久久久久| 国产精品亚洲片在线va| 狠狠色狠狠色综合久久第一次| 波多野结衣一区二区三区四区| 在线99视频| 麻豆AV网站免费进入| 欧美色图久久| 国产69精品久久久久孕妇大杂乱 | 国产福利在线免费| 欧美高清视频一区二区三区| 国产99视频精品免费观看9e| 免费无码又爽又黄又刺激网站| 久久久久青草大香线综合精品 | 国产成年无码AⅤ片在线| www亚洲天堂| 欧美成人午夜在线全部免费| 成人在线欧美| 精久久久久无码区中文字幕| 日韩毛片视频| 国产精品一老牛影视频| 2021国产乱人伦在线播放| 成人午夜免费观看| 日韩人妻无码制服丝袜视频| 色欲综合久久中文字幕网| 777国产精品永久免费观看| 日韩国产综合精选| 免费看美女自慰的网站| 日韩在线第三页| 国产国产人成免费视频77777|