李 超
(1.東南大學 國家專用集成電路系統工程技術研究中心,江蘇 南京 210096;2.南京郵電大學 計算機軟件學院,江蘇 南京 210046)
聲音識別傳感器設計與應用*
李 超1,2
(1.東南大學 國家專用集成電路系統工程技術研究中心,江蘇 南京 210096;2.南京郵電大學 計算機軟件學院,江蘇 南京 210046)
對聲音識別技術進行了深入研究,提出一種聲音識別傳感器設計。該傳感器首先采集聲音信號,經過整形、放大后進行A/D轉換,提取語音特征,并利用動態時間規整(DTW)算法進行識別;傳感器采用C/S架構和外部設備進行通信,通過串口接收外部設備命令,分析處理后傳回識別結果。最后設計并實現智能家居硬件環境,通過聲音識別傳感器完成智能家居的遠程遙控,完成諸如開燈、關燈等動作。實驗結果表明:該傳感器工作穩定,識別率高,能夠應用于各種場合。
嵌入式系統; 智能家居; 聲音識別傳感器
隨著傳感器計算的快速發展,其在智能家居[1,2]中的應用日益廣泛。聲控裝置是智能家居設備中重要組成部分,用戶可以通過聲音進行家庭設備控制。聲音識別研究開始于20世紀50年代,BELL實驗室開發了世界上第一個語音識別系統—Audry系統,可以識別10個英文數字。到20世紀70年代,聲音識別技術得到快速發展,動態時間規整 (DTW) 算法、矢量量化(VQ)以及隱馬爾科夫模型(HMM)理論等相繼被提出,實現了基于DTW技術的特定人孤立語音識別系統。近年來,聲音識別技術已經從實驗室走向實用,國內外很多公司都利用聲音識別技術開發出相應產品。
本文設計聲音識別傳感器,并將其融入到智能家居系統中,通過聲音控制傳感器來完成智能家居設備的控制,達到遠程遙控家電設備的目的。
聲音識別傳感器設計包括硬件設計和軟件設計兩個部分,其中軟件設計部分的核心是聲音識別算法實現。聲音識別算法包括前端處理和后端匹配兩個部分[3,4],如圖1所示。前端處理包括預處理和特征提取,常用的特征包括短時均值能量、短時均值過零率、預測系數、倒譜、共振峰等。這些特征參數按照時間序列構成待測數據集,然后按照特定算法要求同參考模式進行匹配得到結果。目前比較多的模型匹配技術有DTW[5]、HMM和人工神經網絡(ANN)等[6~8],本文以DTW算法為原型基礎編程實現。

圖1 聲音識別系統原理框圖Fig 1 Principle block diagram of voice recognition system
DTW算法基于動態規劃思想,能夠解決發音長短不一的模板匹配問題,主要用于孤立詞識別,是語音識別中出現較早而且極為經典的一種算法。聲音識別參考模板為R={R(1),R(2),…,R(m),…,R(M)},其中,m為訓練語音幀的時序標號,R(1)為起點語音幀,R(M)為終點語音幀;聲音識別測試模板為T={T(1),T(2),…,T(n),…,T(N)},n為測試語音幀的時序標號,T(1)為起點語音幀,T(N)為終點語音幀。測量T,R的距離D[T,R],距離越小,則相似度越高。DTW算法實現過程如下:
1)初始化,申請2個n×m的距陣D和d,分別為累積距離和幀匹配距離;
2)判斷是否滿足結束條件,若滿足跳轉到第5步;
3)計算X1=round((2M-N)/3))和X2=round((2N-M)×2/3);
4)根據X1和X2關系進行匹配計算;
5)輸出累積距離D。
本文采用聲音采集傳感器、STM公司的STM32F103VCT6作為主要器件來設計聲音識別傳感器,系統構成如圖2所示。系統由聲音采集傳感器模塊、電源模塊、串口通信模塊、聲音識別結果顯示模塊以及其它輔助電路組成。

圖2 聲音識別傳感器框圖Fig 2 Block diagram of voice recognition sensor
3.1 聲音采集傳感器
設計的聲音采集傳感器內置一個對聲音較敏感的電容式駐極體話筒,當有聲波時,聲波推動話筒內的駐極體薄膜振動,導致電容的變化,從而產生微小電壓信號。電壓信號經過整形放大后送到A/D模塊進行A/D轉換,得到采集聲音所對應的數字信息,交由處理器進行處理識別。設計的聲音采集傳感器性能指標為:測量范圍為30~120 dB(A);頻率范圍為20 Hz~8 kHz;靈敏度為電壓41.5 mV/dB,電流為0.133 mA/dB;最大誤差為0.5 dB。
3.2 核心處理器與外圍電路設計
本文采用STM32F103VCT6為核心處理器,該處理器為ARM 32的Cortex-M3核,最高工作頻率可達72 MHz,性能達到1.25DMips/MHz,內部集成FLASH和RAM,并且有3個12位A/D轉換器。該處理器功耗低,接口豐富,具有BSP庫,易于快速產品開發和設計。
核心處理器外圍接口電路包括電源模塊、晶振模塊、控制和顯示模塊、聲音采集模塊等。電源模塊采用5 V直流電壓輸入;晶振模塊使用8 MHz晶振和32.768 kHz晶振直接連接到處理器相應端口;控制和顯示電路通過GPIO口和處理器進行互連;聲音采集模塊通過AD口連接到處理器。
3.3 通信模塊電路設計
聲音傳感器和外部器件采用C/S結構,通過串口和外部器件相連。外部器件通過串口發送命令,聲音傳感器通過串口接收命令后進行解析、執行,并把結果反饋給外部器件。圖3顯示了聲音傳感器和PC通信過程。

圖3 聲音識別傳感器C/S通信Fig 3 C/S communication of voice recognition sensor
由于外部器件串口電平多為RS—232電平,而聲音識別傳感器的處理器串口電平為TTL電平,因此,聲音識別傳感器內部采用MAX3232芯片進行電平轉換。
3.4 軟件編程與實現
聲音識別傳感器軟件編程主要包括三部分:語音采集、訓練和識別,詳細步驟如圖4所示。
1)語音采集模塊:采集語音,并保存為“.wav”文件;
2)訓練模塊:對錄入的語音進行預處理和Mel倒譜系數提取,形成語音模板并保存到指定文件中;
3)識別模塊:對待測語音進行預處理和Mel倒譜系數提取,然后與保存的模板進行匹配,并把識別結果顯示出來。

圖4 語音識別模塊軟件設計流程Fig 4 Software design process of phonetic recognition module
4.1 測試環境搭建
本文為測試聲音識別傳感器性能,搭建智能家居遠程聲控系統應用環境,如圖5所示。測試系統包括聲音識別傳感器、Zig Bee無線傳輸網絡以及家用電器控制平臺。實驗前假設用戶聲音特征信息已經存儲在聲音識別傳感器模塊中。實驗步驟為:1)用戶利用聲音識別傳感器采集語音,進行語音識別;2)識別結果通過串口(UART)向無線家庭網絡的協調器(coordinator)發送交互指令;3)識別結果最終到達家用電器控制平臺,平臺按照識別結果內容發出控制指令。

圖5 智能家居系統體系結構Fig 5 Architecture of smart home system
4.2 測試結果與分析
對于智能家居遠程聲控系統,最重要的就是在某些條件下保證系統的語音識別率、穩定性和響應時間。在安靜的環境和較為嘈雜的環境下,本文分別對該系統進行了不同語音命令的識別率實驗和系統穩定性實驗。
針對同一模板,讓特定人與非特定人分別對系統進行測試,對每條語音控制命令分別進行10次測試,每組的總實驗次數為40次。表1是在安靜環境下系統的語音識別率;表2是在一般噪音環境下系統的語音識別率。

表1 安靜環境下系統的語音識別率Tab 1 Rate of voice recognition in quiet environments

表2 一般噪音環境下系統的語音識別率Tab 2 Rate of voice recognition in noise environments
實驗中的一般噪聲指在正常生活情況下的聲音環境,沒有特別刺耳或尖銳的噪聲,如火車或汽車喇叭聲、人受驚嚇時的尖叫聲等。特定人指測試語音與訓練語音為同一個人發出,訓練模板為男生語音在安靜環境下經訓練而得到的;非特定人指測試語音與訓練語音由不同的人發出,測試中非特定人A和非特定人B為男生,非特定人C為女生。
由表中數據可得,在安靜環境下,特定人的識別率達到了97 %以上,非特定人A和B的識別率達到了85 %以上,完全可以滿足智能家居的語音控制要求;因選用男聲為模板,所以,對女聲的識別率有所下降。訓練樣本時是在安靜環境下進行的,因此,在噪聲環境下相應的識別率也均有所下降,如表2所示,此時需要在噪聲環境下重新訓練語音樣本,以提高系統識別時的抗噪能力。
在安靜環境下系統的穩定性比較好,一般的語音命令發出1~2遍系統就可以做出正確的響應;而在噪聲環境下,系統的穩定性有所下降,有的語音需要重復多遍才能被系統準確識別。
本文先從理論上研究了語音識別技術,并在此基礎上根據需求設計了語音識別傳感器。傳感器采集語音信息并進行識別處理,并通過串口返回識別結果。本文利用聲音識別傳感器設計了一種智能家居遠程聲控測試系統,實驗結果表明:聲音識別傳感器性能穩定,識別率高。
目前系統的語音識別功能,識別語句長度較短,數量有限,因此,可以進一步優化語音識別算法,改善硬件電路,增加語句長度,實現復雜語句的語音命令識別。
可進一步完善基于Zig Bee技術的智能家居系統,可以使用手機的3G功能遠程傳輸命令,充分利用網絡技術,使家庭內每一個家用電器都能通過無線設備形成獨立網絡,并和因特網相連,從而在真正意義上實現家居的網絡化和智能化。
[1] 夏漢廣.基于網絡的智能家居系統的研究與應用[D].廣州:廣東工業大學.2005:5-8.
[2] 耿 佳,李 耀,章 磊.一種智能家居監控系統的設計[J].微計算機信息,2009(17):190-192.
[3] 馬 俊.語音識別技術研究[D].哈爾濱: 哈爾濱工業大學,2004.
[4] Rabiner L,Juang B H.Fundamentals of speech recognition[M].Beijing:The Machinery and Industry Press,1999.
[5] 劉長明,任一峰.語音識別中DTW特征匹配的改進算法研究[J].中北人學學報:自然科學版,2006,27(1):37-40.
[6] 張仁志,崔慧娟. 基于短時能量的語音端點檢測算法研究[J].電聲技術,2005(7):52-54,59.
[7] 王志強.孤立詞語語音識別系統關鍵問題的研究[D].北京:北京郵電大學,2006.
[8] 肖江南.漢語孤立詞識別系統開發與研究[D].桂林:廣西師范大學,2004.
Design and application of voice recognition sensor*
LI Chao1,2
(1.National ASIC System Engineering Research Center,Southeast University,Nanjing 210096,China;2.College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210046,China)
Voice recognition technology is deeply studied and a design of voice recognition sensor is proposed.The sensor aquires voice signal firstly,through shaping,amplification and A/D conversion,extract phonetic feature and use DTW algorithm to identify.The sensor uses C/S architecture to communicate with external devices,receives external device command via serial port,analyzes,processes and returns recognition results.Finally,hardware design for intelligent home environment is accomplished to complete remote control of intelligent home such as turning on/off the lights and other activities,through voice recognition sensor.Experimental results show that the sensor is stable,and has high recognition rate,which can be applied to a variety of occasions.
embedded system; intelligent home; voice recognition sensor
10.13873/J.1000—9787(2014)12—0051—03
2014—09—09
國家“863”高技術研究發展計劃資助項目(2009AA011700); 國家自然科學基金青年基金資助項目(61302158);江蘇省自然科學基金資助項目(BK20130869)
TP 212.1
A
1000—9787(2014)12—0051—03
李 超(1975-),男,安徽懷遠人,博士研究生,副教授,主要研究方向為嵌入式系統、信息安全。