智能家居在線語音識別技術

2019-04-16 09:55:20呂從強

科學與技術 2019年16期

呂從強

摘要：針對智能家居而言，它是一個非常典型的的3C系統，將計算機以及通信等集為一體。通過各種技術的應用連接家庭智能設備，主要包括網絡傳輸技術、音視頻技術、信息處理技術等，利用效率極高的管理系統對全部設備進行統一管控。根據人類交流的實際情況來看，最為直接的一種方式為語言交流。當應用智能家居的時候，有機結合語音識別技術和控制技術，這是現在一個熱門話題。隨著智能手機的應運而生，不斷促進語音識別技術發展。專用語音識別芯片在傳統智能家居系統中主要被用來管控智能設備，目前所研究出的語音識別產品通常將互聯網作為重要依靠。為使硬件資源得到有效節約，并且改進與完善互聯網存在的問題和缺陷，本文探究了智能家居中在線語音識別技術的應用。

關鍵詞：智能家居；在線；語音識別技術

引言：

隨著社會的發展和科學技術的進步，廣大群眾的生活水平不斷提升，在日常生活中越來越頻繁地與機器進行交流。家庭是人們生活中最頻繁和最直接的互動形式，各種家用電器已融入人們的生活。隨著生活節奏的加快，人們更傾向于與家庭智能互動而不是傳統的家用機器按鈕，從而創造了智能家居的概念。語言是人與人之間最自然、最直接的交流方式。隨著軟硬件的快速發展和各種模型的改進，語音識別技術正變得越來越成熟。

一、語音識別與智能家居

在智能家居市場不斷發展的過程中，充分結合智能家居和語音，在此基礎上互聯網巨頭進入到智能家居行業中。日益加大Apple HomeKit智能家居平臺和Siri的整合強度。再如微軟，對Cortana這一語音助手進行發布，突出其在智能家居行業中的重要地位，使其成為互動門戶。由眾多互聯網行業巨頭向語音領域加大投入能夠看出，目前智能家居與在線語音的融合已經成為一種必然趨勢。在今后的智能家居設備中，語音這種人類最直接與方便的交流方式占據著舉足輕重的地位[1]。

1.語音識別技術

語音識別技術還可被稱之為自動語音識別，也就是ASR，該技術主要服務于人類，主要目的是轉化存在于我們語音之中詞匯，使其成為計算機能夠讀寫的輸入。相較于說話者識別及其確認，存在較大差異，通常所識別和確認的是說話者，并非蘊含其中的詞匯內容。將語音識別技術結合機器翻譯等處理技術，能夠組建成復雜度更高的應用程序[2]。隨著語音識別技術的不斷發展，目前已經在計算機的多種處理技術中占據至關重要的地位，成為一項關鍵技術。

2.語音識別算法

目前，代表性語音識別方法主要包括動態時間規整技術、隱馬爾可夫模型、矢量量化、人工神經網絡、支持向量機、獨立分量分析等方法。

動態時間扭曲（DTW）是一種簡單有效的非特定人員語音識別方法。解決了具有不同發音長度的模板匹配問題，這是語音識別技術中早期且更常用的算法。

隱馬爾可夫模型（HMM）是語音信號處理中的統計模型。由于模式庫是通過重復訓練形成的最佳模型參數，并且具有與訓練輸出信號一致的高概率，代替預先存儲的模式樣本，并且在識別過程期間，將與要識別的語音序列和 HMM參數之間的最大似然比相對應的最佳狀態序列用作識別輸出，因此是較理想的語音識別模型。

矢量量化是信號壓縮的重要方法。與HMM相比，矢量量化主要應用于孤立詞匯的小詞匯量和詞匯量。

人工神經網絡（ANN）本質上是一種模擬人類神經活動原理的自適應非線性動力學系統。憑借其適應性、并行性、容錯性和學習特性，其強大的分類和輸入輸出功能在語音識別中具有吸引力。

支持向量機是一種應用統計理論的新型學習機模型。支持向量機因其良好的理論基礎而被廣泛應用于各個領域。近年來，已經進行了許多研究以使用支持向量機對揚聲器進行建模[3]。

二、基于 NL6621 嵌入式硬件設計

用于語音識別的硬件平臺主要包括中央處理單元NL6621、可讀寫存儲器、聲卡芯片vs1003以及一些外圍設備。MCU采用的最高主頻為160 MHz，支持802.llb/g/n/i/e/p和Wi- Fidirect、BSSSTA、軟AP、Wi-Fi保護設置以及WMM-PS和WPA/WPA2安全協議。編解碼器芯片是vs1003它與核心控制器NL6621的數據通信是通過SPI總線執行的。它集成了麥克風輸入、音頻輸出和IMA ADPCM編碼，用于麥克風輸入或線路輸入，以便有效接收和播放音頻信息。

三、基于 NL6621 嵌入式軟件設計

軟件設計主要包括兩部分：軟件控制嵌入式系統和基于HMM技術的語音識別算法。主要使用NL6621提供的軟件開發套件，使用SDK編寫應用程序，包括硬件引腳初始化、波特率匹配、錄制文件配置、Wi- Fi配置、錄制、音頻文件格式轉換，編程需要使用編程工具進行編程。系統然后開始工作，通過語音輸入設備MIC收集語音，并通過聲卡VS1003輸入語音。

四、智能家居中在線語音識別技術的應用

1.在智能電視中的應用

該應用包括語音輸入、處理和執行三個部分。第一種是語音輸入，可以通過遙控器、智能電視的內置麥克風或相應的移動應用程序完成。但是，使用移動應用程序需要用戶將移動電話和電視放在同一網段上，并通過WiFi傳輸語音數據。用戶可以通過告知他們的需求來實現智能電視操作，例如更換頻道、瀏覽網頁或打開下載的應用程序。第二是處理語言信號。首先，通過網絡，在特征提取和降噪處理之后，語音信號被發送到網絡識別客戶端。然后，網絡識別客戶端將其發送到智能電視以執行命令。第二是在本地識別。最后，在語音識別引擎處理語音信號之后，執行用戶命令將命令發送到相應的接口，以實現相應的功能模塊。

2.在空調方面的應用

目前，由于家中的空調大多數沒有連接到網絡，因此語音信號的識別通常在本地進行，所以不能通過網絡進行語音輸入。那么，用戶只能通過遙控器或家用空調的內置麥克風輸入語音。語音的處理也需要在本地完成，這需要用戶建立自己的同義詞庫。在空調處理之后，用戶自己的語音特征向量被存儲在同義詞庫中。創建詞匯表后，用戶命令的執行很簡單。例如，如果用戶想將溫度升至26°C，他只需要說“空調”，“電梯”“2”，“6”和“空調可以正確地處理和執行用戶的命令。

3.在照明方面的應用

在家庭照明系統中主要有兩種組成部分，一是語音采集設備，二是控制中心。相較于智能電視與智能空調，家庭照明系統存在著較大差異，必須進行布線。但是，所應用的語音輸入方法一致，同時語音信號能夠通過不同類型的語音獲取設備進行收集，比如內置麥克風或者是遠程設備。根據大部分家庭照明系統的實際情況來看，在采集語音信號時均應用內置麥克風，而且會產生比較大的噪聲，所以有必要加大降噪強度，和家庭應用的空調相同，該系統同樣沒有與網絡設備連接，所以必須在本地識別語音信號，還能夠利用同義詞建立這一方式達到目的。對比家庭空調，該方式的更為簡單便捷，最后將同義詞詞庫存放于存儲器內，便可實現智能化目的。

結束語：

綜上所述，在線語音識別技術已經被廣泛應用于智能家居中，如上述所呈現的智能電視、照明以及空調等，除此之外還有掃地機器人等方方面面的應用。通過應用在線語音識別技術能夠使廣大群眾的家庭生活發生翻天覆地的變化。

參考文獻

[1]侯猛，胡曉紅，趙航濤.在線語音識別技術在智能家居中的應用[J].信息與電腦（理論版），2018（24）：118-120.

[2]孫羽川. 工程模擬器音效仿真及語音通話系統設計[D].西安理工大學，2018.

[3]伍斯龍. 群智感知中語音識別系統的研究與實現[D].華南理工大學，2013.

（作者單位：江蘇崇德電子有限公司）

科學與技術2019年16期

科學與技術的其它文章: 油氣儲運中的管道防腐問題研究; 工程測量技術服務標準化思考; 從教育心理學的角度談中職數學教學方法與技巧; 探尋小學語文中年級閱讀教學“留白”藝術的重要意義; 化學分析檢驗工作的質量控制策略; 農用地土地還原率的確定方法探討