基于云端處理的語音識別智能音響的設計與研究

2021-08-09 03:23:16沈洋

電子技術與軟件工程 2021年11期

沈洋

（中山市悅辰電子實業有限公司廣東省中山市 528400）

1 概述

近年來，智能家居市場迎來了爆發期。公開數據顯示，2020年中國智能家居市場規模達到了1820 億元左右，智能家居的設備出貨量突破了2.15 億臺。隨著技術的變更，預測在2023年全球智能家居設備出貨量將達到13.9 億臺，中國智能家居市場為5 億臺。

語音識別是解決機器“聽懂”人類語言的一項技術。所謂聽懂，有兩層意思，一是直譯，把用戶所說的話直接轉換成文本；二是義譯，正確理解語音中所包含的要求，并作出正確的應答。無論是Siri、Echo，還是其他的智能語音助手都可以接觸和管理消息。需要注意的是，智能音箱不再只是單一的智能硬件，它將在更多的應用層面與使用場景落地。

根據市場分析可知如今電視設計的趨勢是超薄、窄邊框、大尺寸屏幕，而內置喇叭和腔體容積卻越來越小，因此搭配超薄平板電視的超薄、小體積及高保真條狀電視音響系統必將成為今后主流的家庭音響，具有廣闊的市場前景。

本文設計與研究了基于云端處理的語音識別智能音箱，在功能上支持模擬輸入、S/PDIF 輸入、HDMI、HDMI ARC、HDMI eARC、Bluetooth 和Wi-Fi 等功能，方便構建連接并使用。通過自主研發的聲學采集處理系統，采用全新的心理聲學音頻信號處理技術(MAP-Audio)，以及完整的DSP 算法和DRC 調控技術，通過對頻率響應和動態范圍缺陷的補償，針對揚聲器的聲學限制、高噪音背景，線性人類感知做補償，改善聲音質量；從而彰顯語音識別智能音響的聲音優勢。

2 基于云端處理的語音識別智能音響設計

本文所設計的基于云端處理的智能音響如圖1 所示，對ATMOS 的處理芯片、杜比數字實時編碼（Dolby Digital Live）技術，實現在無線智能音響、語音交互智能電視與機頂盒、語音控制裝置、遠程音頻拾取、游戲控制臺，智能家居和物聯網模組、車載免提控制與通信上的應用。

2.1 云端語音信號處理方案

人機對話系統共有六個主要部分，包括有語音識別器、自然語言解析器、問題求解器、語言生成器、語言合成器和對話管理器。

如圖2 所示的人機交互過程中，語音識別、語義理解、語音合成部分決定著用戶體驗，因此如何準確的識別并且自然的反饋，成為智能音箱語音交互設計的核心問題。

2.1.1 語音識別ASR-Automatic Speech Recognition

是將聲音轉化成文字的過程，相當于耳朵。通常語音識別有兩種方法：

圖1：基于云端智能音箱設計框圖

圖2：人機交互過程

（1）隱馬爾可夫模型（HMM- Hidden Markov Model），“傳統”的識別方法，一般采用較多；

（2）基于深度神經網絡的“端到端”方法，使用相對較少。

2.1.2 語義理解NLP-Natural Language Processing

NLP 是語音交互中最核心，也是最難的模塊。是實現智能語音交互的關鍵部分，決定著機器是否可以理解用戶真實意圖和實際需求。

NLP 主要涉及的技術有：文本預處理、詞法分析、語義理解、分詞、文本分類、文本相似度處理、情感傾向分析、文本生成等等。舉個例子，在處理文本時，會發現有大量的同音錯別字，怎么樣讓機器知道這些錯別字，并且改過來呢，也是NLP 的一大難點。

圖3：基于云端處理的語音識別智能音響

2.1.3 語音反饋TTS-TextToSpeech

實現TTS，目前比較成熟的有兩種方法：“拼接法”和“參數法”。

2.2 數字音頻DSP處理方案

本方案采用CS49844 音頻DSP 進行基于云端處理的一代環繞聲的應用提供高容量處理。數字信號處理器(DSP)支持所有傳統DVD 音頻編解碼器和所有Blu-ray Disc?音頻格式，并且擁有足夠的數字信號處理器(DSP)容量，可在單個芯片中支持各種并發后處理算法，而無需從外部存儲。當性能要求需要更多處理時，開發人員可輕松在擁有四核的CS49844 引腳兼容器件之間分別切換。其主要特性有：適用于Dolby ATMOS 和DTS:X 的單芯片解決方案、多聲道解碼和后處理、擁有四核(CS49844) 32 位DSP、I2S 和S/PDIF、串行控制端口和Cirrus Logic DSP 工具支持。其中：

2.2.1 音頻信號輸入Audio Source

Audio Source 信號源既可輸入模擬與數字信號，數字音頻信號的格式分為兩種傳輸方式：光纖與電纜傳入方式，數字音頻信號通過 Digital Selector 的選通開關后傳入到DSP，模擬音頻信號經過ADC 模數轉換后輸入到DSP 進行處理。

2.2.2 數字信號選擇器DS -Digital Selector

音頻信號源Audio Source 可能發送光纖同軸兩種類型接口的數字音頻，這兩種信號要進行一組切換行為才能傳入DSP 進行解碼，這組切換受控于MCU(Microcontroller Unit)，這是更合理的設置搭配，需要在此處進行信號的選擇。

2.2.3 動態隨機存取內存-SDRAM

SDRAM 有同步Synchronization 接口，在響應控制輸入前會等待一個時鐘信號，這使得SDRAM 與DRAM 相比，更優的操作模式，存儲核心處理所需要各類參數，以及用作中間數據緩存。本次的系統設計中，涉及到的音頻處理參數，多個模塊的數據由于數據量巨大，無法保存在DSP 內存中，需要寫入SDRAM，實時同步讀寫。

2.3 杜比數字實時編碼（Dolby Digital Live）技術應用

一種實時編碼技術，它能將多種音頻信號轉成杜比數字的專用碼流并通過家庭影院系統進行播放。其主要技術包括有：

2.3.1 影音的環繞聲技術

杜比數字實時編碼(Dolby? Digital Live) 技術使你在看視頻時沉浸在與影音空間相契合的5.1 聲道環繞聲中，從而提供更好的綜合游戲體驗。

2.3.2 無延遲或暫停技術

杜比數字實時編碼(Dolby Digital Live) 技術已針對低延遲交互式應用進行優化，不會在視頻與音頻之間引入任何可感知的延遲，因而完美地適用于游戲。

2.3.3 單電纜連接

通過使用單個數字連接，杜比數字實時編碼 (Dolby Digital Live)技術確保音頻信號的完整性并消除多個模擬和數字連接的混淆、干擾和染波。

杜比全景聲結合了面向對象的概念，動態處理聲道的混音、聲音定向、增益等方式，令觀眾體驗極佳的沉浸感。利用頂部揚聲器和環繞揚聲器創造出逼真而自然的音頻體驗。置頂聲道采用了安置在聲條音響頂部的兩只斜向上的喇叭，通過大花板反射形成天空置頂聲道。由安置在聲條式音響兩側的喇叭通過左右墻面反射產生左右環繞聲道。在一個狹小的聲條式音響體積內要安置8 個獨立的聲道。杜比全景聲實現了硬件配置受限的情況下，盡可能重放原創者的設想效果。讓聲音可以精確的在三維空間內部署和流動，而減少聲道的限制帶來的影響。如圖3 所示。

基于云端處理的語音處理及現場觀看和交談，支持觸發輔助信源選擇拾取噪聲抑制技術，實現了多通道聲學回聲消除，SSP 噪聲抑制，集成語音觸發引擎，低功率70mW 喚醒語音檢測緩沖聲音模式，集成片上32 位的數字音頻處理器芯片，具有106dB 全路徑動態范圍的24 位麥克風ADC，原始音頻采樣率：8～96kHz，0.125dB模擬前端增益分辨率，低串擾專用麥克風偏置，I2S 串行數據接口，I2C 控制接口，容量可選串行EEPROMFLASH，USB 全速，兼容2.0 UAC，異步數據傳輸異步SRC 和同步緩沖區集成DC/DC 電源管理，22 Pin 郵票孔焊盤設計。

3 結語

在面對以新技術為主要驅動力的新一輪科技革命和產業變革蓬勃興起的環境下，智能家居的崛起是歷史的必然。

此外，在國家政策和巨大行業需求的雙重助力下，中國智能家居行業市場規模將進一步擴大。權威調研機構Strategy Analytics 發布調研報告稱，預計到2023年，消費者在智能家居硬件、服務、安裝上的費用支出將達到1570 億美元（超1 萬億元人民幣）。

2020年中國智能家居設備市場出貨量預計接近2.2 億臺，至2024年出貨量將增長至近5 億臺，年復合增長率高達23%。“雙11”期間，智能家居生態銷售額2 分鐘內便已破億。隨著技術的進一步發展以及應用范圍的拓寬，智能音響市場將迎來一輪爆發式的增長。