陳飛
摘要:該文針對藍牙耳機功能單一、續航能力短等問題,選取QuickLogic音頻芯片和CSR藍牙芯片,基于Iflytek AI智能語音服務設計了具有云交互能力的智能耳機。該耳機通過語音喚醒關鍵字控制、發送語音信息,實現獲取新聞、問題、音樂等內容;通過關鍵字命令控制,無須手動切換,實現音頻播放控制,極其方便實用。功耗模塊設計能檢測耳機的工作狀態,靈活休眠、喚醒耳機設備,有效地提升了耳機的續航能力。
關鍵詞:語音喚醒;云交互;智能耳機;功耗控制
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)28-0234-02
The Design and Implementation of a Low-Power Cloud Interactive Headphone Based on Bluetooth
CHEN Fei
(Shenzhen Grandsun Electronic Co., Ltd., Nanjing 211100, China)
Abstract: In view of few functions and short battery life of Bluetooth headphones, this article selects QuickLogic audio chip and CSR Bluetooth chip to design smart headphone with cloud interactive capabilities based on Iflytek AI intelligent voice service. The device awaken by keyword from deep sleep, and then the voice information is sent to cloud and parsed to obtain various news, questions, music and other content; through the keyword command control, user can conveniently control audio playback without manually operation. Power module can detect the working status of the headphone, flexible sleep, wake up the headphone device and effectively enhance power saving.
Key words: Sound wake-up; Cloud interaction; Smart headphone; Power control
藍牙技術是一種可靠的短距離無線連接技術,以2.4至2.485 GHz的ISM頻段為載波進行通訊,目前最新的藍牙5.0版本能夠實現高達2Mbps的速率。因其低延時,低功耗高速率特性能實現高品質音樂傳輸,各式各樣藍牙耳機應運而生。藍牙耳機最大的優勢在于能實現高保真音樂播放,同時用戶可以不用攜帶音頻設備而在較大范圍內隨意移動,十分便利,因此應用空間極大。但功能單一,續航時間短是大多數藍牙耳機普遍存在的問題。本文利用CSR藍牙技術芯片[1]和Quicklogic音頻處理芯片[2]與手機云處理應用相結合,設計一種智能的云交互藍牙耳機,使用戶能隨時聆聽感興趣的音樂、問題、新聞等。新穎的命令模式,可以通過語音就能實現音頻的播放、切換、音量調節等操作。配戴檢測機制能及時檢測耳機是否佩戴,從而靈活控制電源通斷,從而延長續航時間。
1 系統結構
智能藍牙耳機系統主要由三大部分組成,耳機系統、手機端云應用、云端。耳機系統包括音頻處理模塊,藍牙模塊,功耗控制模塊。手機端云應用是自主設計的,工作于便攜智能設備(如手機)上的應用程序,系統總統結構如圖1。
音頻模塊負責音頻采集,本地語音識別。語音識別用于喚醒云交互,或者控制音頻播放。通過對硬件資源、處理能力的研究,選取Quicklogic芯片EOS S3(下文簡稱S3)實現音頻處理,該芯片具有豐富的音頻及輸入輸出端口,可以實現模擬或數字麥克風接入、音頻數據采集或輸出等功能。功耗控制模塊的核心為距離探測傳感器,當檢測到未配戴時,使耳機系統進入休眠模式,達到省電效果。以CSR為核心的藍牙模塊實現耳機設備與手機端的連接和數據傳輸。語音數據從音頻芯片讀取,能實現藍牙電話、持續音頻數據流發送。手機設備端應用通過在云端處理藍牙音頻數據,解析語音的意圖,根據解析結果做出相應處理。
2 系統硬件設計
2.1 EOS S3音頻硬件實現
傳感器芯片S3具有豐富的硬件接口和強大的音頻處理能力,核心為Cortex-M4F及uDSP,可運行實時操作系統實現軟件控制,高達512K SRAM確保軟件高速運轉,可實現音頻算法如噪聲抑制(ANS)[3],回聲消除(AEC)[4]等。DMA及FIFO設計能加速內部音頻數據傳輸,盡最大可能減少延時。兩路I2S 和PDM接口適應模擬或數字麥克風連接,同時實現與外部I2S設備通信。8路帶中斷能力IO能輕松實現與外設的連接控制。UART通信端口可用來實現命令控制字傳輸。
本設計采用雙數字麥克風與PDM接口相連,在芯片內部轉換為PCM數據。UART,I2S與中斷IO分別與藍牙芯片CSR對于端口相連。圖2中EOS S3是音頻芯片的主要實現電路。
2.2 功耗控制電路
接近傳感器芯片采用SFH7776,具有一路I2C和一路中斷IO。通過I2C配置參數實現中斷產生條件,如低于1CM或大于10CM時產生中斷。圖2所示,接近傳感器與S3相連,上電時通過I2C在S3內編程配置,中斷信號連接到S3,條件滿足時,喚醒S3。S3根據實際狀態,決定是否需要喚醒藍牙模塊。
2.3 藍牙模塊
CSR8670是專為高質量音頻傳輸設計的可編程藍牙處理芯片。集成雙聲道模式藍牙音頻,擁有一顆低功耗的DSP做音頻處理。雙聲道16-bit ADC 高達48K采樣率,雙聲道16bit DAC 高達96K采樣率[3],高保真音頻輸出。 I2S接口支持主流的24bit音頻數據格式。充電電路支持高達200ma電流輸出,減少充電電路設計的額外開銷。藍牙電路硬件設計結構如圖2中所示。圖中ANT處為射頻電路,是與遠端數據交互的接口,UART、I2S、CSRIRQ,CSRWAKIRQ1網絡標簽與音頻芯片S3對應連接,實現消息交互。
3 軟件設計
3.1 EOS S3軟件框架
S3音頻采集、處理軟件(如圖3)基于FreeRTOS實現,該系統免費開源,具有可裁剪、可移植、調度靈活、多任務等特性。
音頻數據采集與發送、語音喚醒、噪聲消除、中斷處理是需要實現的主要功能。系統上電復位,初始化時鐘、中斷、硬件資源,然后啟動各任務線程。語音數據緩存滿時,由中斷內發送消息給噪聲處理線程做ANC處理,然后再發送給語音關鍵字檢測線程。經過ANC處理的數據除去大部分噪聲,盡最大可能保留真實語音信息,能提高喚醒準確率。關鍵字算法檢測分兩種,一種為喚醒模式,一種為命令模式。喚醒模式只檢測喚醒關鍵字,當檢測到關鍵字時,發送中斷到CSR8670,開啟語音傳輸,與云端進行語音交互。命令模式檢測不同的喚醒關鍵字,然后再檢測命令,比如控制命令“艾倫,暫停”中,“艾倫”是關鍵字,“暫停”則為命令。命令由UART發送到CSR8670,經過處理后發送到手機端解析,執行相應操作。
3.2 藍牙模塊軟件框架
藍牙模塊需要實現的功能有I2S主接收、UART接收、音頻DAC輸出、中斷處理等。圖4為軟件處理流程圖。藍牙模塊處理的數據有音頻數據和控制命令兩種。音頻數據主要針對SCO、A2DP、語音交互等模式。語音交互時,音頻數據直接發送給手機端云應用做語義分析。從UART端接收的控制命令需要解析與編碼,針對不同的命令,如音量增加、暫停等做封裝再發送。中斷程序接收到S3的喚醒中斷信號后,喚醒藍牙芯片,進入工作模式。
3.3 云應用軟件框架
手機端應用CloudEcho 基于Iflytek AI語音引擎實現,負責處理藍牙音頻信息,數據信息,音頻播放,音頻云端解析等任務。Iflytek的AI 語音引擎具有強大的語音處理能力,此處主要用語意理解,語音合成等服務。圖5為應用與語音引擎之間的處理流程。語意理解的所有回答通過開放技能或自定義技能給出,返回結果為文字或者語音數據。為文字時,通過語音合成服務轉換為語音以藍牙播出,為音頻數據時,直接通過藍
牙播出。CloudEcho對耳機和云端的數據分別處理,實現智能問答、音頻播放等。
4 結論
本文所設計的智能藍牙云交互耳機具有友好的體驗效果,雙聲道音頻設計和高采樣率DAC解析實現高品質音頻播放。多樣化本地命令控制輕松實現音樂播放控制。功耗控制方案有效節省閑時功耗。此方案所選取的硬件成本略高,但對于高端智能無線耳機的解決方案具有較好的參考價值。
參考文獻:
[1] Cambridge Silicon Radio. BlueCore Bluetooth chipset. Online at https://www.qualcomm.com/products/bluetooth.
[2] QuickLogic, Introducing the new EOS S3 LV (Low Voltage) platform - the latest addition to the EOS S3 Voice and Sensor Processing Platform Family.[2018].https://www.quicklogic.com/platforms/sensor-processing/eos/.
[3] J. Thiemann “Acoustic Noise Suppression for Speech Signals Using Auditory Masking Effects” // Ph.D. thesis, Department of Electrical & Computer Engineering, McGill University, Montreal, Canada,2001.
[4] Y. Lu, R. Fowler, W. Tian, and L. Thompson, Enhancing echo cancellation via estimation of delay, IEEE Transactions on Signal Processing ,2005, 53(11):4159-4168.
【通聯編輯:唐一東】