基于行空板虛擬語音助手的設計與實現

2023-04-29 00:00:00張浩華程騫閣柴欣胡煦于闖馬世軍

沈陽師范大學學報(自然科學版) 2023年6期

摘要：隨著人工智能的飛速發展和智能語音技術的逐漸成熟，人機交互逐漸從傳統的觸摸交互轉變為更加便捷人性化的語音交互。研究了一種基于行空板的智能語音助手系統，該系統集成了翻譯、智能問答、信息百科查詢等功能，能夠提供全方位的語音交互服務。在系統架構方面，采用了分層設計思想，將語音識別、語音合成、自然語言處理和知識庫管理等模塊分開設計，使其具有更好的可擴展性和靈活性。在實現方面，借助自由度高的百度智能云平臺的智能語音技術進行開發。最終系統呈現效果表明，該系統能夠對用戶的語音指令進行準確識別，并提供相應的服務和用戶所需信息，提高了用戶的使用體驗。研究結果可以為今后開發更為智能化的語音助手系統提供參考。

關鍵詞：行空板; 智能語音技術; 智能問答; 人工智能

中圖分類號：TP273.5 文獻標志碼：A

doi：10.3969/j.issn.1673-5862.2023.06.008

Design and implementation of a virtual speech assistant based on the Hangkong board

ZHANG Haohua¹， CHENG Qiange¹， CHAI Xin¹， HU Xu¹， YU Chuang²， MA Shijun³

（1. College of Physical Science and Technology， Shenyang Normal University， Shenyang 110034， China; 2. Network Information Center， Shenyang Normal University， Shenyang 110034， China; 3. Experimental Teaching Center， Shenyang Normal University， Shenyang 110034， China）

Abstract：With the rapid development of artificial intelligence and the gradual maturity of intelligent voice technology， human-computer interaction has gradually shifted from traditional touch interaction to more convenient and user-friendly voice interaction. In this article we study an intelligent voice assistant system based on the line space board， which integrates functions such as translation， intelligent question answering， and information encyclopedia query， and can provide comprehensive voice interaction services. In the aspect of system architecture， we adopt the idea of hierarchical design， which separates the modules of speech recognition， speech synthesis， natural language processing and knowledge base management， so that it has better scalability and flexibility. In terms of implementation， it is developed with the help of the intelligent voice technology of Baidu AI Cloud platform， which has a strong degree of freedom. Users can obtain the required information through simple voice commands， improving their user experience. The experimental results show that the system can accurately recognize users’ voice commands and provide corresponding services. The research results of this article can provide reference for the development of more intelligent voice assistant systems in the future.

Key words：Hangkong board; intelligent voice technology; intelligent qamp;a; artificial intelligence

近年來，智能語音技術已經成為當今世界的熱門話題，其應用范圍涵蓋了多個領域并且已經取得了很大的進展。隨著人工智能技術水平的提高，智能語音成為人機交互的新形式，比起傳統交互方式，語音交互方式更加便捷和人性化。本系統將智能語音技術與計算能力強大的行空板相結合，設計了一款擁有同步中英翻譯、智能對話、語音點歌、咨詢查詢功能的語音助手^［1^］。

1 智能語音技術的關鍵技術與理論

1.1 語音識別技術的基本概念

語音識別技術簡稱ASR（automatic speech recognition）技術^［2^］，是一門涉及面很廣的技術，在數字信號處理、概率論、模式識別理論、計算機技術、人工智能等方面都有應用。ASR技術是以語音為對象，讓機器將語音信息轉化為對應的可識別的文本信息和命令。語音識別系統的分類有3個依據^［3^］：人說話方式的要求（分為孤立詞語音識別和連續語音識別）、對說話人的依賴程度（分為特定人和非特定人語音識別）及詞匯量的大小。較為通用的語音識別系統原理如圖1所示。

語音識別過程主要分為模型訓練和模型識別2個過程，在語音信號輸入后，進行語音預處理，使語音信號保證平滑均勻的質量，在特征提取后進行語音解碼，即與訓練好的聲音、語言模型搭建識別網絡，搜索聲音信息中包含的語言信息，最后通過語法分析、語義理解得到最后的文本信息^［4^］。

1.2 語音合成

語音合成技術簡稱 TTS（text to speech）技術，即利用計算機程序生成聲音的技術。通俗地說，就是通過對計算機中已有的語音樣本、語音庫進行分析、處理，生成新的語音信息。語音合成技術有2種基本實現方式，一種是將文本轉換為語音，語音輸出內容是機器模擬的人聲，類似人在朗讀，可以以任何速度、節奏和音高合成出符合不同語境的音樂。另一種是聲音轉換，將已有的聲音樣本與目標語音進行比較分析后，生成與目標語音相似的語音信息，通常用于語音分析、語音識別等領域^［5^］。以下為語音合成的3種常見方法：

1）波形分析法

波形分析法需要在前期存儲大量的具有完備音節因素的音頻素材到語音數據庫中，在語音合成的過程中，在此語音庫選擇需要的素材波形，拼接后合成對應的語音音頻。此類方法是一種簡單的語音合成方法，因數據庫容量的限制，只能來合成有限內容的語音音頻。雖然工作量和內存消耗大，但是自然度和音質較好^［6^］。

2）參數合成法

參數合成法是通過數學建模對聲音素材進行聲學特征參數建模，聲音素材要求涵蓋人發音過程的所有音節，從而形成一個完備的聲音庫。在語音合成的過程中，根據需要從庫中選擇所需的聲學參數，通過算法產生TTS語音。此種方法快捷且工作量小，但是音質一般，與人自然聲音相差較大^［7-8^］。

3）基于神經網絡的方法

此種方法即直接學習文本端或注音字符端與音頻波形端的對應關系，能夠極大地簡化復雜的語言分析部分，降低對語言學知識的要求，可以批量合成多種語言的語音頻，與人自然聲音相似。缺點是語音合成性能差，也不能在后期將音頻品質調優^［9^］。

2 智能對話系統的發展現狀

智能對話系統是一種基于人工智能技術的交互式人機對話系統。它通過對用戶語言輸入的理解、意圖識別、自然語言生成等技術，完成與用戶的對話任務。智能對話系統的應用范圍非常廣泛，包括智能客服、智能助手、智能音箱等領域。智能對話系統有以下4種技術趨勢：

1）混合式對話系統：通過結合多種對話技術、多種知識庫，實現對話效果的提升，提高人機對話的流暢度和準確度;

2）多輪對話：對話系統將針對不同領域、不同場景執行多輪對話，滿足用戶的多重需求;

3）多模態輸入：對話系統將支持多種輸入方式，如語音、文本和圖像等，完成多模態對話任務;

4）知識圖譜：采用知識圖譜，支持對話系統的知識表示和推理，提升對話系統的智能化程度。

當前智能對話系統的應用已經非常廣泛，并且在不斷發展。主要的智能對話系統廠商包括Amazon旗下的Alexa，Google推出的智能對話系統Google Assistant，蘋果公司推出的Siri，微軟公司推出的Cortana。國內廠商百度推出的DuerOS可以在智能音箱、車載、電視等多個載體設備上運行。

2.1 ChatGPT

2022年11月30日，由OpenAI研發的優化對話語言模型ChatGPT上線，經歷了1.0到4.0的版本升級，GPT-4憑借強大的參數規模和訓練能力，有著極強的語義理解及生成功能^［10-11^］。作為一個基于自然語言處理技術的聊天機器人，采用“聊天+搜索引擎”模式，當人輸入自然語言文本時，機器人通過語言識別、情感分析，從提問中進行特征提取，應用語句相似性處理修正輸入性錯誤，對所輸入的問題進行分類索引，獲得查詢結果，甄選出最適合的內容作為回答。到目前為止，ChatGPT具有與用戶進行自然語言交互、提供信息查詢服務、提供語言翻譯服務、智能問答服務及情感識別與回應等功能。ChatGPT的強大功能讓人們看到了人工智能和智能對話領域的巨大潛力，然而也要警惕潛在的風險，讓人工智能更好地服務于人類，開啟智能生活的新篇章。

2.2 百度UNIT

本項目中智能對話功能借助百度UNIT平臺實現。百度UNIT是百度推出的理解與交互技術，通過UNIT平臺可訓練符合開發者需求的對話機器人，還可提供多種可定制化服務，例如自定義對話、問答、引導等。百度UNIT已是國內較為成熟的智能對話系統開發平臺，開發自由度較高，開發者可以根據自己的需求進行開發與設計^［12^］。

3 系統的設計與實現

3.1 系統的總體設計

本項目系統分為2個部分：硬件部分與云端部分，如圖2所示。系統以行空板為主控板，通過連接所需硬件達成與用戶交互的需求，借助云端平臺達成翻譯、信息查詢、智能對話的功能。

將行空板Type-C口連接電源，USB口連接喇叭，24引腳連接聲音傳感器的DO引腳。

3.2 系統的硬件介紹

1）行空板

行空板是一款自帶Linux操作系統和Python環境并集成多種傳感器的開源硬件（圖3）。行空板內置液晶顯示彩屏，讓顯示功能更加美觀，屏幕為可觸屏，大大提高了項目的便利性和智能性^［13^］。行空板自身集成了麥克風和I/O接口，可外聯其他傳感器。同時預裝了常用的Python庫，便于編程且能創作更多豐富的作品。

2） USB免驅3W小喇叭

由于行空板上沒有發聲裝置，因而本項目需要連接一個USB喇叭或者藍牙音箱。本項目選用USB免驅3W小喇叭（圖4），使用方便并且音質良好。

3）聲音傳感器

本項目選用的YS-M1002聲音傳感器（圖5）能檢測聲音強度的大小，也能研究聲音的波形。本項目需檢測人說話的聲音，運用聲音傳感器檢測是否有人說話，減少了不必要的錄音工作，提高了項目效率。

3.3 系統的云端部分

為實現翻譯功能，本項目借助了百度翻譯平臺（圖6）。百度翻譯調用方便，翻譯準確，功能強大，在注冊賬號后得到密鑰即可使用。如果用戶需要將翻譯功能變得更加準確和個性化，也可以自己添加術語庫（圖7）。

語音識別、合成、智能機器人借助百度智能云平臺實現（圖8、圖9）。百度智能云平臺提供多種服務，如人工智能、智能大數據、智能視頻、元宇宙等。用戶可在注冊賬號后創建應用，通過應用的 API Key和 Secret Key獲取Access_token來調用百度AI服務。

3.4 系統程序設計

本項目要解決的核心問題之一便是語音識別（即語音轉文字）和語音合成（即文字轉語音）。借助百度智能云平臺，得到對應的APP_ID，API_KEY和SECRET_KEY。定義2個函數：語音轉文字函數a_t和文字轉語音函數t_a。

1）語音轉文字

在創建一個客戶端對象后，連接百度云平臺。打開錄音文件并讀取信息，向百度智能云平臺發送請求后，便可獲得其反饋回的文本信息。語音轉文字函數如程序1：

def_a_t（luyin）：

client=AipSpeech （APP_ID，API KEY，SECRET KEY）

with open（luyin，″rb″） as fp：

file_context=fp.read（）

res=client.asr （file context， ′pcm′， 16800，（′dev pid′： 1537，}）

st=res.get （″result″）［0］

print（″成功：″，st）

return st

2）文字轉語音

連接百度云平臺后，調整語音合成各項參數：音量、語調、語速和聲道。合成語音。文字轉語音函數如程序2：

def t_a （data，APP_ID，API_KEY，SECRET_KEY）：

synth_file=″synth.mp3″

client=AipSpeech（APP_ID，API_KEY，SECRET_KEY）

synth_context=client.synthesis（data，″zh″，1，{

″vol″：5，

″spd″：4，

″pit″：3，

″per″：4

}）

with open（synth_file，″wb″） as if：

f.write（synth_context）

return synth_file

以文本轉換程序為基礎，將用戶需要翻譯的錄音文件先轉為文本，再將翻譯好的文本轉為音頻文件。智能對話與信息百科查詢功能需借助百度智能機器人，在獲得智能對話機器人ID，APP_ID，API_KEY和SECRET_KEY后，便可以獲得平臺回答。

4 結語

本項目利用語音識別、語音合成和人工智能技術，以行空板為主控板，實現了翻譯、智能問答、查詢信息的功能。在測試系統的過程中，系統能夠穩定運行，語音交互準確，應答良好，達到了預期效果。

本文簡單描述了語音識別技術和語音合成技術的基本理論，介紹了智能問答技術的現狀與發展。本系統應用智能語音技術，提供了多種實用功能，可為人們的日常生活帶來便利。與此同時，本文設計的語音助手有望在未來智能家居和智能辦公方面獲得應用。

參考文獻：

［1］韓婷婷. 科大訊飛智能語音產品發展戰略研究［D］.貴陽：貴州大學， 2021.

［2］FORT A，MUGNAINI M，VIGNOLI V. Hidden Markov models approach used for life parameters estimations［J］. Reliab Eng Syst Safe， 2015，136：85-91.

［3］黃文輝. 基于矢量量化的說話人識別技術研究［D］. 西安：西安電子科技大學， 2006.

［4］顧亞平. 基于智能語音交互技術的智慧語音助理系統實現［D］. 南京：南京郵電大學， 2015.

［5］張浩華，李嘵慧，王愛利，等. 基于語音識別的智能對話系統的研究與實現［J］. 沈陽師范大學學報（自然科學版）， 2022，40（5）：446-450.

［6］VIOLARO F，BOEFFARD O. A hybrid model for text-to-speech synthesis［J］. IEEE-ACM T AUDIO SPE， 1998，6（5）：426-434.

［7］李波. 語音轉換的關鍵技術研究［D］.長沙：國防科學技術大學， 2005.

［8］吳義堅. 基于隱馬爾科夫模型的語音合成技術研究［D］. 合肥：中國科學技術大學， 2006.

［9］陳艷華. 基于智能交互的車載語音系統的設計與實現［D］. 北京：北京交通大學， 2020.

［10］李書寧，劉一鳴. ChatGPT類智能對話工具興起對圖書館行業的機遇與挑戰［J］. 圖書館論壇， 2023，43（5）：104-110.

［11］沈陽，ChatGPT.智能對話新篇章： ChatGPT的探索與未來［J］. 傳媒論壇， 2023，6（6）：3.

［12］朱凱諾，馬玉慧. 基于百度UNIT的對話式智能導學系統的設計與實現［J］. 信息與電腦（理論版）， 2021，33（8）：161-163.

［13］謝作如，胡君豪. 讓行空板變身為能識別方言的智能音箱［J］. 中國信息技術教育， 2023（1）：93-95.

沈陽師范大學學報(自然科學版)2023年6期

沈陽師范大學學報(自然科學版)的其它文章: 《沈陽師范大學學報 (自然科學版)》第41卷總目次; 超聲波焊接儀器原理研究及實現; 磁荷對Hayward-Anti-de Sitter黑洞的全息互信息的影響; b-度量空間中一類積分型壓縮映射的公共不動點定理; 制造業上市公司財務數據異常風險評分卡模型; 酚類物質的研究進展