999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云平臺的智能語音交互機器人設計

2021-04-18 23:45:40何松黃維吳昔遙周曾豪楊東澤
軟件工程 2021年4期
關鍵詞:云平臺人工智能

何松 黃維 吳昔遙 周曾豪 楊東澤

摘? 要:現有的語音交互機器人多采用用戶提問、機器人回答的單向交流方式,人機交互的智能性和靈活性較差。本文研究運用樹莓派(Raspberry Pi)計算機和配套的語音板作為硬件載體,融合語音喚醒、語音識別、語音合成、自然語言處理等人工智能技術,調用科大訊飛開放云平臺、在線圖靈機器人,搭建一種基于云平臺的智能語音交互機器人系統,并結合自主開發的本地知識庫和問題庫,使智能語音交互機器人能夠根據不同環境與任務需求實現雙向互動交流,實現由機器人采集信息和交流反饋,以提供高適應性的無接觸人機語音交互服務。

關鍵詞:人工智能;自然語言處理;語音交互機器人;樹莓派;云平臺

中圖分類號:TP24? ? ?文獻標識碼:A

文章編號:2096-1472(2021)-04-55-05

Abstract: Existing voice interactive robots mostly use user questions and the one-way communication method of robot answers, which is less intelligent and flexible in human-computer interaction. This paper proposes to build an intelligent voice interactive robot system based on cloud platform. The proposed system uses Raspberry Pi computer and the supporting voice board as hardware carriers, and integrates artificial intelligence technologies such as voice wake-up, voice recognition, speech synthesis, natural language processing. It also makes use of the services of IFLYTEK open cloud platform and online Turing robot. Combined with self-developed local knowledge base and question library, the intelligent voice interactive robot can conduct two-way interactive communication according to different environment and task requirements, collect information, and exchange feedback. It provides highly adaptable contactless human-machine voice interaction service.

Keywords: artificial intelligence; natural language processing; voice interactive robot; Raspberry Pi; cloud platform

1? ?引言(Introduction)

隨著人工智能技術的快速發展,深度學習在語音技術領域取得突破性進展[1]。與此同時,在互聯網快速發展的驅動下,云端技術架構不斷成熟穩定,基于語音的人機交互技術應用越來越廣泛,涵蓋教育、醫療、家居等各行業領域[2],如服務機器人、情感交互機器人、教育機器人等[3]。在語音交互方面,云端保存著由海量數據通過深度學習訓練而成的各種模型[4],并通過其強勁的處理能力為終端提供諸如語音識別、語義理解、語音合成等計算量較大的服務[5]。

語音識別技術的研究工作始于20世紀50年代,至今已經走過70年的歷程[6],在國內外被廣泛研究[7]。2011年的蘋果第四代語音助手Siri的出現,帶來了國外語音交互產業的高峰期[8];2014年亞馬遜的智能音箱Echo是人機交互技術進入家庭電器產業的重要節點[9]。隨著深度學習算法升級、硬件計算能力提升,大量數據不斷參與訓練優化模型,語音識別和自然語音理解不斷取得突破性進展,國內領先的科大訊飛、百度等公司語音識別準確率達97%以上[10]。語音交互技術鏈條不斷成熟,讓機器人具備語音交互功能已然成為一種趨勢。本文主要研究整合現有資源,調整傳統語音交互系統軟件設計方案,基于云服務平臺和ROS(Robot Operating System)框架,設計智能語音交互系統,并且可以安裝于小型集成計算機上。作為安裝于病房內的“智能語音交互機器人”,降低語音交互系統開發難度和研發成本,使無接觸式就醫得以實現,并且擴展應用功能。

2? ?語音交互模塊需求分析(Demand analysis of voice interaction)

通過分析疫情防控與病情監測等環境的需要,我們構想將自然語言處理(Natural Language Processing,NLP)技術整合應用至機器人,實現信息采集和交流反饋的主要功能,最終以文本+語音的形式進行輸出。

人工信息采集工作重復、枯燥且效率較低,采用機器人進行信息采集相當于機器人提問,人來回答,可以實現自動化、智能化和高效化。信息采集技術路線:(1)預置問題庫;(2)將問題文本轉語音輸出;(3)采集用戶回答的語音;(4)調用語音識別模塊將語音轉文字;(5)提取用戶回答的文本中的關鍵詞信息;(6)將對應的問題和回答作為采集的信息存入數據庫。

交流反饋則是機器人通過采集聲音信號,檢測語音信息,傳輸至本地知識庫和云端服務器中尋找相應匹配信息,確認答案后以語音和文本的形式輸出反饋。人機交互式的信息采集與交流反饋既可以從病毒傳播途徑上降低傳染風險,又能夠利用預設問答庫完成反饋,有效節約了人力資源。

3? 智能語音交互機器人總體設計(Overall design of intelligent voice interactive robot)

智能語音交互機器人的整體框架有兩層:云端服務平臺位于云端服務器(本例中采用科大訊飛開放云平臺作為云端服務器),云端保存著由海量數據通過深度學習訓練而成的各種模型,可降低終端的解析壓力,為系統提供一系列在線支持,主要是對本地計算機向云端發送的數據包提供解析、反饋與下載等服務——包括語音識別、語義理解、語音合成等。本地計算機交互系統主要分為三層:最底層是物理層,為Linux內核,是系統運行環境(本例中采用Ubuntu 16.04系統),對應的機器人操作系統ROS版本為kinetic;其次是中間層,該層主要是第三方庫以及ROS操作系統;最上層稱為應用層,主管系統的業務處理邏輯,可根據任務需要設置功能模塊區,如在隔離病房中的計算機需具備“病情匯報”“內外交流”等功能。系統架構如圖1所示。

3.1? ?基于在線云平臺的語音交互

智能語音交互機器人主要模塊包含語音采集、語音喚醒、語音檢測、云端識別、本地知識庫檢索、圖靈機器人交互、語音合成、輸出設備播放、判斷結束,從而構成邏輯完整、滿足功能需要的語音交互系統。在線語音交互流程如圖2所示。

語音采集是控制麥克風采集音頻將其轉換為可供后續流程使用的信號,在系統中以wav文件形式保存。定義get-audio()函數來設定麥克風使用參數,如CHANNELS(聲道數)和RATE(采樣率)等,從而實現麥克風采集數據的功能。

語音喚醒環節是通過識別輸入的音頻信號中特定的詞語,當識別引擎計算得分超過預設的門限值時,返回喚醒結果為“真”,回調預設的函數,進行下一步的處理。

語音檢測是對采集的音頻文件進行分析,判斷是否有有效語音數據輸入,并且檢測語音文件是否符合識別要求,實際上是對環境噪聲等低相關性的過濾,以及對不規范音頻文件的篩選。通過對CHANNELS(聲道數)和RATE(采樣率)等參數的調用判別,提高采樣精度,則能更好完善用戶體驗。

語音識別模塊是將語音輸入轉為文本輸入的過程,基于科大訊飛開放平臺所提供的適用于Linux系統下的軟件開發工具包(Software Development Kit,SDK),本地計算機對語音提問進行錄制、檢測并上傳至云端識別引擎,轉換成文本數據后,通過互聯網重新返回到使用者終端。通過val=os.popen()函數執行訊飛SDK包并將返回結果保存在文件中,并利用函數readlines()循環查詢找到語音識別的結果,截取結果,輸出到用戶終端。因此,到“科大訊飛云端識別”的步驟為止完成了對用戶的語音提問轉為文本數據的過程,后續步驟會進一步提交文本數據進行問答匹配與語音合成輸出。

檢索知識庫是先讀取本地知識庫,將語音識別出的文本數據導入其中匹配,若存在匹配項,則返回為“真”,并將匹配文本數據導入科大訊飛SDK文件,轉語音合成輸出;若不存在匹配項,則調用圖靈機器人,將識別出的文本數據進行在線檢索。Fo=open()函數用來打開知識庫,readlines()函數將知識庫讀取為列表變量,進行結果查詢。本步驟完成了問答匹配流程,并提供了本地知識庫匹配和云端知識庫匹配兩種途徑。

語音合成即從文本輸入到語音輸出的過程,把知識庫匹配的答案上傳至云端服務器,轉為語音數據后返回用戶終端播放。在線語音聽寫和在線語音合成都屬于通過音頻文件/文本文件向云端識別引擎請求服務并獲得識別結果的方式,相較于建立傳輸控制協議/互聯協議(Transmission Control Protocol/Internet Protocol,TCP/IP)長連接的方式發送實時音頻數據流的方式,前者實時性較差但不必長時間占用計算機資源。通過os.popen()函數執行科大訊飛的語音合成SDK文件,以匹配所得的文本數據為對象,生成wav格式的音頻文件,并將該文本數據輸出到終端,實現語音和文字兩種形式輸出。

設備輸出音頻是通過調用生成的語音文件輸出給外設麥克風實現的。利用os.popen()函數調用play指令播放音頻,并根據合成音頻文件的文本數據長度決定暫停時間長短,保證語音輸出的完整性。

3.2? ?離線語音交互

針對涉密或隱私情況下離線語音交互的需要,可將基于云端服務器的識別處理轉為發送至本地計算機進行。通過更改各節點間的訂閱關系,將原發送至云平臺的數據轉發給本地程序處理,以實現離線的語音交互。

其基本步驟是:語音交互系統啟動后,由用戶輸入指定喚醒詞,將系統由待機狀態喚醒至工作狀態,調用system()函數對用戶的提問進行錄音,生成指定wav文件。利用回調函數將該wav文件輸入科大訊飛離線語音識別SDK進行識別,識別理解轉化成文本數據返回。調用system()函數對文本數據進行獲取,將問題文本數據導入預先編好的本地語料庫中進行匹配,得到對應的回復文本數據。利用回調函數將該回復文本數據輸入科大訊飛離線語音合成SDK進行合成,得到特定內容的wav音頻文件。最后調用system()函數對合成的wav音頻文件進行播放,即完成一次完整的語音交互過程。

3.3? ?基于語音交互的信息采集

信息采集功能是通過機器人主導交互實現的。利用科大訊飛離線的語音合成SDK文件將設定的問題處理為語音,再通過揚聲器播放出來,被采集者聽到問題的反饋將被麥克風收錄,SDK文件將語音文件識別為文本,提取關鍵詞。作為采集信息,機器人將問題和對應采集信息存入數據庫,實現了無接觸的信息采集功能。

交流反饋功能是通過使用者主導交互實現的。先通過語音喚醒,使機器人調用麥克風采集聲音,然后將聲音信號發至基于科大訊飛開放平臺的語音識別模塊,提取識別結果并在知識庫中檢索,將得到的相關文本發至語音合成模塊,再將輸出結果連入揚聲器播放,最終反饋至使用者。信息采集與交流反饋流程圖如圖3所示。

3.4? ?語音交互機器人在病房中的實際應用

經過對體積與應用性的考量,該機器人采用樹莓派(M4PB型)作為硬件載體,以體積小和集成度高適應便攜性需求,并且應用了科大訊飛開放云平臺的在線資源和本地語料庫,通過將語音數據經由網絡傳輸到云端服務器,利用云計算技術得到識別結果并返回。云端資源豐富,可以更好地利用知識庫資源,同時本地語料庫的準備適用于不同情況下的不同需要,分析設計其相對應的資料庫,并延伸相關的可靠性設計與適應性設計,可以實現更廣泛的用途。語音交互系統采用ROS節點消息發布和訂閱機制。ROS是開源的機器人操作系統軟件,提供類似于操作系統的服務。ROS通過將龐大繁雜的系統任務切分成功能單一的子任務,再通過以消息或服務的方式將子任務鏈接起來形成可以完成復雜任務的系統,實現代碼復用,降低設計難度,同時ROS支持C、Python多編程語言,功能包豐富,測試方便。在通信過程中,節點將消息以特定主題發布到ROS核心控制器,ROS核心控制器異步地將該消息轉發給訂閱該主題的節點進而實現通信。ROS節點消息傳遞示意圖如圖4所示。

4? ?優化設計(Optimal design)

由于采樣識別的開放式環境會帶來大量數據和樣本,易造成數據冗雜和過擬合問題,并且計算機一一識別將會提高識別難度并增加運算時間,進而降低產品的使用壽命,因此語音數據預處理和特征工程,即對數據進行降噪、轉換和分類的專項篩選處理可以節省大量資源并提高語音交互模型性能。本系統從以下四個方面進行處理。

(1)特征提取

特征提取是通過以相對較低的數據采樣速率將波形數據轉換為參數表示形式,而后進行后續處理和分析來完成的。這通常稱為前端信號處理,它將經過處理的波形語音信號通過函數如感知線性預測(PLP)、線性預測編碼(PC)和頻率倒譜系數(MFCC),轉換成一種簡潔而有邏輯的表示形式,比實際信號更有鑒別性和可靠性。

(2)特征降維

數據降維是在降低特征數量的同時,盡可能保留原數據主要的信息,利用同一特性的最優特征篩除冗余特征,最終得到對構建模型最有貢獻度的特征。降維處理后的數據集合具有更小的規模,這樣的集合更易于儲存并且可以有效降低運算的復雜性,還可以大幅降低模型的復雜性,防止過擬合的情況出現。

(3)特征過濾

特征過濾是特征選用方法中最為常見和基本的一種,可以通過設立閾值來限制無關數據的輸入,比如在喚醒程序中設置音量閾值,可以簡單有效地過濾外部雜音和自身移動碰撞產生的噪音,大幅降低運算的復雜程度和運算資源的占用量。

(4)特征構造

特征構造是建立使用者或使用環境下常見有效輸入的聲學模型(例如在病房中使用時構造出現頻度高的醫學詞匯),通過近似模型來過濾差異較大的無關信息,將擬合程度高的特征信息輸入系統,大幅減少數據處理量。

語音材料的預處理在特征工程之前進行。預處理的步驟是預強調(濾波)—幀阻塞(將語音信號按幀分割)—語音信號加窗(加漢明窗和矩形窗對信號進行均勻化處理),以及必要的降噪與放大處理等。

5? 實驗結果與分析(The results and analysis of experiment)

5.1? ?實驗環境

硬件配置由樹莓派4 B、樹莓派3 B+和語音版組成,內置4核處理器ARMv7 process rev3,主頻1500 MHz,內存容量1.00 GB,磁盤容量16 GB。搭載Ubuntu 16.04 LST系統+ROS系統,Linux內核版本為4.19.75-v71,ROS系統版本為kinetic。實驗環境配置如表1所示。

5.2? ?實驗結果

在線語音交互流程是:(1)人與智能機器人進行語音交互;(2)智能機器人通過麥克風對交互語音進行采集,生成語音wave文件;(3)語音識別節點通過互聯網將wave語音文件傳輸到科大訊飛語音識別服務器,科大訊飛語音識別服務器通過智能語音識別算法將語音文件識別并轉換成文本文件,通過互聯網發回智能機器人終端;(4)語言處理節點將識別出的文本通過互聯網發送到在線圖靈機器人;(5)在線圖靈機器人通過傳入的文本內容和前后文語境,在知識庫中查找最佳的回復信息,并通過互聯網傳回智能機器人終端;(6)語音合成節點收到圖靈機器人的文本回復信息后,將其再次發送到科大訊飛云在線語音合成平臺;(7)科大訊飛云在線語音合成系統將文本內容轉換成語音數據,以MP3格式文件發給智能機器人;(8)智能機器人通過音頻輸出接口播放回復的語音文件,完成語音數據輸出。詢問天氣的語音交互過程如圖5所示。

基于語音交互的信息采集是機器人提問,由人來回答問題,完成信息采集任務。可將問答文本實時合成語音,也可提前把設定好的信息采集音頻合成好,不用每次信息采集的時候當場合成,提高程序運行效率。由機器人詢問并采集某用戶姓名、編號、體溫的語音交互過程如圖6至圖8所示。

通過測試,得到語音交互系統的各項參數如表2所示。

6? ?結論(Conclusion)

在人工智能技術飛速發展的今天,智能化的設備已經融入人們生活的方方面面,提高了生活的便捷性。本文設計了應用于疫情防控與病情監測的ROS智能語音交互機器人,通過對錄入音頻信號的預處理和特征提取,利用科大訊飛SDK文件和圖靈機器人模塊,以及有針對性的知識庫,同時充分考慮信號復雜性,設計降噪濾波方案,實現了無接觸式智能語音交互,減輕了醫護人員的工作量并從傳播途徑上降低了感染風險。由于并未考慮多階段對話中復雜邏輯交互的情況,對話時邏輯復雜會對語義理解造成不利影響,比如上下文理解困難、微型機算力不足等,因此設計并優化多階段復雜邏輯的識別和處理能力將是下一步研究的重點。

參考文獻(References)

[1] 戴禮榮,張仕良.深度語音信號與信息處理:研究進展與展望[J].數據采集與處理,2014,29(02):171-179.

[2] 林楓亭,羅藝,孔凡立,等.一種基于云平臺的智能機器人語音交互系統設計[J].電子測試,2018(Z1):40-42.

[3] 楊國慶,黃銳,李健,等.智能服務機器人語音交互的設計與實現[J].科技視界,2020(09):129-131.

[4] 秦偉.基于語音的人機交互平臺的設計與實現[D].武漢:華中科技大學,2019.

[5] Shenzhen Aukey Smart Information Technology Co., Ltd.. "AI Voice Interaction Method, Device And System" in Patent Application Approval Process (USPTO 20200105268)[J]. Telecommunications Weekly, 2020.

[6] YAO D, KATIE S T. Bridging the gap in mobile interaction design for children with disabilities: Perspectives from a pediatric speech language pathologist[J]. International Journal of Child-Computer Interaction, 2020:23-24.

[7] 楊加平.面向指控系統的嵌入式語音交互技術設計與實現[J].機械與電子,2015(04):72-74.

[8] 廖彬全,羅佩,馬遠佳.基于智能語音交互系統的翻譯機器人[J].信息與電腦(理論版),2019,31(17):110-112.

[9] 陳鑫源.智能語音交互技術及其標準化[J].電聲技術,2018, 42(05):78-80.

[10] 郝歐亞,吳璇,劉榮凱.智能語音識別技術的發展現狀與應用前景[J].電聲技術,2020,44(03):24-26.

作者簡介:

何? ?松(1988-),男,碩士,講師.研究領域:模式識別,人工智能.

黃? ?維(1999-),男,本科生.研究領域:自然語言處理.

吳昔遙(1999-),男,本科生.研究領域:自然語言處理.

周曾豪(2000-),男,本科生.研究領域:自然語言處理.

楊東澤(2000-),男,本科生.研究領域:自然語言處理.

猜你喜歡
云平臺人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
Docker技術在Web服務系統中的應用研究
高職院校開展基于云平臺網絡教學的探索與思考
中國市場(2016年36期)2016-10-19 04:43:09
企業云平臺建設研究
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
基于云平臺的微信互聯式教學法的探索與實踐
企業導報(2016年11期)2016-06-16 15:36:34
主站蜘蛛池模板: 一区二区三区毛片无码| 国产精品19p| 蜜桃臀无码内射一区二区三区| 极品国产在线| 嫩草国产在线| 久久久久久久久18禁秘| 国产午夜一级毛片| 黄色网址免费在线| 国产综合欧美| 在线欧美日韩国产| 欧美日韩国产综合视频在线观看| 亚洲乱码在线播放| 亚洲AV色香蕉一区二区| 久久婷婷人人澡人人爱91| 欧美日韩另类国产| 青青草原国产一区二区| 国产成人盗摄精品| 国产欧美日韩综合在线第一| 97国产在线视频| 国产免费观看av大片的网站| 亚洲国产在一区二区三区| 国产成人精品亚洲日本对白优播| 国产91成人| 亚洲欧美在线综合一区二区三区| 亚洲欧美自拍一区| 97国产在线观看| 亚洲欧美国产高清va在线播放| 亚洲欧美另类色图| 亚洲综合在线网| 麻豆精品在线播放| 国产不卡网| 国产欧美日韩va另类在线播放| 91久久偷偷做嫩草影院| 在线亚洲小视频| 欧美亚洲国产精品第一页| 欧美日韩一区二区三区四区在线观看 | 亚洲小视频网站| 美女啪啪无遮挡| 国产另类乱子伦精品免费女| 人妻一区二区三区无码精品一区| 午夜欧美理论2019理论| 亚洲熟女偷拍| 欧美午夜在线播放| 国产高清在线观看| 成人av手机在线观看| 中文字幕有乳无码| 日本免费一区视频| 四虎成人免费毛片| 国产精品开放后亚洲| 综合亚洲网| 亚洲日韩AV无码一区二区三区人| 毛片免费观看视频| 成人福利免费在线观看| 日韩在线成年视频人网站观看| 69视频国产| 亚洲人成网7777777国产| 女人18毛片久久| 91精品国产综合久久不国产大片| 国产在线97| 亚洲一区二区三区国产精华液| 国产午夜无码专区喷水| 这里只有精品在线| 全部免费特黄特色大片视频| 玩两个丰满老熟女久久网| 免费人成网站在线观看欧美| 91精品国产无线乱码在线| 亚洲一区二区约美女探花| 国产香蕉国产精品偷在线观看| 亚洲精品麻豆| 国产欧美综合在线观看第七页| 国产另类乱子伦精品免费女| 精品91在线| 欧美自拍另类欧美综合图区| 第一页亚洲| 精品午夜国产福利观看| 人妖无码第一页| 国产精品视频第一专区| 国产黄网站在线观看| 99视频在线精品免费观看6| 国产乱子伦视频在线播放| 国产成人1024精品| 久久99国产视频|