999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云平臺(tái)的智能語(yǔ)音交互機(jī)器人設(shè)計(jì)

2021-04-18 23:45:40何松黃維吳昔遙周曾豪楊東澤
軟件工程 2021年4期
關(guān)鍵詞:云平臺(tái)人工智能

何松 黃維 吳昔遙 周曾豪 楊東澤

摘? 要:現(xiàn)有的語(yǔ)音交互機(jī)器人多采用用戶(hù)提問(wèn)、機(jī)器人回答的單向交流方式,人機(jī)交互的智能性和靈活性較差。本文研究運(yùn)用樹(shù)莓派(Raspberry Pi)計(jì)算機(jī)和配套的語(yǔ)音板作為硬件載體,融合語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言處理等人工智能技術(shù),調(diào)用科大訊飛開(kāi)放云平臺(tái)、在線圖靈機(jī)器人,搭建一種基于云平臺(tái)的智能語(yǔ)音交互機(jī)器人系統(tǒng),并結(jié)合自主開(kāi)發(fā)的本地知識(shí)庫(kù)和問(wèn)題庫(kù),使智能語(yǔ)音交互機(jī)器人能夠根據(jù)不同環(huán)境與任務(wù)需求實(shí)現(xiàn)雙向互動(dòng)交流,實(shí)現(xiàn)由機(jī)器人采集信息和交流反饋,以提供高適應(yīng)性的無(wú)接觸人機(jī)語(yǔ)音交互服務(wù)。

關(guān)鍵詞:人工智能;自然語(yǔ)言處理;語(yǔ)音交互機(jī)器人;樹(shù)莓派;云平臺(tái)

中圖分類(lèi)號(hào):TP24? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):2096-1472(2021)-04-55-05

Abstract: Existing voice interactive robots mostly use user questions and the one-way communication method of robot answers, which is less intelligent and flexible in human-computer interaction. This paper proposes to build an intelligent voice interactive robot system based on cloud platform. The proposed system uses Raspberry Pi computer and the supporting voice board as hardware carriers, and integrates artificial intelligence technologies such as voice wake-up, voice recognition, speech synthesis, natural language processing. It also makes use of the services of IFLYTEK open cloud platform and online Turing robot. Combined with self-developed local knowledge base and question library, the intelligent voice interactive robot can conduct two-way interactive communication according to different environment and task requirements, collect information, and exchange feedback. It provides highly adaptable contactless human-machine voice interaction service.

Keywords: artificial intelligence; natural language processing; voice interactive robot; Raspberry Pi; cloud platform

1? ?引言(Introduction)

隨著人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)在語(yǔ)音技術(shù)領(lǐng)域取得突破性進(jìn)展[1]。與此同時(shí),在互聯(lián)網(wǎng)快速發(fā)展的驅(qū)動(dòng)下,云端技術(shù)架構(gòu)不斷成熟穩(wěn)定,基于語(yǔ)音的人機(jī)交互技術(shù)應(yīng)用越來(lái)越廣泛,涵蓋教育、醫(yī)療、家居等各行業(yè)領(lǐng)域[2],如服務(wù)機(jī)器人、情感交互機(jī)器人、教育機(jī)器人等[3]。在語(yǔ)音交互方面,云端保存著由海量數(shù)據(jù)通過(guò)深度學(xué)習(xí)訓(xùn)練而成的各種模型[4],并通過(guò)其強(qiáng)勁的處理能力為終端提供諸如語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等計(jì)算量較大的服務(wù)[5]。

語(yǔ)音識(shí)別技術(shù)的研究工作始于20世紀(jì)50年代,至今已經(jīng)走過(guò)70年的歷程[6],在國(guó)內(nèi)外被廣泛研究[7]。2011年的蘋(píng)果第四代語(yǔ)音助手Siri的出現(xiàn),帶來(lái)了國(guó)外語(yǔ)音交互產(chǎn)業(yè)的高峰期[8];2014年亞馬遜的智能音箱Echo是人機(jī)交互技術(shù)進(jìn)入家庭電器產(chǎn)業(yè)的重要節(jié)點(diǎn)[9]。隨著深度學(xué)習(xí)算法升級(jí)、硬件計(jì)算能力提升,大量數(shù)據(jù)不斷參與訓(xùn)練優(yōu)化模型,語(yǔ)音識(shí)別和自然語(yǔ)音理解不斷取得突破性進(jìn)展,國(guó)內(nèi)領(lǐng)先的科大訊飛、百度等公司語(yǔ)音識(shí)別準(zhǔn)確率達(dá)97%以上[10]。語(yǔ)音交互技術(shù)鏈條不斷成熟,讓機(jī)器人具備語(yǔ)音交互功能已然成為一種趨勢(shì)。本文主要研究整合現(xiàn)有資源,調(diào)整傳統(tǒng)語(yǔ)音交互系統(tǒng)軟件設(shè)計(jì)方案,基于云服務(wù)平臺(tái)和ROS(Robot Operating System)框架,設(shè)計(jì)智能語(yǔ)音交互系統(tǒng),并且可以安裝于小型集成計(jì)算機(jī)上。作為安裝于病房?jī)?nèi)的“智能語(yǔ)音交互機(jī)器人”,降低語(yǔ)音交互系統(tǒng)開(kāi)發(fā)難度和研發(fā)成本,使無(wú)接觸式就醫(yī)得以實(shí)現(xiàn),并且擴(kuò)展應(yīng)用功能。

2? ?語(yǔ)音交互模塊需求分析(Demand analysis of voice interaction)

通過(guò)分析疫情防控與病情監(jiān)測(cè)等環(huán)境的需要,我們構(gòu)想將自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)整合應(yīng)用至機(jī)器人,實(shí)現(xiàn)信息采集和交流反饋的主要功能,最終以文本+語(yǔ)音的形式進(jìn)行輸出。

人工信息采集工作重復(fù)、枯燥且效率較低,采用機(jī)器人進(jìn)行信息采集相當(dāng)于機(jī)器人提問(wèn),人來(lái)回答,可以實(shí)現(xiàn)自動(dòng)化、智能化和高效化。信息采集技術(shù)路線:(1)預(yù)置問(wèn)題庫(kù);(2)將問(wèn)題文本轉(zhuǎn)語(yǔ)音輸出;(3)采集用戶(hù)回答的語(yǔ)音;(4)調(diào)用語(yǔ)音識(shí)別模塊將語(yǔ)音轉(zhuǎn)文字;(5)提取用戶(hù)回答的文本中的關(guān)鍵詞信息;(6)將對(duì)應(yīng)的問(wèn)題和回答作為采集的信息存入數(shù)據(jù)庫(kù)。

交流反饋則是機(jī)器人通過(guò)采集聲音信號(hào),檢測(cè)語(yǔ)音信息,傳輸至本地知識(shí)庫(kù)和云端服務(wù)器中尋找相應(yīng)匹配信息,確認(rèn)答案后以語(yǔ)音和文本的形式輸出反饋。人機(jī)交互式的信息采集與交流反饋既可以從病毒傳播途徑上降低傳染風(fēng)險(xiǎn),又能夠利用預(yù)設(shè)問(wèn)答庫(kù)完成反饋,有效節(jié)約了人力資源。

3? 智能語(yǔ)音交互機(jī)器人總體設(shè)計(jì)(Overall design of intelligent voice interactive robot)

智能語(yǔ)音交互機(jī)器人的整體框架有兩層:云端服務(wù)平臺(tái)位于云端服務(wù)器(本例中采用科大訊飛開(kāi)放云平臺(tái)作為云端服務(wù)器),云端保存著由海量數(shù)據(jù)通過(guò)深度學(xué)習(xí)訓(xùn)練而成的各種模型,可降低終端的解析壓力,為系統(tǒng)提供一系列在線支持,主要是對(duì)本地計(jì)算機(jī)向云端發(fā)送的數(shù)據(jù)包提供解析、反饋與下載等服務(wù)——包括語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等。本地計(jì)算機(jī)交互系統(tǒng)主要分為三層:最底層是物理層,為L(zhǎng)inux內(nèi)核,是系統(tǒng)運(yùn)行環(huán)境(本例中采用Ubuntu 16.04系統(tǒng)),對(duì)應(yīng)的機(jī)器人操作系統(tǒng)ROS版本為kinetic;其次是中間層,該層主要是第三方庫(kù)以及ROS操作系統(tǒng);最上層稱(chēng)為應(yīng)用層,主管系統(tǒng)的業(yè)務(wù)處理邏輯,可根據(jù)任務(wù)需要設(shè)置功能模塊區(qū),如在隔離病房中的計(jì)算機(jī)需具備“病情匯報(bào)”“內(nèi)外交流”等功能。系統(tǒng)架構(gòu)如圖1所示。

3.1? ?基于在線云平臺(tái)的語(yǔ)音交互

智能語(yǔ)音交互機(jī)器人主要模塊包含語(yǔ)音采集、語(yǔ)音喚醒、語(yǔ)音檢測(cè)、云端識(shí)別、本地知識(shí)庫(kù)檢索、圖靈機(jī)器人交互、語(yǔ)音合成、輸出設(shè)備播放、判斷結(jié)束,從而構(gòu)成邏輯完整、滿足功能需要的語(yǔ)音交互系統(tǒng)。在線語(yǔ)音交互流程如圖2所示。

語(yǔ)音采集是控制麥克風(fēng)采集音頻將其轉(zhuǎn)換為可供后續(xù)流程使用的信號(hào),在系統(tǒng)中以wav文件形式保存。定義get-audio()函數(shù)來(lái)設(shè)定麥克風(fēng)使用參數(shù),如CHANNELS(聲道數(shù))和RATE(采樣率)等,從而實(shí)現(xiàn)麥克風(fēng)采集數(shù)據(jù)的功能。

語(yǔ)音喚醒環(huán)節(jié)是通過(guò)識(shí)別輸入的音頻信號(hào)中特定的詞語(yǔ),當(dāng)識(shí)別引擎計(jì)算得分超過(guò)預(yù)設(shè)的門(mén)限值時(shí),返回喚醒結(jié)果為“真”,回調(diào)預(yù)設(shè)的函數(shù),進(jìn)行下一步的處理。

語(yǔ)音檢測(cè)是對(duì)采集的音頻文件進(jìn)行分析,判斷是否有有效語(yǔ)音數(shù)據(jù)輸入,并且檢測(cè)語(yǔ)音文件是否符合識(shí)別要求,實(shí)際上是對(duì)環(huán)境噪聲等低相關(guān)性的過(guò)濾,以及對(duì)不規(guī)范音頻文件的篩選。通過(guò)對(duì)CHANNELS(聲道數(shù))和RATE(采樣率)等參數(shù)的調(diào)用判別,提高采樣精度,則能更好完善用戶(hù)體驗(yàn)。

語(yǔ)音識(shí)別模塊是將語(yǔ)音輸入轉(zhuǎn)為文本輸入的過(guò)程,基于科大訊飛開(kāi)放平臺(tái)所提供的適用于Linux系統(tǒng)下的軟件開(kāi)發(fā)工具包(Software Development Kit,SDK),本地計(jì)算機(jī)對(duì)語(yǔ)音提問(wèn)進(jìn)行錄制、檢測(cè)并上傳至云端識(shí)別引擎,轉(zhuǎn)換成文本數(shù)據(jù)后,通過(guò)互聯(lián)網(wǎng)重新返回到使用者終端。通過(guò)val=os.popen()函數(shù)執(zhí)行訊飛SDK包并將返回結(jié)果保存在文件中,并利用函數(shù)readlines()循環(huán)查詢(xún)找到語(yǔ)音識(shí)別的結(jié)果,截取結(jié)果,輸出到用戶(hù)終端。因此,到“科大訊飛云端識(shí)別”的步驟為止完成了對(duì)用戶(hù)的語(yǔ)音提問(wèn)轉(zhuǎn)為文本數(shù)據(jù)的過(guò)程,后續(xù)步驟會(huì)進(jìn)一步提交文本數(shù)據(jù)進(jìn)行問(wèn)答匹配與語(yǔ)音合成輸出。

檢索知識(shí)庫(kù)是先讀取本地知識(shí)庫(kù),將語(yǔ)音識(shí)別出的文本數(shù)據(jù)導(dǎo)入其中匹配,若存在匹配項(xiàng),則返回為“真”,并將匹配文本數(shù)據(jù)導(dǎo)入科大訊飛SDK文件,轉(zhuǎn)語(yǔ)音合成輸出;若不存在匹配項(xiàng),則調(diào)用圖靈機(jī)器人,將識(shí)別出的文本數(shù)據(jù)進(jìn)行在線檢索。Fo=open()函數(shù)用來(lái)打開(kāi)知識(shí)庫(kù),readlines()函數(shù)將知識(shí)庫(kù)讀取為列表變量,進(jìn)行結(jié)果查詢(xún)。本步驟完成了問(wèn)答匹配流程,并提供了本地知識(shí)庫(kù)匹配和云端知識(shí)庫(kù)匹配兩種途徑。

語(yǔ)音合成即從文本輸入到語(yǔ)音輸出的過(guò)程,把知識(shí)庫(kù)匹配的答案上傳至云端服務(wù)器,轉(zhuǎn)為語(yǔ)音數(shù)據(jù)后返回用戶(hù)終端播放。在線語(yǔ)音聽(tīng)寫(xiě)和在線語(yǔ)音合成都屬于通過(guò)音頻文件/文本文件向云端識(shí)別引擎請(qǐng)求服務(wù)并獲得識(shí)別結(jié)果的方式,相較于建立傳輸控制協(xié)議/互聯(lián)協(xié)議(Transmission Control Protocol/Internet Protocol,TCP/IP)長(zhǎng)連接的方式發(fā)送實(shí)時(shí)音頻數(shù)據(jù)流的方式,前者實(shí)時(shí)性較差但不必長(zhǎng)時(shí)間占用計(jì)算機(jī)資源。通過(guò)os.popen()函數(shù)執(zhí)行科大訊飛的語(yǔ)音合成SDK文件,以匹配所得的文本數(shù)據(jù)為對(duì)象,生成wav格式的音頻文件,并將該文本數(shù)據(jù)輸出到終端,實(shí)現(xiàn)語(yǔ)音和文字兩種形式輸出。

設(shè)備輸出音頻是通過(guò)調(diào)用生成的語(yǔ)音文件輸出給外設(shè)麥克風(fēng)實(shí)現(xiàn)的。利用os.popen()函數(shù)調(diào)用play指令播放音頻,并根據(jù)合成音頻文件的文本數(shù)據(jù)長(zhǎng)度決定暫停時(shí)間長(zhǎng)短,保證語(yǔ)音輸出的完整性。

3.2? ?離線語(yǔ)音交互

針對(duì)涉密或隱私情況下離線語(yǔ)音交互的需要,可將基于云端服務(wù)器的識(shí)別處理轉(zhuǎn)為發(fā)送至本地計(jì)算機(jī)進(jìn)行。通過(guò)更改各節(jié)點(diǎn)間的訂閱關(guān)系,將原發(fā)送至云平臺(tái)的數(shù)據(jù)轉(zhuǎn)發(fā)給本地程序處理,以實(shí)現(xiàn)離線的語(yǔ)音交互。

其基本步驟是:語(yǔ)音交互系統(tǒng)啟動(dòng)后,由用戶(hù)輸入指定喚醒詞,將系統(tǒng)由待機(jī)狀態(tài)喚醒至工作狀態(tài),調(diào)用system()函數(shù)對(duì)用戶(hù)的提問(wèn)進(jìn)行錄音,生成指定wav文件。利用回調(diào)函數(shù)將該wav文件輸入科大訊飛離線語(yǔ)音識(shí)別SDK進(jìn)行識(shí)別,識(shí)別理解轉(zhuǎn)化成文本數(shù)據(jù)返回。調(diào)用system()函數(shù)對(duì)文本數(shù)據(jù)進(jìn)行獲取,將問(wèn)題文本數(shù)據(jù)導(dǎo)入預(yù)先編好的本地語(yǔ)料庫(kù)中進(jìn)行匹配,得到對(duì)應(yīng)的回復(fù)文本數(shù)據(jù)。利用回調(diào)函數(shù)將該回復(fù)文本數(shù)據(jù)輸入科大訊飛離線語(yǔ)音合成SDK進(jìn)行合成,得到特定內(nèi)容的wav音頻文件。最后調(diào)用system()函數(shù)對(duì)合成的wav音頻文件進(jìn)行播放,即完成一次完整的語(yǔ)音交互過(guò)程。

3.3? ?基于語(yǔ)音交互的信息采集

信息采集功能是通過(guò)機(jī)器人主導(dǎo)交互實(shí)現(xiàn)的。利用科大訊飛離線的語(yǔ)音合成SDK文件將設(shè)定的問(wèn)題處理為語(yǔ)音,再通過(guò)揚(yáng)聲器播放出來(lái),被采集者聽(tīng)到問(wèn)題的反饋將被麥克風(fēng)收錄,SDK文件將語(yǔ)音文件識(shí)別為文本,提取關(guān)鍵詞。作為采集信息,機(jī)器人將問(wèn)題和對(duì)應(yīng)采集信息存入數(shù)據(jù)庫(kù),實(shí)現(xiàn)了無(wú)接觸的信息采集功能。

交流反饋功能是通過(guò)使用者主導(dǎo)交互實(shí)現(xiàn)的。先通過(guò)語(yǔ)音喚醒,使機(jī)器人調(diào)用麥克風(fēng)采集聲音,然后將聲音信號(hào)發(fā)至基于科大訊飛開(kāi)放平臺(tái)的語(yǔ)音識(shí)別模塊,提取識(shí)別結(jié)果并在知識(shí)庫(kù)中檢索,將得到的相關(guān)文本發(fā)至語(yǔ)音合成模塊,再將輸出結(jié)果連入揚(yáng)聲器播放,最終反饋至使用者。信息采集與交流反饋流程圖如圖3所示。

3.4? ?語(yǔ)音交互機(jī)器人在病房中的實(shí)際應(yīng)用

經(jīng)過(guò)對(duì)體積與應(yīng)用性的考量,該機(jī)器人采用樹(shù)莓派(M4PB型)作為硬件載體,以體積小和集成度高適應(yīng)便攜性需求,并且應(yīng)用了科大訊飛開(kāi)放云平臺(tái)的在線資源和本地語(yǔ)料庫(kù),通過(guò)將語(yǔ)音數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)傳輸?shù)皆贫朔?wù)器,利用云計(jì)算技術(shù)得到識(shí)別結(jié)果并返回。云端資源豐富,可以更好地利用知識(shí)庫(kù)資源,同時(shí)本地語(yǔ)料庫(kù)的準(zhǔn)備適用于不同情況下的不同需要,分析設(shè)計(jì)其相對(duì)應(yīng)的資料庫(kù),并延伸相關(guān)的可靠性設(shè)計(jì)與適應(yīng)性設(shè)計(jì),可以實(shí)現(xiàn)更廣泛的用途。語(yǔ)音交互系統(tǒng)采用ROS節(jié)點(diǎn)消息發(fā)布和訂閱機(jī)制。ROS是開(kāi)源的機(jī)器人操作系統(tǒng)軟件,提供類(lèi)似于操作系統(tǒng)的服務(wù)。ROS通過(guò)將龐大繁雜的系統(tǒng)任務(wù)切分成功能單一的子任務(wù),再通過(guò)以消息或服務(wù)的方式將子任務(wù)鏈接起來(lái)形成可以完成復(fù)雜任務(wù)的系統(tǒng),實(shí)現(xiàn)代碼復(fù)用,降低設(shè)計(jì)難度,同時(shí)ROS支持C、Python多編程語(yǔ)言,功能包豐富,測(cè)試方便。在通信過(guò)程中,節(jié)點(diǎn)將消息以特定主題發(fā)布到ROS核心控制器,ROS核心控制器異步地將該消息轉(zhuǎn)發(fā)給訂閱該主題的節(jié)點(diǎn)進(jìn)而實(shí)現(xiàn)通信。ROS節(jié)點(diǎn)消息傳遞示意圖如圖4所示。

4? ?優(yōu)化設(shè)計(jì)(Optimal design)

由于采樣識(shí)別的開(kāi)放式環(huán)境會(huì)帶來(lái)大量數(shù)據(jù)和樣本,易造成數(shù)據(jù)冗雜和過(guò)擬合問(wèn)題,并且計(jì)算機(jī)一一識(shí)別將會(huì)提高識(shí)別難度并增加運(yùn)算時(shí)間,進(jìn)而降低產(chǎn)品的使用壽命,因此語(yǔ)音數(shù)據(jù)預(yù)處理和特征工程,即對(duì)數(shù)據(jù)進(jìn)行降噪、轉(zhuǎn)換和分類(lèi)的專(zhuān)項(xiàng)篩選處理可以節(jié)省大量資源并提高語(yǔ)音交互模型性能。本系統(tǒng)從以下四個(gè)方面進(jìn)行處理。

(1)特征提取

特征提取是通過(guò)以相對(duì)較低的數(shù)據(jù)采樣速率將波形數(shù)據(jù)轉(zhuǎn)換為參數(shù)表示形式,而后進(jìn)行后續(xù)處理和分析來(lái)完成的。這通常稱(chēng)為前端信號(hào)處理,它將經(jīng)過(guò)處理的波形語(yǔ)音信號(hào)通過(guò)函數(shù)如感知線性預(yù)測(cè)(PLP)、線性預(yù)測(cè)編碼(PC)和頻率倒譜系數(shù)(MFCC),轉(zhuǎn)換成一種簡(jiǎn)潔而有邏輯的表示形式,比實(shí)際信號(hào)更有鑒別性和可靠性。

(2)特征降維

數(shù)據(jù)降維是在降低特征數(shù)量的同時(shí),盡可能保留原數(shù)據(jù)主要的信息,利用同一特性的最優(yōu)特征篩除冗余特征,最終得到對(duì)構(gòu)建模型最有貢獻(xiàn)度的特征。降維處理后的數(shù)據(jù)集合具有更小的規(guī)模,這樣的集合更易于儲(chǔ)存并且可以有效降低運(yùn)算的復(fù)雜性,還可以大幅降低模型的復(fù)雜性,防止過(guò)擬合的情況出現(xiàn)。

(3)特征過(guò)濾

特征過(guò)濾是特征選用方法中最為常見(jiàn)和基本的一種,可以通過(guò)設(shè)立閾值來(lái)限制無(wú)關(guān)數(shù)據(jù)的輸入,比如在喚醒程序中設(shè)置音量閾值,可以簡(jiǎn)單有效地過(guò)濾外部雜音和自身移動(dòng)碰撞產(chǎn)生的噪音,大幅降低運(yùn)算的復(fù)雜程度和運(yùn)算資源的占用量。

(4)特征構(gòu)造

特征構(gòu)造是建立使用者或使用環(huán)境下常見(jiàn)有效輸入的聲學(xué)模型(例如在病房中使用時(shí)構(gòu)造出現(xiàn)頻度高的醫(yī)學(xué)詞匯),通過(guò)近似模型來(lái)過(guò)濾差異較大的無(wú)關(guān)信息,將擬合程度高的特征信息輸入系統(tǒng),大幅減少數(shù)據(jù)處理量。

語(yǔ)音材料的預(yù)處理在特征工程之前進(jìn)行。預(yù)處理的步驟是預(yù)強(qiáng)調(diào)(濾波)—幀阻塞(將語(yǔ)音信號(hào)按幀分割)—語(yǔ)音信號(hào)加窗(加漢明窗和矩形窗對(duì)信號(hào)進(jìn)行均勻化處理),以及必要的降噪與放大處理等。

5? 實(shí)驗(yàn)結(jié)果與分析(The results and analysis of experiment)

5.1? ?實(shí)驗(yàn)環(huán)境

硬件配置由樹(shù)莓派4 B、樹(shù)莓派3 B+和語(yǔ)音版組成,內(nèi)置4核處理器ARMv7 process rev3,主頻1500 MHz,內(nèi)存容量1.00 GB,磁盤(pán)容量16 GB。搭載Ubuntu 16.04 LST系統(tǒng)+ROS系統(tǒng),Linux內(nèi)核版本為4.19.75-v71,ROS系統(tǒng)版本為kinetic。實(shí)驗(yàn)環(huán)境配置如表1所示。

5.2? ?實(shí)驗(yàn)結(jié)果

在線語(yǔ)音交互流程是:(1)人與智能機(jī)器人進(jìn)行語(yǔ)音交互;(2)智能機(jī)器人通過(guò)麥克風(fēng)對(duì)交互語(yǔ)音進(jìn)行采集,生成語(yǔ)音wave文件;(3)語(yǔ)音識(shí)別節(jié)點(diǎn)通過(guò)互聯(lián)網(wǎng)將wave語(yǔ)音文件傳輸?shù)娇拼笥嶏w語(yǔ)音識(shí)別服務(wù)器,科大訊飛語(yǔ)音識(shí)別服務(wù)器通過(guò)智能語(yǔ)音識(shí)別算法將語(yǔ)音文件識(shí)別并轉(zhuǎn)換成文本文件,通過(guò)互聯(lián)網(wǎng)發(fā)回智能機(jī)器人終端;(4)語(yǔ)言處理節(jié)點(diǎn)將識(shí)別出的文本通過(guò)互聯(lián)網(wǎng)發(fā)送到在線圖靈機(jī)器人;(5)在線圖靈機(jī)器人通過(guò)傳入的文本內(nèi)容和前后文語(yǔ)境,在知識(shí)庫(kù)中查找最佳的回復(fù)信息,并通過(guò)互聯(lián)網(wǎng)傳回智能機(jī)器人終端;(6)語(yǔ)音合成節(jié)點(diǎn)收到圖靈機(jī)器人的文本回復(fù)信息后,將其再次發(fā)送到科大訊飛云在線語(yǔ)音合成平臺(tái);(7)科大訊飛云在線語(yǔ)音合成系統(tǒng)將文本內(nèi)容轉(zhuǎn)換成語(yǔ)音數(shù)據(jù),以MP3格式文件發(fā)給智能機(jī)器人;(8)智能機(jī)器人通過(guò)音頻輸出接口播放回復(fù)的語(yǔ)音文件,完成語(yǔ)音數(shù)據(jù)輸出。詢(xún)問(wèn)天氣的語(yǔ)音交互過(guò)程如圖5所示。

基于語(yǔ)音交互的信息采集是機(jī)器人提問(wèn),由人來(lái)回答問(wèn)題,完成信息采集任務(wù)。可將問(wèn)答文本實(shí)時(shí)合成語(yǔ)音,也可提前把設(shè)定好的信息采集音頻合成好,不用每次信息采集的時(shí)候當(dāng)場(chǎng)合成,提高程序運(yùn)行效率。由機(jī)器人詢(xún)問(wèn)并采集某用戶(hù)姓名、編號(hào)、體溫的語(yǔ)音交互過(guò)程如圖6至圖8所示。

通過(guò)測(cè)試,得到語(yǔ)音交互系統(tǒng)的各項(xiàng)參數(shù)如表2所示。

6? ?結(jié)論(Conclusion)

在人工智能技術(shù)飛速發(fā)展的今天,智能化的設(shè)備已經(jīng)融入人們生活的方方面面,提高了生活的便捷性。本文設(shè)計(jì)了應(yīng)用于疫情防控與病情監(jiān)測(cè)的ROS智能語(yǔ)音交互機(jī)器人,通過(guò)對(duì)錄入音頻信號(hào)的預(yù)處理和特征提取,利用科大訊飛SDK文件和圖靈機(jī)器人模塊,以及有針對(duì)性的知識(shí)庫(kù),同時(shí)充分考慮信號(hào)復(fù)雜性,設(shè)計(jì)降噪濾波方案,實(shí)現(xiàn)了無(wú)接觸式智能語(yǔ)音交互,減輕了醫(yī)護(hù)人員的工作量并從傳播途徑上降低了感染風(fēng)險(xiǎn)。由于并未考慮多階段對(duì)話中復(fù)雜邏輯交互的情況,對(duì)話時(shí)邏輯復(fù)雜會(huì)對(duì)語(yǔ)義理解造成不利影響,比如上下文理解困難、微型機(jī)算力不足等,因此設(shè)計(jì)并優(yōu)化多階段復(fù)雜邏輯的識(shí)別和處理能力將是下一步研究的重點(diǎn)。

參考文獻(xiàn)(References)

[1] 戴禮榮,張仕良.深度語(yǔ)音信號(hào)與信息處理:研究進(jìn)展與展望[J].數(shù)據(jù)采集與處理,2014,29(02):171-179.

[2] 林楓亭,羅藝,孔凡立,等.一種基于云平臺(tái)的智能機(jī)器人語(yǔ)音交互系統(tǒng)設(shè)計(jì)[J].電子測(cè)試,2018(Z1):40-42.

[3] 楊國(guó)慶,黃銳,李健,等.智能服務(wù)機(jī)器人語(yǔ)音交互的設(shè)計(jì)與實(shí)現(xiàn)[J].科技視界,2020(09):129-131.

[4] 秦偉.基于語(yǔ)音的人機(jī)交互平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2019.

[5] Shenzhen Aukey Smart Information Technology Co., Ltd.. "AI Voice Interaction Method, Device And System" in Patent Application Approval Process (USPTO 20200105268)[J]. Telecommunications Weekly, 2020.

[6] YAO D, KATIE S T. Bridging the gap in mobile interaction design for children with disabilities: Perspectives from a pediatric speech language pathologist[J]. International Journal of Child-Computer Interaction, 2020:23-24.

[7] 楊加平.面向指控系統(tǒng)的嵌入式語(yǔ)音交互技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J].機(jī)械與電子,2015(04):72-74.

[8] 廖彬全,羅佩,馬遠(yuǎn)佳.基于智能語(yǔ)音交互系統(tǒng)的翻譯機(jī)器人[J].信息與電腦(理論版),2019,31(17):110-112.

[9] 陳鑫源.智能語(yǔ)音交互技術(shù)及其標(biāo)準(zhǔn)化[J].電聲技術(shù),2018, 42(05):78-80.

[10] 郝歐亞,吳璇,劉榮凱.智能語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用前景[J].電聲技術(shù),2020,44(03):24-26.

作者簡(jiǎn)介:

何? ?松(1988-),男,碩士,講師.研究領(lǐng)域:模式識(shí)別,人工智能.

黃? ?維(1999-),男,本科生.研究領(lǐng)域:自然語(yǔ)言處理.

吳昔遙(1999-),男,本科生.研究領(lǐng)域:自然語(yǔ)言處理.

周曾豪(2000-),男,本科生.研究領(lǐng)域:自然語(yǔ)言處理.

楊東澤(2000-),男,本科生.研究領(lǐng)域:自然語(yǔ)言處理.

猜你喜歡
云平臺(tái)人工智能
我校新增“人工智能”本科專(zhuān)業(yè)
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
Docker技術(shù)在Web服務(wù)系統(tǒng)中的應(yīng)用研究
高職院校開(kāi)展基于云平臺(tái)網(wǎng)絡(luò)教學(xué)的探索與思考
企業(yè)云平臺(tái)建設(shè)研究
下一幕,人工智能!
下一幕,人工智能!
基于云平臺(tái)的微信互聯(lián)式教學(xué)法的探索與實(shí)踐
主站蜘蛛池模板: 中文天堂在线视频| 啪啪国产视频| 四虎影视库国产精品一区| 亚洲男女在线| 国产H片无码不卡在线视频| 91免费国产高清观看| 亚洲精品欧美日韩在线| a级毛片免费看| 亚洲午夜片| 婷婷色中文网| 亚洲欧美日韩另类| 国产小视频a在线观看| 亚洲综合色婷婷中文字幕| 亚洲成人网在线观看| 全部无卡免费的毛片在线看| 国产导航在线| 国产网站一区二区三区| 亚洲乱码在线视频| 日本免费a视频| 国产精品一区不卡| 欧美日本一区二区三区免费| 国产超碰在线观看| 人人看人人鲁狠狠高清| 欧美国产中文| 99久久精品国产综合婷婷| 97在线观看视频免费| 国内精品91| 精品第一国产综合精品Aⅴ| 无码av免费不卡在线观看| 韩国福利一区| 99视频只有精品| 伊人久久综在合线亚洲91| 亚洲精品成人片在线播放| 中文字幕无码制服中字| 国产成人三级在线观看视频| 亚洲精品无码不卡在线播放| 亚洲无码精彩视频在线观看 | 91精品网站| 亚国产欧美在线人成| 欧美在线免费| www.精品国产| 农村乱人伦一区二区| 日韩精品成人在线| 91麻豆精品国产高清在线| 国产女人在线视频| 美女无遮挡免费网站| 国产手机在线ΑⅤ片无码观看| 99精品国产电影| 国产成人综合久久| 亚洲V日韩V无码一区二区| 99热国产在线精品99| 国产91在线|日本| 97人妻精品专区久久久久| 亚洲第一页在线观看| 日韩A∨精品日韩精品无码| 欧美综合成人| 91久久精品日日躁夜夜躁欧美| 亚洲色图欧美| 亚洲无线一二三四区男男| 欧美一区二区精品久久久| 91久久国产综合精品女同我| 欧美精品在线视频观看| 无码又爽又刺激的高潮视频| 国产亚洲精品自在久久不卡| 老司机aⅴ在线精品导航| 香蕉色综合| 国产原创第一页在线观看| 精品一区二区三区自慰喷水| 99re热精品视频国产免费| 欧美成在线视频| 日韩无码黄色| 最新亚洲人成无码网站欣赏网| 欧美一区中文字幕| 午夜少妇精品视频小电影| 青青青视频蜜桃一区二区| 久久男人资源站| 亚洲欧美日韩中文字幕在线一区| 曰AV在线无码| 91国内外精品自在线播放| 日韩激情成人| 超碰色了色| 亚洲水蜜桃久久综合网站|