999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能機器人語音交互專利技術分析

2020-08-04 20:28:41張媛媛宋海榮楊少魁
河南科技 2020年9期

張媛媛 宋海榮 楊少魁

摘要:語言是人類最自然便捷的溝通手段,是人類之間進行交流的重要表達方式。語音交互技術在智能機器人的應用,主要是通過語音輸入設備輸入語音,再通過相應的軟件、程序等使計算機分辨出人類語音的內容,實現人與計算機之間的交互。基于語音的機器人交互技術,主要包括語音采集、語音識別、語音合成等關鍵技術環節。因此,本文從語音采集、語音合成、語音識別三個分支通過歷年申請量、區域分布、技術活躍度、主要申請人以及技術演進等角度,對智能機器人語音交互的專利進行了梳理,以期對智能機器人語音交互專利進行深入分析,為機器人語音交互技術領域提供技術發展方向和專利布局指導。

關鍵詞:機器人;語音采集;語音合成;語音識別

中圖分類號:TP311 文獻標識碼:A 文章編號:1003-5168(2020)09-0153-08

1 概述

隨著人工智能的蓬勃發展,智能機器人在商業、軍事、醫療等方法都有廣泛的應用。追求智能化的今天,實現人和機器之間“無障礙”的對話與交流,以提高機器的主動性與能動性,也能不斷擴大應用的領域[1]。因此,語音交互技術是智能機器人的核心技術,其通過語音輸入設備輸入語音,再通過相應的軟件、程序等使計算機分辨出人類語音的內容,實現人與計算機之間的交互。基于語音的機器人交互技術,主要包括語音采集、語音識別、語音合成等關鍵技術環節。因此,本文從語音采集、語音合成、語音識別三個分支通過歷年申請量、區域分布、技術活躍度、主要申請人以及技術演進等角度,對智能機器人語音交互的專利進行了梳理,以期對智能機器人語音交互專利進行深入分析,為機器人語音交互技術領域提供技術發展方向和專利布局指導。

2 專利技術分支及其發展路線

2.1 基于語音的智能機器人專利技術分支

2.1.1 語音采集。語音采集,基于語音的人機交互中通常采用麥克風進行語音采集。麥克風(又稱微音器和話筒,正式的中文名是傳聲器),是一種將聲音轉換成電子信號的換能器。麥克風的歷史可以追溯到19世紀末,貝爾等科學家致力于尋找更好的拾取聲音的辦法,以用于改進當時的最新發明——電話。期間他們發明了液體麥克風和碳粒麥克風,這些麥克風效果并不理想,只是勉強能夠使用。20世紀,麥克風由最初通過電阻轉換聲電發展為電感、電容式轉換,大量新的麥克風技術逐漸發展起來,這其中包括鋁帶、動圈等麥克風,以及當前廣泛使用的電容麥克風和駐極體麥克風、ECM麥克風、MEMS麥克風[2]。

2.1.2 語音合成。語音合成,即將文本信息轉換為語音信號。語音合成的發展經歷了機械式語音合成、電子式語音合成和基于計算機的語音合成發展階段。語音合成方法按照設計的主要思想分為規則驅動方法和數據驅動方法,前者的主要思想是根據人類發音物理過程從而制定一系列規則來模擬這一過程,后者則是在語音庫中的數據上利用統計方法如建模來實現合成的方法,因而數據驅動方法更多的依賴語音語料庫的質量、規模和最小單元等[3-5]。

2.1.3 語音識別。語音識別是將人類的聲音信號轉化為文字或者指令的過程。語音識別系統包括前端處理、特征提取、聲學模型、語言學模型和解碼幾個模塊。前端處理包括對高頻信號進行預加重,將語音信號分幀,對語音信號做初步處理,特征提取將聲音信號從時域轉換為頻域,聲學模型以特征向量作為輸入,對應到語音到音節的概率,語言學模型根據語言特性,對應到音節到字的概率,解碼器結合聲學模型和語言學模型及詞典信息輸出可能性最大的詞序列。其中,聲學模型和語言模型是語音識別中比較重要的環節[6-10]。

2.2 基于語音的智能機器人專利申請總體情況

2.2.1 數據來源及檢索要素。本文采用了中國專利文摘數據庫(CNABS)、德溫特世界專利索引數據庫(DWPI)。其中,CNABS用于中文專利檢索,DWPI用于英文庫專利的檢索,最后數據匯總到DWPI數據庫進行統計查看。檢索時限截止到2019年7月10日,其中由于專利文獻從提出申請到向公眾公開有時間的延后,因此,2018年的樣本會有不完整的問題,所以對于以下分析圖中有關2018年申請量的下降曲線不排除是由于樣本數據量的不完整而造成的。2019年數據缺少比較多,其中的數據就沒有體現在分析的范圍內。

2.2.2 全球專利申請量分析

①全球歷年專利申請量

下圖示出了語音人機交互技術的全球專利申請趨勢狀況。自1992年起,全球申請量趨勢如下。后面基于歷年專利申請量,對語音人機交互技術的發展趨勢進行了分階段的分析。

萌芽階段(1992—1998年):語音人機交互技術的專利申請量較少,雖然機器人的概念已經被提出了幾十年了,但是限于通過語音與機器人交互的方面研究較少,人機交互相關的語音識別技術還不成熟,音頻數據處理所需的CPU還不能滿足其大量計算的需求,企業和研究機構對其研發的熱度不高,尚處于技術萌芽階段。

快速增長階段(1999—2015年):語音人機交互技術專利申請量開始呈現一定的增長趨勢,從1999年到2015年,伴隨著計算機硬件技術尤其是Intel和NVDIA兩家公司的CPU產品性能的發展,以及機器人相關硬件如傳感器、攝像頭等的快速發展,使得語音人機交互技術不斷成熟,因此年專利申請量迅速增長了好幾倍。但由于成本因素以及實際效果難以達到消費者滿意的程度,仍舊無法達到大規模商業生產的條件。

急速增長階段(2015年至今):2015年以后,隨著計算機技術和處理器技術的快速發展,以及市場對于智能機器人語音人機交互技術的需求,各類企業紛紛開始在該領域進行大量專利布局,以期在后續的市場中搶占先機。

②各國家/地區/組織專利申請量

由上圖可以看出,語音人機交互技術全球專利申請量前五位國家分別為日本、中國、美國、韓國和歐洲,這五個國家的申請量占全球申請量的82%,其他國家/地區/組織的申請量僅占全球申請量的18%,可見該領域的專利申請較為集中。其中日本、中國、美國、韓國和歐洲都是世界上工業較為發達的幾個國家,有著先進的科學技術作為支撐,并且有市場需求的驅動。因此這些國家對機器人的專利申請和布局占據了絕大部分比例。

③技術活躍度分析

上圖顯示了語音人機交互技術的申請人的數量的變化情況,可以看出,從2000年至2005年,各個申請人剛開始關注語音人機交互技術,每年新增申請人少量增加。從2006年開始,到2014年由于技術不成熟,商業化應用不廣泛,雖然關注語音人機交互技術的申請人有所增加,但是并沒有引起足夠多的企業關注。而從2015年開始,大量申請人踴躍加入語音人機交互技術的研究。

④全球/中國主要申請人分析

從全球專利申請量排名前10位的申請人來看,主要來自日本、韓國和中國。其中日本企業占據7個席位,中國和韓國分別只有2個和1個席位。可見雖然中國語音人機交互專利申請量在全球地區分布時所占比例與日本差不多,但僅有北京光年無線一家企業的專利申請量排在全球第二,可見中國申請人的專利申請較為分散,目前還沒有實力較強的申請人出現。從企業類型來看,索尼、本田、夏普、豐田、三星、日本電氣、日本電報電話公司和松下都是日本和韓國知名的企業,占據了8個席位。

上圖示出了國內主要申請人在語音人機交互領域申請專利的情況。與全球主要申請人相比,國內主要申請人在申請量上具有一定的差距,申請量相對較少。

2.3 基于語音的智能機器人的專利技術演進

2.3.1 麥克風。麥克風的歷史可以追溯到19世紀末,貝爾等科學家致力于尋找更好的拾取聲音的辦法,以用于改進當時的最新發明——電話。期間他們發明了液體麥克風和碳粒麥克風,這些麥克風效果并不理想,只是勉強能夠使用。二十世紀,麥克風由最初通過電阻轉換聲電發展為電感、電容式轉換,大量新的麥克風技術逐漸發展起來,這其中包括鋁帶、動圈等麥克風,以及當前廣泛使用的電容麥克風和駐極體麥克風、ECM麥克風、MEMS麥克風。

在機器人語音交互的語音傳感器中,2011年CN102137321A提出一種薄膜型傳聲器陣列,其針對傳統的駐極體電容傳聲器結構復雜、體積無法減小的問題,采用多孔聚合物薄膜的壓電駐極體薄膜,減小了零件數目及器件的體積,使得薄膜型傳聲器陣列的聲電轉換性能穩定。隨后,MEMS傳感器因其相比傳統的傳感器具有體積小、重量輕、成本低、功耗低、可靠性高、適用批量生產、易于集成和實現智能化等特點,在機器人語音交互中得到了廣泛應用。KR20130044761A提出的MEMS麥克風將集成電路與具有壓電特性的納米線組合以最大化壓電效應。US201815938665A基于現有的MEMS組件質檢存在的差異導致各個部件的電容發生變化而提出能夠確定MEMS換能器的電容的MEMS換能器系統,其中所確定的電容可用于校準MEMS換能器電路以實現給定輸入壓力或聲波的給定輸出信號。

2.3.2 語音合成。語音合成方法按照設計的主要思想分為規則驅動方法和數據驅動方法,前者的主要思想是根據人類發音物理過程從而制定一系列規則來模擬這一過程,如共振峰合成、發音規則合成等,后者則是在語音庫中的數據上利用統計方法如建模來實現合成的方法,因而數據驅動方法更多的依賴語音語料庫的質量、規模和最小單元等,如波形拼接合成、單元選擇合成、波加噪聲模型、HMM合成、神經網絡模型合成等。

在機器人語音交互的語音合成中,最早由索尼公司JP2002268699A提出采用波形拼接進行語音合成,其通過在文本分析結果中的音素信息獲取必要的音素片數據,并且把音素片數據連接起來,同時根據韻律數據和合成控制參數處理數據,以生成具有相應韻律和音調質量的合成音調數據,但存在占用內存大、耗費人力物力等缺點。緊接著松下、日本電氣株式會社相繼采用單元選擇合成方法進行語音合成,其中WO2006123539A1根據所述韻律生成單元所獲得的音韻串及韻律和所述說話位置決定單元所決定的說話位置,從標準聲音單元記錄部或所述特殊聲音單元記錄部選擇聲音單元,并生成聲音波形,實現在表現情感或表現力的聲音中經常可以見到的豐富的聲音表現;CN101379549A采用從單位波形數據記憶部中根據發聲形式所選擇的單位波形數據記憶部,根據發音符號串和韻律信息選擇單位波形,從韻律信息和單位波形數據產生合成聲音波形。但是單元選擇合成方法存在拼接時選擇錯誤單元的情況。而后,CN101751921A選用諧波加噪聲模型作為語音分析合成模型,該模型將語音信號看成是各種分量諧波和噪聲的加權和,解決了單元選擇中的誤拼情況。如今,神經網絡模型合成方法成為主流,大大提升了語音合成系統對語音的描述能力。KR20180100001A采用深度神經網絡模型進行語音合成,其解決了傳統方法中上下文建模的低效率、上下文空間和輸入空間分開聚類而導致的訓練數據分裂、過擬合和音質受損的問題。CN109036371A采用WaveNet神經網絡合成器,利用WaveNet生成的語音,在音質上大大超越了之前的參數合成效果,滿足了對高采樣率的音頻時域信號建模的要求。

3 語音識別

3.1 聲學模型

在機器人語音交互中,目前最常用也最有效的幾種聲學識別模型包括動態時間規整模型(DTW)、隱馬爾可夫模型(HMM)、神經網絡模型等。

3.1.1 動態時間規整(DTW)。時間規整的語音識別方法最早由來自RCA實驗室的Martin在上世紀60年代提出并實現了解決語音時長不統一的歸一化打分機制。后來,來自前蘇聯的Vintsyuk提出了采用動態規劃實現動態時間規則的方法。在應用DTW算法進行語音識別時,就是將已經預處理和分幀過的語音測試信號和參考語音模板進行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。動態時間規整算法是在非特定人語音識別中一種簡單有效的方法,該算法基于動態規劃的思想,解決了發音長短不一的模板匹配問題,是語音識別技術中出現較早、較常用的一種算法,在小詞匯量、孤立詞語音識別中獲得了良好性能,但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。不過仍然可以看見DTW在機器人語音識別中的應用,CN103971682A提出冰雪機器人的語音控制方法,采用數字語音命令DTW識別算法得到識別的語音數字命令;CN108447477A提出一種基于自然語言理解的機器人控制方法,獲取語音信號并轉化為相應數字信號,而后通過動態時間規整算法將數字信號轉換為相應的文本信息。

3.1.2 隱馬爾科夫鏈(HMM)。20世紀70年代,隱馬爾可夫法(HMM)被應用于語音識別的研究中,該方法的應用使得語音識別技術取得了重大進展。隱馬爾可夫模型是傳統語音識別的主流模型,其是由短時間內看做平穩變化的聲學信號模型串聯構成的馬爾可夫鏈組成的,表示了一個雙重隨機過程,一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程。索尼WO0172478A1最早將HMM模型應用于機器人語音識別中,HMM很好的模擬了人得語言過程,目前應用十分廣泛,出現了很多以改進隱含馬爾可夫鏈為基礎的機器人語音識別申請,US2012130716A1使用隱馬爾可夫模型(HMM)、最大后驗概率(MAP)、最大似然線性回歸(MLLR)的聲學模型對接收到的語音信號執行機器人語音識別;由于神經網絡在語音識別中突出表現,將神經網絡與HMM結合使用成為研究熱點,如CN106228982A基于HMM-DNN聲學模型的Token-passing算法對其進行語音識別。

3.1.3 神經網絡模型。人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。此外,由于神經網絡在語音識別中突出表現,后來人們又將卷積神經網絡(CNN)、循環神經網絡(RNN)以及深度神經網絡(DNN)應用在了語音識別中。在機器人語音識別中,US2017098444A1采用基于深度神經網絡的聲學模型進行語音識別;CN105681318A基于DNN-UBM模型(深層神經網絡和通用背景模型)建立身體狀態對應的聲學模板;CN106898350A采用卷積神經網絡CNN進行語音識別;CN108281139A基于深度全序列卷積神經網絡進行語音識別。在RNN基礎之上進一步提出的長短時記憶循環神經網絡(LSTM),解決了RNN中由于引進了時間維度信息而可能出現的梯度消失問題。目前最好的語音識別系統采用雙向長短時記憶網絡(LSTM),這種網絡能夠對語音的長時相關性進行建模,但是這一系統存在訓練復雜度高、解碼時延高的問題,在工業界的實時識別系統中很難應用,直到CN108364066A采用LSTM深度神經網絡編碼器進行語音識別,引入了attention模型和語言模型共同處理LSTM神經網絡處理后的固定長度向量, 保證了聊天過程中答復信息的準確性,使對話更加真實。

3.2 語言模型

語言模型是對一段文本的概率進行估計即針對文本X,計算P(X)的概率,語言模型在整個語音識別過程中的作用非常重要,其性能的好壞直接影響到了整個語音識別系統的使用范圍和識別效率。常用的語言模型包括n-gram模型、神經網絡語言模型。

3.2.1 n-gram語言模型。n-gram模型也稱為n-1階馬爾科夫模型,它有一個有限歷史假設:當前詞的出現概率僅僅與前面n-1個詞相關,即。n-gram語言模型通常包括參數估計和數據平滑等過程,其中,n-gram語言模型的參數估計一般采用最大似然估計(MLE)方法,n-gram模型的數據平滑可以采用加法平滑、Good-Turing平滑、Katz平滑、插值平滑等。N-Gram因其簡單有效被廣泛應用,CN105931218A,CN106056207A,CN106782502A,均通過隱馬爾科夫模型進行聲學模型建模,均采用N-gram統計語言模型,CN108364066A利用N-GRAM、WFST技術生成語言模型,保證了聊天過程中答復信息的準確性,使對話更加真實。

3.2.2 神經網絡語言模型。神經網絡語言模型的提出解決了N-gram模型當n較大時會發生數據稀疏的問題。與N-gram語言模型相同,神經網絡語言模型(NNLM)也是對n元語言模型進行建模,與統計語言模型不同的是,神經網絡語言模型不通過計數的方法對n元條件概率進行估計,而是直接通過一個神經網絡對其建模求解。隨著深度學習的不斷發展,神經網絡語言模型得到了很多關注。在機器人語音識別中,CN107451126A采用神經網絡語言模型應用于聊天機器人中;US20180307779A1使用深度神經網絡語言模型來學習如何映射自然語言命令以在適當級別上獎勵函數;相比全連接網絡,循環神經網絡(RNN)同一層各個節點間也是有連接的,當前節點的輸出與前面節點的輸出有關。因此,循環神經網絡語言模型(RNNLM)可以獲得很長的歷史信息,解決了句子的長距離依賴問題,相比N-gram模型,RNNLM模型的效果有很大的提升,如KR20180054408A使用循環神經網絡語言模型RNNLM,生成并輸出與自然語言處理生成的自然語言對應的會話語句單位使用學習結果。

4 結論與建議

智能機器人語音交互是智能機器人人機交互中的關鍵環節,對機器人控制起著關鍵性的作用。本文從語音采集、語音合成、語音識別三個分支通過歷年申請量、區域分布、技術活躍度、主要申請人以及技術演進等角度,對智能機器人語音交互的專利進行了梳理,專利申請主要集中在語音識別這一分支,從申請量以及技術演進來看,日本在智能機器人語音交互方面占據領先地位,國內的新型企業如北京光年、芋頭科技以及高校也在乘勝追擊,但是智能機器人語音交互仍然面臨諸如識別精度和準確性等問題,相關企業、高校可以考慮從這些方面對智能機器人語音交互進行改進。

參考文獻:

[1] 溫昕等.基于語音識別的機器人研究[J].科技廣場,2017:190-192.

[2] 張永強.基于專利文獻分析的MEMS麥克風技術發展趨勢[J].科技展望,2016:254-258.

[3] 劉豫軍等.計算機語音合成技術研究及發展方向[J].網絡安全技術與應用,2014:22-24.

[4] 張丹烽等.語音合成技術發展綜述與研究現狀[J].科技風,2017:72.

[5] 張斌等.語音合成方法和發展綜述[J].小型微型計算機系統,2016,37(1):186-192.

[6] 李雪林.基于人機互動的語音識別技術綜述[J].電子世界,2018:105.

[7] 趙英娣.語音識別聲學模型發展現狀綜述[J].科技風,2017:76.

[8] 邢銘生等.語音識別技術綜述[J].科協論壇,2010:62-63.

[9] 惠益龍等.語音識別中的統計語言模型研究[J].信息技術,2017:44-46.

[10] 王慧健等.基于神經網絡語言模型的時間序列趨勢預測[J].計算機工程,2018:1-8.

主站蜘蛛池模板: 免费黄色国产视频| 日韩国产高清无码| 亚洲 成人国产| 美女国产在线| 在线另类稀缺国产呦| 一级毛片免费不卡在线| 国产理论精品| 国产微拍一区二区三区四区| 国产欧美日韩免费| 丁香六月综合网| 国产99视频精品免费观看9e| 欧美日韩亚洲国产| 国产一区二区精品高清在线观看 | 亚洲综合专区| 男人天堂亚洲天堂| 精品福利视频网| 一级毛片免费的| 91年精品国产福利线观看久久 | 国产精品极品美女自在线网站| 久久网欧美| 国产成人AV男人的天堂| 免费观看国产小粉嫩喷水| 国产主播喷水| 国产情侣一区| 国产男女XX00免费观看| 精品国产自| 免费毛片视频| 国产高清精品在线91| 国产丝袜无码一区二区视频| 色婷婷亚洲综合五月| www.亚洲一区| 40岁成熟女人牲交片免费| 亚洲日韩精品伊甸| 亚洲人成网7777777国产| 亚洲二区视频| 免费一级毛片在线播放傲雪网| 亚洲第一成年人网站| 免费 国产 无码久久久| 91在线免费公开视频| 国产极品美女在线播放| a级毛片免费播放| 在线观看91精品国产剧情免费| 亚洲色图欧美在线| 成人av专区精品无码国产| 美女被操黄色视频网站| 亚洲中文精品人人永久免费| 啪啪免费视频一区二区| 国产屁屁影院| 婷婷激情亚洲| 久久亚洲精少妇毛片午夜无码 | 久草视频中文| 在线观看国产精品日本不卡网| 亚洲国产成熟视频在线多多 | 久久99蜜桃精品久久久久小说| 国产理论一区| 99在线视频免费| 亚洲一区二区在线无码| 久久一色本道亚洲| 日韩精品成人网页视频在线 | 国产老女人精品免费视频| 欧美日韩在线第一页| 九九九九热精品视频| 国产精品第5页| 欲色天天综合网| 久久国产亚洲偷自| 久久毛片网| 在线色国产| 天天躁夜夜躁狠狠躁图片| h网址在线观看| 日韩色图区| 欧美性天天| 亚洲中文字幕久久无码精品A| 欧美啪啪视频免码| 久久这里只有精品23| 欧美va亚洲va香蕉在线| 国产美女91视频| a网站在线观看| 99热亚洲精品6码| 午夜性爽视频男人的天堂| 国产网友愉拍精品视频| 免费又爽又刺激高潮网址 | 亚洲AV成人一区二区三区AV|