基于混合模型的圖書館服務機器人語音指令解析系統

2017-12-26 10:56:02張麗芬郭新靈

電子器件 2017年6期

關鍵詞：指令圖書館信息

張麗芬,李平,郭新靈

(1.內蒙古化工職業學院圖書館,呼和浩特 010010;2.黃淮學院信息工程學院,河南駐馬店 463000)

基于混合模型的圖書館服務機器人語音指令解析系統

張麗芬1*,李平2,郭新靈1

(1.內蒙古化工職業學院圖書館,呼和浩特 010010;2.黃淮學院信息工程學院,河南駐馬店 463000)

基于智慧圖書館技術的現狀,對圖書管理服務機器人的人機交互問題進行了研究,提出了一種基于混合模型的機器人語音指令深層信息解析系統。首先,對圖書館機器人的研究現狀及其存在的語義解析問題進行了分析;然后提出了基于概率和神經網絡的混合模型,基于此模型對語音指令進行深度的信息識別;最后在該系統上進行了深層信息解析的仿真實驗,并與幾種經典方法進行了比較。結果表明,該方法能夠更加準確的提取表層信息和深層信息。

語音解析;混合模型;深度信息提取;概率模型;神經網絡模型

隨著人類社會的不斷發展,未來城市的面積和人口承載量將越來越大。為了實現城市的可持續發展,發展建設智慧城市已成為當今世界城市發展的歷史潮流。智慧城市代表城市的信息化和智能化,作為城市公共事業的重要部分,智慧圖書館的發展成為當下智能化研究的一個重要方向,圖書館服務機器人的應用也在快速拓展。2013年,美國北卡羅萊納州立大學亨特圖書館引進機器人存取服務,讀者在檢索系統中選擇圖書,工作人員將圖書名稱輸入電腦,機器人即可自動找到該圖書[1]。2014年,澳大利亞悉尼科技大學的機器人管理員不僅能整理館內超過30萬本的藏書,而且能將讀者在計算機上選好的書在最短時間內送到他面前。2016年,浙江圖書館引入機器人管理員,它能夠語音識別讀者說出的圖書名稱,并指示出圖書所在的位置,實現自主智能的借還書服務。

人工智能和計算機技術的進步使圖書館機器人能夠代替人工提供更多的服務,但現階段,機器人需要人工的協助才能完成相應的任務,如需要人工輸入計算機、語言、手勢等。其中,基于語言的人機交互是智能機器人應用中最理想的交互方式[2]。為了使機器人能夠理解人類的語言,語音處理主要包括兩個關鍵步驟:語音識別和語義解析。語音識別是將人的語音轉化為語言文本,語義解析是對語音識別出的文本進行分析,推斷說話人所要表達的語意。其中語音識別技術已經比較成熟,現在也有了許多商業化產品,例如科大訊飛的“訊飛語音輸入”,語音識別率高達95%;而語義解析技術還處在發展當中,是現階段語言處理中的研究熱點。

語音識別領域的模型主要可分為3類:(1)隱馬爾科夫模型HMM(Hidden Markov Model)[3-4]:該模型具有時序建模能力,語音識別結果良好,但模型中狀態輸出獨立性假設為高斯混合模型;(2)神經網絡模型NNM(Neural Networks Model)[5]:該模型具有自組織性、自適應和連續學習能力,但僅限于小詞匯和語音識別;(3)混合模型:Geoffrey[6]提出將深度神經網絡模型和隱馬爾科夫模型相結合,應用于大詞匯量的語句識別中,識別精度提高,且識別的錯誤率降低了30%。

語義解析的方法一般包括兩種[7]:(1)基于規則的方法:該方法實現相對較容易,準確度高,但是不具有適應性,當場景變換時需要制定新的規則。駱家偉[8]等人研究智能家庭服務機器人語音系統,通過提取用戶話語中的關鍵詞進行匹配,實現簡單的聊天和指令功能。李新德等[9]采用了基于組塊的路徑分析方法,實現了針對語言描述路徑的機器人室內導航。(2)基于統計的方法:包括基于距離和相似度的算法、基于概率論的算法、基于機器學習的算法,該方法使用靈活,場景的變化時可以快速移植[10]。Pulasinghe[11]等人提出了一種基于模糊神經網絡的理解算法,實現了對用戶模糊語義的理解。兩種方法都依賴于文本數據,通過挖掘相關知識,進行語義理解。不同的地方是基于規則的方法挖掘的是關聯規則,而基于統計的方法挖掘的是是統計特征。

基于以上分析,語音處理中的模型專注于語音表層信息的識別,缺乏深層信息識別相關內容。為進一步提高圖書館服務機器人語音指令的理解能力,本文提出了一種新的基于概率模型和雙受限波爾茲曼機神經網絡混合模型的機器人語音指令深層信息解析系統,并通過仿真實驗驗證了方法的正確性。

1 圖書館服務語音指令分類

圖書館環境中,服務機器人所接收到的語音指令一般可由服務對象、操作對象、位置對象和指令對象4種實體組成。

(1)服務對象:圖書管理環境中,服務對象即為指令的發起對象,該對象是指令的發出者也是被服務的主體,通常為使用圖書管理系統的人。例如:“給我拿一本《圖書館戰略管理》”中的“我”。

(2)操作對象:操作對象是指在指令序列中被機器人作用的實體,圖書館中通常為書籍。例如:“給我還一本《圖書價格管理制度研究》”中的書籍《圖書價格管理制度研究》。

(3)位置對象:位置對象是指由服務對象指定的用來表示操作對象位置信息的對象。例如:“幫我將《圖書價格管理制度研究》放在2號閱覽室”中的“2號閱覽室”。

(4)指令對象:指令對象是指由服務對象發出的動作指令。例如“開門”中的“開”、“拿書”中的“拿”等,該類對象往往是一條指令的必備成份。

由以上4種實體對象,可以組合出多種語音指令。為了研究的方便,將所有的簡潔有效的語音指令分為3類。

(1)A類指令

A類指令結構為機器人―服務對象―操作對象類的語音指令。例如“給我拿一本《圖書館戰略管理》”,意指機器人為我借一本書籍《圖書館戰略管理》,這類指令也可以有其他表達方式,如“拿一本《圖書館戰略管理》給我”或者“幫我借一本《圖書館戰略管理》”。

(2)B類指令

B類指令是機器人―操作對象―位置對象類的語音指令。例如“將《圖書價格管理制度研究》放在2號閱覽室”,意指機器人將《圖書價格管理制度研究》這本書放在2號閱覽室,這類指令也可以有其他描述方式,如“拿一本《圖書價格管理制度研究》到2號閱覽室”或者“在2號閱覽室放一本《圖書價格管理制度研究》”。

(3)C類指令

C類指令是機器人―操作對象類的語音指令,該類指令的句型簡短、目標明確、表達方式固定。例如“找到《圖書館信息資源建設與管理研究》”。

以上為圖書館服務機器人所接收到的常用語音指令類型,使用中可能會有交叉或者混合的指令類型。在實際的運行過程中,可以直接從語音識別的文本中理解指令的表層含義,但在執行的過程中仍需要對語音指令的深層信息進行解析,才能正確的操作命令。例如“幫我拿一本《圖書館信息資源建設與管理研究》”,通過表層信息可以提取出關鍵詞“我”,“一本”,“《圖書館信息資源建設與管理研究》”。為了執行操作,需要在執行命令時,理解指令的深層信息,首先需要執行的動作是“借”而不是“還”;其次需要定服務對象的位置,這樣才能完成服務命令;最后,還需要由圖書的名稱進行深層次的解析,定位操作對象的位置,這樣才能規劃運動的合理軌跡。因此,在圖書館服務機器人中研究新的有效的語音指令深層信息解析系統與方法非常必要。

2 基于混合模型的系統架構

人機交互中的語言理解的本質上就是將人的語言轉化為機器可以理解的語言,基本框架如圖1所示,包括輸入層、分析層和輸出層3個部分。

圖1 語言語義理解框架

圖2 深層信息解析系統結構

基于這一流程,本文提出一種基于混合模型的深層信息解析系統。系統包括以下流程:首先,人通過語音發出輸入指令,結果顯示為語音信號;其次,該語音信號作為指令分析模塊的輸入,基于隱馬爾科夫模型,將其轉化為文本信息;然后該文本信息作為語義解析模塊的輸入,基于概率模型的指令解析模塊將各個詞匯進行對象標注;進而由雙受限波爾茲曼機神經網絡模型[12-13]對服務對象、操作對象、指令對象和位置對象進行深層信息的提取和分析;最終由提取獲得深層信息,構建處機器人動作指令的流程,規劃出合理的操作順序,輸出指令。

以A類指令為例,操作員發出語音指令“給我一本《圖書館信息資源建設與管理研究》”。該指令首先儲存為語音信號,基于隱馬爾科夫模型,轉化為文本指令,顯示為文本信息{“給我一本《圖書館信息資源建設與管理研究》”}。文本信息進人語義解析模塊,基于概率模型,解析出各個詞與有效信息的映射關系,標注為{“[給]:指令對象”,“[我]:服務對象”,“[《圖書館信息資源建設與管理研究》]:操作對象”}。然后,將3種對象實體基于雙受限波爾茲曼機神經網絡模型進行深層信息提取,注釋為{“指令對象:借書”,“服務對象:代根興,借書臺”,“操作對象:《圖書館信息資源建設與管理研究》,社科書庫,B2書架,3層,4號書位”}。最后,由以上提取獲得信息,對機器人的路徑進行規劃,{借書臺―社科書庫―B2書架―3層―4號書位―取書―借書臺―放書}。至此,從語音指令輸入,經過解析,輸出給機器人一個完整的機器指令。

3 指令解析的數學表達

圖2給出了深層信息解析系統的整體結構,在隱馬爾科夫模型基礎上獲得文本信息進入指令解析模塊。如圖2中虛線框所示,指令解析模塊分為兩個部分,一部分為表層信息的獲取,一部分為深層信息的提取。

3.1 表層信息提取

基于概率模型的語義提取方法有很多種,本文選取最大熵模型[14]。最大熵模型的核心思想是,對隨機變量的概率分布進行預測時,除已知條件外,不對未知情況做任何假設,此時概率分布的信息熵最大。

(1)

f(x,y)相對于模型條件概率分布p(y|x)的期望值為

(2)

(3)

因此,在滿足約束的集合內,最大熵模型的求解公式為:

p*=argmaxH(p)

(4)

圖4 基于多層受限波爾茲曼機神經網絡模型的深層信息提取

利用所建立的最大熵模型求解語義標注問題。如圖3所示,輸入某一文本特征向量,利用式的最大熵模型,得到輸出語義標注向量y1y2…ym,以及對應的概率向量p1>p2>…>pm,概率最大的語義標注即為最佳語義,從而完成文本信息的表層信息提取。

圖3 基于最大熵算法的表層信息提取

3.2 深層信息提取

表層信息的獲得是機器人能夠了解語音指令中的各個實體對象,如操作對象和指令對象。但機器人在執行操作時,需要進一步了解在語音指令中包含的隱藏信息或者默認信息,因此需要進一步對各個實體對象進行深層信息挖掘。本文采用Geoffrey多層深度神經網絡模型進行深層信息的提取。對于不同的實體對象,可能由不同層次的隱藏信息,因此神經網絡模型的層次也不同,以圖書館服務中常用的A類指令中的操作對象為例,在了解書籍的名稱之后,還需進一步對書籍的位置等隱藏信息進行深度解析。圖4表示了基于多層受限波爾茲曼機神經網絡模型,對操作對象進行深層信息提取的過程。該神經網絡模型可表示為

Y=(v,h1,h2,h3;θ)

(5)

式中:V表示可見層;h1為第1個隱藏層(書位);h2為第2個隱藏層(書架);h3為第3個隱藏層(房間),θ是神經網絡Y的參數。由已知的可見層中的參數Vi作為

輸入條件,根據神經網絡模型確定在第1個隱藏層h1j的信息:

(6)

然后,將獲得第1層隱藏信息h1j作為輸入條件,識別第2層隱藏書架中的信息;同理,依次即可獲得第3層房間的信息:

(7)

至此,通過多層受限波爾茲曼機神經網絡模型,該操作對象所隱藏的深層信息都被挖掘出來,從而為機器人的動作指令規劃提供完整的信息。其他實體對象的深層信息可通過相同的方法進行解析,但在實現的過程中根據對象的不同,其隱藏信息的層次有所區別。

4 實驗結果與分析

以上幾節對本文提出的基于混合模型的語音指令深層信息解析系統的結構和原理進行了詳盡的介紹,在此基礎上,采用仿真實驗的方法對提出的模型和算法進行驗證和分析。

4.1 基于數據的模型訓練

首先在自然條件下采集圖書館環境下的語音庫,作為知識庫進行模型訓練。選取4個學生的語音進行采集,其中兩男兩女。語音庫包括3種不同結構的指令,實驗中A類64條,B類48條,C類16條,每人共128條,四人共計512條語音。表1列出了語音類型中的訓練示例,其中包括6個房間層,6個書架層,6個書位層和若干個操作對象。

模型訓練之前,需要對生成的語音指令中的各個實體對象進行手動標注。將各條指令拆分為由服務對象、操作對象、指令對象和位置對象組成的指令。為了增加模型的準確度,驗證模型訓練所需的語音指令的個數,可將所有的512條命令隨機的重復,以增加語音指令的數量。具體的操作為,將語音指令重復整數倍,再從其中隨機抽選出若干指令。這種操作的優點為避免完全倍數重復條令帶來的偶然性對模型訓練的影響。

表2顯示了十次實驗之后模型訓練的準確率變化和耗費時間的情況。從表中可以看出,當語音指令的個數較小時,隨著指令數量的增加,模型的準確率和消耗的時間也明顯增加;但是當指令的數量增加到4 096之后,模型的準確率的增加會顯著的較小,甚至出現負增長,消耗的時間的增長也變慢。由此,得出以下兩個結論:(1)訓練模型的樣本個數并不是越多越好,需要通過實驗驗證最優個數;(2)模型訓練消耗時間的增長會隨著樣本個數的增加而逐漸減小,直至平穩。為此,本文在模型訓練中選擇4 096個樣本,即原始樣本的8倍,此時訓練的時間為22.4s。

表1 語音訓練示例

表2 模型訓練的收斂性和復雜度[15]

4.2 語音信息的解析

在完成模型的訓練之后,對實際的語音條令進行信息解析,其過程可以分為表層信息的提取和深層信息的提取。

圖5給出了本文提出的混合模型與Kate等[16]提出的的KRISP模型和Mooney等[17]提出的規則模型對表層信息提取的準確率的對比。與其他兩種模型相比,本文提出的混合模型信息提取系統識別表層信息的準曲率要高,十次實驗中識別結果的準曲率都在90%左右;單獨從混合模型來看,表層信息識別過程的穩定性非常好,十次實驗準曲率幅值的跳動都不大。因此,可以得出從表層信息的識別結果來看,本文的基于混合模型的系統的結果要更好。

圖5 表層信息提取的識別準確率對比

在表層信息結果的提取的基礎上,進一步對深層信息提取的結果進行分析。圖6給出了本文提出的方法對3類不同指令中深層信息提取的結果。總體來看,3種類型指令深層信息的識別準確率在75%左右,準確率的幅值在65%到85%之間,識別的結果較為穩定。與表層信息相比,解析信息的準確度有所降低。但從圖7中,本文方法與傳統方法的識別結果來看,基于混合模型的語音指令解析系統能夠識別出傳統系統無法提取的深層信息,有著明顯的優勢。基于深層信息識別準確率在75%左右,該方法有進一步研究提升的空間。

圖6 針對操作對象的深層信息提取的識別準確率

圖7 深層信息提取的對比

5 結論

通過對傳統的語義解析方法的研究和圖書館語言指令特點的分析,本文提出了一種新的基于混合模型的圖書館服務機器人語音指令深層信息解析系統,系統將基于最大熵的概率模型和基于多層受限波爾茲曼機神經網絡模型相結合,實現了對語音指令中深層語義信息的識別和提取,與傳統方法相比,能夠使機器人更好的理解和實現語音指令。針對本文的研究結果,一方面,作者會進一步對系統本身的解析方法進行改進,以提高深層信息識別的準確性;另一方面,作者將致力于軟硬件結合的實現,將所提出的方法在真實的圖書館機器人上得到應用。

[1] Wang M,Chen Y. The Research of Community Library Service for Youth Groups in USA[J]. Research on Library Science,2015.

[2] Jurafsky D,Martin J H. Speech and Language Processing[M]. Pearson,2014,24-29.

[3] Prestat E,David M M,Hultman J,et al. FOAM(Functional Ontology Assignments for Metagenomes):a Hidden Markov Model(HMM)Database with Environmental Focus[J]. Nucleic Acids Research,2014,42(19):e145-e145.

[4] 荊雷,馬文君,常丹華. 基于動態時間規整的手勢加速度信號識別[J]. 傳感技術學報,2012,25(1):72-76.

[5] 陳華華,杜歆,顧偉康. 基于神經網絡和遺傳算法的機器人動態避障路徑規劃[J]. 傳感技術學報,2004,17(4):551-555.

[6] Dahl G E,Yu D,Deng L,et al. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition[J]. IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42.

[7] MacCartney B,Manning C D. Natural Logic and Natural Language Inference[M]//Computing Meaning. Springer Netherlands,2014:129-147.

[8] 駱家偉,牟琳,靳泰戈. 智能家庭服務機器人語音系統實現[J]. 計算機應用,2013(s2):322-325.

[9] 李新德,張秀龍,戴先中. 一種基于受限自然語言處理的移動機器人視覺導航方法[J]. 機器人,2012,33(6):742-749.

[10] Shimada K,Iwashiata K,Endo T. A Case Study of Comprehension of Several Methods for Corpus-Based Speech Intention Understanding[C]//Proceeding of PACLING 2007. 2007:255-262.

[11] Pulasinghe K,Watanabe K,Izumi K,et al. Modular Fuzzy-Neuro Controller Driven by Spoken Language Commands[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics. 2004,34(1):293-302.

[12] Geoffrey E,Simon O. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,2006,18(7):1527-1554.

[13] Mohamed A,George E. Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio,Speech,and Language Processing,2014,20(1):14-22.

[14] 戴波,盛沙,唐建,等. 改進的Burg最大熵法在管道檢測中的應用[J]. 傳感技術學報,2007,20(6):1416-1419.

[15] 肖雪. 基于最大熵模型的中文文本層次分類方法[J]. 計算機與網絡,2015(9):36-38.

[16] Kate R J. Learning for Semantic Parsing with Kernels under Various Forms of Supervision[M]. The University of Texas at Austin,2007.

[17] Mooney R J. Learning for Semantic Parsing[C]//International Conference on Intelligent Text Processing and Computational Linguistics. Springer Berlin Heidelberg,2007:311-324.

AParsingSystemBasedonHybridModelforLibraryServiceRobot’sVoiceCommand

ZHANGLifen1*,LIPing2,GUOXinling1

(1.Inner Mongolia Vocational College of Chemical Engineering Library,Hohhot 010010,China;2.School of Information Engineering Huanghuai University,Zhumadian He’nan 463000,China)

Based on the present situation of the wisdom library technology,the human-computer interaction issues of the library service robots was studied,and a hybrid model was proposed on the basis of the parsing system for voice command depth information parsing. First,the situation of library service robots and the problem in semantic analysis methods were analysed. Then,a hybrid model based on the probability and neural network was proposed,and deep information were identified from the voice command. Finally,experiments based on the simulation were verified using the comparision with other classical methods. The results show that the proposed sysetm can extract surface and deep information more accurately.

voice parsing;deep information;hybrid model;library robot;information extraction

10.3969/j.issn.1005-9490.2017.06.047

2016-02-03修改日期2017-05-10

TP242

1005-9490(2017)06-1575-07

張麗芬(1980-),女,內蒙古呼和浩特人,漢族,本科,高級講師,研究方向為計算機、信息技術;

李平(1976-),女,河南駐馬店市人,漢族,碩士,講師。研究方向為信息處理與現代電子系統;

郭新靈(1980-),男,內蒙古呼和浩特市人,漢族,本科,高級工程師,從事電子政務云規劃與設計。