華穎 余華云


摘要:隨著互聯網技術的飛速發展,智能問答也逐漸進入大眾的視野,并且是當前深度學習自然語言處理領域的研究熱點。智能問答技術能夠允許用戶以自然語言的方式提問,它能直接給用戶返回一個答案,而不需要用戶自己去搜索答案。隨著近年來深度學習和機器學習等技術的飛速發展,這些技術應用到智能問答系統中也使智能問答技術變得越來越成熟。本文主要研究了基于深度學習智能問答的部分相關技術以及語句相似度和證據評分相關算法。
關鍵詞:智能問答;深度學習;自然語言處理;證據評分算法
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2020)21-0175-03
開放科學(資源服務)標識碼( OSID):
1 研究背景
隨著人們生活水平的提高及科技的進步,需要接收到的信息量成爆炸式增長。通常,人們是通過搜索引擎所返回的網頁中查找自己所需要的信息。雖然現有的搜索引擎技術已經非常成熟,但是這種方式依然存在很多的弊端,只能滿足用戶的一小部分需求。當用戶通過搜索引擎進行檢索時,它根據的是輸入的相關關鍵字或一個問題進行檢索,第一,會造成語義理解的偏差;第二,會出現大量的和關鍵字相關的信息使得無法直接返回用戶所需要的答案;第三,現在存在一些商業搜索引擎的干擾,企業付費給搜索引擎公司后,無論檢索后呈現的信息是否屬實,只要有相關關鍵字,付費后的信息就能直接出現在最前面,這些信息往往不是用戶所需要的。
為了克服傳統搜索引擎的不足,智能問答技術也在快速發展,很多高校以及科研機構都投身于智能問答技術的研究中。智能問答技術相比于搜索引擎來說主要有兩方面的進步,一方面使用智能問答技術,用戶可以使用完整的自然語言提問,更準確地表達用戶所需要查詢的信息。另一方面運用智能問答技術得到的結果不再是一系列與查詢相關的信息或網頁,而是返回一個準確的答案。
智能問答技術是現代信息技術系統不可或缺的一個部分,也是目前自然語言處理領域中具有很強的應用性和良好發展前景的研究方向。但實際上在應用方面,目前深度學習算法和智能問答技術的結合并沒有達到理想的效果,因此,研究基于深度學習智能問答技術意義深遠。
2 知識庫智能問答技術
智能問答技術主要分為檢索式問答,社區問答和知識庫問答。
檢索式和社區問答雖然能在某些特定領域上應用,但是這兩種技術的關鍵點還是關鍵詞匹配和淺層語義分析技術,深層邏輯推理還是難以實現。所以知識庫智能問答技術逐漸成為研究的重點。知識庫智能問答技術的目標是把網絡上的文本內容組成將實體作為基本語義單元的圖結構,實體之間語義關系以圖的邊來表示。目前互聯網中已有的大規模知識庫大多數是以“實體一關系一實體”這種形式作為基本單元來組成的圖結構。基于這樣的圖結構,知識庫問答就是根據用戶輸入的問題的語義來在知識庫中查找并推理出相對應的答案。
利用結構化的查詢語句來完成在結構化數據上的查詢、匹配、推理等相關操作是當前最有效的方式。SQL、SPARQL是目前對于知識庫的存儲數據格式來說最高效的查詢語言。但是通常只有專業的程序員才能掌握這些語法,普通用戶很難掌握并運用。對普通用戶來說,他們查找信息時更愿意使用自然語言問句這種交互方式,這對于他們來說更加方便直接。由此,知識庫智能問答的核心即是如何把用戶的自然語言問句轉化為結構化的查詢語句,對于自然語言問句進行語義理解是其關鍵所在。
通過語義分析,將用戶的自然語言問句轉化成結構化的語義表示是當前最常用的方法。
基于語義的表示方法有CNN(卷積神經網絡)與RNN(循環神經網絡)兩種。
基于語義分析的方法有如下幾個步驟:
A.所需要的符合特定文法的語義分析規則集合將從帶有語義表示的標注數據中抽取。每條規則最少要包含兩部分,分別是自然語言和語義表示。
B.采用基于動態規劃的解析算法產生句子對應語義表示候選集。
C.根據標注數據來訓練排序模型,并對不同語義表示候選進行打分并排序,選取所返回的得分最高的語義表示候選作為結果。
3 相關算法研究
3.1 語句相似度計算算法
要計算兩個句子的相似度,中心思想是先分詞,然后將關鍵詞匯總并放在一個列表中,最后計算詞頻和生成詞頻向量。利用余弦進行相似度計算的思路如下,用兩個向量夾角的余弦值來判別兩個語句是否相似。若兩個向量夾角越接近0,也就是余弦值越接近1,則表明這兩個對象越相似。利用余弦公式:
通過上式來計算兩個向量之間的夾角的余弦值就可以計算出兩個句子的相似度。
3.2 證據評分算法研究
在深度學習智能問答技術中,證據檢索與評分功能是該技術的重要研究點。證據檢索和評分功能包括證據文檔檢索和證據段落預處理、證據評分算法,本文我們重點研究評分算法。證據檢索和評分功能流程圖如圖2所示。
主要流程:首先預處理檢索出來的段落集合,篩選并留下有候選答案的語句。再將命題和證據段落集合結合,并分別通過證據評分算法計算相似度,得到段落集評分池。最后利用相關算法整合評分,得出候選答案評分集合并反饋到每個候選答案。
語義分析指運用各種機器學習深度學習相關方法,學習進而理解文本所表示的語義內容。文中所研究的一種深度學習語義評分算法主要包括基于語言表示模型和基于CNN的語義特征抽取兩部分。在此重點介紹基于卷積神經網絡的語義特征抽取算法。
檢索命題和證據段落是證據評分算法的輸入單元,基于神經網絡對文本語義特征進行抽取。基于CNN的語義特征抽取算法的結構大致如圖3所示:
為了減少噪聲的影響,需要在輸入檢索命題和證據段落之前對方法預處理。文本中句子主干和命名實體中所含有的語義信息是最多的,文本經過篩選后導人算法模型。該算法模型結構主要包括四層,分別是輸入層、卷積層,池化層,語義相似度計算層。
語義相似度計算層:運用余弦公式計算在池化層得到的池化矩陣P1,P2的相似度,將得到的相似度結果作為該評分算法的最終打分返回給檢索命題和證據段落。
4 結語
基于深度學習的智能問答技術具有重要的研究價值和實際應用意義,是自然語言處理的重要研究對象。本文主要介紹了基于深度學習智能問答的部分相關技術以及研究了語句相似度和證據評分相關算法。這些技術和算法在智能問答技術的研究中起著至關重要的作用。隨著深度學習相關技術的提高和智能問答技術的應用越來越廣泛,人們對問答的準確度的需求也越來越高,高質量知識庫的自動生成也是行業的一大難題,未來需要在科研人員的帶領下進一步研究和創新。
參考文獻:
[1]陳柏齡,基于深度學習的智能問答技術研究[Dl.南寧:廣西大學,2018.
[2]胡婕,陶宏才.基于深度學習的領域問答系統的設計與實現[Jl.成都信息工程大學學報,2019,34(03):232-237.
[3]吳炳林.基于中文深度智能問答系統的證據檢索和評分算法研究[D].鄭州:鄭州大學,2018.
[4]張素榮.智能客服問答系統關鍵算法研究及應用[D].南京:南京郵電大學,2018.
[5]楊兵,尹加琪,楊旸,等.現狀與發展:智能問答機器人促進學習的反思[Jl.中國電化教育,2018(12):31-38.
【通聯編輯:梁書】
作者簡介:華穎,長江大學研究生;通訊作者:余華云,長江大學計算機科學學院,副教授,主要研究方向:多媒體信息處理,人工智能,無線傳感網絡。