基于深度學習的識圖智問系統

2022-11-25 08:05:10國網河南信通公司何軍霞河南九域騰龍信息工程有限公司

電力設備管理 2022年19期

國網河南信通公司何軍霞河南九域騰龍信息工程有限公司蘇斌馮楠楊光

隨著高新科技的發展，人工智能逐漸的成為生活中重要的一部分，同時不斷的在改變著我們的生活，我們可從中獲取更多的知識。近年來深度學習發展尤為迅速，同時它為智能問答系統的進步提供了重要的理論依據支撐，因此智能問答系統近年來廣受業界和企業研究并應用。

在自然語言處理領域中，問答系統（Question Answering System，QA）是重要任務之一，在人工智能方面前景也相當寬闊，它將能以最簡單的方式精準的回答客戶基于文本提出的問題，從而成為現代信息檢索體系的一個高級形態。在信息量如此復雜的情況下，人們對于快捷而準確的獲取信息的要求也將隨之提高，因此智能問答系統被廣泛應用于工業界的各種業務場景中[1]。

互聯網科技的不斷發展，伴隨著生活中信息也越來越復雜多變，而快速過濾掉無用信息，精準的獲取有用信息成為一項重要任務。識圖智問系統能根據輸入的圖片識別出文本內容并進行智能解析，然后依據知識庫數據解決用戶所提的問題，主要使用基于深度學習的計算機視覺和自然語言處理兩部分知識內容。利用計算機視覺識別和理解圖像，而自然語言處理是用來理解文本的信息結構，但將兩者充分融合可有效地解決基于圖片形式的問題。在實際應用中，實現了智能問答系統的功能優化和擴展，提升回答用戶問題效率，更快的解決用戶問題。

1 問答系統的發展和研究現狀

問答系統（Question Answering，QA）指的是針對用戶輸入自然語言描述出來的問題做出精準解決方案的任務，同時也是信息服務的一種高級形式，問答系統須經過分析和處理獲取自然語言的關鍵且有價值的信息，才能更精準、更高效。問答技術的開發歷程已經七十多年了，美國計算機技術之父艾倫圖靈提出了利用自然語言實現人機交互的相關方法，從而使問答技術在當今被廣泛使用。

在20世紀60年代，利用計算機的一些技術手段，問答系統開始出現在人們的視野中，最經典的系統有BASEBALL、LUNAR 和ELIZA。BASEBALL容許使用者直接就網球賽事的有關信息作出咨詢，并回答相關的結論；LUNAR 可就巖石樣品進行試驗的有關信息進行問答；ELIZA 系統主要用于精神疾病患者的康復階段，可進行簡潔的對話[2]。上述三個技術都在相關的應用領域內取得很大進展，但這種問答技術僅是限制類型的自然語言問句方式，不能進行開放范圍的問答。

20世紀90時代后期，問答系統逐漸步入了開放式范圍的新時代，期間國外也研究出了一些較完善的問答信息系統。如麻省理工學院（MIT）的人工智能研究室就研發出了當今世界上首個名為START 的問答信息系統，能解決關于中國地理、人文、科技、歷史文化等方面的簡單問題，例如：對于問題“Whats the capital of China？”，START將會答復“the capital of China is Beijing.”；密歇根大學于2002年開發的AnswerBus 是一個支持多語種的自動問答系統，能解答英文、法文及葡萄牙語等方言所給出的問題。

在國際文獻信息檢索大會（TREC，Text Re_trieval Conference）將QA 任務引用到大會內容后，新型問答管理系統的研究受到了持續推動，自此步入了開放域研發的時期。現今更多的高校與企業都加入到了關于問答系統核心技術的研發中，如蘋果公司、三星、Google、阿里巴巴、劍橋大學等，使問答系統的開發獲得了更進一步推動。憑借技術的進展，深入研究問答系統的學者們也歸納提煉出了大批的常問問題并進行數據分析，為問答系統核心技術的深入開發奠定了扎實的基石。

目前問答系統大致包括四種：聊天機器人。可模擬人的說話行為，利用自然語言處理進行分析，在知識庫中尋找最合適的回答并返回給用戶，得出的回答更加個性化；基于知識庫的智能問答。具有單一或眾多知識點庫，儲存單一或眾多領域知識點，通過搜索、邏輯推理等方法來解決客戶難題的問答系統，和聊天機器人有所不同的是這類問答系統更善于結構化知識問答；問答式檢索系統。客戶以自然語言的形式進行詢問，在指定集合內查詢出相應數據后再返回給使用者；基于非結構化數據的問答系統，由于非結構化數據的不規則性不能形成大規模數據庫，但其應用十分方便，因此在建設問答系統或檢索系統時深受廣大客戶的青睞[3]。

2 深度學習在問答系統上的應用

自深度學習提出后，深度學習技術取得了很大的進展，它為問答系統創造了一種簡潔有效的方法，把大量繁雜的文字語義信息(詞、短語、句型、詞段或文章等)映射到低維的文字語義空間中，利用低維空間中的矢量數值運算，處理傳統問答系統中難以解決的問題。

采用相似性信息匹配的深度學習，是深入知識問答體系的一種主要技術，它的核心是觀測信息的學習現象和信息的語義表達。有研究者提出了一種面向關系且采用語義相似性的語義分析框架，同時使用了一個卷積式神經網絡的新型語義相似性模型作為基礎，該框架同時使用了兩種語義相似性模型：一種將問題的表達式鏈接到知識庫中的實體，另一種則將問題模型映射到關系，最終通過從知識庫中所發現的實體三元關系，將與問題所關聯的答案精準的返回給用戶。

在深度學習的問答體系中，架構實現有多種方式，采用信息檢索(IR∶Information Retrieval)的、創建問答知識點庫(KB∶Knowledge Base)的、基于知識圖譜(KG∶Knowledge Graph)的等，而一種比較完善的問答體系則通常是上述各種機制的綜合，例如，常見的問答系統模型有GA-Reader、Match-LSTM、Bi-DAF、R-Net、QA-Net、S-Net、R3等，模型大同小異，在不同的應用下有著不同的優劣之分。

3 識圖智問系統的構建和關鍵技術

智能問答系統在回答用戶問題時，需要抽取其中關鍵語義信息，然后通過人工智能手段獲取答案并返回給用戶，但是用戶可能會通過截圖錯誤信息來咨詢問題，為了解決系統處理圖片性質的問題，提出了基于深度學習的識圖智問系統。識圖智問系統核心主要采用行業主流的人工智能技術，其中運用了文字識別、圖像識別、多模態知識圖譜、向量檢索等深度學習框架，集合數據采集、數據解析、數據存儲、模型構建、模型應用等重要的處理流程，實現從現有智能問答的功能優化和擴展，其中關鍵技術如下。

3.1 圖片識別

OCR 全稱為Optical Character Recognition，即光學字符識別技術，本文采用PaddleOCR 檢測算法，如圖1所示，它能夠支持數字和英文的組合識別、長短文字的識別、橫豎排文字的識別等，并且在高質量預訓練模型的基礎上擁有更準確的識別效果。PaddleOCR 可同時支持兩種編程方式，包括靜態圖和動態圖，能夠幫助訓練出更好的識別模型。

PaddelOCR 主要分為三部分：文本檢測、文本識別、方向分類器，其中在文本檢測方面，PaddleOCR 使用MobileNetV3作為文本檢測器模型的骨架，預測時間相同時，MobileNetV3可達到更高的精度。方向分類器的主干也是MobileNetV3，由于方向分類這個任務比較簡單，所以系統選用MobileNetV3_small_x0.35來平衡準確性和效率，而基礎數據增強算法（BDA，Base Data Augmentation）和RandAugment 算法是很好的圖像數據增強算法，所以可用于方向分類器的訓練，PaddleOCR 中在方向分類的訓練圖像中就使用了這兩種算法。

圖像的分辨率與識別精度有關，PaddleOCR將歸一化圖像的高度和寬度分別設置為48和192，以此來提高方向分類器的準確率，雖然量化（quantization）可減小模型體積和加速計算，但是會造成一定程度上的精度受損，由于MobileNetV3骨架中的激活函數為ReLU 和hard swish，所以如果使用普通的PACT（PArameterized Clipping acTivation）量化會導致更高的量化損失。

3.2 多模態知識圖譜

知識圖譜是指一種以實體、概念為節點，以概念間的不同語義關聯為邊的大規模語義網。這種帶有知識體系的結構數據也被廣泛應用，但現有知識圖譜都以純文本形式出現，沒有和真實應用相連接。

在關系提取任務中，額外的圖像會在視覺上幫助區分屬性和關系。在文本生成任務中，可幫助生成一個信息更豐富的實體級句子，而不是一個模糊的概念級描述。因此多模態知識圖譜（Multi-Modal Knowledge Graph，MMKG）被逐漸矚目。

多模態知識圖譜提供了足夠的背景知識來豐富實體和概念的表示，特別是對于長尾問題，引入輔助的常識知識可增強圖像和文本的表示能力，能夠理解圖像中不可見的物體。這主要是利用符號知識提供的在視覺上看不見物體的符號信息、或在不同物體之間建立語義關系，同時在多模態推理能力的幫助下，使得數據的信息表示更加準確。在外部知識資源的幫助下，QA 任務的推理能力可得到提升，通過提供多模態數據作為附加特性來彌補一些NLP任務中的信息差距。

3.3 向量檢索引擎

經過對信息的預處理(即對圖像的模糊、翻轉、色彩顛倒等現象做出處理過程)，切分(對圖片中的文字、英文、標記予以區分)，辨識(通過Deep Learning、數據標注、算法優化等對圖中文本深入辨識)，自然語言糾錯(使用語言模式予以糾錯)等過程，將圖像信號轉換為文本并對向量信號予以存儲，而Milvus 作為一種開放的分布式矢量搜索引擎，不僅融合了業界最成熟的矢量相似率查詢技術，更在此基礎上對高性能運算架構做出了大幅改善[4]。總得來說，Milvus 有如下特點：

為海量向量搜索場景而設計，完成萬億條向量數據搜索的平均延遲以毫秒計，大幅提高了向量搜索性能；Milvus 是一整套專為數據科學工作流設計的API。無論是筆記本、本地集群還是云服務器，始終如一的跨平臺用戶體驗，可在任何場景下實現實時搜索與分析；Milvus 具有故障轉移和故障恢復的機制，即使服務中斷，也能確保數據和應用的業務連續性；Milvus 還支持布爾值、整型、浮點等數據類型。在Milvus 中，一個數據包含多個字段來代表數據特征或屬性。Milvus 還支持在向量相似度檢索過程中進行標量字段過濾；Milvus 在存儲數據時支持流處理和批處理兩種方式，兼顧了流處理的時效性和批處理的效率。統一的對外接口使得向量相似度查詢更為便捷。

3.4 相似度計算

感知哈希算法（pHash：Perceptual hash al_gorithm）是利用感知哈希算法對每張圖像產生一組“指紋”文本串，并且進行對比“指紋”文本串的距離（漢明距離：Hamming distance），這個距離越小，代表兩個圖片越相似。而矢量對比方式是把圖像或文字信息轉換為唯一矢量，如使用歐氏距離、曼哈頓距離、余弦距離、馬氏距離等方法來衡量相似性。

綜上，自人工智能誕生以來，自動問答就廣受人們關注。隨著網絡的日益發達，使用者對于自主問答的需求也愈來愈大，但是現階段已有的問答技術也只能達到最基礎的智能和邏輯推理水平，只能做到通過數據庫的形式進行查詢，而且精確度通常也相對較低，無法盡如人意。目前，很多企業已經研究出部分相當出色的基于領域的智能問答技術并且投入使用。因此，在技術不斷迭代和發展的推動下，智能客服系統體系也會越來越完善。