任薇 彭寧 范會麗

摘要:近年來,智能問答系統的研究熱度急劇飆升。區別于傳統搜索引擎,智能問答系統提供的信息服務速度更快、準確率更高。對基于中醫的智能問答系統進行研究,可以為受限領域的問答研究提供經驗。將中醫知識智能問答系統劃分為三部分,分別是問句的分析理解,信息檢索和答案返回,并使用基于傳統規則的方式完成智能問答過程。實驗結果表明,系統可以對13類問題進行針對性的回答。
關鍵詞:中醫;智能問答;知識庫;傳統規則;受限領域
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)32-0200-02
1概述
人類日常生產生活過程中充斥著各種各樣的信息,如何從眾多信息中獲取到有效的信息是值得關注的問題。隨著信息化時代的到來,人們獲取信息的方式由傳統的書籍、信件等發展成了現如今的網絡化信息獲取。網絡化信息獲取主要媒介就是傳統的搜索引擎。用戶通過輸入一些關鍵詞,搜索引擎會返回許多與之相干的頁面,而這些網頁內容的質量參差不齊,因此用戶必須根據實際需要對信息進行篩選,無形中消耗了更多的時間,這無疑與現如今快節奏的生活背道而馳。
順應社會發展要求,問答系統應運而生。用戶輸入自然語言問題后,問答系統接收并對問題進行分析理解,直接返回問題的正確答案,這個過程很好彌補了傳統搜索引擎的缺陷。華盛頓大學圖靈中心主任Etzioni教授曾指出,問答系統具有的高效、準確的特點,必將引領下一代搜索引擎的發展形態。而且近些年來,知識庫技術的發展為問答系統提供了新的突破性進展。
中醫作為傳統文化的瑰寶,在中華民族發展過程中積累了大量的臨床經驗。將基于知識庫的問答系統應用于中醫學領域,對于提高人們獲取醫學知識的效率、淋漓盡致地發揮中醫應用價值有著重要意義。
2中醫知識庫的構建
知識庫,又稱知識圖譜。利用節點和有向邊兩種基本元素對知識進行組織。其中,節點代表現實世界中客觀存在的實體,而邊則表示實體間存在的關系。對中醫知識智能問答系統進行研究,首當其沖的,要構建一個基于中醫知識的知識庫。
首先,知識獲取階段主要是從半結構化的中醫網站中利用爬蟲技術爬取相關的中醫知識數據,作為構成知識庫的數據來源。并且由于這些初步數據不可避免地存在數據不干凈、表達不規范等問題,需要人工進一步進行分析處理,剔除掉不可用的無效信息。其次,知識表示與存儲階段采用圖結構對中醫知識進行組織,并采用Neo4i圖數據庫作為數據存儲工具存儲中醫知識數據。
3智能問答過程
一般來說,智能問答系統主要由問題分析與理解、信息檢索和答案返回三部分組成。其中:
問句分析理解是第一步驟,也是先決環節,其分析理解的精度將直接影響后續步驟的執行。
信息檢索旨在知識庫中確定問句實體位置,縮小問題答案范圍。
答案返回則是將查詢結果套上各種類型問題的回答模板返回給用戶,以免直接返回答案太過于晦澀。如果用戶的問題表達缺乏必要的信息,會根據缺失內容進一步引導用戶輸人正確的問句。
以問句“患失眠后可能有哪些表現?”為例,分析問答過程:
首先,問句分析理解階段主要進行實體識別、問句分類等操作。利用實體識別技術抽取出用戶輸入問句中所包含的實體關鍵詞,并獲取實體關鍵詞所對應的實體類型。通過窮舉各種可能提問問題的方式,建立不同類型關系類型的疑問特征詞集合。通過實體類型輔以問句的疑問特征詞匹配,共同確定問句所詢問的關系類型,對問句的操作類型進行分類。以“癥狀”特征詞集合[“癥狀”,“表現”,“癥候”,“表征”]為例。通過對問句進行分析理解,獲取的實體為“失眠”這類中醫疾病實體,輔以“癥狀”特征詞集合中的元素“癥狀”,因此可以確定問句的操作類型是要詢問“疾病的癥狀”。
信息檢索將問句分析理解的結果,即不同的問句操作類型,轉化為Neo4j數據庫支持的cypher查詢請求,作為問題和中醫知識庫連接的媒介,從而支持問答服務。利用Neo4j的cv-Dher語句直接match到知識庫中相應的節點和關系邊。所舉例子中,在知識庫中由“失眠”的節點出發,經由“癥狀”關系邊,所到達的節點即為失眠的癥狀節點,也就是問題的答案。當與知識庫數據進行交互時,如果表達數據不精確,則使用模糊匹配,提高問題處理的靈活度。
答案返回則是獲得cypher語句的操作結果并輔以各種類型問題的回答模板返回給用戶,至此完成全部的問答服務。所舉例子的操作類型為詢問“疾病的癥狀”,封裝上該類型回答模板后,返回結果為“失眠的癥狀有:不寐,心煩,頭重目眩等”。
實驗結果表明,系統可針對13種不同類型的問題給出針對性的回答。
4結論
中醫作為中國的傳統醫學文化,蘊含了豐富的病理知識。近些年來,國家頒布諸多法令促進中醫學的發展。響應國家號召,對中醫知識的智能問答系統進行研究,對于促進中醫學“現代化”具有重要意義嘲。使用基于傳統規則的方式對中醫領域的智能問答系統進行研究,回答結果依賴于規則制定的覆蓋范圍。相信利用數據挖掘技術,采集更多的問句樣本,可以提高規則的覆蓋范圍,擴大問題回答的廣度。