隨著醫療信息化的發展,人們越來越多地希望能夠從網絡上獲得更為準確的疾病診療信息。通常情況下,人們通過搜索關鍵詞,利用百度、Google等搜索引擎獲得相關的網頁信息。但是這些信息還需要用戶自行鑒別,要求用戶具備一定的鑒別能力。用戶如果想利用普通的搜索引擎檢索到更準確的信息,需要一定的檢索能力,如使用關鍵詞組合表達查詢需求而不是用自然語言進行簡單檢索。由于人們更期望能從簡單的提問中直接獲得答案,因此智能問答系統應運而生。智能問答系統的優勢在于用戶可以用自然語言提問,系統返回的是用戶所需答案而不是相關網頁,因此能更好地滿足用戶的需求[1]。
中國中醫科學院中醫藥信息研究所從2002年開始研制的中醫藥學語言系統,借鑒本體論的方法,收錄中醫藥學及其相關學科的概念和術語,建立了大型的中醫藥學詞庫及其語義網絡,為中醫藥知識智能化獲取奠定了堅實的基礎。本文旨在探討如何以中醫藥學語言系統為基礎構建知識問答系統,利用用戶提問和在知識圖譜中匹配與用戶需求最接近的答案,從而實現中醫藥知識的智能問答。
問答系統(Question Answering System, QA)是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題[2]。問答系統的實現涉及自然語言處理、信息檢索、數據挖掘等交叉性領域。與傳統的搜索引擎相比,問答系統的檢索效率更高。用戶期望在提出問題后,系統對問題進行語義理解,通過智能數據分析得到問題的答案。智能問答系統可將自然語言與產品交互,改善用戶體驗,其應用潛力巨大,受到各大IT廠家的追捧。近年來國外知名公司紛紛開發自己的智能問答系統。從表達知識的角度不同可以將智能問答系統分為基于知識庫的問答系統、基于受限語言的數據庫查詢系統、基于常用問答對的問答系統和基于信息檢索的問答系統。2010年左右興起的基于知識圖譜的問答,其底層就是一個龐大的知識庫,典型的系統有IBM Wason及Wolfram Alpha等。Wolfram Alpha是沃爾夫勒姆研究公司開發出的新一代的計算知識引擎,它以公眾和獲得授權的資源為數據基礎,通過發掘建立了一個異常龐大的經過組織的數據庫,最后利用高級的自然語言算法進行處理,給出最后答案。基于知識庫的問答是目前問答系統發展的趨勢。
現代醫學和中醫藥學領域的智能問答系統目前還處于研究和發展階段。現代醫學方面,主要有以美國國立醫學圖書館的統一的醫學語言系統(Unified medical language system, UMLS)為基礎研究的智能問答系統。UMLS是美國國立醫學圖書館開發的一個大型術語集成系統,具有集成性、跨領域和工具化等特點,在信息檢索、自然語言處理、電子病歷、健康數據標準等方面得到了廣泛的研究和應用[3]。其在智能檢索中主要應用于擴展檢索、語義檢索和問答式檢索。Wang等[4]設計了引入UMLS的臨床醫學自動問答系統,比較完整地展示了問答式檢索的基本流程和對UMLS的深入應用;Terol等[5]設計開發了基于自然語言處理技術的智能系統推斷醫學領域的邏輯問題,這個系統使用UMLS和wordNET處理和管理醫學領域的術語。
互聯網已成為獲取知識的重要途徑,人們經常利用互聯網進行自診,根據自己的癥狀搜索可能的疾病。在醫生給出診斷之后,又經常在互聯網上檢索疾病相關的保健、康復等知識。目前國內的醫療問答網站中,“好大夫”“尋醫問藥”等網站的主要模式是用戶公開提問,描述自己的病情,然后醫生回復診斷和治療相關的建議。上述這些網站和平臺提供的問答模式都是醫生進行在線回復或搜索給出相關檢索結果,尚未有智能知識問答系統提供服務。
中醫藥是我國醫療行業的重要組成部分,也是人們治未病、保健、養生的重要手段,智能知識問答系統在中醫藥領域的應用也急需研究和發展。近年來有不少專家學者對中醫藥領域的智能問答系統進行了研究,主要都集中于構建中醫藥某子領域本體,并基于本體構建智能問答系統。如顧琳等[6]研發了基于本體的亞健康中醫輔助診斷系統,該系統采用半自動方式獲取知識,構建中醫亞健康本體,在領域本體驅動下進行基于模糊推理的方法對亞健康癥狀中醫輔助診斷知識進行推理;溫思琦等[7]針對中醫治療冠心病構建自動問答系統,采用文獻資料構建中醫冠心病本體,然后設計了針對中醫冠心病受限領域的自動問答系統的實現方案。但是這些研究都未真正基于中醫藥領域本體構建出實用的智能問答系統。
本文期望以中國中醫科學院信息所長期以來的研究成果——中醫藥學語言系統為基礎,構建實用的中醫智能問答系統。
本文以中醫藥學語言系統為基礎,引入自然語言處理、知識庫、自動問答、信息檢索等技術,結合中醫藥信息領域專家的經驗知識,構建一套智能知識問答系統。該系統將中醫藥學語言系統中的知識本體、專業概念術語、語義關系等規范的知識表示與醫學文獻中臨床病案有機結合起來,將相關癥狀、病證、治法、用藥等知識實體構建關聯知識圖譜,通過自動問答技術為疾病的臨床診斷治療提供輔助方案。系統整體設計如圖1所示。

圖1 系統整體設計思路
本文以 “月經病”為例介紹研究方案。
目前國內的醫療問答網站中,“好大夫”“尋醫問藥”等網站的主要模式是用戶公開提問、描述病情后,醫生回復診斷和治療相關的建議。除了少量由用戶設置為隱私的數據,其他的任何人均為自由訪問。“春雨醫生”平臺的目標則是建立醫生和患者之間的離線商務模式,使網站成為醫生和患者之間診斷治療的前臺。人群調研也顯示普通大眾對于常見病、多發病的網絡了解需求也日漸增加,不再滿足于網頁搜索給出的泛泛結果,更傾向于能夠獲得對自己提問更有針對性的直接回答。
月經病是指月經經量、顏色、周期、經期發生了異常的變化,臨床上包括月經先期、月經后期、月經先后無定期、行經期延長、月經過多、月經過少、崩漏、閉經等,是婦科常見病、多發病。雖然給患者帶來的痛苦不大,但有些患者因為忙碌等其他原因不能及時去醫院就醫而比較傾向于在網絡中先尋求答案,更希望獲得的答案具有針對性,能解決問題。
本文數據內容包括3部分。
第一部分是文獻數據。在“中國中醫藥數據庫”中通過主題檢索“月經病”進行加權拓展檢索,即包括主題詞表 “月經病”及其下位詞“崩漏”“閉經”“功能性子宮出血”“經前期綜合征”“逆經”“痛經”“月經過多”“月經過少”“月經失調”所有主題詞的文獻,結果返回14 231篇文獻;然后通過特征詞二次檢索“病例報告”,即文獻中含有實際病例的文獻,結果返回5 653篇文獻。以這些文獻中的病例記錄為本文的數據基礎,將篩選出的文獻中的病歷部分進行文本化。
第二部分是醫案數據。本文采集現代婦科專家病案60余本,對其中的月經病醫案進行整理。
第三部分是教材。采集中醫藥院校《中醫婦科學》與《方劑學》中關于月經病治療的文本,作為經典數據。
中醫藥知識問答系統主要分為知識抽取模塊,知識庫管理模塊、自動問答模塊、術語反饋模塊和信息檢索模塊五大模塊。
3.3.1 知識抽取模塊
為實現知識概念、知識屬性、知識關系、知識分類等知識實體信息的抽取和融合,系統將基于中醫藥學語言系統結合中文分詞、命名實體抽取、屬性抽取、關聯關系抽取等自然語言處理關鍵技術對中醫文獻進行知識實體信息抽取,為中醫藥領域知識庫的構建提供數據支持。
3.3.2 知識圖譜管理模塊
基于中醫藥學語言系統,利用知識抽取模塊產生的知識實體信息形成知識圖譜,并進行有效的存儲和管理。知識圖譜是由“節點”和“邊”組成的、具有語義相關特性的網絡,其中“節點”表示各種知識實體(包括領域基本概念、專業術語、專有名詞等,知識實體可以具有多重屬性信息),“邊”表示知識實體間的多種關系。中醫藥知識圖譜是實現知識問答的基礎,知識問答系統基于中醫藥知識圖譜的知識實體及關聯關系可以發現用戶問題中的關聯知識,并通過進一步的推理,利用關鍵概念和實體的權重獲得用戶問題的答案。
3.3.3 自動問答模塊
在用戶輸入病情描述后,基于中醫藥學語言系統的標準化知識表示,利用中文分詞、命名實體抽取技術,將患者描述的自然語言轉化為癥狀等規范知識表示;然后基于知識圖譜查找關聯知識體系,判斷用戶可能患有的病證及其概率,給出病證的相關信息,并通過與用戶交互反饋形成較為可信的結論;同時將利用信息搜索功能,將相似度達到一定比例病案找出來,為用戶提供輔助診療建議。
3.3.4 術語反饋模塊
對知識抽取結果進行分析比對識別新的術語信息,并將其反饋給中醫藥語言系統,經過專家審核確定是否新術語在語言系統中的添加。由此形成一個良性循環,為中醫藥學語言系統提供更多的概念術語,同時也為知識庫和知識圖譜的構建充實更多的語料。
3.3.5 信息檢索模塊
對中醫文獻等數據資源和知識圖譜數據建立全文索引,提供病案文本和知識圖譜的全文檢索功能。自動問答模塊在獲取到用戶數據以后,將提煉出的規范知識表示作為輸入調用信息檢索模塊,信息檢索模塊將根據索引信息獲得相關的病案和知識實體信息,并根據相似度進行排序輸出。
構建基于中醫藥學語言系統的知識問答系統,有助于幫助人們用更便捷的方式獲得中醫藥診療知識,改變傳統搜索引擎帶來的檢索弊端。該系統從語義表達的角度,以知識圖譜的形式分析用戶自然語言檢索的語義邏輯關系,為用戶提供精準的信息資源。同時,根據用戶自然語言的輸入及時反饋,可促進中醫藥學語言系統的發展、豐富系統內容、優化語義關系,從而進一步提高其效能。