領域本體的構建方法是當前本體研究的熱點問題之一。已被廣泛應用于知識工程、自然語言處理、系統建模、信息處理、信息檢索和語義Web、軟件復用等領域之中 。但是,目前的領域本體的創建還缺乏系統的、針對所有領域的、工程化的方法。本文介紹一種基于主動學習的傳統中醫癥狀本體的文本知識自動獲取方法的設計和實現。通過引入領域本體,實現半結構化文本知識的完全自動獲取。該方法具有較好的通用性,把人們從繁重的手工勞動中解放出來,并能極大地提高中醫知識獲取的效率和應用價值。
【關鍵詞】領域本體 中醫癥狀名 語義標注 主動學習
本體(Ontology)是近年來計算機及相關領域普遍關注的一個研究熱點,本體可以促進各種領域之間的交流,這種交流實現了給定領域中不同知識的重用和共享。作為一種能在語義和知識層次上描述信息系統的概念模型建模工具,已被廣泛應用于知識工程、系統建模、信息處理、數字圖書館、自然語言理解、語義 Web 等領域之中。“傳統中醫”領域知識主要來源于古中醫文獻、臨床記錄、老中醫經驗手稿等。這些知識的主要載體常常是非結構或半結構的數據。中醫診斷是通過對癥狀的總體觀察和分析得到結果。由此可知中醫古籍文獻中癥狀名識別問題十分重要。
如何讓計算機對自由文本中癥狀名自動分析獲取知識,進行病癥診斷是知識工程領域需要解決的難題。知識服務離不開大型知識庫的支持。僅僅依靠繁重的手工勞動來建設大型知識庫,必將嚴重影響知識服務的能力和質量。因此,目前當務之急是尋求一種通用的自動的文本知識獲取方法。傳統的文本知識獲取方法主要有兩種:一種是采用通用的算法處理自然語言文本,從文本中抽取概念以及概念之間的關系 。這種方法知識獲取量大,但所獲取的知識類型較單一,知識的表示形式也相對簡單。另一種方法是通過與知識工程師進行交互,使用一些知識獲取平臺或管理環境,實現知識的獲取。這種方法不僅手工工作量大,而且通用性也較差。鑒于現有文本知識獲取方法的缺陷,本文提出一種從古籍文本的表征及內容特征出發,抽取實義詞,為實現中醫文獻標引和檢索從單漢字層次向詞、概念層次的過渡。基于主動學習的方法進行文本標注,再進行自動領域本體構建。
本文第1、2章介紹本體以及領域本體發展;第3章介紹傳統中醫癥狀本體的研究背景與意義;第4章介紹基于主動學習的傳統中醫癥狀本體構建方法可行性分析及結果和性能評價;第5章總結全文。
1 研究的范疇和發展現狀
1.1 本體的概述
本體最早是一個源于哲學的概念,是一種對“存在”的系統化解釋,用于描述事務的本質。后來知識工程學者借用了這個概念,在開發知識系統時用于領域知識的獲取 。近年來,本體的概念被越來越多的應用于計算機知識工程領域,用于對客觀世界的存在進行系統化描述,方便知識的重用和交互。 本體是用于描述一個領域的術語集合,其組織結構是層次結構化的,可以作為一個知識庫的骨架和基礎。
1.2 本體的分類
目前關于本體的研究非常廣泛,尤其是在國外,許多研究組織和機構都研究建立了各種各具特色的本體。針對目前出現的各種各樣的本體,也出現了不同的分類方法,最為廣泛的分類方法是根據本體應用主題,將這些為數眾多的本體劃分為五種類型:領域本體、通用或常識本體、知識本體、語言學本體和任務本體。
領域本體主要有以下作用: 可以明確專業術語、關系及其領域公理, 使其形式化;在人與人之間、人與機器之間達到共享;實現一定程度的領域知識復用。此外,Guarin也提出以詳細程度和領域依賴度兩個方面對本體進行劃分。其中,根據本體對領域的依賴程度由高到低可分為四個類別:頂級本體(top-level Ontologies)、領域本體(domain Ontologies)、任務本體(task Ontologies)和應用本體(application Ontologies)。
1.3 本體的應用領域
目前,本體已經被廣泛應用于知識工程、自然語言處理、數字圖書館、信息檢索和Web異構信息的處理、軟件復用、面向對象技術和語義Web等領域 。典型的應用有:
(1)基于語義的信息檢索,特別是網絡搜索引擎和數字化圖書館。
(2)基于本體的數據集成、機器學習等。
(3)領域本體的應用。
(4)語義Web服務。
(5)在線元數據管理和自動信息發布。
1.4 本體研究的現狀
對本體的研究和應用近年來發展很快。在1998年6月,第一屆“信息系統中的形式化本體論國際會議”的召開標志著這一領域在逐漸走向成熟 。從國外的研究情況來看,20世紀80年代末至90年代初,哲學領域的概念“Ontology”被AI領域所借鑒,本體的建模方法也初步確立,本體論把知識工程中的知識向更深入的方向推進。近年來,國外對本體建模作了大量研究并將其運用于知識工程領域。主要代表為:
(1)萬維網聯盟W3C(World Wide Web Consortium)的研究;
(2)德國卡爾斯魯厄大學的Rudi Studer,Alexander Maeche和以他們為首的AIFB研究所從事的創建基于本體的知識門戶和語義門戶研究;
(3)美國斯坦福大學的知識系統實驗室(KSL)對本體建模工具和本體應用層面的研究。
與國外相比,國內無論是在理論研究、實證研究還是在技術手段的實現和應用方面都相對落后,與國外高水平的研究相比存在很大差距。國內對于本體的研究大約始于20世紀90年代初。 目前,國內進行本體研究的主要有三支科研力量。一是中國科學院計算所、數學所、自動化所的若干實驗室,代表人物是陸汝鈴院士、金芝博士、武成崗、曹存根等人 。二是哈爾濱工業大學計算機系,代表人物是王念濱博士。三是浙江大學人工智能研究所,代表人物是博士生導師高濟教授。
2 中醫領域本體的構建研究
領域本體(Domain ontology) 是用于描述指定領域知識的一種專門本體,它給出了領域實體概念及相互關系領域活動以及該領域所具有的特性和規律的一種形式化描述 。目前本體構建主要有手工構建、復用已有本體(半自動構建)以及自動構建本體三種方法。本節主要介紹中醫本體自動構建的方法,并歸納出構建領域本體的一般步驟。
2.1 領域本體構建遵循的原則
目前己有的本體很多,出于對各自問題域和具體工程的考慮,構造本體的過程也是各不相同的。由于沒有一個標準的本體構造方法,不少研究人員出于指導人們構造本體的目的,從實踐出發,提出了不少有益于構造本體的標準。通過分析總結,本體的設計原則可以概括如下:
(1)明確性和客觀性:即本體應該用自然語言對所定義術語給出明確的、客觀的語義定義。
(2)完全性:即所給出的定義是完整的,完全能表達所描述術語的含義。
(3) 一致性:即由術語得出的推論與術語本身含義是相容的,不會產生矛盾。
(4) 最大單調可擴展性:即向本體中添加通用或專用的術語時,不需要修改其己有的內容。
(5)最小承諾:即對待建模對象給出盡可能少的約束。
(6)最小編碼偏差:本體的建立應盡可能獨立于具體的編碼語言。
(7)兄弟概念間的語義差別應盡可能小。
(8) 使用多樣的概念層次結構實現多繼承機制。
(9)盡可能使用標準化的術語名稱。
2.2 構建中醫領域本體的步驟
本體的開發和完善是一個反反復復不斷補充的迭代過程。領域本體中的概念應該貼近于要研究的專業領域中的客觀實體和關系法則。綜合上節幾種本體構建的工程思想,歸納并總結出構建領域本體的幾個步驟:
(1)確定領域本體的專業領域和范疇;
(2)考慮復用現有的本體;
(3)列出本體涉及領域中的重要術語;
(4)定義分類概念和概念分類層次;
(5)定義概念之間的關系。
3 傳統中醫癥狀本體的研究背景與意義
3.1 傳統中醫癥狀本體研究背景
國內進行本體研究的起步比較晚,主要研究包括知識工程、自然語言處理、信息檢索、產品信息建模、常識知識庫等。比如中科院計算所的大規模知識系統研究、中科院數學研究所常識知識庫、浙江大學智能研究所基于本體的產品信息研究集成等。其中比較有影響的有:中國中醫科學院的研究。借鑒UMLS的成功經驗,2001年由國家科技部基礎性工作專項資金支持,中國中醫科學院為首的集中全國近30多家中醫院校和多家科研單位的力量,建立了“中醫癥狀學一體化語言系統”,福建中醫學院圖書館全程參加了該項研究 。綜上所述,國內對本體的研究工作特別是與中醫癥狀結合方面還處于摸索階段,尚未全面鋪開。
3.2 傳統中醫癥狀本體研究的意義
研究意義及作用中醫癥狀信息資源存在的古今概念差異、一詞多義、多詞一義等問題成為知識工程建設的瓶頸,給中醫癥狀學科發展、中醫癥狀信息資源共享造成了困難 。本體的出現為描述中醫癥狀知識提供了一種新的思路。運用本體構建的知識庫可應用于將來的語義網,使中醫癥狀走向互聯網。因此,做好中醫本體研究意義重大,具體表現在以下幾個方面:
(1)本體是可共享、可復用的數據模式,本體是中醫癥狀知識實現共享的資源描述新模式。
(2)通過本體的語義分析及語義研究,消除中醫骨傷資源,特別是古醫籍概念理解和使用上的歧義,達到古今概念匯通的目的。
(3)利用關系數據庫對本體描述語言OWL表達的語義關系進行解析,探索中醫癥狀的語義檢索。
3.3 中醫癥狀本體自動構建過程中存在的問題
領域本體構建的主要三種方法:手工構建、復用已有本體以及自動構建本體,其中前兩種方法最為常用。 自動構建本體是目前的一個研究熱點。研究者借鑒知識獲取的相關技術,有基于自然語言規則的方法和基于統計分析的機器學習方法。目前這種構建方法還處于研究階段,利用機器學習會產生大量的噪音數據,缺乏必要的語義邏輯基礎, 抽取的概念關系松散且可信度無法得到很好的保障。利用自然語言處理技術,概念間潛在關系的分析則需要依賴復雜的語言處理模型。盡管機器學習應用于本體自動構建有巨大的潛力,但是距離良好的可理解性尚有很大的距離,隨著研究的深入這種狀況應該有望得到改善。
4 基于主動學習的傳統中醫癥狀本體構建方法可行性分析
Active learning 算法由耶魯大學Angluin 教授提出 。它選擇部分未標記樣例進行標記,然后把它們放入之前已有的標記樣例集合,重新訓練分類器,利用分類器再次選擇未標記樣例。通過有選擇地擴大有標記樣例集合和循環訓練,使得分類器逐步獲得更強的泛化能力。與以往的算法相比,它具有模擬人的學習過程的特點,因此受到廣泛注,近年來被大量地應用于信息檢索和文本分類等自然語言處理領域,成為機器學習領域中最重要的方向之一。
為了更加直觀地展示 Active learning 算法的有效性和它對分類器訓練精度的提高程度,下面用一個對二維空間中的點進行分類的問題為例來介紹 Active learning 。假設有一個布滿紅綠兩種共 400個點的平面,找到紅綠兩種點的分界線。已知紅綠兩種點在坐標x附近產生分界。常規的被動學習的方法,隨機選擇并標記點,通常它標記的點比較分散,只有很少的點分布在 x 附近,這樣很難找到正確的分界線。用這種方法分類的精度較低,據統計結果顯示正確率只有 70%。而 Active learning 方法是通過選擇運算,最終選擇紅綠兩種點混合分布比較緊密的位置,也就是位于 x附近的點進行標記,這就為找到正確的分界線提供了有效的信息。利用這種方法訓練得到的分類器的精度較高,據統計結果顯示正確率可達到 90%。這個例子充分說明,Active learning 選擇的樣本點比盲目選擇的樣本點更有利于高精度分類器的訓練,在同等的標注代價下能夠得到更多的區分信息,有利于提高分類模型的精確度。
5 結語
本體是某一領域共享的、概念化、形式化表示的知識體系。第二代互聯網的發展需要大量的領域本體作為支撐。目前,領域本體主要依賴手工構建,需要耗費大量的人力, 因此本體的構建成為第二代互聯網發展的瓶頸 。本文對中醫癥狀本體的相關理論進行介紹,結合中醫本體一般構建原則,對各種領域本體構建方法以及存在的問題進行了詳細分析。然后結合主動學習對進行標準,使其智能標注中醫癥狀,然后對癥狀與其相關的實體關系進行構建,最終完成中醫領域癥狀本體的構建。中醫癥狀本體的構建是一項極其艱巨的任務, 如何應用知識獲取技術來降低本體構建的開銷以及在現實生活中推廣應用,目前也是一個很有意義的研究方向。
參考文獻
[1]劉仁寧,李禹生.領域本體構建方法[J].武漢工業學院學報,2008,27(1):73-77.
[2]李景,蘇曉鷺,錢平.構建領域本體的方法[J].計算機與農業,2003(7):7-10.
[3]張小鵬.漢語特定領域本體的自動構造研究[D].武漢:華中師范大學,2007.
[4]翟林.領域本體的半自動構建方法研究與實現[D]. 南京:東南大學,2005.
[5]陳建.領域本體的創建和應用研究[D].北京:對外經濟貿易大學,2006.
[6]孫倩,萬建成.基于敘詞表的領域本體構建方法研究[J].計算機工程與設計,2007,28(20):5054-5056.
[7]Rabiner L,Juang B.An introduction to hidden Markov models[J].ASSP Magazine,1986:4-16.
[8]John L,Andrew M,et al.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].ICML,2001:45-54.
[9]Guo Z,Zhang Y,Su C,et al. Exploration of n-gram Features for the Domain Adaptation of Chinese Word Segmentation[J].Nature Language Processing and Chinese Computing. Springer Berlin Heidelberg,2012: 121-131.
[10]蘇晨,張玉潔,郭振等.適用于特定領域機器翻譯的漢語分詞方法[J].中文信息學報,2013,27(5):184-190.
[11]Burr S.Active Learning Literature Survey[J].University of Wisconsinmadison,2009,39(2):127-131.
作者簡介
白寧超(1990-),男,河南省駐馬店市人。現為成都信息工程大學研究生,主要研究自然語言處理和數據挖掘。
唐聃(1982-),男,四川省人。博士學位。現為成都信息工程大學研究生導師,主要從事算法分析方面的研究。
王亞強(1984-),男,吉林省人。博士學位。現為成都信息工程大學研究生導師,主要研究自然語言處理,詞序標注等。
作者單位
成都信息工程大學軟件工程學院 四川省成都市 610225