于彤 李敬華 張竹綠 于琦 劉靜 楊碩 賈李蓉 朱玲 董燕
【摘要】 “大數據”時代的來臨,為中醫藥工作者重新思考中醫藥數據的本質,革新中醫藥數據處理方法,提供了寶貴的契機。中醫藥數據的核心是“知識密集性”數據。“大數據”時代的中醫藥數據處理方法,應側重于解決知識建模、知識融合、知識服務等一系列與“知識”相關的問題。語義網技術發端于知識表示和推理領域的研究成果,又能解決數據集成與互聯問題。它為構建中醫藥“大數據”并從中發現新穎知識,提供了理想的技術手段。
【關鍵詞】 大數據; 中醫藥; 語義網; 數據處理
中醫藥科學數據庫的建設和利用,是中醫藥信息處理過程中的核心環節。經過30多年的努力,中醫藥工作者已建成了大量的中醫藥科學數據庫,內容涉及中醫、中藥、古籍、方劑、針灸等諸多領域[1]。這些數據資源中蘊含著豐富的中醫藥知識遺產,為知識百科、知識檢索、知識地圖等知識服務提供數據支持,為中醫藥知識傳承、臨床實踐和科學研究做出了重要貢獻[2]。然而,中醫團體近十年來仍在沿用傳統的數據處理技術,數據處理水平沒有明顯提高。該領域仍存在著數據庫模式不合理、數據質量缺陷、數據管理手段相對落后等諸多問題。特別是數據資源無法在組織、地區及國際間的充分共享,形成所謂的“數據孤島”現象,這已成為困擾中醫藥工作者多年的老大難問題。數據資源建設仍滯后于臨床、科研發展的需要,制約中醫藥信息化事業的整體發展。
“大數據”時代的來臨,為中醫藥工作者重新思考中醫藥數據的本質,革新中醫藥數據處理方法,提供了寶貴的契機。“大數據”的理念在于將各種相關的數據集關聯起來,構成大型、全面的數據集合,從中發現新穎的知識。為建立一套既符合“大數據”理念,又適合中醫藥領域特點的信息處理方法,首先要從本質上理解中醫藥數據的結構和內容。中醫典籍汗牛充棟。但與天文、地理、生物等以“大數據(Big Data)”為特征的學科相比,中醫藥領域產生的數據量仍然是“小巫見大巫”。中醫藥數據的數據量不是很大,但數據本身所包含的知識量很大,因此常被稱為“知識密集型”的數據資源[3]。中醫藥領域的數據不是單純的觀測數據,而是觀測與體驗相互融合的數據。中醫藥數據的生成模式與獲取手段,決定其無法成為傳統意義上的“大數據”,而必然是“知識密集型”數據。
為處理中醫藥知識密集型數據,需要建立適合中醫藥領域特點的方法學體系。所謂中醫藥數據的“知識量很大”,主要體現在其中蘊含著豐富的語義關系。若將這些語義關系抽取并融合起來,則構成了復雜語義網絡,其節點數量相對而言不是很大,但具有復雜的結構。語義網絡結構的復雜性,反映了數據中的知識含量。若能通過基于本體的方法來處理中醫藥數據,深度挖掘其中蘊含的語義關系,并基于語義網(Semantic Web)實現“知識密集型”數據資源的合理組織,則可在中醫藥數據資源利用中取得突破[4-5]。
1 語義網在中醫藥數據處理中的應用
語義網(Semantic Web)是萬維網聯盟(World Wide Web Consortium,簡稱W3C)提出并倡導使用的一項創新的萬維網(Web)技術,其核心思想是在萬維網上構建一個全球性的數據網絡,用以實現更為智能的應用[5]。近年來,語義網技術在歐、美等地取得迅速發展,得到IBM、Oracle等著名IT企業的鼎力支持,在生命科學、醫療保健和新藥研發等領域取得廣泛應用。
中醫藥工作者已經認識到語義網的價值,并開展了將語義網應用于中醫藥領域的若干嘗試,構建了中醫藥本體平臺、中醫藥語義查詢平臺和中醫藥語義搜索平臺等系統,在文化傳承和醫療保健等方面產生了社會效益,取得了良好的示范性效果,并積累了寶貴的經驗[5]。現有工作表明語義網能夠為中醫藥領域問題提供適宜的解決方案,但尚未充分發揮語義網的全部潛能。這就需要建立一套基于語義網的數據處理方法學,消除語義網技術和中醫藥領域實際應用之間的隔閡,從而實現中醫藥數據的充分共享和深度利用。
這套方法學的處理對象是中醫藥數據,但其最終目的則是對數據中蘊含的知識進行合理組織、系統保護和深度挖掘。中醫藥科學數據是中醫藥知識的密集型載體,中醫藥數據處理在本質上是對中醫藥知識的創造、維護、共享、融合和利用的持續過程,其中涉及知識建模、知識融合、知識服務等一系列與“知識”相關的方法。下面分別進行闡述。
1.1 基于本體的中醫藥知識建模方法 中醫藥知識體系與中華傳統文化息息相關,具有鮮明的思想和語言特色,這決定了中醫藥知識建模的獨特性。歷代中醫普遍采用“取向比類”等形象思維方法,導致中醫藥知識難以精確描述和定量刻畫。中醫藥領域知識的復雜性、模糊性和爭議性,向現有的知識表達與推理技術提出了嚴峻的挑戰。作為語義網的基石,本體是針對某個領域的概念體系的精確規范,用以明確概念的定義以及概念之間的語義關系[4]。可以基于國際最新的本體表達框架,提出符合中醫藥特色的知識建模方法,對中醫藥的思維模式和知識體系進行分析與建模,研發面向中醫藥領域的示范性本體、知識庫以及相應的推理方法,從而系統梳理中醫藥知識體系,保護中醫藥知識遺產。
1.2 基于語義網的中醫藥數據集成與知識融合方法 中醫藥領域的數據整合工作長期停滯不前,形成了所謂的“數據孤島”現象,造成中醫藥知識無法在組織和實踐者之間充分共享。語義網的核心優勢在于將數據結構和存儲方式各異的數據轉換為統一格式并重新發表,從而實現數據資源整合,構建全球數據網絡。在語義網的框架下,不僅能夠實現中醫疾病、中藥、針灸、醫案等中醫藥各門類數據資源的集成,而且能夠進一步建立中西醫之間的知識關聯。可通過語義關系表達中醫藥和西醫之間的結合點,從而實現這兩個領域的知識資源的關聯和融合,支持各種面向結合醫學的知識共享、決策支持和知識發現應用。這套方法能使中醫藥知識接入全球互聯的知識網絡之中,在中西醫結合醫學中發揮更大的作用和影響力。
1.3 基于語義網的中醫藥知識服務方法 語義網不僅支持數據集成,而且為基于數據的知識服務提供了新方法。例如,“語義搜索”基于領域知識庫實現智能的搜索功能,向用戶提供準確的信息搜索結果;“語義查詢”向用戶提供簡易、友好的查詢構造界面,引導用戶以交互的方式進行知識問答;“語義維基”向用戶提供百科全書式的知識服務,支持知識資源的有序組織、有效管理和協作式加工。基于中醫藥數據的語義網應用系統能夠面向臨床決策、新藥研發和電子教學提供知識服務,解決中醫藥知識共享與傳播的問題,為中醫藥知識服務模式創新提供了有力的技術支持。
2 小結
近年來,中醫藥科學數據建設事業取得長足發展,積累了為數眾多的數據資源。如何管理如此龐大的數據資源,如何解決“數據孤島”問題實現數據整合,如何從海里數據中挖掘新穎的知識,如何實現基于數據的知識服務以滿足中醫專家和百姓的需求,都是中醫藥科學數據建設事業中需要考慮并解決的問題。“大數據”時代的來臨,有望帶來中醫藥數據處理方法的大變革,從根本上解決上述問題,推動中醫藥信息化事業的整體發展。需要針對中醫藥“知識密集性”數據的特點,建立一套基于語義網的數據處理方法學。其中包括:(1)采用基于本體的知識建模方法,構建中醫藥領域本體和知識庫,系統梳理中醫藥知識體系;(2)采用語義集成方法實現大量中醫藥數據庫的有效整合,解決中醫藥“數據孤島”問題;(3)采用語義搜索、語義查詢、語義維基等方法提供知識服務,解決中醫藥知識傳播問題。通過這套方法學,將能匯集中醫藥及相關學科的數據資源,挖掘數據中蘊含的潛在規律及知識點,發揮多學科研究成果對中醫藥發展的支撐作用。
參考文獻
[1]崔蒙,尹愛寧,范為宇,等.中醫藥科學數據建設研究進展[J].中國中醫藥信息雜志,2006,13(11):104-105.
[2]高博,崔蒙,楊碩,等.基于數據的中醫藥知識服務研究[J].圖書情報工作,2012,56(9):5-9.
[3]崔蒙,李海燕,雷蕾,等.“大數據”時代與中醫藥“知識密集型”數據[J].中國中醫藥圖書情報雜志,2013,37(3):1-3.
[4]于彤,崔蒙,李敬華,等.中醫藥本體工程研究現狀[J].中國中醫藥信息雜志,2013,20(7):110-112.
[5]于彤,崔蒙,李敬華.語義Web在中醫藥領域的應用研究綜述[J].世界中醫藥,2013,8(1):107-109.
(收稿日期:2014-03-04) (本文編輯:蔡元元)endprint