〔摘 要〕構建單元信息知識庫,可以實現對單元信息的有效揭示、組織與利用,為實現精粹服務的需求提供知識保障。本文引入本體提出了單元信息知識庫的構建方法,設計了知識庫的總體結構,構建了單元信息本體,闡述了數據建設的過程,并以“養生領域”為例實現了知識庫的構建。本文所構建的基于本體的單元信息知識庫能夠較好地組織、存儲和利用單元信息,提供知識檢索和知識發現服務,實現從海量數據中有效獲取有價值信息的需求。
〔關鍵詞〕本體;單元信息;知識庫;單元信息本體
DOI:10.3969/j.issn.1008-0821.2017.12.013
〔中圖分類號〕G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2017)12-0074-05
〔Abstract〕The construction of the unit information knowledge base is helpful for the representation,organizing and using of knowledge.It provided a high-quality services for users.[Method/Process]This paper introduced a method of building the the unit information knowledge based on ontology,designed the overall architecture of the knowledge base and the unit information ontology,put forward the process of data construction.And it took the“Yangsheng”as an example to realize the construction of the repository.[Results/Conclusion]The unit information knowledge base could better organize,storage and use related unit information knowledge,provided knowledge retrieval and knowledge discovery services to achieve effective access to valuable information from mass data.
〔Key words〕ontology;unit Information;knowledge base;unit information ontology
單元信息知識組織體系建設,為單元信息的組織和利用提供了支撐,滿足了用戶從海量異源異構數據中快速有效地獲取有價值的信息的需求[1]。知識庫(Knowledge Base)是某一(或某些)領域知識的集合,采用某種知識表示方式實現知識的存儲、組織和管理。單元信息知識庫作為規范描述、組織和存儲領域文獻中單元信息的存儲庫,通過對領域文獻中單元信息資源深層知識內容的揭示,能夠支持知識檢索和知識發現。國內外相關學者不斷深入研究知識庫構建的理論與技術,取得了一定的成果,其中最主要構建方法是基于本體的知識庫構建方法。本文深入探討以本體為知識表示模型構建單元信息知識庫,將單元信息知識進行組織,滿足用戶從海量數據中獲取有價值信息的需求。
某些研究文獻中知識元、知識單元與本文中單元信息的概念一致,所以在引用其他文獻時統一用單元信息表示。
1 單元信息知識庫總體結構設計
構建單元信息知識庫的目標就是要捕獲相關領域的單元信息,利用本體對單元信息進行組織,提供對該領域單元信息知識的共同理解。從而使用戶在大數據環境中可以快速獲取自己感興趣的單元信息,而避免其他海量信息的干擾。
構建單元信息知識庫首先明確知識庫的構建目標、構建原則、面向的目標用戶及其對知識庫的需求,明確知識庫中需要的知識內容和知識類型。在知識庫總體需求分析的基礎上,設計知識庫總體結構。最后進行單元信息知識庫的建設。單元信息知識庫的建設內容可分為兩部分:單元信息本體建設和數據建設。
1.1 構建目標
本文構建基于本體的單元信息知識庫的主要目標,是為了采用語義Web技術,尤其是OWL,提供關于某一領域內單元信息的相關內容,為某一領域單元信息資源提供一致的理解,實現單元信息的揭示、組織和利用,滿足用戶快速獲取自己感興趣的單元信息的需求。
本文歸并具有相同意義的單元信息類型[2-5],將單元信息類型分為概念型、方法型、數值型、事實型和陳述型。單元信息的類型有利于對單元信息進行分類和聚類。
1)概念型:概念型單元信息是對事物性質和變化規律的認識,大致包含定義、原理(理論)、名詞解釋、術語、公理、定律等類型的知識。
2)方法型:方法型單元信息是解決問題的方式,大致包含步驟、方法、經驗、技巧、過程等類型的知識。
3)數值型:數值型單元信息,是以數值形式存在的單元信息,是表達客觀實體數值屬性方面的最小獨立單元。
4)事實型:事實型單元信息,是描述實體真實情況(如發展過程、涉及領域、最終結果等)的知識,包含歷史事件、(地理、社會等)現象、人物、信息、符號等類型的知識。
5)陳述型:陳述型單元信息是表述(或引用)某種觀點或兩者之間關系的知識,大致包含觀點、結論、引用等類型的知識。
1.2 單元信息知識庫結構設計
單元信息知識庫的總體結構包括單元信息本體庫和數據庫兩個部分,總體框架如圖1所示。endprint
單元信息本體庫存儲的是單元信息的主題、來源、類型和描述內容的信息。數據庫存儲的圖書、期刊和報紙等相關文獻資源,以及相關的單元信息資源。
2 單元信息本體庫構建
2.1 本體范圍
單元信息是文獻中隱含的有價值的表征概念、觀點、原理、方法、數據、論述、結論等的原文片段信息。文獻資源的外在屬性特征(如題名、作者等),是數字文獻資源組織中必然會使用的。作為文獻的原文片段信息,單元信息也具有所在文獻所承載的元數據屬性,有必要挖掘出單元信息的基本來源信息。
單元信息的內在語義特征(主題詞)是單元信息內部語義信息的集中概括,是表征單元信息知識內容的屬性,單元信息主題概念及關系的表示影響了單元信息知識揭示、知識組織和知識服務的水平。盡可能地重用已有知識資源,建立單元信息所屬領域的領域本體。領域本體提供領域內共同接受認可的概念及概念之間的語義關系,對各類單元信息進行主題概念的語義標注。
本體庫還應包含單元信息的原文描述,可以直觀地展示單元信息,利于單元信息的標注、檢索和了解。
2.2 本體建模和形式化
單元信息知識庫的本體設計,主要包括單元信息本體設計、領域本體設計、元數據本體設計。通過對單元信息本身、單元信息來源和單元信息所屬領域主題三者實體關系進行語義層次上的描述和關聯表示,復用已有本體和其他知識資源,構建單元信息知識庫本體。
單元信息知識庫的本體模型如圖2所示:
本體通常使用Web本體語言(OWL)來表示。OWL使用形式語義,并使用基于RDF/XML的模式表示。萬維網聯盟(W3C)支持OWL,是本體發布的標準[6]。因此,本體形式化產生機器可讀的文本文件;此外,語義以這樣的方式表示,也可以由計算機讀取。本文使用本體語言(OWL)組織單元信息。
依據上文所確定的本體范圍,確定從來源類、主題類、描述類、類型類這4個主要方面構建單元信息本體。然后對每一組概念自頂向下進行分層。單元信息本體中的來源類的屬性是標題,通過標題與元數據本體進行連接。主題類的屬性值是概念,通過概念與領域本體進行連接。
采用模塊化本體設計方法,重用已有本體或非本體知識資源構建領域本體(如圖3所示),例如構建養生領域本體時重用①標題表[7-10]和養生學辭典[11]構建養生領域本體框架及②《Mesh主題詞表》、《中國中醫藥學主題詞表》、《中醫藥語言系統》和《中文一體化醫學語言系統》用于豐富領域本體的概念和個體。養生領域本體的主要概念及關系如圖4所示。
元數據本體是基于都柏林核心元數據(Dublin Core)[12],Dublin Core主要包含15個核心元素:標題、主題、描述、來源、語言、關聯、覆蓋范圍、作者、出版者、貢獻者、權利、日期、資源類型、格式和標識符。本文用到的元數據元素主要是標題、主題、出版者、作者、日期、頁碼,其中描述圖書的元數據主要是書名、作者、出版社、出版時間、頁碼、主題;描述期刊的元數據主要是:題名、作者、期刊名、出版時間、卷(期)(可選元數據)、主題、頁碼;描述報紙的元數據主要是:題名、作者、報紙名稱、出版日期、版次(可選元數據)、主題。
3 單元信息知識庫數據建設
首先遴選不同類型的文獻資源,采集得到結構化的原始單元信息,然后對原始單元信息進行語義查重和映射,最終轉換為OWL/RDF數據導入單元信息本體知識庫系統,提供導航和檢索等知識服務。
單元信息知識庫數據建設流程如圖5所示。
3.1 單元信息采集
單元信息采集策略是:遴選圖書、期刊和報紙等不同類型的文獻,然后根據單元信息提取原則人工判讀單元信息。
單元信息本體知識庫的文獻來源主要有:來自權威出版社和核心期刊的文獻。文獻遴選策略有以下幾點:
1)遴選圖書:人工采集權威出版社的領域文獻,例如《中國高被引圖書年報》(2016版)養生領域(涵蓋從醫藥衛生一般性問題到藥學學科的各個出版社)的核心出版社:人民出版社、人民軍醫出版社、科學出版社、上海科學技術出版社等;
2)遴選期刊:人工采集核心期刊(例如中文核心期刊、CSSCI來源期刊等)發表的領域文獻,例如養生領域的中文核心期刊中的R-R9類期刊(例如中華醫學雜志、中華中醫藥雜志等)及CNKI收錄其他非學術期刊(例如科學養生、養生大世界、中華養生保健、現代養生等)。
為了保證從文獻中提取單元信息的準確性、實用性、客觀性、新穎性、完整性和系統性[13],采用人工方式從文獻中提取單元信息。單元信息主要分為概念型、方法型、數值型、事實型和陳述型。根據前面論述可知,各類型的單元信息的內容主要涉及定義、原理(理論)、步驟、方法、數值、事件事實、現象、觀點、結論、引用、綜述等方面。以上方面的選取原則具體如下:
1)定義:有特定的語法結構,如:×××是××××;所謂……;×××是……;也稱為×××。具有新穎性,闡述簡練和完整。
2)原理(理論):科學、明確地描述理論;具有創新性。
3)方法:對解決問題具有突破性改進;具有新穎性、獨創性及可操作性。
4)數值:有價值、重大意義和潛在意義;具有真實性(包括時間、對象及確切數值等)。
5)事實:具有真實性、準確性和代表性。
6)觀點:具有新穎性;論述準確、清晰、全面。
7)結論:簡潔高度概括;具有邏輯性和普遍指導意義。
為了將不同類型文獻的單元信息類和屬性準確映射到單元信息本體知識庫中的類和屬性,根據不同來源的單元信息的規范制定了不同來源的單元信息Excel表格模板,人工將采集的不同來源的單元信息最終存儲在Excel文件中。
3.2 單元信息查重和映射endprint
在數據處理過程中,首先將待錄入單元信息與知識庫中已有信息進行查重。對于重復單元信息(即重復單元信息本體中各個類的實例)在導入系統時進行合并處理,以保證知識庫中實例的唯一性和完整性。
單元信息查重后將待錄入單元信息與單元信息本體庫實現映射,每一條具體的單元信息都可以與單元信息本體庫中的類、屬性互相聯系。數據轉換時,根據單元信息本體進行不同分類處理,生成對應的實例和相關屬性的屬性值。例如:單元信息數據庫中的每一條具體的單元信息內容,都是單元信息本體中描述這個類的實例;單元信息的來源信息是單元信息本體中的來源這個類的實例,也是元數據本體中某個類的實例;單元信息的主題,既是單元信息本體中的主題這個類的實例,也是領域本體中某個概念的實例,或某個子類本身。單元信息知識庫數據頁面如圖6所示。
4 結 語
在當今大數據環境下,構建知識庫來管理單元信息資源,對單元信息知識進行有效的搜集、揭示、組織、存儲和利用,這是實現從海量數據中有效獲取有價值信息的需求所必須解決的一個問題。不同領域對單元信息需求側重點不同,因此構建特定領域的單元信息知識庫很有必要。本文詳細闡述了單元信息知識庫中的本體庫和數據庫構建,以“養生領域”為例實現了單元信息知識庫的構建,以期為不同領域的單元信息知識庫構建提供參考,希望在后續的研究中加以改進和完善。
參考文獻
[1]付苓.面向大數據的單元信息知識組織體系建設框架[J].情報理論與實踐,2016,(6):96-98.
[2]溫有奎,焦玉英.基于知識元的知識發現[M].西安:西安電子科技大學出版社,2010.
[3]廖開際,熊會會,葉東海.基于知識元理論的應急文檔結構化建模[J].計算機應用研究,2011,28(1):175-178.
[4]張靜,劉延申,衛金磊.論中小學多媒體知識元庫的建設[J].現代教育技術,2005,15(5):68-71.
[5]畢崇武,王忠義,宋紅文.基于知識元的數字圖書館多粒度集成知識服務研究[J].圖書情報工作,2017,61(4):115-122.
[6]McGuinness D L,Harmelen F V.OWL Web Ontology Language Overview,W3C Recommendation 10 February 2004[EB/OL].https://www.w3.org/TR/owl-features/,2017-05-11.
[7]劉占文.中醫養生學[M].北京:中國中醫藥出版社,2012.
[8]馬烈光.中醫養生學[M].北京:中國中醫藥出版社,2012.
[9]楊世忠.中醫養生學概論[M].北京:中醫古籍出版社,2009.
[10]張民生.現代養生學[M].西安:陜西科學技術出版社,2014.
[11]卡志強.養生學辭典[M].福州:福建人民出版社,1981.
[12]Dublin Core Metadata Element Set,Version 1.1[EB/OL].http://dublincore.org/documents/dces/,2017-05-11.
[13]倪曉建.基于新信息環境下的精粹信息鑒選研究[J].深圖通訊,2008,(2):6-9.
(本文責任編輯:馬 卓)endprint