毛莉菊,李恒貝,彭其軍
(南京農業大學 圖書與信息中心信息應用部,江蘇 南京 210095)
基于本體的高校基礎數據組織研究
毛莉菊,李恒貝,彭其軍
(南京農業大學 圖書與信息中心信息應用部,江蘇 南京 210095)
本文引入本體論,圍繞人在學校中的活動進行本體構建,旨在探索一種系統的的挖掘、組織高校基礎數據的方法,并在本體構建的基礎上構建一個統一、規范的高校基礎數據元數據集和信息標準,確定數據表結構,為共享數據平臺構建提供支持。同時還通過本體構建,確立高校基礎數據的管理準則。
本體;基礎數據;數據組織;本體構建
隨著各高校信息化建設的進一步深入,信息化建設正從應用集成向信息集成邁進,這種信息集成是架構在信息資源網的基礎上的。而信息資源網的基礎即數據,可見如何有效地進行信息(數據)的組織、規范和管理是整個信息化建設的最基礎工作。
1.信息量大,類型復雜多樣
高校類似于一個小型社會,其管理及相關的實踐活動非常復雜,產生的信息類別及信息量也就可想而知了。
2.不同職能部門間數據的依存關系復雜
3.各職能部門間的數據相互獨立
在部門內部可能存在統一的數據管理基礎標準,但在部門間卻是不統一的。
4.基礎數據源不明確
即來自不同部門或不同系統的數據誰是權威數據不明確。
如何有效地對高校海量的不標準的數據進行系統地組織、規范,實現數據的共享與互操作是目前高校信息化建設面臨的難點之一。有些學校簡單地從某個職能部門或業務系統入手采集、組織相關信息,沒有從整個學校全局考慮,造成最后構建的數據基礎標準不統一,如元數據標準、信息標準不統一。清華大學從劃分職能域、建立業務模型入手,利用元數據方案進行數據標準制定其研究重點在于數據標準的制定。[1-3]本文嘗試引入本體理論,利用本體構建方法來挖掘、梳理和組織高校基礎數據,構建一個統一、規范的高校基礎數據元數據集,制定統一信息標準,并為共享數據平臺構建提供支持。
1.本體的概念
本體的概念最早出現在哲學領域,從哲學的范疇來說,本體是客觀存在的一個系統的解釋或說明,關心的是客觀現實的抽象本質[4],在計算機與信息科學領域,理論上,本體是指一種“形式化的,對于共享概念體系的明確而又詳細的說明”[5]。或者說本體是特定領域中那些存在著的對象類型或概念及其屬性和相互關系[5]。常見的本體構成要素包括:
實例(instances):代表元素,就是對象;
類(classes)或概念(concepts):對象的集合;
關系(relations):在領域中概念之間的交互作用,如子類關系;
函數(functions):特殊的關系,關系的前 n-1個元素可以唯一決定第n個元素。如Mother-of就是一個函數,mother-of(x,y)表示y是x的母親;
公理(axioms):表示永真斷言,如概念乙屬于概念甲的范圍;
事件(action):屬性或關系的變化。
2.基于本體的信息組織方法
當前基于本體的信息組織主要有三種方式:單本體方法、多本體方法和混合本體方法。在單本體結構中,一個全局的本體為具體的語義說明提供了一個共享的詞匯表,所有的信息資源都聯系到這個全局本體上。而在多本體結構中,每個信息資源都有自己的本地本體,它們并不一定使用同樣的詞匯表,且每個本體都可獨立發展。混合本體則是建立一個共享詞匯表,而每個信息源則用本地本體描述,其優點是新的信息源可很方便地加入到源本體。[5]
大學的根本是人,從大學的各項活動(主要是教學、科研和社會服務)來看,都是圍繞人(學生、教師)而進行的,清華大學蔣東興老師也提出新一代數字校園特征之一就是以用戶為核心組織信息與服務。[6]所以在數據的組織上,先根據人員屬性對人員進行分類,再對不同類型人員信息進行本體構建。由于高校數據源呈現多種多樣的環境,本文采用混合本體結構來探究和構建高校基礎數據。本體構建流程如圖1所示。

1.領域本體構建
領域本體所建模的是某個特定領域,或者現實世界的一部分。它提供特定領域的概念定義、概念之間的關系、領域活動等。由于不同類型的人在同一活動中所扮演的角色是不同的,比如在教學活動中,教師與學生一個教一個學,兩者所關注的信息對象是不同的,所以可分別按不同類型人員在學校的生命周期線上的各種活動來構建領域本體。如圖2所示即是以教師為例所構建的領域本體。
2.原型本體構建
原型本體描述的是某一概念 (類)及其屬性以及關系、約束條件等。如圖3所示為科研項目原型本體。
3.本體整合與全校域本體綜合分析

依據圖1的本體構建流程,本體整合分原型本體與上層領域本體的整合及原型本體間的整合。通過本體對各項業務和全校域本體的綜合分析,梳理各原型本體間的相互關系,對原先構建的一些本體進行整合。如通過對教師類本體的整合,發現:(1)職稱評聘這一本體域與教師的教學、科研域等密切相關,即對教學、科研域的數據有依存關系。(2)科研項目本體與科研成果本體有關聯,科研成果數據依存于科研項目,所以在各科研成果原型本體構建中要增加與項目相關的屬性。如在論文原型本體構建中,增加“資助項目”這一屬性。同時,通過對學校各項業務和全校域本體的綜合分析,梳理各業務流間的關系,明確基礎數據的源頭,并制定基礎數據管理的準則,即“誰產生誰負責,誰需要誰提出”。比如教師的科研項目數據,是由學校的科研管理部門對教師提供的數據進行審核后產生的,那么這一基礎數據的元數據和信息標準(數據字典)由科研部門負責制定,整個基礎數據的準確性也由科研部門負責。而人事部門在開展教師職稱評審業務時,需要科研信息中哪些基礎數據和這些基礎數據中的哪些元數據,則應由人事部門具體負責提出。
構建本體的目的是通過本體構建挖掘、組織高校基礎數據,構建系統規范的元數據集,制定統一信息標準,并最終通過關系數據庫的構建進行數據集成,消除數據的異構性,實現數據共享。通過各原型本體的構建,可以系統地對高校基礎數據中的元數據進行規范編碼、明確各元數據的定義、約束條件、值范圍等,并制定信息標準。表1為以科研項目本體中的屬性為例構建的“項目類別”元數據。

表1 項目類別元數據
“項目類別代碼”即項目類別的標準。標準的制定要遵循國家、教育部已有的、高校較為通用的標準,對于個別元數據值空間不好規范的,制定出校級參考代碼,即校級標準。而原型本體與關系數據庫的轉換策略可以如下:
(1)原型本體里定義的一個類(概念)對應一個數據表。
(2)原型本體里定義的類的屬性即為數據表中的字段。類的屬性里,有objecttype類型,有datatype類型,對于objecttype類型的屬性,須規定其domain和range值來指定與其有關聯的表。
如以圖3的科研項目原型本體可構建四個數據表:科研項目、項目負責人、項目參加人、項目經費。如表2和表3分別為科研項目和項目參加人數據表。

表2 科研項目數據表

表3 項目參加人員數據表
其中在表2中,objecttype類型屬性字段有:項目負責人和項目參加人,其對應domain是“人事基本信息”,其需要的range為:姓名、工號、所在單位、聯系電話、聯系郵箱。而datatype類型中的“項目大類”、“項目類別”、“項目來源”的值空間是需統一規范的,即制定信息標準。通過全校域綜合分析,可以對同類原型本體在構建數據表時進行歸類整合。如研究生也參加了導師項目研究工作,其科研項目原型本體與教師的科研項目原型本體是相類同的,可構建同一個科研項目數據表,然后在項目參加人員數據表中增加“人員類別”字段來區分項目參加人員的身份即可。
本文引入本體理論,運用本體構建方法對高校基礎數據進行系統地梳理和組織,構建了一個統一的、規范高校基礎數據的元數據集和信息標準,為共享數據平臺構建提供了支持。
[1]王映雪,蔣東興,羅念龍等.信息資源規劃的方法與實踐[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:65-71.
[2]蔣東興,佟秋利,蔣磊宏等.高等學校管理信息標準體系研究[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:82-88.
[3]高校信息標準呼之欲出-《Celts-33高等學校管理信息標準》全接觸[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:76-81.
[4]王淼洋.東西方哲學比較研究[M].上海:上海教育出版社,1994:97-104.
[5]維基百科[EO/OL.[2011-7-20]http://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6).
[6]蔣東興,金勤獻,管志遠等.大學資源計劃管理思想探討[A].奮斗的歷程,豐碩的成果(三).計算機與信息管理中心成立三十五周年論文集[C].北京:清華大學計算機與信息管理中心,2011:21-28.
G203
A
1673-8454(2012)05-0015-03
(編輯:楊馥紅)