□天津市教育招生考試院 史興鍵 王澤來
考試信息數據集元數據規范研究
□天津市教育招生考試院 史興鍵 王澤來
為實現對考試數據集的規范描述,本文在國內外相關研究的基礎上,建立了適合考試領域的元數據規范,該規范有核心元數據和參考元數據兩個部分,主要由7個元數據子集構成。其中核心元數據為18個實體或元數據元素,參考元數據為28個實體或元數據元素。該元數據規范的建立將會進一步促進考試數據資源的有效交流與使用。
元數據;數據集;考試信息
隨著信息化的發展,各種以考試數據為處理目標的信息系統不斷涌現,積累了總量可觀的考試業務數據。由于這些數據分別由相互孤立的應用系統產生和管理,其服務范圍常常局限在個別應用內部,使得不同應用數據庫之間存在著大量的重復數據,但由于不同應用系統之間缺乏統一的數據定義標準,導致這些應用數據的共享、利用效率較低。
近年來,隨著公眾對于考試數據資源需求的不斷增長,以往較為零碎的數據服務已經不能滿足實際的需求。將數據整合在一起,“數據集”這種數據組織方式得到了廣泛認可和應用。“數據集”又稱為資料集、數據集合或資料集合,是指一種數據集合方式,它通常以一定的主題被標識、應用。
考試類數據集在實際應用中,使用者必須提前了解關于數據的多方面信息,才能確定數據集的利用方式。因此,一套元數據規范的建立,對于數據集的建設和使用將是十分必要的。
用來對數據進行說明的數據就可以被稱為元數據,諸如字段、記錄、數據庫物理文件等都可以被作為說明的對象。本文在對招考數據庫集說明要求分析的基礎上,建立了適合考試領域信息數據集的元數據規范。該規范的建立促進了考試領域數據集描述的規范化和標準化,確保了考試數據資源的整合、發布、管理和應用的統一。
為了使數據用戶更加準確、清晰地了解數據集的概貌,本文元數據規范主要對數據集外部整體信息進行描述。考試信息數據集規范化描述主要包括:
標識信息:如各類考試數據集名稱、標識等;
內容信息:對各類考試數據集內容的描述;
質量信息:對各類考試數據集來源、質量等描述;
發布信息:對有關考試數據集發布及所能提供的數據服務等描述;
維護信息:對有關考試數據集更新及維護等描述;
限制信息:對各類考試數據集訪問及使用限制等描述。
以上即為考試信息數據集元數據規范的基本內容。
這里按照“子集”、“實體”和“元素”三個層次來組織元數據內容。
元數據中具有相近性質的集合被稱為“子集”。它還包含了性質相近的“元素”和“實體”等。
“實體”是指多個關系較為緊密的“信息集合”。如在實踐當中,“考試參與者”只是一個抽象的數據概念,將類似“姓名”、“性別”、“身份證號”、“聯系電話”、“通訊地址”等數據明確后,實際使用者才能夠真正表明其實際含義。這里的“考試的參與者”就是一個“實體”,而“實體”則可以進一步包含“元素”和下一層次的“實體”。
在規范中,描述數據的最小單位或最基本信息單元被稱為“元素”。例如,數據集名稱、負責單位和郵政編碼等。
為了滿足針對不同考試領域各類數據集的描述需求,同時兼顧數據中通性和個性的要求,元數據規范的內容框架將包含核心元數據和參考元數據兩個部分。
核心元數據提供對數據集的最基本描述,它包括對目標數據集的基本內容和標識的描述。
參考元數據就是所有全部元數據內容,即除核心元數據外通常我們還需要根據不同需求來使用參考元數據中的其他內容對考試數據集進行詳細描述。
在實際的元數據使用中,我們發現還必須使用引用信息和代碼表來進一步規范和簡化元數據的設計過程。
實際使用過程中對考試數據集的描述會重復使用某些數據項目,而這些信息數據集合則被稱為“引用信息”。例如,有兩個實體“考試組織方”和“考試承辦方”,對它們的描述中都包含“單位名稱”、“聯系人”、“聯系電話”、“通訊地址”、“郵政編碼”和“電子郵件地址”等一系列“子元素”。為了使用方便并節省存儲空間,我們定義了一種叫做“負責方”的數據類型,提供給“考試組織方”和“考試承辦方”這類“實體”進行引用。
元數據的“子集”、“實體”與“元素”的描述如表1所示。

表1 描述符
上表中的“約束”是指:當進行元數據編錄時,需要根據其內容屬于必須、可選或條件選編錄。“約束”還具有如下規則:可選的“子集”或“實體”可以包含必選的“實體”或“元素”,但這里的“實體”或“元素”只有當上一級可選“子集”或“實體”被選擇時才可以成為必選;如果上一級可選“子集”或“實體”未被選擇,則它們包含的必選“實體”或“元素”也不選擇。
下面我們將建立7個“子集”,圖1為即為主要內容框架。圖中帶箭頭的虛線表示對“引用信息”的使用,其中涉及到元數據標示、數據集標示、限制信息和維護信息等四個子集。

圖1 考試信息數據集元數據的七個子集
根據前面的研究,我們確定的核心元數據共有18個“元素”或“實體”。包含7個必選的“元素”或“實體”,11個可選的“元素”或“實體”,具體內容見表2。從表中我們可以看到,標識、內容及發布信息等均為核心元數據。而恰恰數據使用者關心這些數據集的基本描述內容。尤其是其中的必選“元素”和“實體”部分,數據使用者只要清楚這些內容,就完全可以確定數據集是否滿足需要。

表2 核心元數據及其位置
在上表的核心元數據中,包含3個“實體”,它們是關鍵詞說明、數據集分類及數據集發布格式,同時它們分別包含若干“元素”。
參考元數據就是所有子集包含“實體”與“元素”的全體,它也包括了核心元數據,即為所有元數據的全集,同時它也為核心元數據的參考和擴充提供有力的支持。
為使考試領域數據集的描述更標準化,提供元數據編錄依據,我們對考試信息數據集元數據規范進行了研究,通過該項研究可以使考試數據資源的描述、發布、管理與應用更加統一和規范。目前在研究的基礎上,我們借鑒相關研究成果[7-13]已經完成了對部分考試數據集的改造工作,使其能夠更加完善和規范。
[1]中國科學院計算機網絡信息中心科學數據庫中心.中國科學院科學數據庫核心元數據規范[DB/OL].http://support.csdh.cu/training2004/core_metadata_2.pdf/[2008-06-09].
[2]國家基礎地理信息系統(NFGIS)元數據標準草案(初稿)[EB/OL].http://nfgis.usdi.gov.cu/nfgis/chinese/bz/mt0.htm.
[3]閔友鋼,梁曉雯,蔣慧鈞.基于廣電行業版權管理的元數據標準探討[J].現代電視技術,2007(06).
[4]胡仁昱,朱建國.財會信息資源元數據標準的研究[J].會計研究,2008(07).
[5]閏偉,楊洪山,孫莉.政務信息資源描述元數據標準的制定研究[J].計算機與信息技術,2005(10).
[6]楊煒鴻,孫震宇,馮利.通用數據標準制定方法的研究[J].長春理工大學學報:自然科學版,2007(03).
[7]方南暉,潘云.企業級數據共享研究——數據標準的制定[J].計算機工程,2005(S1).
[8]黃富革,周曉芳.高校信息化數據標準的制定與實施[J].企業科技與發展,2009(02).
[9]高復先.信息資源規劃系列(四)數據標準與數據管理[J].中國教育網絡,2006(11).
[10]鄭西川,張建國.臨床信息系統數據標準及其應用[J].中國數字醫學,2007(01).
[11]呂軼凡.淺談高校數字化校園建設中信息化標準的制定[J].北京電子科技學院學報,2007(03).
[12]梁藝軍,陳子建.高校財務數據標準的建立[J].中國教育網絡,2007(09).
G433
項目名稱:國家教育部考試中心教育考試“十一五”規劃2009年度課題。項目號:2009JKS3025。