作者簡介:謝劍敏(1986-),女,助理館員,碩士研究生。研究方向:信息資源管理與利用,發表論文4篇。·信息咨詢與服務·
〔摘要〕語義綁定服務(SBS)是一個管理語義綁定集合的穩定服務,這種綁定代表了數據與元數據、元數據與知識實體之間的關聯。了解語義綁定服務的功能及其實現形式將有助于更好地進行元數據管理、開展信息組織工作。
〔關鍵詞〕元數據;元數據管理;語義綁定
DOI:10.3969/j.issn.1008-0821.2014.04.017
〔中圖分類號〕TP31113〔文獻標識碼〕A〔文章編號〕1008-0821(2014)04-0078-04
Semantic Binding Service Metadata Management Function and its Realization FormXie Jianmin
(Library,Guangdong University of Finance,Guangzhou 510521,China)
〔Abstract〕Semantic binding service(SBS)is a management service semantic binding set,this binding represents the association between data and metadata,metadata and knowledge entities.To understand the semantic binding service function and its realization form,will help us to better development of metadata management,information organization.
〔Keywords〕metadata;metadata management;semantic binding
在一個重要的應用領域中,數據及服務提供者都日漸將他們的資源提供給社會群體以作復雜工作流程中的公共性二次使用。然而,為了讓那些資源在實際應用中能發揮實際效用,供應商也必須提供能描述數據和服務特性及功能的詮釋,這就是電子科學時代的例子。詮釋的目的是使用基于計算機信息庫及計算分析工具來驗證假設進行總結、搜索模式或者說明一個已經廣為人知的事實。在電子科學領域中,一個很常見的現象就是供應商和消費者分別對資源添加注釋來使他們的發現更加簡便或可用來記錄,即將它們看作一個實驗中的使用細節。因此,當按比例放大至成千上萬的資源及這些資源的使用者時,注釋本身就會形成一個新的、龐大的、由分布在很多組織中的異類數據構成的匯編,沒有一個中心來控制它們的維護。新的信息環境下,知識性的應用對元數據管理提出了新挑戰,包括分配、權限控制、訪問的統一格式及適時的升級。作為一種復雜的數據資源類型,元數據需要一些形式的管理來發揮它的實際作用。語義綁定服務可以說是一種有效的元數據管理方法。
1語義綁定與語義綁定服務的概念
11元數據的語義結構
元數據的語義結構是元數據系統的一個層面,對元數據元素進行定義。它定義元數據元素以及描述其內容。它可以描述內容形成的標準,內容的表現標準和可允許的內容含量值。所以元數據的語義結構包含兩層意思:定義層和標準層。定義層指的是對元數據元素的一套定義,賦予其基本的語義特征和使其與其他元素進行區分。因此定義層需滿足兩個主要功能性要求:描述和區分。標準層指的是元數據元素的一套模式,它包括支配元數據元素分配含量值的原則,條件和指導準則。這些標準定義了信息的來源,內容的形成,表現以及范圍。所以標準層包含了3種任務規則:形成規則,表現規則,可允許規則。一些元數據模式是采用獨立的標準,無須遵循特定的標準,但有些要依據一定標準來選取,例如MARC記錄所依據的AACRII。
總的來說,元數據模式的定義需用自然語言來表達。為了更好閱讀和理解定義和解釋元數據的元素需用人類可理解的語言來操作。但是,元數據是基于機讀的數據,所以這些定義的語義不僅可以為人類而且也能被機器所識別。因此元數據模式的定義需涵蓋兩個語義層:暗示層,利于人類理解;正規層,可供機器識別。標準層通常通過命名空間制度來定義,這些制度決定和維持了標準的存在。命名空間通過URI進行定義,是一種可以解決命名沖突的機制。元數據元素的語義層是通過命名空間來體現它的標準層[1]。
12現行的元數據管理技術與方法
元數據的概念并不新鮮,其在數據倉庫環境中的作用和重要性是不言而喻的。元數據是數據倉庫中的一個重要組成部分,元數據管理系統則是構建、管理、維護和使用數據倉庫系統的核心部件。如果一個數據倉庫中沒有元數據,那么用戶就不知道如何進行分析[2]。在資源描述框架架構數據方面,存儲和查詢技術的發展支配著元數據在管理中的地位。Jena與Sesame是兩個最出名并被廣泛使用的例子:這些系統由傳統的相關數據存儲能力支撐,這一能力是指能提供豐富的、細粒狀的APIS用來操作和訪問RDF數據,同時能用不同的語言對它進行查詢,包括W3CS、Sparql。甲骨文10gRDF是近期新增的,它支持龐大的數據集并擁有與查詢語言強度有關的深層查詢能力,而這一語言與本地查詢有關。除了基本功能外,RDF在語境化、分配、可擴展性等領域的增強也受到了廣泛關注。元數據操作在文件操作系統中所占的比例高達50%以上,高效的元數據管理大致可分為基于子樹和基于Hash2類。由于位于同一目錄中的文件具有較大的訪問相關性,因此,一般認為基于子樹的劃分機制具有較高的性能。傳統的元數據分布管理大多采用靜態子樹管理機制,該機制性能較好,但缺乏動態的調整策略。而文件系統訪問模式具有動態性,也容易引發元數據集群負載不平衡,從而影響元數據集群的整體吞吐率[3]。因此,元數據管理方法對提升大規模存儲系統的性能至關重要。當前存在一些維持明晰元數據與它所描述資源之間關聯的模型。然而,它們依賴于特設機制,在html或xhtml文件中包含元數據最常見的一種方法就是在文件中將元素應用于任何地方。這一元素可以用屬性值對文件特性進行描述。雖然能使用其他用戶定義的特性,但規范的特性包括作者、過期時間、關鍵詞列表等等。這也廣泛應用于語義網中,例如知識獲取團體及簡單的html實體擴展。Xhtml20倡導一種二中擇一的方式去連接實體和對它們的描述,那么元數據就不會與文件內容相混淆,它會被包含于一個獨立的文件或文件本身隔開的部分中。包含元數據的文件可以通過使用前端的連接元素而附屬于html文件。這一特性允許對文件內外的資源進行參照[4]。
13語義綁定
“語義綁定”(Semantic Binding),也稱為“語義約束”、“語義連接”,從句子結構的角度,它旨在分析出文本中某個部分對另一部分的約束作用信息。語義綁定多種多樣,從語義的角度分類,有動作的方式約束、整體局部約束、時間關系約束、因果關系約束等。每一種語義關系綁定都有若干不同的文本表達方法,一些工作旨在通過大規模文檔分析,找出具有一定代表性的表達方法,即通常所說的模板;然后以此去匹配判定新的文本,這種模板通常帶有各種特征,或是詞性的約束,或是有必然出現的信號詞,或是有特殊的語法結構。但是可以令人信服的大規模文檔的收集不是一件容易的事情[5]。語義網代表著互聯網的發展方向。雖然計算機科學與信息技術發展迅速,但是從目前的互聯網向語義網的轉變卻是一個漫長的過程。在當前對語義技術的應用狀況下,并非語義越多、表達越豐富就越好,知識表達語言的深度和廣度是由用戶對自動化的需求決定的,即用戶對自動化的需求要與語義技術的發展狀況相匹配。
endprint
14語義綁定服務
英國曼徹斯特大學的信息組織專家Paolo Missier及其合作者在一篇有關元數據管理需求的論文中提出了一個中間件來用于元數據管理。這個中間件的設計是基于這樣一種實體:即忽略它們在格式上與內容上的差異,對所有的元數據來說,有兩種簡單的特性是相同的。在定義上,它們始終和一些基礎資源有關聯并且在解釋元數據時有一些單獨的數據信息是可供選擇的。例如,可以用注釋。把這樣的數據信息作為實體來參考,目的就是強調這樣一個事實:它是用來解釋元數據的。這就是一個語義網典型而并非特有的設置。按這種定義,一個相關的架構或XML數據同樣也是一個知識實體。把資源與元數據注釋之間的聯系稱為語義綁定,把管理服務稱為語義綁定服務(Semantic Binding Service)。語義綁定服務的目標是為元數據資源的管理提供一個統一的原始集,也就是說,其在生命周期內都在創造、訪問、追蹤及摧毀那些資源。然而,很顯著的一點是它無法在異質元數據中提供互通性,這在其自己的權限中也是個難題。因為不同的RDF詮釋會涉及不同的實體,因而使得第三方應用在整合它們時會變得比較困難。一般而言,SBS會提供一種統一的方法來維持資源、數據和知識實體間的正確聯系,無論它們何時改變,元數據元素中格式和內容的差異都會被忽略。
2語義綁定服務的實現方式
21多重語義綁定
圖1反映的是一個簡易科學工作流程的多重語義綁定。工作流程提供者和使用者也許會為相同的工作流程提供多重解釋,而這些工作流程服務于不同目的且可能會采納不同的注釋類型和格式。圖表中的KEGG是京都基因與基因組百科全書,它是基因組破譯方面的數據庫。Abbr最初是在HTML40中引入的,表示它所含的文本是一個更長的單詞或短語。Ids是英文“Intrusion Detection Systems”的縮寫,中文意思是“入侵檢測系統”。Sawsdl則是基于Web服務語義標注語言。該圖表由3部分構成,左列說明的是工作流程的輸入至輸出,當中會涉及訪問途徑與圖片獲取并且應將KEGG基本地址納入其中。右列是當前存在的參考本體,而中間列則是元數據內容的語義綁定。3部分結合要說明的是:一個工作流程中,不同的工作人員對同一概念會做出不同的注釋,而網絡對此概念又有新的解釋,因此需要對這些不同的注釋進行語義綁定,指定參考本體,使各工作單位更好地相互理解。Sawsdl為wsdl和XMLSchema提供了一種增加語義注釋的機制,使得wsdl和XMLSchema中的組件可以與外部的語義概念模型聯系起來,它大大簡化了為Web服務增加語義信息的工作,有利于推動語義Web服務的發展[2]。圖1多重語義綁定
22語義綁定的狀態轉換
元數據自出現之日起就是動態的:一個文件的注釋經常會更新或接替其它的注釋。然而,雖然一些有關語義繁殖數據的升級至相關元數據的工作已經完成了,但現行的技術還是難以支持元數據的動態性。成功的元數據管理在它變得無效時就應該被察覺,并告知用戶狀態的轉變。這些工作要完全實現自動化是不太可能的,因此需要進行人工管理。
筆者把圖2中作為整個關聯一部分的數據與只是數據資源分別稱為Ressb與KEsb,語義綁定是有效狀態中的產物,這個圖闡明了引起數據資源、知識資源及元數據內容變化的事件,其常常會引出一個新的有效的語義綁定。兩個臨時生效狀態的語義綁定會要求當中一個產生生效過程,它會更新一部分或所有的Ressb、KEsb或costentsb,從而引起從有效狀態到無效狀態的轉變。對于一個生效的Ressb,這樣的過程會決定新資源的現存元數據是否仍然有效并且會提供一個從語義綁定參考至Ressb的更新。例如,用元數據來對工作流程中的變化進行注釋,這一過程會決定相同的元數據能否與新的工作流程相連。對于一個生效的KEsb而言,問題就在于要決定能否用新的本體論去解釋舊的元數據。評價本體論演變對現有知識基礎的影響問題已經在很多地方被提了出來。存檔狀態為不再有效的老化語義綁定提供了一種保留方式,這個狀態只能被使用于某些描述機制的工作所支撐。當中一個已存檔的語義綁定會變回活躍狀態。可以通過引入子系統來擴展這個基礎模型,產生的結果就能對元數據的作用做出合理的定義。圖2通用的語義綁定狀態連接圖
23語義綁定服務模型
SBS與OGSA—DAIS模型類似。關于后者,OGSA數據權限及整合方案是由open Grid論壇的DAIS工作組管理的,他們提出了一個類似的但是限制更大的方法。當中只有一個定義了文摘操作或一個Grid計算環境中數據資源標準化使用的單一界面,而忽視架構或數據模型。這個標準包括對數據提供具體的、明確模型訪問的幾種關系,如對相關數據訪問的OGSA—DAIR。它對異質數據資源提供了統一的途徑。當數據模型和內容不可知時,它能在服務范圍內封裝請求。SBS附帶提供了具體的元數據管理原函數。現有的元數據知識庫、文件管理服務器、RDF倉庫管理器或文件系統,在數據作用未知的情況下提供了低等級的數據管理。SBS通過提供統一的元數據管理層來利用這個功能。這個管理層能感知到資源、注釋、注釋生命周期及參考知識實體之間的關系。SBS對于應用而言是有利的,存儲和訪問元數據實現了雙重作用:它把語義綁定看作一個簡單的、統一的模型而去維系資源和注釋之間的固定關系,為管理提供一個單一的服務界面,在Grid計算環境下可以以分配的方式進行調配。
3語義綁定服務的功能
31語義綁定服務的功能圖3SBS的功能
圖3展示的是語義綁定服務的功能,右邊部分是一個語義綁定組,由語義綁定工廠來進行多重語義綁定的制造,這些SB與元數據查詢都同資源描述框架(RDF)有關。而左邊的用戶組則通過遠程門戶網站網絡服務、網絡服務資源生命周期、參考內容更新等方式與SB組發生關系。SBS對一個語義綁定的元數據相關應用而言是
一個單一的聯系點,對SBS及其相關元數據內容的檢索而言亦是如此。圖3所闡述的SBS的功能包括創造與摧毀SBS及與元數據生命周期有關的維持它們的邏輯狀況。當中,WSRP規范定義了訪問及查詢資源動態狀況信息的協議。WSRL規范定義了網絡服務資源銷毀的最基本界面。SBS也對元數據內容提供基于服務的訪問。通過推進詳細應用的查詢,作為服務尋求的指定部分至不加以解釋的元數據倉庫。當前已有數據管理領域的專家提出增加一種簡單的反饋擴展至SBS界面中來讓用戶發現具體元數據的相關信息,例如存儲語言及框架,將SBs與SBS相結合能使元數據進行無縫分配且會提供一個常見的訪問界面,它提供對元數據的大范圍訪問而忽略各獨立后臺元數據知識庫的限制。SBS在執行時會被看作一個狀態穩定的S—OGSA服務,它與網絡服務框架標準有關,并已在GT4平臺上開展。
4結語
隨著語義萬維網(有人稱之為Web30)的發展,元數據在網絡資源語義化快速發展的浪潮中扮演著越來越重要的角色。作為數字資源揭示和利用的一項重要技術,元數據正向實現機器自動處理的方向發展,而語義綁定服務是一種有效的元數據管理方法,如何更好地運用語義綁定服務,使機器能夠理解資源信息所代表的語義,并能通過語義分析來進行知識的推理分析,也是網絡信息組織研究的一個熱點。本文從元數據的語義和語義綁定的概念入手,說明語義綁定服務在元數據管理上的有效性,并提出了基于元數據的網絡搜索語義表達,希望能夠進一步提高用戶對數據的查詢和檢索,滿足用戶對海量數據資源的快速獲取和定位需求,從而更好地進行元數據管理、開展信息組織工作。
參考文獻
[1]rainzen.元數據,語義,元數據語義[EB/OL].http:∥rainzen.bokee.com/5333224.html,2013-10-01.
[2]王東龍,陳建,李茂青.數據倉庫中元數據管理技術[J].武漢理工大學學報,2005,(1):26-30.
[3]穆飛,薛巍,等.基于定位目錄的元數據管理方法[J].清華大學學報:自然科學版,2009,(8):35-39.
[4]Paoio Missier,Pinar Alper,Oscar Corcho,Lan Dunlop,Carole Goble.Requirements and Services for Metadata Management.Semantic Knowledge Management[EB].http:∥www.cs.man.ac.uk/~pmissier/docs/w5mis.pdf,2011-06-28.
[5]李歡.依存關系樹在文本多語義約束檢測中的運用[J].小型微型計算機系統,2010,(6):12-16.
(本文責任編輯:馬卓)
endprint