999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無結構化數據集成方法在數字圖書館中的應用

2009-04-29 00:00:00王志麗
現代情報 2009年3期

〔摘 要〕針對數字圖書館中的圖像、視頻、音頻等無結構化數據的集成問題,提出了語義對象模型的概念,實現無結構化數據的統一全局對象表示。在此基礎上,提出了一種以XML數據模型為基礎的無結構化數據集成方法。

〔關鍵詞〕數據集成;元數據;數字圖書館

〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0087-03

隨著Internet的發展和普及,信息資源已經實現了全球范圍內的共享,信息的存儲和檢索方式也發生了巨大的變化,傳統圖書館的工作方式已經不能滿足人們的要求,數字圖書館作為一種新的信息資源管理模式正在蓬勃發展。數字圖書館是一個通過互聯網連接在一起的分布式數據信息庫,它將全球網絡上所有信息資源集成起來,形成一個大型的分布式共享信息庫,利用先進的信息技術,將包括印本、電子出版物、多媒體數據等各種類型的信息資源集成起來,構建一個在網絡環境下支持普遍存取、分布式管理和集成信息服務的信息環境,為用戶提供簡單、快捷的個性化信息服務[1]。

數字圖書館的實現需要分布式數據庫技術、數據挖掘技術、智能搜索引擎技術、機器翻譯技術等多種技術的支持,然而,這些關鍵技術能夠順利實現的基礎是解決數據的統一表現方式問題。數字圖書館的數據是由散布在因特網上的大量數據組成,包括文本等結構化數據,半結構化的網頁數據,及音頻、視頻等非結構化數據。只有將這些數據集成起來,向用戶提供一個統一的視圖,數據挖掘、搜索引擎等工具才能有效地進行工作[2]。目前對結構化和半結構化數據集成的研究采用中間件技術和基于XML的數據模型和模式定義語言、查詢語言實現,已經獲得一定的進展,而對于系統中存在大量的圖形、圖像、音頻、視頻等無結構化數據,這些數據沒有統一的模式描述,很難進行數據集成[3]。因此對無結構化異構數據源集成技術的研究具有重大的現實意義和緊迫性。

1 無結構化數據表示

1.1 元數據表示

數字圖書館中數據的特征是由元數據來表示的,元數據是關于數據的數據[4],它說明了其它數據的特征和屬性信息,如數據結構、數據索引,數據的域等。根據元數據對數據的描述層次不同,元數據分為模式級元數據(對數據的結構、類型、一致性約束等進行定義)與語義級元數據(對數據的語義概念,如書目信息中的作者、出版日期等進行描述)兩類。

對于數字圖書館中的無結構化數據,可以使用元數據描述基于主題概念的相關信息,如對一個圖片內容的介紹,這些元數據可認為是語義級元數據。元數據對圖片、視頻、音頻等無結構化數據資源的查詢與獲取非常重要。在某些情況下,可能需要基于無結構化數據的內容結構進行查詢[5],如根據圖片的像素點的特征向量進行匹配查詢,這些特征向量是模式級元數據。然而一般情況下,用戶需要根據數據的分類等語義級元數據描述信息進行查詢,如根據電影名、電影類型,電影導演、男女主角,電影簡介等查找電影的視頻數據,因此,語義級元數據給無結構化數據賦予了更多關于內容的描述信息。

通過使用元數據,可以對無結構化數據進行查詢等相關操作,由于無結構化數據內容的查詢是近似查詢,語義信息對提高查詢無結構化數據的精確性是非常重要的,并且語義信息對實現無結構化數據的集成也是必需的,因此需要對無結構化數據的語義信息進行精確定義。

1.2 無結構化數據的語義對象表示

結構化數據可以存放在關系型數據庫和面向對象數據庫中,這些數據源具有嚴格的數據模型和外在的模式定義,模式是指數據源中的數據類型和邏輯組織形式等信息,比如在關系型數據庫中一個表的定義就是一個模式,它描述了這個表中的屬性名、屬性的排列順序、屬性的域、主鍵和外鍵等信息,結構化數據集成中主要考慮如何根據數據源模式建立一個全局的模式,這個全局模式定義了系統中的數據內容和數據的邏輯組織形式,用戶的查詢語句針對全局模式生成,這種集成方式也稱為模式集成。

無結構化的數據源只有一些描述性的語義信息,沒有外在的模式定義,因此很難采用上述方法對數據本身進行結構化轉換。本文利用面向對象的思想,將無結構化數據源中的每個數據看作一個對象數據,例如一部電影看作一個電影對象數據,對象數據及其相關語義元數據看作一個整體,即一個語義對象。這樣無結構化數據源抽象為語義對象的集合。

定義1:語義對象SO(Semantic Object)是一個三元組:

SO∷=<ID,S,O>

其中,ID是對象的標識;S是SO的語義信息的集合,即語義級元數據;O是SO的對象數據的集合,比如一部電影可能有多個MPEG文件,共同組成了O。S中有O的URI(Uniform Resources Identifier),指明了O的存儲位置。這樣,不同類型的無結構化數據都可用統一的語義對象來表示,有助于數據集成的進行。

1.3 基于XML的全局語義對象表示

數據源中數據的語義對象稱為局部語義對象,比如一部電影的MPEG文件、它的Marc信息分別看作是語義對象的O與S。由于數據源的元數據的數據模型多種多樣,內容大小也相差很大,因此在數據源之上,需要建立中間層,中間層提供給用戶的是一種統一的語義對象形式,稱為全局語義對象,用戶的查詢針對全局語義對象進行操作。由于對象的語義信息變化較大,并考慮到數據的交換標準一致性,文章采用XML作為語義信息的存儲模型,XML層次結構既能滿足表達語義信息的復雜性,又符合國際通用的交換標準,能夠很好地實現數字圖書館的互操作。

對于數據源中不同的元數據形式,系統應實現不同的轉換程序,從數據源的元數據信息抽取有用的數據項轉換為全局語義對象中的語義信息S,存放在語義信息庫中。

全局語義信息的部分DTD為:

<!ELEMENT DCMeta(Identifier,Title+,Publisher+,Contributor+,…)>

<!ELEMENT Identifier(#PCDATA)>

<!ATTLIST Identifier Qualifier CDATA #REQUIRED>

<!ELEMENT Title(#PCDATA)>

<!ATTLIST Title Qualifier CDATA #REQUIRED>

<!ELEMENT Publisher(#PCDATA)>

<!ATTLIST Publisher Qualifier CDATA #REQUIRED>

<!ELEMENT Contributor(#PCDATA)>

<!ATTLIST Contributor Qualifier CDATA #required>…

2 一種數據集成方案

通過將無結構化數據表示為語義對象,根據統一的標準將不同數據源中的語義對象轉換為全局數據對象,系統可以對無結構化數據進行統一的存儲和查詢操作,實現了無結構化數據的集成。本文提出了一種無結構化數據的集成方法,系統的體系結構圖如圖1。

主要模塊介紹如下:

2.1 用戶界面

系統提供給用戶統一的查詢界面,可以通過語義進行模糊查詢,例如,用戶希望查詢題名包含“菜譜”的所有資源,系統將把所有數據源中題名包含“菜譜”的對象以列表項的形式返回給用戶,每一項中有該對象的元數據信息、對象數據的超鏈接。用戶點擊超鏈接后,將顯示對象數據,比如點擊MPEG文件的超鏈接后,將播放這個MPEG文件。

2.2 請求處理

請求處理模塊根據請求查詢元數據庫,主要對庫中基于XML的語義信息進行匹配查詢,根據符合匹配請求的XML項得到相應的對象數據的URI,根據URI分別對內容管理器、電子圖書庫、電子報刊庫等數據源執行查詢,把查詢結果返回給用戶界面。

2.3 元數據庫

在元數據庫中存儲全局語義對象的URI和基于文本的XML語義信息,以及XML的索引表。

2.4 元數據轉換

該模塊將局部對象的URI和語義信息分別轉換為全局的URI和基于XML的語義信息,并存儲在元數據庫中。

2.5 內容管理器

內容管理器是無結構化數據資源存儲管理系統,能夠對無結構化數據進行有效的存儲和管理。它以統一的格式存儲各種形式的無結構化數據,如圖片、流媒體等。內容管理器中擁有數據對象的目錄信息。通過這些目錄信息,內容管理器可以根據用戶的請求,使用一系列搜索技術來定位存儲對象。

2.6 導入系統

導入系統將電影、音樂、博士論文等數據導入到內容管理器中,在導入的同時,把內容管理器分配給數據的惟一標識作為全局對象的URI的一部分傳送給元數據轉換模塊。

系統根據語義對象的概念對無結構化數據實現了語義級集成,局部語義對象的元數據被轉為全局對象的元數據存儲在元數據庫,查詢就不必再分解成針對局部對象的元數據的子查詢,提高了系統的查詢效率。

3 結 論

本文討論了實現數字圖書館需要首先解決的數據集成技術,分析了無結構化數據集成系統面臨的問題,提出了語義對象的概念,描述了基于語義對象進行無結構化數據集成的思想。由于無結構化數據沒有外在的模式定義,不能或很難從對象數據中提取出模式,傳統的模式集成方式不適用于無結構化數據的集成。基于語義對象的集成較好地解決了這個問題。最后提出了一種無結構化數據的集成方案,實現了基于全局語義對象的無結構化數據的集成。

參考文獻

[1]Y.Papakonstantinou,Pavel Velikhov.Enhancing Semistructured Data Mediators with Document Type Definitions.ICDE,Sydney,Australia,1999.

[2]王志麗,樊玉敬.XML在數字圖書館中的應用研究[J].情報科學,2002,20(12):1305-1307.

[3]孟小峰.Web數據管理研究綜述[J].計算機研究與發展,2001,38(4):385-395.

[4]V.Kashyap,A.Sheth.Semantic Heterogeneity in Global Information Systems:the Role of Metadata,Context and Ontologies.Cooperative Information Systems:Current Trends and Directions.M.Papazoglou,G.Schlageter (editors).Academic-Press,Springer-Verlag,1997:139-178.

[5]Kjersti Aas,Line Eikvil.A survey on:Content-based Access to Image and Video Databases.Report 915,Norwegian Computing Center,March 1997,Available at http:∥www.nr.no/home/kjersti/video.html

主站蜘蛛池模板: 国产亚洲男人的天堂在线观看| 蜜桃视频一区二区| 中文字幕乱码二三区免费| 亚洲国产成熟视频在线多多| 亚洲丝袜第一页| 久久伊人操| 国产成+人+综合+亚洲欧美| 国产h视频在线观看视频| 国产毛片基地| 青青草国产在线视频| 中文字幕在线一区二区在线| 亚洲中文字幕在线观看| 中文字幕免费播放| 91黄色在线观看| 亚洲品质国产精品无码| 成人亚洲视频| 在线国产综合一区二区三区| AV老司机AV天堂| 国产成人精品综合| jizz国产视频| 久久精品这里只有精99品| 五月天福利视频| 内射人妻无套中出无码| 色婷婷色丁香| 91外围女在线观看| 国产精品久线在线观看| 激情无码字幕综合| 国产福利在线免费观看| 91小视频版在线观看www| 久久人人妻人人爽人人卡片av| 在线看免费无码av天堂的| 国产熟睡乱子伦视频网站| 久久国产黑丝袜视频| www亚洲精品| 乱码国产乱码精品精在线播放| 国产精品成人不卡在线观看| 麻豆国产原创视频在线播放| 91av国产在线| 亚洲欧美成人在线视频| 福利视频一区| 国产精品区视频中文字幕 | 黄色三级网站免费| 真实国产乱子伦高清| 91伊人国产| 97se亚洲综合不卡| 国产精品理论片| 粉嫩国产白浆在线观看| 久久一日本道色综合久久| 国内老司机精品视频在线播出| 69免费在线视频| 人人妻人人澡人人爽欧美一区| 亚洲精品不卡午夜精品| 国产日韩欧美成人| 香蕉色综合| 99国产精品国产| 亚洲成在线观看| 久99久热只有精品国产15| 亚洲动漫h| 午夜毛片免费看| 中文无码伦av中文字幕| 狠狠色狠狠色综合久久第一次| 夜夜拍夜夜爽| 这里只有精品国产| 九色国产在线| 日韩天堂在线观看| 天天操天天噜| 九月婷婷亚洲综合在线| 国产午夜无码专区喷水| 夜色爽爽影院18禁妓女影院| 亚洲欧美另类日本| 国产精品久久久久久久久| 热99精品视频| 少妇露出福利视频| 性欧美久久| 国产在线观看成人91| 欧洲成人在线观看| 香蕉视频国产精品人| 国产丝袜啪啪| 国产69精品久久久久妇女| 国产成人精品一区二区三区| 色视频国产| 内射人妻无套中出无码|