數據空間的數據項研究

2010-01-01 00:00:00夏懷楠

電腦知識與技術 2010年1期

摘要:在數據空間領域中關于數據項的表示問題是一個重要的課題，為了能讓數據更好的存放在數據空間中，并且在邏輯上有個統一的，形式化的表示方式。提出一個數據空間數據的形式化表示方式，使其能對于各種存在數據空間中的數據在邏輯上進行統一的表示，并展示了如何將數據庫中的數據表示數據項。

關鍵詞:數據空間;數據庫;數據項;數據空間管理

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2010)01-12-03

Research on DataElement of the DataSpaces

XIA Huai-nan

(Shandong University of Science and Technology，Shandong 2666510，China)

Abstract: In DataSpaces area the dataelement representation is a important problem， to make the data store in dataspace better， a unified and formal representation. This paper propesed a representation method of dataspaces element ，to make a unified representation in logical for all kinds of data in dataspaces， and show how to make database data to dataelement.

Key words:dataspaces; database; dataelement; dataspacesmanagement

近幾十年來，計算機網絡的飛速發展和信息化的推進，使得人類社會所積累的數據量已經超越了過去5000年數據量的總和。數據的采集，存儲，處理和傳播的數量也與日劇增。企業或社會組織實現數據共享，可以使更多的人更充分的利用已有的數據資源，減少資料收集，數據采集等重復勞動和相應費用。近年來隨著因特網的迅猛發展，web信息的爆炸式的增長，這些信息就像一個實時增長的數據庫，而對于這個巨大的信息庫，人們不知道其信息量的多少，不知道其信息存放的位置，不知道原始信息的格式，這些億量的信息分布在世界上無數的服務器上，格式多向，內容豐富，這種數據信息存在方式上的新特點，及用戶對快速，靈活，高效，的建立數據集成的要求，提出了數據空間(Dataspaces)的概念。這是一種新的數據管理模式，它強調的是一種pay-as-you-go的數據管理模式:不需要任何的建立時間就能夠給用戶提供服務。如圖1所示，利用數據空間來集成數據在時間和花費上比傳統的數據集成方案有很大的改善。

數據空間比較傳統的數據集成在集成時間和花費上會隨著數據類型，數據量的增多而趨于平緩，而傳統的數據集成還是保持著線性增長，數據空間在這兩方面有著巨大的優勢，同時在數據空間所擁有的一些特性上也是傳統的數據集成所沒有的。

數據空間作為一個近幾年出現的一個數據集成研究與發展的熱點，有著很多區別于以往數據集成的一些顯著的特點和優勢，比如說“淡化形式，凸顯數據”。數據空間強調的是數據的“spaces”，整個世界就是一個“spaces”，不管何種的object在其中是什么格式，什么內容，只要是符合這個“spaces”的基本要求就可以。數據空間的spaces是一個滿是數據的空間，數據在其中如何組織都可以。關系表，xml文檔，文本，任何數據包括它的載體，都可以存在于這個space中， “一個數據空間應該包含與某個組織或個體相關的一切信息，無論這些信息是以何種形式存儲、存放于何處”，這樣，無論什么樣的格式的數據，都可以通過數據空間對其進行掌控，即可以成為“弱化模式，強調數據”。

1 數據空間的特點及數據項的形式化表示

數據空間有其自身的特性，如果要將數據放入數據空間的話必須滿足其特性，一般來說數據空間有以下幾個特性:

數據空間與主體的相關性:數據空間是有所屬的，與主體一一對應，這個實體可以是一個人，一個小組，也可以是一個企業。數據空間是由數據組成起來的，一個數據可以是一個word文檔，一段視頻，一個網頁等。這些數據都是對應于某個實體的。通過實體就把數據空間里的數據聯系在一起，每個實體的數據之間就能組成一個虛擬的網絡，互相聯系起來，同時這種聯系也構成了數據空間的邊界。

數據空間的空間和時間特性:在空間上來說，數據空間的數據分布存放在許多位置，既有本地的數據，也有來自于互聯網上的數據。從時間上來說，數據空間的數據會隨著主體，應用等的不斷發展而變化，新的數據會加進來，同時舊的數據會移出。數據也會隨著時間的變化不斷地演化，被挖掘，數據也會根據每個實體對數據應用的特點通過數據清洗，數據質量等技術，由低質量，高冗余的數據發展成為，高質量，低冗余的數據。

實體數據空間交叉重疊:數據空間中的數據是與實體相對的，但數據有可能是屬于多個實體的。

數據之間的聯系:數據空間中的數據聯系是有方向性的，各種數據之間的聯系相互交互起來構成一種圖的聯系方式。

數據空間的主要存在形式是個人數據空間:相對于數據庫主要的應用對象是企業用戶，數據空間在未來的一段時間中主要是面向個人用戶的應用。對個人的工作，生活，提供更大的便利，個人數據空間也是未來數據空間研究的主要方向。

以上所總結的是數據空間中的數據的特點，針對上述的特點我們提出數據項的概念，利用數據項對要放入數據空間中的數據進行封裝，使其滿足數據空間對數據的一些要求。對數據項的形式化表示如下:數據項:是數據空間最基本的單元，它并不是一個大小，格式固定的數據單元，它表示的是數據空間中的一個語義完整的一個信息單元，大小，格式根據數據來源，及特點的不同而不同。例如，一個數據項也可是一個網頁，或是一個Word文檔，同樣也可能是一個數據庫中的表來組成的。

定義:(數據項) 一個數據項DEi 是一個四元組(αi， βi， γi，δi)，其中，αi表示的是名稱組件，βi表示一個元數據信息組件，γi表示一個內容組件，δi 表示一個關系組件。我們定義資源試圖DEi 如下:

1)名稱組件:αi 是一個字符串，它表示數據項的名字。

2)元數據信息組件:βi 是一個二元組(S，T)，在這里S表示的是元數據的名，T是一個對應于S的元數據值。元數據名 S=，j=1，2，3，….k 表示的是關于此數據集的有序的元數據，其中nj表示的是每個元數據的名稱。元數據值T， j=1，2，3，….k 是一個有序列的原子值，其中值vj 是對應于元數據nj 。其中在這里必須含有，數據項的主體，空間及時間特性，其中分別由DSSubject， DSUrl，DSTime，來表示。

3)內容組件:γi 是一個字符串名，γi內容可能是有限的，也可能是無限的

當γi有限的時候，采用有限符號序列的形式來表示內容，，cj ∈∑c ，j=1…l

當γi無限的時候，相對應的內容是無限的，則用，l→∞， cj ∈∑c，j=1…l，l→∞

4)關系組件:δi是一個一元組(Q)， Q是一個(可能為空)有序的數據項集合

a)有序的Q可能是有限集或是無限集。當Q是有限集合時Q={W1，...Wn}，當Q是無限集合時Q={W1，...Wn}n→∞;

b)假定一個資源試圖Vi 有一個非空的δi的組件，如果存在一個資源試圖Vk 并且

Vk∈S∪Q，我們稱Vk直接關聯到Vi。任何一個給定的資源試圖都有可能關聯到0個，1個，或任意多個其它的資源試圖。

c)如果Vi→Vj→…Vk ，我們說Vk間接關聯Vi，我們記做ViVk

如果一個數據項的組件有為空的，我們用元組()或是空的序列<>來表示。

在上面提出的資源視圖結構中，αi是一個非空的數據項名。βi是關于此數據項的一些重要的元數據信息，其中包括主體，空間，時間的一些特性。γi是關于數據項的數據信息，例如，數據庫數據的每個元組，文件的內容字符。δi組件會產生一個圖的結構用來表示數據項之間的關系，這種圖的結構有可能是一個樹，也可能是一個DAGs，或是循環圖。在集合Q中各個組件的順序代表的是各數據項關聯的時間順序。

針對以上我們提出的數據項的概念及形式化的表示方式，我們提出一套算法，這些算法用來將數據集生成數據項并放入數據空間中。生成數據空間的數據項的算法如下。

Algorithm

Begin

Create a Databases Element from some datasets

For each Dataset instance do

Begin

DoBeforeDatasetIntoDataspaces();

CheckOfDataspaces(dataset d);

ChangeTheDatasetToDatasapcesElement(dataset d);

PutIntoDataspaces(dataspaceElement，dataSpaces);

DoAfterDatasetIntoDataspaces();

End

End For

End

在以上算法中，將對要放入數據空間中的數據集處理。此算法是將數據集生成數據空間數據項，分別對應于此前我們定義的數據項的四個部分。同時將這四個部分封裝成一個數據項，它就代表了每次往數據空間中放入的數據集。

2數據庫應用實例

數據庫，作為一個計算機領域幾十年來始終占據絕對主導領域的數據存儲方式，在過去，現在，將來都將作為一個最主要的數據存貯方式，同樣數據庫中的數據也占據現在世界上的主要數據的大部分，如何將數據庫中的數據放入數據空間中，已成為現在數據空間由理論到應用的一個急需解決的一個問題。本文定義了一種將數據庫中的數據放入到數據空間的一種通用的方法和對應的數據模型，所放入到數據空間中的數據滿足數據空間的基本特點，并能夠直接被數據空間管理系統所用。

數據庫中的信息是由，數據單元，元組，表，庫，由小到大所組成的，這些信息單元包含的信息量的大小各不相同，我們向數據空間中導入數據的話，必須選擇一種合適的數據項作為向數據空間中放入的基本數據單元。數據項作為數據庫的最基本的數據單元，所包含的數據是數據庫中最小的，最靈活的信息載體，但是如果將它作為基本單位的話，因為每個數據單位還要含有數據空間元數據信息，這樣就會造成有意義的信息含有量太低，數據冗余過大。同樣選擇元組的話也會面對同樣的問題。如果選擇庫的話，雖然有效信息含有量高了，但是又會面臨數據項過大，操作，查詢，使用代價過高，不利于數據空間的建立和使用。表是數據庫中一個完整語義的數據單位，一個表中的信息，代表的都是一個對象，一類關系等，用表作為數據空間的基本數據項是最合適的。

下面我們從sqlserver2000自帶的實例數據庫中將其中的一個表作為一個結果集來表示成數據空間中的數據項。其中有如表1-表2所示的表。

表Employees與表Orders之間存在著聯系，Employees表的主鍵EmployeeID是表Orders的外鍵，通過表之間的主外鍵關系我們就建立了一個兩個數據之間的聯系。

對于Employees表，用上面提出的數據項的形式化表示方法來表示為:

DEEmployees=(αEmployees，βEmployees，γEmployeesi，δEmployeesi)，其中

αEmployees=”Employees”;

βEmployees=(S，T)，其中 S=

γEmployeesi=(c11， c12， c13， c21，c22， c23，c31，c32， c33)，其中c11表示為EmployeeID:1，c12 為Name:Davolio，c13 為Title:Respresentative。同理其他的ci也按此表示數據

δEmployeesi=(DEOrder)其中DEOrder表示的是表Order的數據項

對于我們上面用形式化表示方式表示的Employees數據系項，在向數據空間中放入時還需要用一種具體的表示方式將它表示出來，Xml作為一個伴隨著Internet的發展而不斷廣泛被應用的數據表示技術，有著靈活表示數據，結構簡單，互操作性強，模式和內容分離，所以用xml作為數據空間的數據項的表示是現有技術中比較合適的一種。本文所用來表示數據空間的數據項數據時所用的具體表示方式就是基于xml的。

同樣對應于數據項的形式化表示，也分為如下幾個部分，

1)數據庫數據項的名稱信息

Employees

2)數據庫數據項的模式

數據項不單要滿足數據空間的一些特點，同時還要符合來自于數據源的一些特點，比如說對于數據庫的數據，數據庫的用戶名，密碼，數據庫表所特有的模式信息，庫信息等等，這些信息對于數據項的管理，使用及演化有重要的作用.下面是一個數據項的模式信息:

dbo

2009.5.1

35k

2009.9.4

EmployeeID

3) 數據庫數據項的數據信息

數據空間最終要的部分就是數據信息，數據先行這也是數據空間的一個主要的特征，每個數據項的最重要的部分就是數據信息，這也是數據項所能存在的根本，數據信息所反映的應是所來自數據源的最純粹的，不包含多余信息的數據，既“數據僅僅是數據”。

Davolio

Representative

Andrew

VicePresident

4) 數據庫數據項的關聯信息

在數據空間中每個數據項都不是自己獨立存在的，它都會與數據空間中的其它數據項存在著各種各樣的關聯，這些關聯有來自主體建立的，也有隨著數據空間的演化而產生變化的關聯，還有的是隨著時間的變化而產生的，這些關聯將數據空間中的數據項之間，數據項與主體之間，構成邏輯上的關聯關系。

Orders

Primary-ForeignKey

3 結論和進一步研究

數據空間中的數據項是數據空間中最基本的數據表示單位，本文從數據空間的特點入手，詳細分析了數據空間中數據的特性，根據這些特性本文提出了數據項的定義，將它作為數據空間的最基本的數據表示單位，并提出了數據項的形式化表示，對數據項從理論上作出了抽象化的表示，并以數據庫作為數據項的數據源依據本文提出的定義做出了表示。盡管本文對數據空間的數據項表示進行了一定的研究，但是很多具有挑戰性的研究課題，比如說，數據項的查詢，大數據量的表示，數據項對視頻，音頻等數據的表示等等。

參考文獻:

[1] Meng XF.From Database to Dataspace， From Enterprise to People[J].Annual Report of WAMDM Lab. School of Information， RenminUniversity of China，2006.2-7.http:// idke.ruc.edu.cn

[2] FrankLin M ， Halevy A ， Maier D . From databases to dataspaces : A new abstraction for information management[J].SIGMOD Record，2005，34(4):27-33.

[3] Marcos Antonio Vaz Salles， Pay-as-you-go Information Intergration in Personal and Social Dataspaces [D].Rio de Janeiro:Catholic University of Rio de Janeiro，2008.

[4] 李玉坤，孟曉峰，張相於.數據空間技術研究[J].軟件學報，2008，8:18-31.

[5] Dittrich JP，Antonio M ，Salles MAV ， iDM: A unified and versatile data model for personal dataspace management[A].In: Proc. of the 32nd int' l conf. On Very Large Data Bases(VLDB 2006) New York: ACM Press，2006.367-378.

[6] Blunschi L， Dittrich J-P，Girard OR， Karakashian S.K and Salles MAV. A Dataspace Odyssey:The iMeMexPersonal Dataspace Management System[A].CIDR 2007:114-119.

電腦知識與技術2010年1期

電腦知識與技術的其它文章: 基于Oracle數據庫的SQL語句優化; 基于UML的醫院信息系統建模; 一種新型抵御字典攻擊的方案; 淺談網頁設計的藝術表現形式; 基于最少換乘路徑選擇算法的改進; 基于用戶特征分類的精準廣告投放研究