999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多策略的異構數據庫知識獲取分析與實現

2007-01-01 00:00:00張佩云孫亞民
計算機應用研究 2007年5期

摘要:為對異構數據庫中的大量孤立、沒有語義描述的數據進行自動歸類及本體建模,實現異構數據庫數據的知識獲取,提出了一個基于本體與Web服務的異構數據庫知識獲取框架,給出了通過Web服務包裝異構數據庫的訪問機制,設計出貝葉斯分類器并應用該分類器對獲取的異構數據自動映射到相關的本體。該方法能夠通過貝葉斯分類器自動對異構數據歸類,實現了異構數據庫的交互知識獲取。

關鍵詞:本體;Web服務;異構數據獲取;貝葉斯分類器

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2007)05-0200-04

0引 言

隨著數據庫技術的快速發展以及數據庫管理系統的廣泛應用,人們不得不面對如下問題:①數據庫中積累的數據越來越多,數據爆炸但知識貧乏;②知識獲取的局限性目前主要體現在知識獲取仍停留在人的手工勞動階段[1];③存在各種異構,如平臺的差異、編程語言的差異、數據格式的差異等,形成了“信息孤島”現象,制約了數據共享[2];④數據庫中的數據缺乏語義描述。

為能夠對異構數據庫中的數據進行高層次的分析,以更好地利用這些數據、發現數據中存在的關系和規則,必須挖掘隱藏在數據背后的知識。目前,大部分的解決方案主要是利用XML及其相關技術完成異構數據庫的互相轉換工作以及利用Web服務技術集成異構數據庫。但在實際運作過程中,采用上述方案處理異構數據庫時也存在一些問題,即沒有實現異構數據庫資源中異構、分布式、多元化數據的自動獲取和從數據到知識庫的知識單元的轉換。本文提出一種基于本體和Web服務并結合貝葉斯分類器實現異構數據庫數據向知識單元轉換的知識獲取方案:用Web服務的動態性、松散耦合和非綁定性來解決數據庫的異構性,并同時保證異構數據庫的各個組成部分具有自身的自治性、完整性和安全性控制;利用本體建模工具在語義和知識層次上描述信息系統的概念模型,描述概念及概念之間的關系以及通過概念之間的關系來描述概念的語義[3];結合貝葉斯分類器將獲取到的異構數據庫數據歸類到相關的本體,對獲取的異構數據庫資源進行語義上的刻畫與描述,從而實現向知識單元的轉換,使異構信息在語義上實現機器可理解。異構數據在本體的協助下,易于發現數據之間的關系和規則,便于語義檢索和推理檢索,從而挖掘出隱藏在數據后的知識。

1相關技術及解決思路

目前企事業機構中已經存在大量異構數據庫,要通過擴展對數據庫模式和記錄的描述來加強知識的獲取。首先要構建領域本體。由于領域本體提供了一系列的語義結構,借助一種機器學習手段將數據庫中的數據模式和實體歸類到相應的領域本體類,將領域本體所體現的概念模式映射到數據模式,領域本體有相應的實體完整性約束,被定義的模式可認為具有知識表示的能力;對分布式異構數據庫系統,采用Web服務技術封裝來屏蔽各種異構性;采用一個學習機制使得系統自動或交互地抽取知識。本文使用貝葉斯統計原理來產生分類規則并誘導分類。一個分類規則預測一個樣本應該歸于哪個類。異構數據庫知識獲取的主要流程如圖1所示。

(1)數據獲取

由位于不同地點、不同平臺或不同數據庫系統之上的Web服務采用公共數據模型對局部共享數據進行封裝,隱藏了內部結構,并統一以XML格式提供一致的對外公共訪問接口,屏蔽了不同數據庫系統的數據源位置、模式和訪問方法等異構信息,即獲取異構數據庫的數據對用戶和調用該服務的系統而言是透明的。

(2)特征建立

在實際使用貝葉斯模型進行分類決策前需要進行特征建立。貝葉斯分類器的分類決策即在特征空間中運用統計方法把待識別對象歸為特定類型。其核心技術是在樣本訓練集基礎上確定一個判決規則,使按這種規則對被識別對象進行分類,所造成的錯誤識別率最小或引起的損失最小。

(3)貝葉斯分類

基于小子樣的貝葉斯在理論上為解決數據分類提供了理論途徑。貝葉斯分類的目標是通過機器學習功能將異構數據庫中的記錄按數據模式及記錄的屬性值歸類到預先定義的領域本體類別,形成知識庫的知識節點。

2系統框架及模塊介紹

框架的執行流程是由異構模式數據收集器調用相關的包裝器(Web服務接口)收集異構數據源數據模式信息;由貝葉斯分類器訓練,對該記錄進行模式及屬性特征分析,在領域本體和分類器的幫助下實現歸類,作為知識節點存入知識庫中,實現知識獲取。其框架如圖2所示。

該框架的模塊功能描述如下(從下至上描述):

(1)數據庫。具體負責異構數據資源的存儲,包括Oracle、MySQL、SQL Server等關系/對象數據庫等。其與知識管理層之間通過統一的包裝器(Web服務服務集成接口)進行訪問,用戶不必關心具體的存儲細節。

(2)包裝器。對異構數據源按照統一的模式進行封裝,屏蔽了數據源的諸多異構性;向調用程序或客戶端提供統一的接口。包裝器用于與其他應用系統進行相互協作時提供服務,如數據、應用的集成調用等。通過該包裝器接口,其他系統可調用相應數據庫中的數據,實現真正松散耦合、動態重構能力。包裝器是本框架的核心之一。

(3)異構模式數據收集器。該模塊的功能是調用包裝器以獲取各異構數據模式及數據源的內容并保存調用結果以供貝葉斯分類器使用。

(4)貝葉斯分類器。它是連接異構數據源與知識庫的橋梁,是本框架的核心之一。通過該分類器從信息資源體系中獲取知識信息,構建知識庫中的知識節點,體現為知識庫中的本體與實例之間的關系,即類—類及類—實例關系。該模塊是知識發現與積累的基本環節。

(5)本體庫和知識庫。本體庫中的本體目標是捕獲相關的知識,提供該知識共同的理解,確定該領域內共同認可的概念;從不同層次的形式化模式給出這些概念以及它們相互間關系的明確定義,并通過概念間的關系來描述概念語義。本體在語義關系揭示程度上普遍進行了更深、更廣的挖掘和擴展。知識庫中知識節點的獲取過程需依賴領域本體構建的領域模型。知識庫主要存放包含顯性表達的事實知識、常識、經驗等領域知識和啟發式知識等。特定的知識庫包含了狀態依賴信息[4],具有數據庫所不具備的處理規則能力,以通過規則推理出知識庫中隱含的知識。

3系統設計

3.1包裝器設計

本文中的包裝器是通過將異構數據源中的數據封裝成Web服務,提供統一接口。包裝器包裝的內容包括:抽取數據源數據模式中的數據模式及屬性名稱、各屬性的數據類型及數據長度、屬性內容等;以XML形式傳輸的內容包括數據源名稱、數據源類型、數據源的訪問地址、數據模式名稱、數據模式描述及各屬性名、數據類型及屬性約束等內容。包裝器的實現步驟如下:

(1)創建Web服務。該服務的目標是獲取某個異構數據源的某個數據模式及相應數據源的內容,可通過JavaBean、EJB組件方式實現。

(2)為Web服務創建服務描述文件WSDL。

(3)在應用服務器中布置Web服務。

(4)將Web服務發布到本地UDDI注冊中心。

3.2異構模式數據收集器設計

該模塊是Web服務的客戶端調用程序,從包裝器傳來的XML源數據中讀取數據并解析XML,提取相應的子集。該模塊的實現步驟如下:

(1)應用程序客戶端檢索到WSDL文件后產生一個客戶端代理對象,或由已知的Web服務產生一個客戶端代理對象。(2)調用包裝器。客戶端通過所產生的客戶端代理對象實現對包裝器所對應的Web服務的調用。

(3)對調用包裝器后返回的信息進行融合,以防止有重復的內容,融合后的信息供貝葉斯分類器調用。

3.3貝葉斯分類器的設計實現

本文的異構數據庫數據的分類基于一個本體分類層次體系,參考文獻[5]。本文中表示本體使用基于圖的模型,以反映概念之間的語義關系。在對異構數據庫進行知識獲取前,類領域本體結構圖如圖3所示。

異構模式數據收集器收集了來自異構數據的數據信息,包含數據模式信息和記錄信息。為了有效地對用戶感興趣的信息實現分類識別,在分類前需要對這些數據進行預處理以提取和選擇代表數據模式的特征值,并對連續屬性的值進行離散化處理。其中部分連續值的屬性及明顯對分類作用微小的屬性被忽略。異構數據庫的語義可定義在兩個層次上,即模式層和屬性層。下面就如何從這兩個層次實現異構數據庫數據的分類予以分析。

3.3.1異構數據模式層分類

數據庫模式是某一類數據的結構、屬性、聯系和約束的描述,可被認為是數據庫中實例(記錄)的一個知識描述。其缺陷是模式的設計不是唯一的,模式的描述可能不是對感興趣的現實世界準確或近似的建模[2]。因此本文要求待歸類的數據模式是客觀的、與被描述記錄的語義是相符的。只有當數據模式的描述是對客觀世界的真實描述,模式層的語義才可借助本體結構進行貝葉斯分類,從而將異構數據模式歸類到某個最相近的本體。

一個數據模式由一組元素組成,一般有模式名稱、屬性名、數據類型、約束和模式結構等。數據模式的歸類是一種結構級的分類,考慮的是模式元素的組合。在分類時要考慮基于語言和約束的分類。基于語言的分類中最常用的信息是元素名稱,衡量名稱相似度的標準有等價關系、同義關系、上下語義關系等;另外一詞多義干擾了名稱分類過程,為了減少誤分類,需要借助于領域本體澄清概念。基于約束的分類通常指分類基數。分類基數將一個模式中的一個或多個元素映射到另一個模式中的一個或多個元素。本文中貝葉斯分類將一種數據模式歸類到領域本體中具有最高分類相似性的本體中。在歸類時分類基數是1∶1。

對于每個待分類的數據模式特征向量,計算其屬于某個本體類的概率,取最大值。如果最大值低于某個閾值則停止;否則取最大值的本體作為將要歸類的本體。實現該算法的具體步驟如下:

(1)設本體庫中有n類本體訓練樣本C={C1,C2,…,Cn},從本體庫中抽取訓練樣本的信息集合S(本步驟中的示例數據取自圖3)。該集合中包括了本體的ID和該本體的屬性(第一列為本體,其余各列為屬性名):

personIDnameage00

studentIDnameageenroll-year0

employeeIDnameagesalarystatus

teacherIDnameagesalarystatus

statusID0000

courseIDname000

……

(2)統計S中所有的特征矢量V,確定代表C中每個類別的特征矢量,統計分類θ的先驗分布:π(θ)=屬于類θ的訓練樣本數/總的訓練樣本數。其中θ為分類本體。

(3)將抽取的待分類的各數據模式的特征值信息表示成向量的形式。

當新的數據模式到達時,根據特征詞,按下面的公式計算該數據模式sj屬于類θ的概率。由訓練樣本估值,參照拉普拉斯光滑法(Laplacian Smoothing)[5]得

具體數據模式的歸類在OWL中的實現是:一個數據模式是一個子類,數據模式中的屬性名是子類的屬性名。數據模式被歸類到領域中的某個本體并作為該本體的子分類后,成為知識庫中的一個知識節點。若該數據模式對應的記錄是實例數據,將實例數據作為子分類的實例存入到知識庫中,從而將異構數據轉換為知識節點。

3.3.2屬性層分類

當數據模式不是對客觀實體屬性的客觀描述,如數據模式employee(ID,A,B,C)不是對客觀世界正確或恰當的表達,該數據模式此時無法實現自動歸類。在這種情況下,若數據記錄中描述的是抽象實體,則可對數據記錄進行貝葉斯分類。分類步驟類似于數據模式的分類。兩者的區別是屬性層分類中待分類的數據為記錄的屬性值;類似數據模式的分類,屬性層的分類依照領域本體分類樹。筆者為每個本體提供一定的訓練數據,訓練后再對未分類的記錄進行統計分析,將新的記錄數據歸類到t=max{h(θ|x)}對應的分類本體節點下。具體記錄的歸類在RDF中的實現是[6]:一條記錄是RDF的一個節點(Node),屬性名是RDF中的屬性類型(Property Type),屬性值是RDF三元中的值(Value)。

4實驗分析

在一個具有130個數據模式和1 710個記錄的中文數據語料庫上測試了分類算法,算法采用Java實現。語料庫中的數據庫信息文本均為新聞電訊稿,將其存入MySQL和SQL Server數據庫。所有的新聞稿均由領域專家事先進行分類,按照中圖分類法分成多類。本文中采用OWL本體表示語言將這些分類表示成本體結構。

(1)分別對Windows和Linux操作系統下的MySQL和SQL Server異構數據庫建立相應的Web服務,調用Web服務并對數據進行封裝、處理和分類。Web服務獲取異構數據主要是接收上一層的數據請求。

(2)貝葉斯分類器分類的性能分析。本文對三種異構數據庫的數據模式及記錄進行貝葉斯分類,即運行分類算法,執行分類操作,計算其平均值。實驗結果及分類性能分析如圖5所示。

本文中評估分類的指標是準確率和查全率。準確率是指分類的正確數據模式(記錄)數與實際分類的數據模式(記錄)數的比率。通過采用評估指標分析可知,該分類器在分類準確性能方面比較可靠,基本實現對異構數據的知識獲取輔助作用。

(3)多策略的異構數據庫知識獲取的特點:

①調用異構數據庫中的數據時,無須考慮底層數據庫的異質性;

②實現異構數據的自動歸類以從數據庫中交互地獲取知識,從而減少了人工操作對異構數據庫數據抽取的工作量;

③利用貝葉斯分類器對異構數據自動歸類后采用統一的數據語義描述與元數據描述,最終可實現異構數據的語義檢索、推理檢索等。

5結束語

本文結合網絡環境下數據庫資源的分布式、多樣化等異構性特點,利用本體來輔助異構數據知識的捕獲,采用了流行的Web服務技術進行異構數據的獲取,對獲取的異構數據采用貝葉斯分類算法將符合條件的數據庫模式及記錄自動歸類到相關的本體,實現了從異構數據到知識庫知識節點的轉換及知識節點的自動獲取。

通過采用多策略的異構數據庫知識獲取方法較為有效地解決了數據泛濫而知識缺乏的局面,并在一定程度上實現了異構數據的語義描述。但該方法在語義處理方面還存在不足,將在今后的研究中繼續予以探索。

參考文獻:

[1]滕明貴,熊范綸,吳正龍.一個多形式的知識庫管理系統XFKBMS/V1.0[J].小型微型計算機系統,2004,25(4):625-629.

[2]CARAGEA D,BAO Jie,PATHAK J,et al.Information integration from semantically heterogeneous biological data sources:proceedings of the 16th International Workshop on Database and Expert Systems Applications[C].[S.l.]:IEEE,2005:580-584.

[3]PARK J. Schema integration methodology and toolkit for hetero-geneous and distributed geographic database[J].Journal of the Korea Industrial Information Systems Society, 2001,16(3):51-64.

[4]WU Zhaohui,CHEN Huajun, XU jiefeng. Knowledge base grid:a generic grid architecture for semantic Web[J].Comput.Sci.Technol.,2003,18(4):462-473.

[5]OLESHCHUK V,PEDERSEN A. Ontology based semantic similarity comparison of documents:proceedings of the 14th International Workshop on Database and Expert Systems Applications (DEXA’03)[C].[S.l.]:IEEE Computer Society,2003:735-738.

[6]LI Xiaoli,JOSHI R,RAMACHANDARAN S,et al.Classifying biomedical citations without labeled training examples:proceedings of the Fourth IEEE International Conference on Data Mining(ICDM’04)[C].[S.l.]:[s.n.],2004:455-458.

[7]LEE T B. Relational databases on the semantic Web[EB/OL].(2002). http://www.w3.org/DesignIssues/ RDB-RDF.html.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 欧美性天天| 日韩免费视频播播| 成人小视频网| 欧美有码在线| 原味小视频在线www国产| 欧美天天干| 激情综合五月网| 免费毛片视频| 欧美一级专区免费大片| 国产精品30p| 四虎影视库国产精品一区| 国产91视频观看| 熟妇丰满人妻| 欧美色伊人| 欧美在线综合视频| 亚洲中文字幕无码爆乳| 国产自在线播放| 欧美成人怡春院在线激情| 在线观看av永久| 97视频免费在线观看| 久久特级毛片| 一本大道无码日韩精品影视 | 国产精品久久久久久搜索 | 日韩精品资源| 亚洲熟妇AV日韩熟妇在线| 国产第一页免费浮力影院| 亚洲中文字幕久久精品无码一区| 国产成人a在线观看视频| jijzzizz老师出水喷水喷出| 国产亚洲精品97AA片在线播放| 99视频精品全国免费品| 欧美成人在线免费| 99热这里只有免费国产精品| 精品视频一区二区三区在线播| 91系列在线观看| 99久久精品免费看国产电影| 免费国产高清视频| 亚洲人成影院在线观看| 欧美激情成人网| 日韩小视频在线播放| 国产精品观看视频免费完整版| 乱人伦中文视频在线观看免费| 亚洲第一极品精品无码| www亚洲精品| 99久久精品免费视频| jizz国产在线| 四虎国产精品永久一区| 日本亚洲成高清一区二区三区| 国产精品久久自在自线观看| 成人午夜视频网站| 高清不卡毛片| 中国丰满人妻无码束缚啪啪| 国产综合在线观看视频| 一本久道久综合久久鬼色| 亚洲欧美精品日韩欧美| 成人免费黄色小视频| 91伊人国产| 国产一区二区三区免费观看| 国产在线观看91精品亚瑟| 一本色道久久88| 国内精自视频品线一二区| 欧美精品一区二区三区中文字幕| 97在线免费视频| 国产欧美精品一区aⅴ影院| 伊人大杳蕉中文无码| 精品无码日韩国产不卡av| 国产一区二区三区在线精品专区| 草草影院国产第一页| 被公侵犯人妻少妇一区二区三区| 99re这里只有国产中文精品国产精品| 国产精品久久久久鬼色| 精品久久综合1区2区3区激情| 亚洲综合一区国产精品| 刘亦菲一区二区在线观看| 国产91小视频在线观看| 欧美一区中文字幕| 欧美一区二区啪啪| 91成人在线免费视频| 国模私拍一区二区三区| 亚洲精品成人福利在线电影| 成人在线亚洲| 看国产毛片|