999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的XML語義集成和查詢的研究

2007-01-01 00:00:00徐德智王建新
計算技術(shù)與自動化 2007年1期

摘要:XML因其結(jié)構(gòu)上的靈活性和易擴展性已經(jīng)成為Web上異構(gòu)數(shù)據(jù)轉(zhuǎn)換和傳輸?shù)臉?biāo)準(zhǔn),但是含有不同模式的XML數(shù)據(jù)源之間卻很難進行相互操作,這給XML數(shù)據(jù)檢索帶來了更大的不便#65377;先提出一種從XML模式到OWL本體的映射算法,然后借助共享全局本體和同義詞典實現(xiàn)多個映射后的本體在語義上的集成從而解決XML結(jié)構(gòu)異構(gòu)的問題,最后提出一種利用語義集成進行XML語義查詢的框架并初步實現(xiàn)#65377;

關(guān)鍵詞:XML;本體;語義集成;語義查詢

中圖分類號:TP391

文獻標(biāo)識碼:A

1引言

XML已經(jīng)成為Web上信息表達和數(shù)據(jù)交換的事實標(biāo)準(zhǔn)#65377;它提供了一種非常靈活的方式來表達數(shù)據(jù):用戶可以制定自己的標(biāo)簽來表示他們的數(shù)據(jù),XML在描述數(shù)據(jù)內(nèi)容的同時能突出對結(jié)構(gòu)的描述,從而體現(xiàn)出數(shù)據(jù)之間的關(guān)系#65377;

但XML的一個重要不足是: XML規(guī)范只聲明了數(shù)據(jù)在結(jié)構(gòu)上的關(guān)系,不能表達出被標(biāo)簽標(biāo)記的數(shù)據(jù)在語義上的聯(lián)系#65377;這造成兩個問題:1)同一種語義能夠用多種不同結(jié)構(gòu)的XML文檔表達,而這些異構(gòu)的XML文檔之間很難實現(xiàn)相互操作;2)許多XML標(biāo)簽它們所表達出的含義是相同的,但是XML處理程序無法將其識別#65377;

本體因其對概念的明確形式化描述,以及對概念的屬性和概念間的聯(lián)系的清楚表達,為解決 上面的問題提供一種有效的手段#65377;

2相關(guān)知識和研究背景

2.1XML模式和語義定義1一個XML的模式可以被表示成下面的形式[1]:S=(E,A,root,σ,τ)的形式,其中E表示所有元素的集合, A表示所有屬性的集合,root表示根元素#65377;σ和τ是兩個映射,其中δ∶E→2E表示元素與其子元素之間的映射,如果一個元素包含了多個相同的子元素,則認為這些元素表達的語義是相同的;τ∶E→2 A表示元素與其包含的屬性之間的映射#65377;映射δ和τ體現(xiàn)了XML的結(jié)構(gòu)關(guān)系#65377;

XML的語義體現(xiàn)在XML的模式上#65377;XML沒有提供任何對語義表達的約束,因此XML模式只能表達語法而不能表達形式化語義,但是XML的元素與其屬性之間以及元素間的嵌套結(jié)構(gòu)中蘊含著語義信息[2]#65377;

2.2語義Web和本體

語義Web以XML作為語法基礎(chǔ),建立數(shù)據(jù)在更深層次―語義上的互操作#65377;語義Web的主要特點是引入了本體的概念#65377;本體是共享概念模型的形式化規(guī)范說明,主要用來對描述屬性或類的術(shù)語的含義及術(shù)語間的關(guān)系進行規(guī)約,為人和應(yīng)用程序系統(tǒng)之間在某個主題的交流上提供的共同理解#65377;

定義2一個完整的本體被定義為七元組的形式:O=(C, A,C, R, A,R, H,C, H,R, X)其中C表示概念的集合#65377;A C表示多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于一個概念#65377;R是一個關(guān)系集合#65377;A R是由多個屬性集合組成的集合,其中每個屬性集合對應(yīng)于R中的一個關(guān)系#65377;H C表示概念之間的層次結(jié)構(gòu)關(guān)系,H R表示關(guān)系間的層次關(guān)系,X表示公理集合#65377;‘

3XML模式的語義映射和集成

3.1映射規(guī)則和算法

映射的目的是在S和O中包含的術(shù)語之間建立一種關(guān)聯(lián),以實現(xiàn)XML在語義層上的互操作#65377;雖然S和O覆蓋不同的層次,我們認為它們有符合人們主觀認識的對應(yīng)關(guān)系:1)S中定義的元素可以看作是O中定義的概念;2)元素包含的屬性(attribute)可以看作是概念所具有的屬性(property);3)元素之間的嵌套結(jié)構(gòu)可以看作是概念之間的關(guān)系#65377;

定義3對模式S中的任意元素e來說,當(dāng)δ(e)為空并且τ(e)也為空時,稱e是simpletype元素;當(dāng)δ(e)非空時,稱e是complextype元素;其余情況則稱e是commontype元素#65377;

由于映射只涉及到概念#65380;概念的屬性和概念間的關(guān)系,我們在本體完整定義的基礎(chǔ)上,給出簡單本體的定義:Os=(C, A c, R),用作與XML模式進行相互映射#65377;這里選擇OWL DL作為描述本體Os的語言,在OWL中概念用建模原語owl:Class表示;概念的屬性用數(shù)據(jù)類型屬性owl:DatatypeProperty表示,概念間的關(guān)系用對象屬性owl:ObjectProperty表示#65377;下面是映射規(guī)則以及在OWL 中的表示形式:表1映射規(guī)則及本體表示:

我們用下面的方式定義每個本體的基本命名空間:如果某個OWL本體o是由XML模式文件s映射而得到的,那么它的基本命名空間為:http://www.xmltontology.com/schemafile.owl,其中schemafile是s的文件名#65377;下面具體的算法表示:

算法:CreateOnto-by-Mapping

輸入:已解析的XML模式Si

輸出:根據(jù)映射規(guī)則生成OWL本體Oi

步驟:1)使用Si構(gòu)建Oi的默認命名空間前綴:prefixi;

2)對Si中每個complextype類型的元素ex,執(zhí)行:

(1) 在Oi中新建概念prefixi :cx;

(2) 對δ(ex)中的所有元素en,執(zhí)行:如果en是simple type類型元素,則新建數(shù)據(jù)類型屬性prefixi:ɑcxn,否則新建概念prefixi: en和對象屬性prefixi:contain(cx,cn);

(3) 對τ(ex)中的所有屬性ax,新建新的數(shù)據(jù)類型屬性prefixi:ɑcxx;

3) 對Si中的每個commontype類型的元素ec,執(zhí)行:

(1) 新建概念prefixi:cc;

(2) 對τ(ec)中的所有屬性aj,新建數(shù)據(jù)類型屬性prefixi:ɑccj;

3.2本體集成和語義補充

經(jīng)過映射,每一個XML模式文件都對應(yīng)到一個用來注釋該文件語義的本體上,這些本體雖然描述的是同一個領(lǐng)域的知識,但彼此之間卻并沒有聯(lián)系#65377;另外本體中概念之間的真正關(guān)系通過上面的規(guī)則并沒有體現(xiàn)出來#65377;為解決這兩個問題,我們需要預(yù)先構(gòu)建一領(lǐng)域本體,里面定義該領(lǐng)域內(nèi)所涉及到的概念之間的復(fù)雜邏輯和語義關(guān)系#65377;該領(lǐng)域本體稱作全局本體,與定義2中的本體定義相同,用OG表示;而XML模式映射得到的本體稱為局部本體,用OL表示#65377;多個局部本體構(gòu)成一個集合,成為局部本體集,用OLSet表示#65377;本文采用混合本體的方法[5]對OLSet中的局部本體OL進行集成,這種方法利用OG提供的建立在原語基礎(chǔ)上的共享詞匯集,使不同OL中的術(shù)語可以進行相互比較#65377;與傳統(tǒng)的方法不同,我們參考了WordNet和SUMO本體之間映射的思想[6],引入同義詞典這個概念,采取一種本體加同義詞典的方法實現(xiàn)這種集成,并手工建立OG和同義詞典之間的映射#65377;同義詞典的表示如下:

定義4 同義詞典T=(CSynseti, ASynseti) i=1,2,3…其中CSynset表示概念的同義詞集,包含了局部本體中可能出現(xiàn)的具有相同語義的概念#65377;ASynset集合表示概念的屬性的同義詞集,包含了局部本體中可能出現(xiàn)的具有相同語義的屬性#65377;同義詞集在這里是指里面的詞匯在上下文中可以相互替換的集合#65377;映射將一個 CSynset對應(yīng)到全局本體中的某個概念,ASynset對應(yīng)到某個屬性#65377;這里我們只考慮同義關(guān)系映射,即同義詞集里面詞語的含義與它映射到的概念或?qū)傩缘暮x是相同的#65377;

由于CSynset和ASynset分別包含了所有OL中可能出現(xiàn)的概念和屬性,只要找出OL中的概念和屬性在T中對應(yīng)的同義詞集,再根據(jù)T與OG之間的映射關(guān)系,就可以得到所有OL中概念/屬性與OG中語義相同概念/屬性的對應(yīng)關(guān)系,最后只需保存OLSet與同義詞典T的集成關(guān)系即可#65377;

對OL中關(guān)系的集成我們采用不同的方法,通過每個關(guān)系在OWL語法中的domain值和range值來確定這些關(guān)系的語義,然后對語義相同的關(guān)系集成#65377;具體做法是:

(1)定義集合R,稱為關(guān)系集,OLSet中所有局部本體中的關(guān)系都保存在R中,每個關(guān)系都有代表命名空間的前綴來保證不會出現(xiàn)命名沖突#65377;根據(jù)前綴還可以找到該關(guān)系所屬的局部本體#65377;

(2) 定義作用在概念上的操作:mapc和hc,mapc(cl)返回OL中概念cl在OG中所對應(yīng)的概念表示;hc(cg)返回OG中概念cg自身及其所有的父概念#65377;

(3) 對R中的每個關(guān)系r:contain(Cdom, Cran),在OG中找到同時滿足r.domain∈hc[mapc(Cdom)]和 r.range∈hc[mapc(Cran)]的關(guān)系#65377;然后在兩關(guān)系之間建立映射#65377;如果R中有多個關(guān)系映射到全局本體的同一個關(guān)系上,則將每個關(guān)系中的Cdom和Cran分別放入同一集合中,從而實現(xiàn)不同OL中關(guān)系的集成#65377;

本體集成及語義補充的過程中,OG#65380;OL和OLSet的關(guān)系如圖1所示:

4基于映射集成的語義查詢實驗

4.1查詢實驗方法

在上述映射與集成方法的基礎(chǔ)上,本文設(shè)計出一語義查詢系統(tǒng),實現(xiàn)對不同模式的XML數(shù)據(jù)進行語義上的查詢,語義查詢利用全局本體對查詢語句中概念間的語義約束進行DL推理,然后利用集成得到的豐富的語義信息對查詢進行重構(gòu),最終轉(zhuǎn)換為針對不同XML模式的多個結(jié)構(gòu)查詢#65377;語義查詢隱藏了底層數(shù)據(jù)格式的細節(jié),是一種面向多個異構(gòu)數(shù)據(jù)源的查詢,并且能夠利用本體找到隱藏的等價語義信息,實現(xiàn)對數(shù)據(jù)的內(nèi)容而不是關(guān)鍵字匹配的查詢#65377;實驗的整體框架如圖2所示:

其中XML數(shù)據(jù)庫我們選擇eXist原生數(shù)據(jù)庫,數(shù)據(jù)庫中存放了全局本體#65380;通過映射規(guī)則得到的局部本體集和語義集成的結(jié)果,同義詞典以表的形式存儲在MySQL關(guān)系數(shù)據(jù)庫中,關(guān)系數(shù)據(jù)庫里面還包含了與全局本體之間的映射信息;為實現(xiàn)在全局本體中的推理,我們使用Jena2開發(fā)包中自帶的OWLMini推理機#65377;整個框架建立在Java 1.5的運行平臺上#65377;圖2實驗結(jié)構(gòu)框圖

4.2實驗結(jié)果測試

查詢是完全依賴與語義集成的,在語義查詢XML數(shù)據(jù)之前,必須先完成對模式文件的集成#65377;因篇幅原因,我們僅給出測試結(jié)果,其中“author\"和“writer\"在相同CSynset中,“book\"和“script\"在另一CSynset中,“title\",“caption\"和“header\"在相同ASynset中,“write\"和“writtenby\"在全局本體中是一對逆關(guān)系#65377;

測試1:測試XML模式與本體之間映射是否符合常識#65377;

查詢語句:select ?book.title

where book.publisher= “ABC”

查詢結(jié)果:“UML for Java\".

測試2:測試本體集成和概念間關(guān)系的語義獲取是否正確#65377;

查詢語句:select ?autor.namewhere

writtenby(book,author);

book.header= “XML and Java\"

查詢結(jié)果:“Harold \", “John \".]

測試3:測試對條件子句中隱含知識的推理#65377;

查詢語句:select ?book.titlewhere

write(author,book)

author.name=“Robert\"

查詢結(jié)果:“UML for Java \".

測試4:測試語義查詢是否是基于數(shù)據(jù)之間的語義而數(shù)據(jù)本身的查詢#65377;

查詢語句:select ?book.titlewhere write(author,book)

author.name=“John\"

查詢結(jié)果:“XML and Java\", “Semantic Web\".

通過測試可以看出查詢結(jié)果與預(yù)期的一致,這說明了這種基于本體的XML模式語義集成是一種可行的方法,同時也可以看出語義查詢與一般的結(jié)構(gòu)查詢相比,具有很大的優(yōu)勢#65377;

5結(jié)論

本文利用語義Web 中RDF和OWL等規(guī)范標(biāo)準(zhǔn),并借用WordNet和SUMO本體的映射思想,提出一種基于本體的XML語義集成和語義查詢的方法,并初步進行了實驗仿真#65377;

本文主要的貢獻在于提出了一種XML語義集成的方法和在集成基礎(chǔ)上進行語義查詢的框架#65377;對于方案中的有些步驟還有很大的改進空間,例如只考慮局部本體與全局本體中關(guān)系的一對一映射#65377;對最后的結(jié)果如何保存才能保證在查詢階段能快速方面的訪問,以及如何將rules引入到語義查詢處理中,使得查詢還能夠根據(jù)用戶自定義的規(guī)則進行規(guī)則推理,這些是我們今后進一步研究的地方#65377;

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。`

主站蜘蛛池模板: 亚洲精品无码抽插日韩| 在线无码av一区二区三区| 国产九九精品视频| 国产黄在线观看| 亚洲AⅤ无码国产精品| 国产一级在线观看www色| 国产欧美精品一区二区| 中文字幕欧美成人免费| 无码国产伊人| 久久精品人人做人人| 中文字幕免费在线视频| 亚洲成人精品久久| 国产成人超碰无码| 欧美另类精品一区二区三区| 国产丝袜啪啪| 国产第四页| 国产天天射| 欧美黄色a| 制服丝袜无码每日更新| 日本成人精品视频| www.99精品视频在线播放| 成人在线视频一区| 中文字幕无码制服中字| swag国产精品| 欧美亚洲国产精品久久蜜芽| 亚洲天堂视频在线观看免费| 久久国产精品麻豆系列| 亚洲IV视频免费在线光看| 国产91精品久久| 波多野结衣在线一区二区| 欧美日韩在线观看一区二区三区| 91色综合综合热五月激情| 啪啪国产视频| 国产福利免费在线观看| 幺女国产一级毛片| 亚洲第一色网站| 久久成人免费| 久久77777| 国产精品九九视频| 国产哺乳奶水91在线播放| 999福利激情视频| 在线观看免费AV网| 国产丰满大乳无码免费播放| 亚洲日韩精品欧美中文字幕| 免费国产一级 片内射老| 国产一区二区精品高清在线观看| 亚洲免费成人网| 国产成人精品免费视频大全五级| 嫩草国产在线| 成人精品视频一区二区在线| 特级毛片8级毛片免费观看| 久久精品国产电影| 亚洲系列无码专区偷窥无码| 2020久久国产综合精品swag| 午夜成人在线视频| 国产精品林美惠子在线观看| 国产精品视频免费网站| 久久精品中文字幕免费| 青青草原国产一区二区| 久久精品中文字幕免费| 中文字幕va| 日本久久久久久免费网络| 国产精品亚洲五月天高清| 不卡国产视频第一页| 亚洲性网站| 国产精品自拍露脸视频| 日韩第九页| 婷婷色狠狠干| 国产精品区视频中文字幕| AV片亚洲国产男人的天堂| 99无码中文字幕视频| 国产成人夜色91| 亚洲中文久久精品无玛 | 久久青草视频| 国产人免费人成免费视频| 国产高清国内精品福利| 一本久道久久综合多人| a毛片在线播放| 99青青青精品视频在线| AV无码一区二区三区四区| 国产在线八区| 嫩草国产在线|