999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義標(biāo)注的數(shù)據(jù)資源庫元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法研究

2018-07-05 02:42:24郭曉明馬良荔孫煜飛海軍工程大學(xué)計(jì)算機(jī)工程系湖北武漢430033
關(guān)鍵詞:語義數(shù)據(jù)庫

郭曉明 馬良荔 蘇 凱 孫煜飛(海軍工程大學(xué)計(jì)算機(jī)工程系 湖北 武漢 430033)

0 引 言

元數(shù)據(jù)因其可以描述海量原始數(shù)據(jù)信息,起到簡化問題的作用,是各領(lǐng)域信息資源常用的組織方式。在語義網(wǎng)中,存在大量的面向應(yīng)用的各種數(shù)據(jù)庫,蘊(yùn)涵著數(shù)量巨大的重復(fù)和語義異構(gòu)元數(shù)據(jù)信息[1],那么提高元數(shù)據(jù)質(zhì)量成為數(shù)據(jù)集成應(yīng)考慮的重點(diǎn),如何使元數(shù)據(jù)描述信息更加全面、高效可用,基于本體的語義標(biāo)注方法給元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估提供了思路。本體的類、子類對(duì)應(yīng)與元數(shù)據(jù)的元素、子元素,本體也可以按照元數(shù)據(jù)的方式進(jìn)行描述。同樣,元數(shù)據(jù)也可作為本體的描述對(duì)象,對(duì)關(guān)系型數(shù)據(jù)庫元數(shù)據(jù)進(jìn)行基于本體的語義標(biāo)注,通過元數(shù)據(jù)與本體之間的自動(dòng)映射轉(zhuǎn)換為具有統(tǒng)一標(biāo)識(shí)的語義數(shù)據(jù)[2],將生成語義元數(shù)據(jù)存放數(shù)據(jù)庫中。可用于標(biāo)注的元數(shù)據(jù)為可用元數(shù)據(jù),標(biāo)記后生成的語義元數(shù)據(jù)更能表達(dá)數(shù)據(jù)庫表的語義信息,從而提高數(shù)據(jù)資源庫元數(shù)據(jù)的質(zhì)量。因此,本文在基于元數(shù)據(jù)信息組織的基礎(chǔ)上,研究關(guān)系型數(shù)據(jù)庫元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法,提出了基于相似度計(jì)算的數(shù)據(jù)庫元數(shù)據(jù)語義標(biāo)注算法進(jìn)行元數(shù)據(jù)自動(dòng)語義標(biāo)注。通過對(duì)數(shù)據(jù)庫關(guān)系表元數(shù)據(jù)和本體類之間的相似度計(jì)算來實(shí)現(xiàn)數(shù)據(jù)庫元數(shù)據(jù)的自動(dòng)語義標(biāo)注。經(jīng)標(biāo)注后生成的語義元數(shù)據(jù)單獨(dú)存放,作為數(shù)據(jù)庫中關(guān)系表的語義標(biāo)簽。

1 相關(guān)工作

對(duì)關(guān)系型數(shù)據(jù)庫自動(dòng)語義標(biāo)注的研究隨著本體研究展開,現(xiàn)有的方法多是研究關(guān)系型數(shù)據(jù)庫模式和本體模式之間的模式轉(zhuǎn)換[3-4],常用方法及已有的轉(zhuǎn)換工具如下:

(1) 關(guān)系數(shù)據(jù)庫模式轉(zhuǎn)換成本體模型 FDR2# Kit[5]工具是關(guān)系數(shù)據(jù)庫模式和本體間映射早期研究的代表,許多后續(xù)工作繼承了它的基本思想。主要工作是先自動(dòng)地將關(guān)系數(shù)據(jù)庫模式轉(zhuǎn)換為本體的形式表達(dá),然后手工構(gòu)建兩者之間的簡單對(duì)應(yīng)。浙江大學(xué)開發(fā)的一套針對(duì)中醫(yī)藥領(lǐng)域的集成系統(tǒng)DartGrid[6]是其具體應(yīng)用。文獻(xiàn)[7]提出了基于本體和Karma建模的快速集成方法,通過Karma建模構(gòu)建語義模型,發(fā)布成統(tǒng)一RDF數(shù)據(jù)和R2RML模型。文獻(xiàn)[8]采用模式映射的方法從裝備數(shù)據(jù)庫中生成初始局部本體,通過本體映射對(duì)領(lǐng)域本體進(jìn)行規(guī)范化處理。

(2) 利用中間模型轉(zhuǎn)換 關(guān)系數(shù)據(jù)庫到一個(gè)中間模型的映射和本體到另一個(gè)中間模型映射,通過兩中間模型之間的映射,實(shí)現(xiàn)兩模式之間的轉(zhuǎn)換[9]。以Web-PDDL 語言描述的中間模型為媒介的OntoGrate系統(tǒng)[10];以樹狀結(jié)構(gòu)模型為中間轉(zhuǎn)換模型的MAPONTO映射工具[11]。文獻(xiàn)[12]提出基于中間模型的映射算法,通過模型解析轉(zhuǎn)換、映射規(guī)則設(shè)計(jì)、映射策略選擇、映射關(guān)系表達(dá)等最終獲得二者的映射關(guān)系。

(3) 本體模式與數(shù)據(jù)庫模式語義映射 建立數(shù)據(jù)庫模式和本體模式之間的語義映射,生成語義元數(shù)據(jù)作為語義映射的模板,以文件的形式存放在模板庫中,實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)實(shí)例到本體實(shí)例的自動(dòng)轉(zhuǎn)換。文獻(xiàn)[13]提出一種對(duì)Web數(shù)據(jù)庫查詢結(jié)果進(jìn)行語義標(biāo)注的方法。文獻(xiàn)[14]提出了構(gòu)建能夠描述語義映射信息的語義元數(shù)據(jù);文獻(xiàn)[15]提出利用領(lǐng)域本體對(duì)關(guān)系型數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行語義標(biāo)注的方法實(shí)現(xiàn)兩模式之間的轉(zhuǎn)換。文獻(xiàn)[16]提出一種面向領(lǐng)域本體非分類關(guān)系的語義相關(guān)度計(jì)算方法。該方法在數(shù)據(jù)屬性和對(duì)象屬性兩個(gè)方面分別計(jì)算語義相關(guān)度的方法。

上述方法多是以手工建立數(shù)據(jù)庫模式和本體模式之間的對(duì)應(yīng)關(guān)系,不適用現(xiàn)在自動(dòng)本體標(biāo)注的需要。文獻(xiàn)[14-16]雖提到了自動(dòng)標(biāo)注,但僅僅是數(shù)據(jù)庫表名與字段名所呈現(xiàn)的語義信息與本體概念之間的直接轉(zhuǎn)換,是對(duì)表示描述數(shù)據(jù)表的元數(shù)據(jù)進(jìn)行了語義標(biāo)注,對(duì)描述表之間復(fù)雜關(guān)系的元數(shù)據(jù)沒有提及。

2 數(shù)據(jù)庫元數(shù)據(jù)語義標(biāo)注框架

數(shù)據(jù)庫元數(shù)據(jù)語義標(biāo)注通用的語義標(biāo)注流程如圖1所示。針對(duì)各種規(guī)模的關(guān)系數(shù)據(jù)庫經(jīng)預(yù)處理后進(jìn)行元數(shù)據(jù)自動(dòng)提取算法得到元數(shù)據(jù),利用本體庫中通用的知識(shí)概念對(duì)元數(shù)據(jù)進(jìn)行語義發(fā)現(xiàn)和標(biāo)注,使得標(biāo)注后的元數(shù)據(jù)含有豐富的語義信息,能夠?yàn)檎Z義集成系統(tǒng)提供數(shù)據(jù)庫的相關(guān)語義信息。數(shù)據(jù)庫語義標(biāo)注的方法研究多數(shù)是采用數(shù)據(jù)庫模式和本體模式的語義映射實(shí)現(xiàn)的,本文提出了新的語義標(biāo)注方案,將在第3節(jié)中詳細(xì)介紹。

圖1 數(shù)據(jù)庫元數(shù)據(jù)語義標(biāo)注通用流程

3 數(shù)據(jù)庫元數(shù)據(jù)自動(dòng)語義標(biāo)注算法

關(guān)系數(shù)據(jù)庫原語和OWL DL本體的邏輯基礎(chǔ)都是一階邏輯,建立關(guān)系數(shù)據(jù)庫模式和本體間的映射在理論上是可行的。多數(shù)的映射方法是發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫模式中表、列和本體中的類、屬性之間一對(duì)一簡單映射。本文提出的方法通過引入關(guān)系數(shù)據(jù)庫模式和本體間結(jié)構(gòu)特征來體現(xiàn)它們對(duì)應(yīng)的語義信息,基于簡單映射查找多對(duì)多的復(fù)雜映射,從而實(shí)現(xiàn)本體對(duì)數(shù)據(jù)庫表的語義標(biāo)注。

數(shù)據(jù)庫表的元數(shù)據(jù)包括:表(對(duì)象實(shí)體E)、字段(屬性)、數(shù)據(jù)類型、表約束、主鍵、外鍵等。但這些元數(shù)據(jù)無法完成對(duì)表和字段的語義描述,利用本體對(duì)其進(jìn)行語義標(biāo)注,生成能夠表達(dá)關(guān)系表結(jié)構(gòu)和內(nèi)容語義信息的語義元數(shù)據(jù)。一般而言,數(shù)據(jù)表可以映射到本體類;關(guān)系表的字段可以映射到本體屬性;如果屬性是外鍵類型屬性,可以映射到本體中的一個(gè)對(duì)象屬性,而非外鍵型屬性可以映射到本體中的數(shù)據(jù)類型屬性或?qū)ο髮傩浴?shù)據(jù)庫模式與本體模式之間的簡單映射如圖2所示。

圖2 數(shù)據(jù)庫模式與本體模式轉(zhuǎn)換流程

本節(jié)提出了基于相似度計(jì)算的語義標(biāo)注算法DMSAAS(Database Metadata Semantic Annotation Algorithm based on Similarity),不但考慮表元數(shù)據(jù)和本體類之間的概念相似性,也考慮表關(guān)聯(lián)關(guān)系與類關(guān)聯(lián)關(guān)系之間結(jié)構(gòu)的相似性,通過該算法找到更為準(zhǔn)確的相關(guān)本體類。關(guān)系表和表的字段元數(shù)據(jù)蘊(yùn)含著部分領(lǐng)域概念、概念之間的關(guān)系及屬性,與本體中的類和屬性存在對(duì)應(yīng)關(guān)系,要對(duì)這些元數(shù)據(jù)進(jìn)行語義標(biāo)注,就是建立元數(shù)據(jù)與領(lǐng)域本體概念的語義映射,圖3為關(guān)系數(shù)據(jù)庫和本體的示例。

圖3 關(guān)系數(shù)據(jù)庫和本體的示例

語義標(biāo)注的過程事實(shí)上就是計(jì)算元數(shù)據(jù)語義信息與本體的相似度。在本文中,關(guān)系表和類、外鍵列和屬性名都是考慮名稱的相似度,名稱的相似度計(jì)算通用方法是使用基于字符串的相似度計(jì)算方法。

(1) 基于字符串的相似度計(jì)算:

基于字符串相似度計(jì)算的思想是:兩個(gè)元素名稱的字符串越相似,則這兩個(gè)名稱越相似。最常用、最傳統(tǒng)的是基于編輯距離ED(Edit Distance)[15]的計(jì)算方法。

編輯距離算法是把一個(gè)字符串S={s1,s2,…,sn}轉(zhuǎn)換成另一個(gè)字符串U={u1,u2,…,un}所需要的最少操作數(shù)目,包括對(duì)字符的插入、剔除、替換操作。編輯距離的語義相似度的計(jì)算方法為:

(1)

式中:s表示源字符串,u表示目標(biāo)字符串,ED(s,u)表示s與u間的編輯距離,maxlength(s,u)表示s,u之間的最大長度。

最長公共子序列LCS(longest commom substring) 計(jì)算方法,是尋找兩個(gè)字符串s與u間最長的公共子串,用LCS(s,u)表示,通過式(1)計(jì)算它們的相似度,長度越長相似度越高:

(2)

最終,經(jīng)歸一化處理后,名稱相似度的計(jì)算方法是對(duì)SimED(s,u)和SimLCS(s,u)加權(quán)平均得到如下式:

Simname(s,u)=SimED(s,u)×ω1+SimLCS(s,u)×ω2

(3)

式中:ω1和ω2是可調(diào)節(jié)參數(shù),ω1+ω2=1,ω1和ω2的取值可根據(jù)具體實(shí)驗(yàn)需求人工進(jìn)行調(diào)整,文獻(xiàn)[15]中總結(jié)出一般情況下,取ω1=0.6,ω2=0.4。

(2) 計(jì)算表和本體類的結(jié)構(gòu)相似度:

當(dāng)關(guān)系數(shù)據(jù)庫的表和本體的類相似時(shí),表的列和本體類的屬性應(yīng)該是相似的,同它們各自“關(guān)聯(lián)”的表和類之間的相似性,如圖3所示。數(shù)據(jù)庫中表與表之間的關(guān)聯(lián)是通過外鍵來表達(dá),對(duì)于本體而言,類與類之間的關(guān)聯(lián)是通過屬性和關(guān)系來表達(dá),因此計(jì)算表和本體類的結(jié)構(gòu)相似度就顯得十分重要。

關(guān)系表t和本體類oc的結(jié)構(gòu)相似度計(jì)算如下所示:

simstr(t,oc)=simprop(t,oc)×ω1+simrel(t,oc)×ω2

(4)

式中:ω1+ω2=1,一般情況下,取ω1=0.6,ω2=0.4。

simprop(t,oc)表示表t和本體類oc各自屬性之間的相似度,設(shè)表t的屬性集合為A={a1,a2,…,an},本體類oc的屬性集合為B={b1,b2,…,bm},計(jì)算公式為:

(5)

式中,a和b都是都表示屬性,simname(a,b)表示兩屬性之間的相似度,主要采取名稱相似度計(jì)算方法,其計(jì)算公式取式(3)。

simrel(t,oc)表示與表t和類oc相“關(guān)聯(lián)”的表和類之間的相似度,Trel表示與表t有關(guān)聯(lián)關(guān)系的表的集合,OCrel表示與本體類oc通過屬性建立聯(lián)系的實(shí)體類的集合。計(jì)算公式為:

(6)

式中:trel是與t連接的鄰接表,可用表名代表;OCrel表示與本體類oc通過屬性建立聯(lián)系的實(shí)體類,也用類名表示。simname(trel,ocrel)表示鄰接表和關(guān)聯(lián)本體類之間的相似度,也采用名稱相似度計(jì)算方法,其計(jì)算公式取式(3)。

綜上,根據(jù)數(shù)據(jù)庫元數(shù)據(jù)和本體類的對(duì)應(yīng)關(guān)系,應(yīng)綜合考慮兩因素:第一,考慮表對(duì)應(yīng)類,首先計(jì)算表名與本體類概念名稱相似度;第二,考慮到與表的結(jié)構(gòu)有關(guān)系的元素是屬性(字段)和相關(guān)聯(lián)的表,計(jì)算表與本體類的結(jié)構(gòu)相似度。對(duì)數(shù)據(jù)庫表元數(shù)據(jù)的語義標(biāo)注,即尋求能描述表元數(shù)據(jù)語義信息的領(lǐng)域本體的類(概念),可能是一類也可能是多類。

結(jié)合上面討論,表與本體類的語義相似度應(yīng)取式(3)和式(4)兩者的加權(quán)平均值:

Sim(g,o)=Simname(g,o)×ω1+Simstruc(g,o)×ω2

(7)

式中:g表示表(表名或字段名),o表示本體實(shí)體,ω1和ω2表示權(quán)重,ω1+ω2=1根據(jù)實(shí)驗(yàn)或經(jīng)驗(yàn)得出ω1=0.3,ω2=0.7。

利用上述的公式,對(duì)數(shù)據(jù)庫表進(jìn)行自動(dòng)語義標(biāo)注的DMSAAS算法流程如下:

算法DMSAAS

輸入:數(shù)據(jù)庫表元數(shù)據(jù),領(lǐng)域本體庫

輸出:用于標(biāo)注的本體類

Step1抽取描述關(guān)系表的元數(shù)據(jù):表名,屬性名。

Step2計(jì)算出與本體庫中所有本體類的相似度,代入計(jì)算式(3)。

Step3通過計(jì)算表的屬性集合與類的屬性集合,表的鄰接表集合和類的相關(guān)類集合的相似度計(jì)算,通過式(4)得到表和本體類的結(jié)構(gòu)相似度。

Step4通過計(jì)算式(7),得到表的元數(shù)據(jù)與本體類的語義相似度算法,取最大值。

Step5如果最大值大于設(shè)定閾值,那么對(duì)應(yīng)的本體類知識(shí)作為該項(xiàng)元數(shù)據(jù)的語義標(biāo)注信息,標(biāo)注成功。

Step6如果最大值小于等于設(shè)定閾值,表示沒有與之匹配的本體,標(biāo)注失敗;創(chuàng)建新的本體加入本體庫,重新計(jì)算。

Step7輸出用于標(biāo)注的本體類。

Step8算法結(jié)束。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)設(shè)計(jì)

為驗(yàn)證本文提出的數(shù)據(jù)庫語義標(biāo)注算法的有效性,本小節(jié)在公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)是MapOnto[17]項(xiàng)目測試集合中的用例,該測試集合中共有14組數(shù)據(jù)集,我們從中挑選4組作為測試數(shù)據(jù)集[18]:

用例1:3SDB中關(guān)系數(shù)據(jù)庫模式3sdb1.sql.schema為基因表達(dá)分析生物樣本數(shù)據(jù)庫V1,本體文件3sdb1.owl為樣本數(shù)據(jù)庫V1的概念模型。

用例2:DBLP 中的關(guān)系數(shù)據(jù)庫模式dblp1.sql.schema來自于 DBLP 計(jì)算機(jī)科學(xué)參考文獻(xiàn)數(shù)據(jù)庫,本體Bibliographic-Data.owl來自斯坦福大學(xué) Ontolingua 服務(wù)器中有關(guān)參考文獻(xiàn)的本體。

用例3:AMALGAM中關(guān)系數(shù)據(jù)庫模式amalgam1.sql.schema為混合出版物關(guān)系數(shù)據(jù)庫,本體文件amalgam1.owl為混合出版物概念模型。

用例4:University 的關(guān)系數(shù)據(jù)庫模式utcs.sql.schema來自多倫多大學(xué)計(jì)算機(jī)系的學(xué)生與工作人員學(xué)術(shù)部門數(shù)據(jù)庫,本體univ-cs.owl來自于DAML本體庫中有關(guān)學(xué)術(shù)部門的本體。

相關(guān)統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 MapOnto測試數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)

實(shí)驗(yàn)?zāi)康模簷z測本文提出的語義標(biāo)注算法DMSAAS的有效性。

實(shí)驗(yàn)參照:對(duì)測試數(shù)據(jù)集人工標(biāo)注的結(jié)果。

評(píng)測參數(shù):通常是用精確度(precision)、召回率(recall)、F值度量(F-measure)來評(píng)價(jià)算法。

(8)

式中tp、fp、fn的含義如下:tp是發(fā)現(xiàn)正確的標(biāo)注;fp為發(fā)現(xiàn)的錯(cuò)誤標(biāo)注;fn為未發(fā)現(xiàn)的正確標(biāo)注。精確度表示經(jīng)算法標(biāo)注準(zhǔn)確表占實(shí)際所有被標(biāo)注表的比例。召回率表示經(jīng)算法標(biāo)注準(zhǔn)確表與應(yīng)該被正確標(biāo)注表的比例。其中,實(shí)際被標(biāo)注的表是經(jīng)本文算法標(biāo)注的結(jié)果,應(yīng)該被正確標(biāo)注的表是人工標(biāo)注的結(jié)果。

4.2 實(shí)驗(yàn)結(jié)果及分析

檢測本文提出的語義標(biāo)注算法DMSAAS在公共數(shù)據(jù)集上的語義標(biāo)注的結(jié)果,測試的標(biāo)準(zhǔn)映射結(jié)果由人工標(biāo)注給出,結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

由表2中結(jié)果可以看出,本文算法在數(shù)據(jù)集3DSB和AMALGAM取得了較好的效果,準(zhǔn)確率和查全率均達(dá)到100%。這是由于在這兩個(gè)數(shù)據(jù)集中數(shù)據(jù)庫中表的表名與本體中映射概念的概念名完全相同,且數(shù)據(jù)庫中表的非外鍵屬性名與本體中數(shù)值屬性相似度較高。如數(shù)據(jù)庫模式3sdb1.sql.schema中數(shù)據(jù)表Family_History中的ID屬性與本體文件3sdb1.owl中的histID,數(shù)據(jù)庫中的外鍵屬性與本體中的對(duì)象屬性在這兩組實(shí)例中存在此類情況,尤其在AMALGAM用例中數(shù)據(jù)庫具備7組外鍵表對(duì)應(yīng)兩張數(shù)據(jù)表之間的關(guān)系;在數(shù)據(jù)庫模式文件amalgam1.sql.schema中外鍵表MiscPublished用于表述表Misc與表Author間的關(guān)系,在本體文件amalgam1中同樣存在對(duì)象屬性miscPublished用于表述概念Misc與概念A(yù)uthor間的關(guān)系,由于在這兩組用例的名稱及結(jié)構(gòu)構(gòu)造較為類似,使得本文的方法得分較高,取得較好的映射效果。

對(duì)于DBLP用例,數(shù)據(jù)庫中表的名稱不能完全與本體中概念的名稱對(duì)應(yīng),如數(shù)據(jù)庫文件的editor表,在人工標(biāo)注情況下與本體中的Person對(duì)應(yīng)。由于本文的名稱相似度算法僅基于字符串的相似度,未考慮語義的相似度,因此無法得到一部分映射,同時(shí)由于部分映射未發(fā)現(xiàn),導(dǎo)致在結(jié)構(gòu)相似度計(jì)算時(shí),與該種表存在外鍵關(guān)系的表與本體中的概念映射可能發(fā)生一定的錯(cuò)誤,使得對(duì)該用例的映射結(jié)果較用例1和用例3的結(jié)果有一定程度下降。

對(duì)于University用例,在該用例的本體中存在多個(gè)概念名稱中存在相同的詞匯,如AdministrativeStaff、ClericalStaff與SystemsStaff等,且這些概念的屬性信息相似度較高,使得數(shù)據(jù)庫中相應(yīng)的表,如technicalStaff計(jì)算名稱和結(jié)構(gòu)相似度的得分超過閾值,從而被錯(cuò)誤的判斷為映射,使得本文方法在該用例中得分較低,僅為61.54%。同時(shí)由于數(shù)據(jù)庫與本體間存在部分名稱相似度不高的表名和本體,使得系統(tǒng)的召回率未取得用例1及用例3中的效果,召回率值為87.50%。

本文算法的優(yōu)勢在于:綜合表和類概念的名稱相似度與表和本體類關(guān)系結(jié)構(gòu)相似度,取其加權(quán)平均值。名稱的相似度計(jì)算是求解字符串編輯距離法和最長公共子序列法的加權(quán)平均值,結(jié)構(gòu)相似度計(jì)算是利用結(jié)構(gòu)相似度特征計(jì)算其值,無需迭代。該方法目的使標(biāo)注更加快速,結(jié)果更加準(zhǔn)確。但本文的算法在計(jì)算名稱相似度時(shí)并未考慮詞匯的語義信息,使得名稱相似度計(jì)算還未達(dá)到理想的效果,需要在下一步中進(jìn)行改進(jìn)。

5 結(jié) 語

本文在基于元數(shù)據(jù)信息組織的基礎(chǔ)上,研究關(guān)系型數(shù)據(jù)庫元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法,提出了基于結(jié)構(gòu)相似度的數(shù)據(jù)庫元數(shù)據(jù)語義標(biāo)注算法進(jìn)行元數(shù)據(jù)自動(dòng)語義標(biāo)注。該算法綜合考慮關(guān)系表與本體類名稱的相似度計(jì)算以及結(jié)構(gòu)相似度計(jì)算。其中結(jié)構(gòu)相似度細(xì)分為表所含列和類所含屬性之間的相似度,以及同它們各自連接的表和類之間的相似度。經(jīng)綜合計(jì)算后相似度值大于閾值的本體類用于語義標(biāo)注。因必須同時(shí)滿足名稱和結(jié)構(gòu)的相似度的本體概念和屬性才能用于語義標(biāo)注,標(biāo)注準(zhǔn)確性較高。另外該算法無需迭代計(jì)算,標(biāo)注效率高。

[1] 謝誠.基于自適應(yīng)本體的異構(gòu)數(shù)據(jù)語義集成框架研究[D].上海:上海交通大學(xué),2012.

[2] 何向武.大數(shù)據(jù)中RDF語義數(shù)據(jù)存儲(chǔ)優(yōu)化探討[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(4):38- 41,55.

[3] 劉海池.關(guān)系數(shù)據(jù)庫模式到本體映射的研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2011.

[4] 劉歆.領(lǐng)域數(shù)據(jù)集成及服務(wù)關(guān)鍵技術(shù)研究[D].北京:北京科技大學(xué),2016.

[5] Korotkiy M, Top J L. From relational data to RDFS models[C]//Web Engineering—4th International Conference, ICWE 2004, Munich, Germany, July 26- 30, 2004, Proceedings. DBLP, 2004:430- 434.

[6] 陳華均.DartGrid支持中醫(yī)藥信息化的語義網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)[M].浙江大學(xué)出版社,2011.

[7] 于小洋,云紅艷,賀英,等.利用語義技術(shù)實(shí)現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,12(1):79- 84.

[8] 李亢,李新明,劉東.面向數(shù)據(jù)語義集成的裝備領(lǐng)域本體構(gòu)建研究[J].系統(tǒng)仿真學(xué)報(bào),2015,22(5):1071- 1080.

[9] Pinkel C, Binnig C, Kharlamov E, et al. IncMap: pay as you go matching of relational schemata to OWL ontologies[C]//International Conference on Ontology Matching. CEUR-WS.org, 2014:37- 48.

[10] Dou D, Lependu P, Kim S, et al. Integrating Databases into the Semantic Web through an Ontology-Based Framework[C]//International Conference on Data Engineering Workshops. IEEE Computer Society, 2006:54.

[11] An Y, Borgida A, Mylopoulos J. Inferring Complex Semantic Mappings Between Relational Tables and Ontologies from Simple Correspondences[C]//On the Move to Meaningful Internet Systems 2005: CoopIS, DOA, and ODBASE, OTM Confederated International Conferences, CoopIS, DOA, and ODBASE 2005, Agia Napa, Cyprus, October 31-November 4, 2005, Proceedings. DBLP, 2005:1152- 1169.

[12] 賈賀,艾中良,劉忠麟.基于中間模型的異構(gòu)數(shù)據(jù)資源語義映射方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,19(3):133- 138.

[13] 袁柳,李戰(zhàn)懷,陳世亮.基于本體的DeepWeb數(shù)據(jù)標(biāo)注[J] .軟件學(xué)報(bào),2008,19(2):237- 245.

[14] 黎建輝,余懷化,閻保平.基于元數(shù)據(jù)的關(guān)系數(shù)據(jù)庫語義集成方法[J].計(jì)算機(jī)工程,2008,34(6):54- 56.

[15] 董國卿,童維勤.?dāng)?shù)據(jù)庫元數(shù)據(jù)的自動(dòng)語義標(biāo)注[J].計(jì)算機(jī)科學(xué),2012,39(11A):159- 162.

[16] 王紅,樊紅杰,孫康.面向領(lǐng)域本體非分類關(guān)系的語義相關(guān)度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(11):16- 20,32.

[17] http://www.cs.toronto.edu/semanticweb/maponto/.

[18] http://www.cs.toronto.edu/~yuana/research/maponto/schemaMapping/.

猜你喜歡
語義數(shù)據(jù)庫
語言與語義
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
數(shù)據(jù)庫
數(shù)據(jù)庫
認(rèn)知范疇模糊與語義模糊
“深+N季”組配的認(rèn)知語義分析
語義分析與漢俄副名組合
主站蜘蛛池模板: 日韩毛片在线播放| 欧美区一区| 男人的天堂久久精品激情| 国产精品久久精品| 色综合手机在线| 欧美区日韩区| 日本欧美视频在线观看| 亚洲国产91人成在线| 91精品啪在线观看国产60岁 | 久久无码av三级| 亚洲第一成网站| 热伊人99re久久精品最新地| 国产va在线观看免费| 国产成人喷潮在线观看| 亚洲男人天堂2018| 小说区 亚洲 自拍 另类| 香蕉综合在线视频91| 红杏AV在线无码| 久久性妇女精品免费| 精品无码视频在线观看| 欧美色综合网站| 国产精品福利在线观看无码卡| a级毛片免费看| 国产农村妇女精品一二区| 中文字幕亚洲乱码熟女1区2区| 99视频国产精品| 亚洲成aⅴ人在线观看| 欧美无专区| 国产一在线| 日韩AV无码一区| 国产成人综合欧美精品久久| 新SSS无码手机在线观看| 一级毛片免费不卡在线| 亚洲男人天堂久久| 色视频久久| 又大又硬又爽免费视频| 国产精品粉嫩| 国产噜噜噜视频在线观看| 永久免费av网站可以直接看的 | 亚洲一级毛片免费看| 狠狠色噜噜狠狠狠狠奇米777| 成人免费视频一区| 美女无遮挡拍拍拍免费视频| 国产精品一线天| 国产精品偷伦视频免费观看国产| 怡红院美国分院一区二区| 日日摸夜夜爽无码| 国产精品自拍合集| 99久久精品无码专区免费| 国产精品污污在线观看网站| 亚洲精品国产自在现线最新| 亚洲中文精品人人永久免费| 日本一本在线视频| 色综合成人| 老司机久久99久久精品播放| 亚洲精品大秀视频| 四虎综合网| 成人噜噜噜视频在线观看| 99视频全部免费| 久久成人18免费| 丝袜高跟美脚国产1区| 国产性爱网站| 91久草视频| 国产在线观看人成激情视频| 色噜噜在线观看| 久久久国产精品无码专区| 欧美97色| 国产精品乱偷免费视频| 久久青草免费91线频观看不卡| 亚洲AV人人澡人人双人| 超清无码熟妇人妻AV在线绿巨人| 日韩亚洲综合在线| 久久毛片免费基地| 无码精品国产dvd在线观看9久 | 亚洲不卡影院| www.91中文字幕| 国产va在线观看| 国产欧美视频在线| 国产精品浪潮Av| 色综合天天操| 国产特级毛片aaaaaa| 992tv国产人成在线观看|