余 偉,陶 皖
(1.安徽工程大學(xué) 計算機(jī)與信息學(xué)院, 安徽 蕪湖 241000;2.安徽工程大學(xué) 計算機(jī)應(yīng)用技術(shù)重點實驗室, 安徽 蕪湖 241000)
?

一種基于領(lǐng)域本體的Deep Web實體信息提取的后處理方法
余 偉1,2,陶 皖1,2*
(1.安徽工程大學(xué) 計算機(jī)與信息學(xué)院, 安徽 蕪湖 241000;2.安徽工程大學(xué) 計算機(jī)應(yīng)用技術(shù)重點實驗室, 安徽 蕪湖 241000)
目前大多數(shù)的Deep Web信息抽取方法依賴Web頁面結(jié)構(gòu),忽略了頁面中包含的語義信息及關(guān)系,導(dǎo)致抽取結(jié)果不理想.針對此問題,提出一種基于領(lǐng)域本體的Deep Web實體信息后處理方法.首先,根據(jù)DOM樹節(jié)點相似性原理和VSM(Vector Space Model)的余弦值方法確定數(shù)據(jù)區(qū)域和實體區(qū)域;然后,依據(jù)數(shù)據(jù)區(qū)域和實體區(qū)域的概念和實例構(gòu)建領(lǐng)域本體,在領(lǐng)域本體的指導(dǎo)下對實體進(jìn)行語義標(biāo)注,將量化的標(biāo)注結(jié)果添加到實體與本體的相似度計算中;最后,提出基于領(lǐng)域本體的實體信息抽取算法,獲得實體中與本體相似度最大的子樹.選取天氣、圖書、購物網(wǎng)站數(shù)據(jù)進(jìn)行測試,實驗結(jié)果表明,與已有方法相比,所提方法的F值提高了3.6%~4.9%.該方法不僅能減少抽取信息時對Web頁面結(jié)構(gòu)的依賴,而且能充分利用頁面中的語義信息和關(guān)系,使得抽取結(jié)果更精確.
Deep Web;信息抽取;實體區(qū)域定位;領(lǐng)域本體;后處理
隨著Web數(shù)據(jù)庫的增長,Deep Web中隱藏著大量的信息.獲取Deep Web中信息的主要方式是通過向各個數(shù)據(jù)源提供的查詢接口發(fā)送查詢請求,獲得某些實體記錄如書籍、商品等,它們由相關(guān)屬性(作者、出版單位、價格等)信息來描述.返回的查詢結(jié)果往往是在HTML頁面進(jìn)行顯示的,其中不僅包含了實體數(shù)據(jù),還包含了廣告、導(dǎo)航等無關(guān)內(nèi)容.如何有效抽取Deep Web結(jié)果頁面中的實體信息,并將其進(jìn)行結(jié)構(gòu)化表示成為當(dāng)下研究的一個熱點.
按抽取原理和抽取方式的不同,Deep Web實體信息抽取方法可以分為基于自然語言處理的方法[1]、基于歸納學(xué)習(xí)的方法[2]、基于視覺特征的方法[3-4]、基于DOM樹的方法和基于本體的方法,其中基于DOM樹的抽取和基于本體的抽取方法使用較多[4-6].但是目前大多數(shù)方法抽取結(jié)果的準(zhǔn)確率太過依賴Web頁面的結(jié)構(gòu),在不同頁面的抽取效果存在一定的差異性.
針對研究中存在的不足,提出一種基于領(lǐng)域本體的Deep Web實體信息后處理方法.首先,利用DOM樹節(jié)點相似性原理和VSM的余弦值方法確定數(shù)據(jù)區(qū)域和實體區(qū)域;然后,依據(jù)數(shù)據(jù)區(qū)域和實體區(qū)域的概念和實例構(gòu)建領(lǐng)域本體,利用領(lǐng)域本體指導(dǎo)下的基于上下文距離和共現(xiàn)次數(shù)的語義標(biāo)注方法對實體進(jìn)行標(biāo)注;最后,依據(jù)標(biāo)注結(jié)果得到實體記錄中的各屬性與本體中屬性的關(guān)聯(lián)度,將其添加到實體記錄與本體的相似度計算中,在此基礎(chǔ)上提出一種實體信息抽取算法,利用該算法獲取實體記錄中與本體相似性最大的子樹.實驗結(jié)果也表明,與上述方法相比較,所提方法對頁面結(jié)構(gòu)的依賴性要低,且抽取性能更好.
通常來說,一個Deep Web查詢結(jié)果頁面包含有廣告、實體信息和導(dǎo)航等內(nèi)容,用戶感興趣的只是實體信息,因此需要準(zhǔn)確定位包含實體記錄的數(shù)據(jù)區(qū)域.而目前經(jīng)常采用兩種數(shù)據(jù)區(qū)域定位方法,一種是基于頁面結(jié)構(gòu)的方法,認(rèn)為數(shù)據(jù)區(qū)域一般都是集中在頁面的中心部位;另一種是基于空間比例的方法,認(rèn)為數(shù)據(jù)區(qū)域在整個頁面中的空間比例是最大的.這兩種方法都依賴于頁面的視覺效果,定位數(shù)據(jù)區(qū)域的準(zhǔn)確性隨著頁面結(jié)構(gòu)的變化而不斷浮動.為了更精準(zhǔn)地定位數(shù)據(jù)區(qū)域,采用基于DOM樹節(jié)點相似性原理去定位數(shù)據(jù)區(qū)域.
1.1 去除噪音節(jié)點
在定位頁面數(shù)據(jù)區(qū)域之前,先將查詢結(jié)果頁面解析成DOM樹結(jié)構(gòu),采用廣度優(yōu)先算法[7]去除DOM樹中包含的噪音節(jié)點,噪音去除示意圖如圖1所示.噪音節(jié)點的標(biāo)簽包括 --> 主站蜘蛛池模板: 美女国产在线| 国产18页| 色综合久久久久8天国| 国产精品女熟高潮视频| 91精品国产麻豆国产自产在线| 国产高清国内精品福利| 亚洲国产精品日韩av专区| 国内精品久久人妻无码大片高| 99久视频| 国产成人精品一区二区不卡| 亚洲av无码久久无遮挡| 国产又大又粗又猛又爽的视频| 国产精品美女免费视频大全| AV老司机AV天堂| 伊人激情综合网| av手机版在线播放| 少妇露出福利视频| 高清无码手机在线观看| 久精品色妇丰满人妻| 综合色亚洲| 99爱视频精品免视看| 思思热精品在线8| 久久久无码人妻精品无码| 精品一区二区久久久久网站| 色婷婷色丁香| 黄色国产在线| 一区二区三区四区日韩| 日韩在线2020专区| 制服丝袜 91视频| 久久熟女AV| 亚洲国产成熟视频在线多多| 免费不卡视频| 最新国语自产精品视频在| 国产精品蜜芽在线观看| 成年人午夜免费视频| 亚洲美女操| 国产麻豆永久视频| 国产视频自拍一区| 色网在线视频| 97超爽成人免费视频在线播放| 日本国产在线| 精品免费在线视频| 久久久精品无码一区二区三区| 四虎永久免费网站| 一区二区午夜| 在线免费亚洲无码视频| 日本中文字幕久久网站| 99er这里只有精品| 精品国产成人三级在线观看| 日韩区欧美区| 美女无遮挡拍拍拍免费视频| 少妇露出福利视频| 国产经典免费播放视频| 久久久精品无码一二三区| 久久精品人妻中文视频| 老司机精品99在线播放| 亚洲国产精品无码久久一线| 亚洲无线一二三四区男男| 亚洲日韩Av中文字幕无码| 国产情精品嫩草影院88av| 色婷婷在线播放| 麻豆精品视频在线原创| 无码福利日韩神码福利片| 欧美午夜理伦三级在线观看| 香蕉伊思人视频| 精品1区2区3区| 日韩精品一区二区深田咏美| 午夜国产小视频| 幺女国产一级毛片| 国产无码网站在线观看| 国产成人无码综合亚洲日韩不卡| 国产精品亚洲专区一区| 国产成熟女人性满足视频| 欧美色伊人| 日本一区二区三区精品视频| 亚洲视频色图| 四虎永久免费网站| 国产久草视频| 午夜视频免费试看| 成年A级毛片| 国产网站一区二区三区| 欧美怡红院视频一区二区三区|