余 偉,陶 皖
(1.安徽工程大學(xué) 計算機(jī)與信息學(xué)院, 安徽 蕪湖 241000;2.安徽工程大學(xué) 計算機(jī)應(yīng)用技術(shù)重點實驗室, 安徽 蕪湖 241000)
?

一種基于領(lǐng)域本體的Deep Web實體信息提取的后處理方法
余 偉1,2,陶 皖1,2*
(1.安徽工程大學(xué) 計算機(jī)與信息學(xué)院, 安徽 蕪湖 241000;2.安徽工程大學(xué) 計算機(jī)應(yīng)用技術(shù)重點實驗室, 安徽 蕪湖 241000)
目前大多數(shù)的Deep Web信息抽取方法依賴Web頁面結(jié)構(gòu),忽略了頁面中包含的語義信息及關(guān)系,導(dǎo)致抽取結(jié)果不理想.針對此問題,提出一種基于領(lǐng)域本體的Deep Web實體信息后處理方法.首先,根據(jù)DOM樹節(jié)點相似性原理和VSM(Vector Space Model)的余弦值方法確定數(shù)據(jù)區(qū)域和實體區(qū)域;然后,依據(jù)數(shù)據(jù)區(qū)域和實體區(qū)域的概念和實例構(gòu)建領(lǐng)域本體,在領(lǐng)域本體的指導(dǎo)下對實體進(jìn)行語義標(biāo)注,將量化的標(biāo)注結(jié)果添加到實體與本體的相似度計算中;最后,提出基于領(lǐng)域本體的實體信息抽取算法,獲得實體中與本體相似度最大的子樹.選取天氣、圖書、購物網(wǎng)站數(shù)據(jù)進(jìn)行測試,實驗結(jié)果表明,與已有方法相比,所提方法的F值提高了3.6%~4.9%.該方法不僅能減少抽取信息時對Web頁面結(jié)構(gòu)的依賴,而且能充分利用頁面中的語義信息和關(guān)系,使得抽取結(jié)果更精確.
Deep Web;信息抽取;實體區(qū)域定位;領(lǐng)域本體;后處理
隨著Web數(shù)據(jù)庫的增長,Deep Web中隱藏著大量的信息.獲取Deep Web中信息的主要方式是通過向各個數(shù)據(jù)源提供的查詢接口發(fā)送查詢請求,獲得某些實體記錄如書籍、商品等,它們由相關(guān)屬性(作者、出版單位、價格等)信息來描述.返回的查詢結(jié)果往往是在HTML頁面進(jìn)行顯示的,其中不僅包含了實體數(shù)據(jù),還包含了廣告、導(dǎo)航等無關(guān)內(nèi)容.如何有效抽取Deep Web結(jié)果頁面中的實體信息,并將其進(jìn)行結(jié)構(gòu)化表示成為當(dāng)下研究的一個熱點.
按抽取原理和抽取方式的不同,Deep Web實體信息抽取方法可以分為基于自然語言處理的方法[1]、基于歸納學(xué)習(xí)的方法[2]、基于視覺特征的方法[3-4]、基于DOM樹的方法和基于本體的方法,其中基于DOM樹的抽取和基于本體的抽取方法使用較多[4-6].但是目前大多數(shù)方法抽取結(jié)果的準(zhǔn)確率太過依賴Web頁面的結(jié)構(gòu),在不同頁面的抽取效果存在一定的差異性.
針對研究中存在的不足,提出一種基于領(lǐng)域本體的Deep Web實體信息后處理方法.首先,利用DOM樹節(jié)點相似性原理和VSM的余弦值方法確定數(shù)據(jù)區(qū)域和實體區(qū)域;然后,依據(jù)數(shù)據(jù)區(qū)域和實體區(qū)域的概念和實例構(gòu)建領(lǐng)域本體,利用領(lǐng)域本體指導(dǎo)下的基于上下文距離和共現(xiàn)次數(shù)的語義標(biāo)注方法對實體進(jìn)行標(biāo)注;最后,依據(jù)標(biāo)注結(jié)果得到實體記錄中的各屬性與本體中屬性的關(guān)聯(lián)度,將其添加到實體記錄與本體的相似度計算中,在此基礎(chǔ)上提出一種實體信息抽取算法,利用該算法獲取實體記錄中與本體相似性最大的子樹.實驗結(jié)果也表明,與上述方法相比較,所提方法對頁面結(jié)構(gòu)的依賴性要低,且抽取性能更好.
通常來說,一個Deep Web查詢結(jié)果頁面包含有廣告、實體信息和導(dǎo)航等內(nèi)容,用戶感興趣的只是實體信息,因此需要準(zhǔn)確定位包含實體記錄的數(shù)據(jù)區(qū)域.而目前經(jīng)常采用兩種數(shù)據(jù)區(qū)域定位方法,一種是基于頁面結(jié)構(gòu)的方法,認(rèn)為數(shù)據(jù)區(qū)域一般都是集中在頁面的中心部位;另一種是基于空間比例的方法,認(rèn)為數(shù)據(jù)區(qū)域在整個頁面中的空間比例是最大的.這兩種方法都依賴于頁面的視覺效果,定位數(shù)據(jù)區(qū)域的準(zhǔn)確性隨著頁面結(jié)構(gòu)的變化而不斷浮動.為了更精準(zhǔn)地定位數(shù)據(jù)區(qū)域,采用基于DOM樹節(jié)點相似性原理去定位數(shù)據(jù)區(qū)域.
1.1 去除噪音節(jié)點
在定位頁面數(shù)據(jù)區(qū)域之前,先將查詢結(jié)果頁面解析成DOM樹結(jié)構(gòu),采用廣度優(yōu)先算法[7]去除DOM樹中包含的噪音節(jié)點,噪音去除示意圖如圖1所示.噪音節(jié)點的標(biāo)簽包括 --> 主站蜘蛛池模板: 999国内精品视频免费| 国产美女在线免费观看| 国产成人久久综合777777麻豆| 在线亚洲精品自拍| 国产精品自在自线免费观看| 三级毛片在线播放| 干中文字幕| 狠狠做深爱婷婷久久一区| 精品无码人妻一区二区| av在线无码浏览| 国产激情无码一区二区APP| 亚洲综合精品香蕉久久网| 精品国产毛片| 国产精品久久久久久搜索| 国产成人精品一区二区| 91精品在线视频观看| 亚洲视频免费在线看| 免费一级无码在线网站| 91精品福利自产拍在线观看| 欧美日韩国产成人高清视频| 欧美综合区自拍亚洲综合绿色 | 精品在线免费播放| jizz在线观看| 国产精品手机在线播放| 国产制服丝袜无码视频| 红杏AV在线无码| 国产大片喷水在线在线视频| 久久人人妻人人爽人人卡片av| 国产免费网址| 日本国产精品| 白浆视频在线观看| 国产成人h在线观看网站站| 欧美笫一页| 欧美一级黄色影院| 日韩欧美国产另类| 日本一区中文字幕最新在线| 国产91成人| 国产激情无码一区二区免费| 中文国产成人精品久久| 日韩精品成人网页视频在线| 成人午夜亚洲影视在线观看| 亚洲中文字幕在线观看| 2020国产精品视频| 亚洲一区二区三区麻豆| 在线观看免费AV网| 国禁国产you女视频网站| 一级毛片在线免费视频| 久久精品亚洲专区| 久久精品亚洲热综合一区二区| 中文字幕 91| 综合色在线| 国产jizzjizz视频| 亚洲欧美不卡中文字幕| 97se亚洲综合不卡| 欧美视频在线观看第一页| 亚洲免费福利视频| 亚洲三级电影在线播放 | 国产三级视频网站| 亚洲第一成年网| 亚洲乱码视频| 99久久人妻精品免费二区| 精品91在线| 久久精品无码一区二区国产区| 婷婷开心中文字幕| 片在线无码观看| 国产大片喷水在线在线视频| 国产成人免费| 精品成人一区二区| 国产剧情国内精品原创| 99热这里只有精品国产99| 色老二精品视频在线观看| 性视频久久| 亚洲国产成熟视频在线多多 | 天天综合网站| 国产网站一区二区三区| 亚洲品质国产精品无码| 亚洲中文字幕在线观看| 国产视频自拍一区| 国产国产人在线成免费视频狼人色| 精品无码专区亚洲| 亚洲最大福利网站| av在线无码浏览|