999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于中文Deep Web的屬性相似度計算方法

2014-12-30 15:12:32高華玲
科技創新導報 2014年32期

高華玲

摘 ?要:隨著中文網站數量的日益龐大,中文的Deep Web信息集成已成為網絡信息領域的焦點。屬性相似度計算是Deep Web信息集成中模式匹配的關鍵一步。該文根據中文查詢接口中的屬性詞匯常常表現為1-3個詞語構成的短語的特點,提出一種更有效的基于《知網》的屬性相似度計算的方法,使屬性匹配的準確率得到大幅度提高。

關鍵詞:深網 ?模式匹配 ?相似度 ?屬性相似度

中圖分類號:TP301.6 文獻標識碼:A 文章編號:1674-098X(2014)11(b)-0058-02

A Calculation Method of Attribute Similarity based on Deep Web in Chinese

Gao Hualing

(Computer Public Education Department, SanYa University,SanYa,Hainan,572022,China)

Abstract:With the increasing amount of the Chinese website, Deep Web information integration in Chinese has become the focus of the net information field. The Attribute similarity computation is a key step of schema matching in Deep Web information integration. In this passage ,According to the characteristics of Chinese query interface attribute vocabulary which often shows of 1-3 words to form phrases, provides a more effective attribute similarity calculating method based on the “HowNet”, in this way, the attribute matching accuracy has been greatly improved.

Key Words:Deep Web; Schema matching; Similarity; Attribute similarity

1 問題的提出

隨著中文Deep Web信息數據量的急速增長,如何利用中文語言的特點做好Deep Web信息集成已成為這一領域的研究熱點。

Deep Web信息集成基本過程可分為三個模塊:第一,Deep web查詢接口的發現、分類和模式抽取等;第二,接口集成、查詢處理和數據庫選擇等;第三,查詢結果抽取和標注、合并、去重等。中國人民大學信息學院孟小峰教授對不確定的查詢接口的模式匹配[1]做了深入研究,提出了中文屬性相似度的定義和計算方法。

在中文Deep Web查詢接口中,常常涉及的屬性匹配是1~3個詞匯構成的中文短語之間的匹配,如果沿用英文接口的屬性匹配方法進行計算將出現明顯的誤差。例如文獻[2][3]的屬性相似度計算方法:對于兩個屬性A1和A2,如果A1可劃分成n個詞語:A11,A12,…,A1n,A2可劃分成m個詞語: A21,A22,…,A2n,則A1和A2的相似度是各個詞語的相似度之最大值,即

當兩個短語中都包含同一個詞語“城市”,屬性相似度為所有詞語相似度的最大值,得到“出發城市”和“到達城市”的相似度相等且等于1,即認為“出發城市”和“到達城市”兩個屬性短語語義一致,這樣無法對此類屬性短語做出準確的語義相似度計算結果。該文考慮到查詢接口屬性詞大多以1~3個詞語構成的短語形式出現,故提出了一種新的屬性語義相似度計算公式,大大提高了屬性相似度計算的準確度。

2 中文Deep Web查詢接口屬性相似度

2.1 方法的提出

義原和義項是HowNet中兩個最主要的概念。義原是用來描述一個義項的最小意義單位,一個詞語可以表達為幾個義項。本文計算兩個詞語之間的語義相似度,采用基于《知網》的中文詞匯語義相似度計算方法[4],這與文獻[2][3]是相同的。

定義1:詞語相似度:對于兩個漢語詞語,其中有m個義項:,有n個義項:,規定的相似度為各個義項相似度的最大值,也就是說:

定義2義項相似度:兩個義項相似度記為:,其中是可調節的參數,且有:。

定義3 義原相似度:兩個義原的相似度定義為兩個義原之間的語義距離:,其中表示兩個義原,d是在義原層次體系中的路徑長度,是一個正整數。是一個可調節的參數。

該文將屬性名的短語劃分成若干詞語,根據中文查詢接口中屬性的特征,提出這種屬性相似度計算方法,此方法源自于2005年的一種文本相似度算法[5],但略有不同。

定義4 屬性相似度:對于兩個屬性,可劃分為m個詞語:,可劃分為n個詞語:,令t=min(m,n),將各個詞語之間的相似度排列成矩陣,得到一個m×n階的矩陣:,記錄矩陣中相似度值最大的一個,同時刪除其值的所在行和列,然后再記錄剩余矩陣中的相似度最大值,刪除所在行和列,不斷重復上述操作,直到矩陣為空。按照這樣的方法取出的相似度的值為t個,規定的相似度為這t個詞語相似度的平均值,表示為:

2.2 實例驗證過程

將上述定義中的參數設定為常用參數,設定相似度閾值,其他參數取值為:,計算屬性值A(出發城市)與B(起飛地),以及A(出發城市)與C(目的地)的相似度。endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

第一步,計算詞語相似度。

屬性A“出發城市”,含兩個詞語:出發,城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

“出發”有一個義項:V start|開始,content=leave|離開

“城市”有一個義項:N place|地方,city|市

“起飛”有一個義項:V start|開始,content=fly|飛

“地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

“目的”有一個義項:1)N purpose|目的

對于文獻[1]中的示例“出發城市”和“起飛地”以及“出發城市”和“目的地”的屬性匹配得到了較為合理的計算結果。如表1、表2:

第二步,計算屬性相似度。

即屬性A(出發城市)和屬性B(起飛地)相似。,即屬性A(出發城市)與屬性C(目的地)不相似。

在對本文開始提出的“出發城市”和“到達城市”進行計算,結果如下:

,這里注意需要設定更為合理的閾值,一般要在0.5以上才能區分開具有相同詞語的短語,具體的閾值需要大量數據實驗總結出更為合理的值,這里使用閾值0.6即可區分“出發城市”和“到達城市”,這樣可以得到更為合理準確的計算結果。

3 結語

該文對中文Deep Web信息集成中模式匹配關鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

參考文獻

[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

(姜芳,孟小峰,賈琳琳,Deep Web集成服務的不確定模式匹配[J].計算機學報,2008,31(8):1412-1421.)

[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學,2008,35(3):61-64.

[3] Jin yu,Fan Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

(金玉,范學峰,基于《知網》的中文Deep Web模式匹配算法研究[J].計算機應用研究,2009,26(10):3750-3753)

[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

(劉群,李素建,基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002/

[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.endprint

主站蜘蛛池模板: 国产区在线观看视频| 伊人91视频| 久久国产高潮流白浆免费观看| 免费一级α片在线观看| 99精品伊人久久久大香线蕉 | 日韩小视频在线观看| 亚洲欧美色中文字幕| 一区二区影院| 一级高清毛片免费a级高清毛片| 国产成人a毛片在线| a毛片免费观看| 四虎永久免费地址| 免费无码AV片在线观看中文| 波多野结衣国产精品| 精品福利视频网| 91国内在线视频| 色135综合网| 美女扒开下面流白浆在线试听| 免费一级无码在线网站| 91精品久久久久久无码人妻| 88av在线看| 久久性妇女精品免费| 国产拍揄自揄精品视频网站| 欧美国产日韩在线播放| 国产免费一级精品视频| 潮喷在线无码白浆| 白浆视频在线观看| 九九精品在线观看| 日本高清有码人妻| 国产成+人+综合+亚洲欧美| 不卡午夜视频| 精品人妻一区无码视频| 国产又黄又硬又粗| 色综合天天娱乐综合网| 全部免费毛片免费播放| 午夜啪啪网| 欧美怡红院视频一区二区三区| 欧美日韩一区二区三区四区在线观看 | 国产成人免费观看在线视频| 天天综合网亚洲网站| 四虎亚洲精品| 欧美综合中文字幕久久| 国产香蕉国产精品偷在线观看| 欧美视频免费一区二区三区| 97se亚洲| 久久久91人妻无码精品蜜桃HD| 2022国产无码在线| 欧洲日本亚洲中文字幕| 欧美国产日韩在线| 欧美精品成人| 97青草最新免费精品视频| 狠狠干综合| 国产黄在线免费观看| 国产成人综合在线视频| 色老二精品视频在线观看| 日韩精品成人在线| 亚洲91精品视频| 性视频久久| 免费一级毛片完整版在线看| 九色在线观看视频| 国产日韩丝袜一二三区| 婷婷成人综合| 日韩AV无码一区| 国产又黄又硬又粗| 三级国产在线观看| 中国美女**毛片录像在线| 九九久久精品免费观看| 久久亚洲欧美综合| 国产成人夜色91| 欧美一级99在线观看国产| 97在线公开视频| 福利在线一区| 日本精品中文字幕在线不卡| 婷婷色丁香综合激情| 国产午夜一级毛片| 国产亚洲美日韩AV中文字幕无码成人| 玖玖免费视频在线观看| 2019年国产精品自拍不卡| 成年看免费观看视频拍拍| 欧美亚洲日韩中文| 国产视频一区二区在线观看| 天天色天天操综合网|