999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于距離度量的實體識別算法

2014-04-29 23:47:36黎玲利高宏
智能計算機與應用 2014年6期

黎玲利 高宏

摘 要:傳統的實體識別中,往往是利用字符串相似性函數來計算元組對在每個屬性值上的相似度從而來判斷它們總的相似性(例如,元組對的相似性等于每個屬性值上的相似度的加權求和)。然而這一類相似性測度不能夠反映屬性值內部不同的詞在元組對相似性計算中的不同重要性。由于不能區分哪些詞對元組對匹配更重要,就導致仍然存在某些匹配的元組相似性不高,而不匹配的元組相似性高的情況,故很難將匹配元組對和不匹配元組對有效區分開。為了解決這個問題,我們提出了以詞為特征的距離度量函數,設計了基于詞特征的距離度量學習算法,和基于距離度量的實體識別算法。擴展性實驗對我們所提出的算法的有效性進行了驗證。

關鍵詞:實體識別;相似性測度;距離度量;度量學習

中圖分類號:TP704.25

Abstract: Traditional entity resolution methods always use string-based similarity functions to compute the similarities of attribute-values between records and then compute the similarity between records based on these similarities, i.e., the similarity between records is the weighted sum of the similarities of all the attribute-values. However, these metrics cannot represent the importance of each word in attribute-values. Since they cannot distinguish which word is more important for record matching, there might be some matching records have low similarities while some non-matching records have high similarities. Therefore it is difficult to distinguish the matchings and the non-matchings effectively. To address this problem, the paper presents a distance metric based on word-feature, and proposes a distance metric learning algorithm and an entity resolution method based on the metric. Extensive experiments have verified the effectiveness of the proposed algorithms.

Keywords: Entity Resolution; Similarity Metrics; Distance Metric; Metric Learning

0 引 言

實體識別即是識別數據集中描述同一真實實體的元組,且是數據清洗領域的一個重要問題。在很多應用中,由于數據錯誤,表達不一致等原因,使得在不同數據源的指代同一實體的元組在同一屬性上的描述存在不同,常常發生一些指代相同實體的元組對的相似度很低,而一些指代不同實體的元組對的相似性則很高的情況。如何定義元組之間的相似性測度即是識別實體的關鍵技術。傳統的實體識別中,往往是利用字符串相似性函數來計算元組對在每個屬性值上的相似度,以此來判斷元組對的總體相似性。

在實際應用中,由于字符串中詞和詞的相關性,以及不同詞所表達的實體特征信息的重要性不同,常常存在許多匹配的元組對的相似度很低,而不匹配的元組對的相似度卻很高的情況,故利用傳統的相似性度量函數很難將匹配元組對和不匹配元組對做到有效的區分。

為了解決這些問題,相應考察后得出如下結果:

(1) 字符串中詞和詞之間具有相關性。例如,一個品牌和商品種類往往是相關的,例如iphone6是apple公司推出的產品,因此iphone6和apple就是相關的。還有,一些商品描述則決定了其歸屬類型,例如 “quickbooks”是一種軟件,即可知道,“quickbooks”和“software”也是相關的。因此,對字符串的相似度計算應該考慮詞和詞的相似性。

(2) 字符串中不同的詞所具有的重要性并不相同。例如對于一件商品來說,商品號可以用來將該實體和其他所有實體進行明確的區分;商品的品牌也可以用來區分與其品牌不同的實體,類似的,商品顏色則可以用來區別與其顏色不同的實體,而與其相反的描述是,一些常見的詞,例如“in”,“for”卻不能有效地用于識別實體。

研究詞之間的相關性以及不同詞在實體識別中的重要性可有助于提升實體識別的精確度。而以此為契機,提出了實體識別上以詞作為特征的距離度量。這即引發了如下課題方向的確立:

(1) 如何避免詞之間的相關性對元組相似性計算的影響以及如何發現詞在實體識別中的重要性?

(2) 如何定義適合于元組對上的實體識別和元組集合上的實體識別的距離度量函數以及如何學習度量?

本文旨在解決上述問題,且以詞作為特征,提出了實體識別的度量學習算法。本文的后續內容結構安排如下:第1節提出了基于詞特征的距離度量和度量學習的框架;第2節提出了基于距離度量的實體識別方法;第3節通過模擬實驗驗證了文中所提算法的有效性;第4節是相關工作,最后是總結。

1 實體識別的度量學習算法

在描述算法之前,先給出下列相關定義。

定義1 實體識別 給定一個元組集合U,實體識別輸出U的一個劃分R,R中在同一類中的元組被判定為指代同一實體,在不同類中的元組被判定為指代不同實體。4 相關工作

最初,實體識別問題是由文獻[1]首度提出,并由于其重要性,一直以來即吸引了多個領域研究人員的廣泛關注。文獻[2-3]則是對其早期研究工作的綜述。下面本文將介紹幾種傳統的相似性測度。

首先,基于編輯距離的近似字符串比較函數使得將一個字符串轉化成另一個字符串所需要的編輯操作個數能夠達到最少[4]。兩個字符串之間的轉化所需要的最小操作個數即可看作兩個字符串的距離。

其次,基于q-gram的近似字符串比較的基本思想是將輸入的兩個字符串利用滑動窗口的方法分解為長度為q的子串,而后計算有多少q-gram出現在兩個輸入字符串中。q-gram也可稱為n-gram[5]。

再次,由Jaro和Winkler所提出的近似字符串比較函數[6-7]專門用于人名的比較。Jaro比較函數是將編輯距離和基于q-gram的比較函數相結合而獲得實現的。

還有,Monge-Elkan相似性測度[8-9]則是主要用于計算包含多個詞的字符的相似度。這種字符串往往出現在商業名字,地址或者沒有標準化的人名中。該方法的基本思想是首先將由空格符所分隔的詞從兩個輸入的字符串中抽取出來,再利用第二個相似性函數找到兩個字符串所對應的詞集合的最優匹配。

最后,Cohen[10]也提出了一個名為WHIRL的系統,通過將信息檢索中的cosine相似性測度和tf.idf權重模式相結合來計算兩個字符串的相似度。

5 結束語

本文首次以詞作為描述實體的特征,針對實體識別問題提出了一種度量學習算法。為了保證結果的有效性,又分別定義了特征向量和樣本距離函數。實驗驗證了本文所提出的實體識別度量學習算法的有效性。

參考文獻:

[1] H. Newcombe, J. Kennedy, S. Axford, et al. Automatic Linkage of Vital Records[M]. 1959.

[2] ELMAGARMID A K, IPEROTIS P G, VERYKIOS V S. Duplicate record detection: A survey[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(1): 1-16.

[3] KOUDAS N , SARAWAGI S, SRIVASTAVA D. Record linkage: Similarity measures and algorithms[C]//Proceedings of the 2006 ACM SIGMOD international conference on Management of data. 2006:802–803.

[4] NAVARRO G. A guided tour to approximate String Matching[J]. ACM computing surveys (CSUR), 2001, 33(1):31–88.

[5] KUKICH K. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4):377-439.

[6] JARO M A. Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida[J]. Journal of the American Statistical Association, 1989, 84(406):414–420.

[7] WINKLER W E. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-sunter Model of Record Linkage.[J]. 1990.

[8] MONGE A E, ELKAN C, et al. The field matching problem: algorithms and applications[C]//KDD, 1996:267–270.

[9] MOREAU E, YVON F, CAPPE O. Robust similarity measures for Named Entities Matching[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. 2008:593–600.

[10] COHEN W W. Integration of heterogeneous databases without Common Domains using queries based on textual similarity[C]//ACM SIGMOD Record, 1998, 27:201–212.

主站蜘蛛池模板: 精品人妻一区无码视频| 日韩国产亚洲一区二区在线观看| 午夜精品久久久久久久无码软件| 亚洲第一国产综合| 麻豆精品在线视频| 国产精品熟女亚洲AV麻豆| 欧美中文字幕在线播放| 日本国产一区在线观看| 精品福利一区二区免费视频| 国产美女免费| 亚洲一级毛片免费看| 国产99视频精品免费观看9e| 青青青伊人色综合久久| 国产在线97| 国产爽妇精品| 人人91人人澡人人妻人人爽| 亚洲高清国产拍精品26u| 国产精品hd在线播放| 亚洲国产AV无码综合原创| 国产97视频在线| 国产新AV天堂| 国产成人盗摄精品| 日韩欧美成人高清在线观看| 免费啪啪网址| 呦视频在线一区二区三区| 亚洲一道AV无码午夜福利| 伊伊人成亚洲综合人网7777| 尤物精品视频一区二区三区| 国产精品无码制服丝袜| 91福利国产成人精品导航| 国产午夜不卡| 免费国产好深啊好涨好硬视频| 精品福利网| 五月婷婷精品| 国产成人精品高清不卡在线| 精品国产福利在线| 国产精品30p| 成人另类稀缺在线观看| 国产成人高清亚洲一区久久| 国内精品九九久久久精品| 精品视频福利| a毛片在线| 久久精品国产在热久久2019| 九色视频一区| 国产成人欧美| 在线观看国产精品一区| 国产凹凸一区在线观看视频| 看看一级毛片| 久久久久亚洲AV成人人电影软件 | 蜜桃臀无码内射一区二区三区| 伊人久久福利中文字幕| 欧美亚洲另类在线观看| 亚瑟天堂久久一区二区影院| 国产第一页免费浮力影院| 欧美在线伊人| 成人韩免费网站| 五月激情婷婷综合| 再看日本中文字幕在线观看| 国产成人a在线观看视频| 国产成人一区免费观看| 精品无码一区二区三区在线视频| 欧美日韩另类国产| 欧美激情第一欧美在线| 中文字幕无码制服中字| 国产白浆视频| 日韩区欧美国产区在线观看| 青青草国产一区二区三区| 亚洲区一区| 在线看免费无码av天堂的| 91在线视频福利| 亚洲资源站av无码网址| 欧美成人看片一区二区三区| 999国内精品久久免费视频| 夜夜爽免费视频| 欧美一级色视频| 欧美无专区| 国产一在线| 国产自在线播放| 欧美精品影院| yjizz国产在线视频网| 丰满的少妇人妻无码区| AV不卡在线永久免费观看|