999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻比的改進Jaccard系數文本相似度計算

2021-09-13 11:49:58中國人民大學信息學院
內江科技 2021年8期
關鍵詞:文本實驗

◇中國人民大學信息學院 謝 紅

基于詞頻比的改進Jaccard系數文本相似度計算,交集中詞的權重不是相同的,而是按照詞頻比確定權重。通過短文本實驗和長文本實驗,基于詞頻比的改進Jaccard相似度比傳統Jaccard相似度更加科學合理,適合法律法規、政策文件等說明性文本的相似度計算。

1 引言

文本相似度計算是指通過一定的策略比較兩個或多個實體(包括詞語、短文本、文檔)之間的相似程度,得到一個具體量化的相似度數值[1]。相似度數值用[0,1]閉區間的實數表示,數值越大,文本相似度越高。

文本相似度計算廣泛應用在信息檢索、文本分類、文本聚類、文本查重、問答系統、推薦系統等領域。

目前,計算文本相似度的方法通常有四類:基于字符串(String-Based)的方法、基于語料庫(Corpus-Based)的方法、基于知識庫(Knowledge-Based)的方法和混合方法[1-4]。其中,基于字符串的方法是從字符串匹配度出發,以字符串共現和重復程度為相似度的衡量標準[5]。在基于字符串的方法中,最基礎的是利用Jaccard系數計算文本相似度。

2 Jaccard系數

Jaccard系數用來比較樣本集合之間的相似性與差異性,是計算機領域中考察文本相似度時常用的一種方法[6]。

給定兩個集合A和B,當集合A與B不同時為空集時,即A與B的并集不是空集時,Jaccard系數定義為A與B交集的大小除以A與B并集的大小,即:

當集合A與B都是空集時,Jaccard系數定義為1。

Jaccard系數值越大,表明樣本之間相似度越高。

由于集合元素的互異性,Jaccard系數用于文本相似度計算時不考慮詞在文本中出現的次數,即不考慮詞的頻率,交集中每個詞的權重都是相同的,例如X=|A∩B|={x1,x2,…,xn},那么每個詞xi的 權重都是1/n,設詞xi在 文本1中的出現的頻率是f1,在文本2中的出現的頻率是f2,當f1f2或f1f2時,詞xi按照1/n權重參與文本計算相似度的計算顯然是不精確的,而采用基于詞頻比的改進Jaccard系數文本相似度計算更加合理、準確。

3 基于詞頻比的改進Jaccard系數

3.1 原理

基于詞頻比的改進Jaccard系數文本相似度計算的原理是,交集中詞的權重不是相同的,按照詞頻比確定權重,具體算法是:

設X=|A∩B|={x1,x2,…,xn},設詞xi在 文本1中的出現的頻率是f1,在文本2中的出現的頻率是f2,比較f1和f2的 大小,當f1≤f2時,詞xi的 權重是f1/ f2,否則權重是f2/ f1,將交集中所有詞x1,x2,…,xn的 權重求和,最后將交集權重和除以并集元素個數作為文本相似度。

基于詞頻比的改進Jaccard相似度顯然比Jaccard相似度更加合理,通常情況下,基于詞頻比的改進Jaccard相似度都會小于Jaccard相似度,只有在交集為空,或者所有交集中的詞頻都是“1”的情況下,兩者相似度相等。

3.2 步驟

基于詞頻比的改進Jaccard系數文本相似度計算的步驟主要有分詞、去停用詞、統計詞頻并按詞排序、計算交集中的詞頻比、計算相似度。

具體算法是:分詞前去掉空格和符號,只保留文字和數字,然后采用jieba分詞;去停用詞,去掉文本中語氣助詞、副詞、介詞、連詞等實際意義不大的詞,如“的”、“在”、“和”、“接著”等;建立字典并按詞排序,建立詞列表和詞頻列表;求出詞的交集和并集,統計交集個數和并集個數,只保留交集列表中的詞頻,因為非交集的詞在計算相似度時的值是零,所以不必保留,這樣可以有效減少列表長度和計算時間;將進行相似度比較的兩個文本的交集詞頻存放在兩個列表中,低詞頻存放在minList[i],高詞頻存放在maxList[i],計算對應詞頻比minList[i]/maxList[i],將對應詞頻比求和,即:

最后除以并集列表的長度;通過以上步驟求出基于詞頻比的改進Jaccard系數的文本相似度。

4 實驗與結果分析

實驗采用python 3.5編程實現,無論是短文本實驗,還是長文本實驗,基于詞頻比的改進Jaccard相似度都比傳統Jaccard相似度更加科學合理。

4.1 短文本實驗與結果分析

短文本相似度實驗可以直觀解釋基于詞頻比的改進Jaccard系數計算文本相似度的原理。參與計算的兩個短文本分別是短文本1:爸爸愛媽媽,媽媽愛爸爸。短文本2:我愛爸爸和媽媽。停用詞表為“和”。

程序運行結果如下:

讀入的文本1為:爸爸愛媽媽,媽媽愛爸爸。

分詞后的文本1為:爸爸 愛媽媽 媽媽 愛爸爸。

去停用詞后的文本1為:爸爸 愛媽媽 媽媽 愛 爸爸。

讀入的文本2為:我愛爸爸和媽媽。

分詞后的文本2為:我愛爸爸 和媽媽。

去停用詞后的文本2為:我愛爸爸 媽媽。

文本1的列表為:['爸爸','愛','媽媽','媽媽','愛','爸爸']。

文本1的字典排序為:[('媽媽',2),('愛',2),('爸爸',2)]。

文本1的詞為:['媽媽','愛','爸爸']。

文本1的詞頻為:[2,2,2]。

文本2的列表為:['我','愛','爸爸','媽媽']。

文本2的字典排序為:[('媽媽',1),('我',1),('愛',1),('爸爸',1)]。

文本2的詞為:['媽媽','我','愛','爸爸']。

文本2的詞頻為:[1,1,1,1]。

交集列表為:['媽媽','愛','爸爸']。

并集列表為:['媽媽','我','愛','爸爸']。

交集個數為:3;并集個數為:4;Jaccard相似度為:3/4=75.00%;交集低詞頻列表為:[1,1,1];交集高詞頻列表為:[2,2,2];詞頻比為:[0.5,0.5,0.5];基于詞頻比的改進Jaccard相似度為:1.5/ 4=37.50%。

實驗結果表明,基于詞頻比的改進Jaccard相似度明顯比Jaccard相似度更加精確。

4.2 長文本實驗與結果分析

長文本相似度實驗采用《中華人民共和國教育法》作為測試數據。法律法規頒布以后,為了與時俱進,常常會進行修正和修訂,比較相關法律法規的相似度有利于研究法律法規的延續性和差異性。《中華人民共和國教育法》于1995年頒布,2009年第一次修正,2015年第二次修正。經過3次相似度對比實驗,實驗結果如下:

2009年修正的教育法對比1995年頒布的教育法:交集詞個數為:806;并集詞個數為:814;Jaccard相似度為:99.02%;基于詞頻比的改進Jaccard相似度為:98.14%。

2015年修正的教育法對比1995年頒布的教育法:交集詞個數為:779;并集詞個數為:929;Jaccard相似度為:83.85%;基于詞頻比的改進Jaccard相似度為:77.67%。

2015年修正的教育法對比2009年修正的教育法:交集詞個數為:778;并集詞個數為:922;Jaccard相似度為:84.38%;基于詞頻比的改進Jaccard相似度為:78.82%。

實驗結果分析:1995頒布的教育法共有84條法條,2009修正的教育法共有83條法條,其中修改1條,刪除1條,2015修正的教育法共有86條法條,其中修改15條,增加3條。因為2009修正的教育法修改的法條非常少,2015修正的教育法修改的法條比較多,所以3次實驗結果完全符合實際情況。

5 結語

基于詞頻比的改進Jaccard系數計算文本相似度算法簡單,實現方便,運行高效,不需要語料庫和知識庫,適合法律法規、政策文件等說明性文本的比較。這種方法的不足之處是每個詞語都是獨立的,沒有考慮詞語之間的順序,也不包含語義信息,所以“我愛媽媽”和“媽媽愛我”的相似度是100%,“我愛媽媽”和“我愛母親”的相似度是50%,這時候的相似度計算是不準確的,需要采用其他方法進行比較。

猜你喜歡
文本實驗
記一次有趣的實驗
微型實驗里看“燃燒”
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 欧美视频免费一区二区三区| 亚洲成人一区二区三区| 香蕉网久久| 国产精品一老牛影视频| 欧美视频在线播放观看免费福利资源| 精品乱码久久久久久久| 毛片在线播放网址| 精品少妇人妻av无码久久 | 日韩成人免费网站| 久久久久青草线综合超碰| 美女视频黄频a免费高清不卡| 一区二区日韩国产精久久| 欧美一级黄色影院| 亚洲国产天堂久久综合| 麻豆精品在线播放| 亚洲男人的天堂网| 小蝌蚪亚洲精品国产| 精品少妇三级亚洲| 最新日韩AV网址在线观看| 伊人久久精品无码麻豆精品| 伊人久久婷婷五月综合97色| 国产成人综合日韩精品无码不卡| 欧美日韩理论| 亚洲精品老司机| 毛片网站免费在线观看| 黄色免费在线网址| 亚洲中文字幕97久久精品少妇| 玖玖免费视频在线观看| 日韩精品资源| 一级毛片免费观看不卡视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 91视频首页| 黄色一级视频欧美| 中文字幕亚洲电影| 色悠久久久久久久综合网伊人| 色婷婷在线影院| 国产成人在线无码免费视频| 青青草91视频| 色吊丝av中文字幕| 日日拍夜夜操| 欧美日韩v| 乱人伦中文视频在线观看免费| 亚洲AV人人澡人人双人| 四虎国产精品永久在线网址| 欧美成人看片一区二区三区| 成人91在线| 久久综合色视频| 亚洲无码日韩一区| 自拍偷拍欧美| 九九久久精品免费观看| 国产一区二区影院| 91精品啪在线观看国产60岁| 日本91在线| 亚洲人精品亚洲人成在线| 久久精品国产精品国产一区| 国产香蕉国产精品偷在线观看| 人人91人人澡人人妻人人爽| 青青操视频在线| 55夜色66夜色国产精品视频| 久久久久久高潮白浆| 亚洲无码视频图片| 国产欧美综合在线观看第七页| 亚洲国产精品VA在线看黑人| 久久久精品久久久久三级| 国产成人乱无码视频| 日日碰狠狠添天天爽| 99视频在线精品免费观看6| 免费毛片网站在线观看| 日韩高清在线观看不卡一区二区| 高潮毛片无遮挡高清视频播放| 日本道中文字幕久久一区| 亚洲一级毛片在线观播放| 国产第一福利影院| 国产永久在线观看| 国产在线无码av完整版在线观看| 精品自窥自偷在线看| 乱人伦99久久| 伊人精品视频免费在线| 日本高清视频在线www色| 亚洲最新在线| 国产在线视频自拍| 久久精品午夜视频|