999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內容相似度的相關性評分算法對比分析研究

2022-11-11 09:35:42鮑治國王海安胡士偉馬西鋒
電子測試 2022年19期
關鍵詞:影響

鮑治國,王海安,胡士偉,馬西鋒

(河南財經政法大學計算機與信息工程學院,河南鄭州,450046)

0 引言

近年來隨著社會信息化的不斷發展,許多問題都可以在網絡上找到答案,所以人們對檢索內容質量的要求也隨之提高。并且隨著人們審美能力的逐步提高,對個性化的追求也越來越強烈。智能化推薦[1,2]在這種背景下應運而生,而智能化推薦又依賴于機器對人類自然語言的處理。在自然語言處理中,經常會涉及到如何度量兩個文本的相似度的問題。諸如在對話系統和信息檢索系統等問題中,如何衡量語素或句子之間的相關性,就成了問題所在。文本相似度的評估方法有基于關鍵詞匹配的傳統方法,如N-gram相似度[3,4]、文本映射到向量空間,再利用余弦相似度等方法。還有深度學習的方式[5,6],如:基于用戶點擊數據的深度學習語義匹配模型,基于卷積神經網絡的ConvNet等。

本文將對基于向量空間的TF-IDF算法[7-9]進行介紹,并引出對TF-IDF算法進行改進的基于概率模型的BM25算法[10-12]。TF-IDF是Term Frequency-Inverse Document Frequency的英文縮寫。BM是Best Match最佳匹配的縮寫,25指的是第25次算法迭代。

1 問題假設

(1)在使用TF-IDF算法的文章中詞語的重要性與詞語在文章中出現的位置不相關。

(2)對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少。

(3)文檔中詞的出現是彼此獨立的,不存在依賴出現。

表1 符號說明

文檔集合中所有文檔的數目n(qi) 文檔集合中包含語素qi的文檔數目D文檔集合d文檔集合中某一單個文檔Wi 對應語素qi的相關權重fi 語素qi在某個文檔中出現的頻率k1, k2,b 參數dl 對應文檔d的長度avgdl 文檔集合中所有文檔的平均長度N

2 TF-IDF算法

2.1 算法介紹

TF-IDF算法是一種基于對查詢語句中語素的詞頻進行統計,并將結果用于評估該詞或語素對一個文檔集合中某個文檔的相關性的算法。他的思想在于隨著該詞或語素在某個文檔中出現的頻率的增加而提高權重(公式(2)),隨著它在詞庫中出現頻率的增加而減小權重(公式(3))。也即一個詞在詞庫中出現的次數越多,說明這個詞語越普遍,因此它的區分度和作用就不大。比如:文檔庫中的文檔中都有“權重”一詞,那么以該詞為關鍵詞進行相關性評分就不太合適了。而一個詞在單個文檔中出現的次數越多,說明該詞是文章的關鍵詞的可能性越大,所以應提高相應的權重。

在公式(2)中,fi表示語素qi在某個文檔中出現的頻率,dl表示在該文檔中的總詞數。

IDF意為逆向文檔頻率,某一特定詞語的IDF,可以由文本庫中總的文件數目與包含該詞的文件數目相除,再將得到的商取對數,它的作用是為語素加上相應的權重,如公式(3)所示。若包含語素q 的文件數越少,那么IDF就越大,說明了該語素的區分力度較大。所以當某一個語素在少數文本中大量出現時,它的權重會隨之變大。反之當某一個語素在大量文本中出現時他的權重就下降。

在公式(3)中N為語料庫中文檔的數量,n (qi)表示包含該詞的文檔數目。此外TF與IDF之間,沒有必然聯系,因為TF表示語素對于單個文檔的評分,而IDF是基于整個文檔集合中的語素對其進行加權。由于TF-IDF算法將詞頻作為一個重要的標準,這就出現了一個問題,即語素中的無關語素會對結果進行干擾,比如助動詞和介詞之類的。因此,我們必須做停用詞的操作,將一些語素中的助詞和介詞去掉。此外還有詞頻飽和度問題(詞頻沒有上限)也沒進行解決,實際上當一篇文章中的一個關鍵詞出現20次左右時他的評分應該不再增長,否則詞頻得分的無限擴張會影響評分的準確性。

2.2 TF-IDF算法的優點和不足

TTF-IDF算法作為傳統詞頻統計方法,它是一種簡單,直接結果與實際情況相符的算法,能夠基本滿足使用。不足之處如下:

(1)該算法對于文檔集合中含有關鍵詞的文檔進行評分時才能夠有精確的結果。例如在詩詞推薦中,由于存在大量抽象寫意性描寫和同義詞替換。如考慮太陽與日的關系時,TF-IDF往往是不盡人意的。

(2)僅以詞頻作為關鍵詞重要性的指示標準,對于一些文檔而言可行,但對于文檔中關鍵詞出現次數較少的的文章,無法較好地得到合適的評分。按照傳統的TF-IDF算法,往往一些生僻詞的評分會比較高,因此生僻詞常常被作為關鍵詞而被賦予極大的權重。

(3)在計算詞頻得分時,并未考慮到文章整體長度對于詞頻的影響,比如長篇文檔中出現一百個語素詞和短篇文檔中出現一百個語素詞是不一樣的。因此,算法對于長文章而言并不友好。

(4)存在詞頻飽和度問題。假設在兩份描述同一件事物的文檔中,關鍵詞也一樣,但是由于一份文檔中出現關鍵詞次數過多而導致兩份文檔的評分相差幾倍明顯是不合理的,詞頻的決定因素應該被加以限制。

3 改進型算法BM25

3.1 算法介紹

BM25算法(基于概率模型)也作為一種搜索相關性評分,并對相關性得分進行加權求和的算法。他是在TF-IDF算法的基礎上,通過加入k1,k2,b等控制參數來解決詞頻飽和度問題以及文本長度歸一化的問題。他需要對相關搜索語句進行分詞處理,然后對每個分詞結果和文檔進行相關性處理得到評分,然后將語素qi的相關性評分進行加權求和。

從公式(6)中可以看出k1的作用在于提高詞頻在相關性評分中的作用,可以看出k1越大,那么詞頻的重要性越高,也就是說它控制著詞頻飽和度的上升速度。k2為語素qi在搜索語句Q中出現的次數,因為在絕大多數情況下語素qi在Q中只出現一次,所以公式可以簡化為:

公式中dl表示文檔d的長度,avgdl表示語料庫中的文檔的平均長度。b的作用從公式中分析出是為了控制文章歸一化的程度,b 等于零時會禁用歸一化,參數b控制著文檔長度對相關性影響的大小。b越大,文檔長度對相關性評分的影響就越大,b 越小那么文檔長度對于語素的評分影響就越小。因為文檔越長,那么含關鍵詞的可能性就越大,所以在文檔中語素qi出現同樣次數的情況下還應考慮文本歸一化的程度。因此在使用中,應多次通過對不同長度的文檔進行測驗,得到合適的參數大小。從公式的改進可以看出BM25算法很好的解決了詞頻飽和的問題和文檔歸一劃問題。

最終的評分公式如下(9)所示:

然后觀察文檔長度對于兩個算法精確度的影響。首先來看TF-IDF算法在文檔長度歸一化方面的表現,如圖1所示。隨著文檔的長度越來越長,算法的評分波動越來越大,說明文檔的長度對于算法的得分情況影響很大,文檔的長度直接影響了文檔的相關性評分,這會導致算法在評估時的精確度下降,使得算法的表現很差。BM25算法的歸一化表現,如圖2所示。文檔長度在[500,1000]的區間內,文檔的長度對于得分基本沒什么影響,所以文檔長度對于BM25算法而言影響并不大,BM25算法的表現在實際情況中良好。

圖1 TF-IDF算法文檔長度對評分的影響

圖2 BM25算法文檔長度對評分的影響

關于詞頻飽和度問題的比較,由于對文檔的得分評估中應該設定文檔的詞頻上限,BM25在TF-IDF上增加了幾個可調節的參數,使得它在應用上更加靈活和強大,具有較高的實用性。詞頻對得分的影響可以控制在一定范圍內,而不是像TF-IDF那樣持續增大。如圖3和圖4之間的比較,可以得到對于TF-IDF算法而言,詞頻對于評分的影響是線性增長的,詞頻會無限制的影響得分,而BM25算法中詞頻對得分的影響會收斂,所以詞頻到達一定程度后就不再對評分有過大的影響,也就解決了詞頻飽和度問題,這是BM25算法較于TF算法精準的原因。

圖3 TF-IDF算法詞頻對評分的影響

圖4 BM25算法詞頻對評分的影響

3.2 BM25算法的優點

BM25算法在TF-IDF的基礎上提供了參數來控制詞頻飽和度和文章歸一化,從而使得算法在進行相關性評分時更加合理。而且BM25算法由兩部分組成,分別是語素分析方法、語素權重判別法,還有語素和文檔的相關性判斷方法。他的方法組合并不是固定的,具有很好的靈活性。因此可以通過使用不同的搜索和評判相關性的方法進行組合。在實際應用中可以根據相應的參數來靈活地調節算法。

3.3 BM25的應用

由于BM25算法并不能理解語意,本質上它只是一種基于關鍵詞匹配的相關性分析算法,所以目前對于BM25的算法應用依賴于已有的特征項,必須在所推薦的數據結構對象上加入標簽,或根據文本信息與標簽的相似度分析來實現。可以根據用戶點擊或收藏內容的標簽,結合他們被點擊或者搜索的次數加以分析,進而達到智能化推薦。目前絕大多數具有內容推送功能的應用在早期的時候,比如淘寶、小紅書、抖音、微博等,將對用戶所瀏覽,收藏或多次點擊的商品或短視頻等元素進行標簽化,基于相關特征進行提權結合,將標簽作為該商品的內容特征,同時對用戶購買的商品也做特征提取。通過上述方式來為用戶推薦更多內容。以上是基于內容的歷史推薦,他可以推薦用戶感興趣的商品,但卻無法跳出標簽的限制。也就是說,無法為用戶提供新的感興趣的產品,因此還需要與協同過濾的推薦系統相結合,通過相似用戶集群和相似的商品進行推薦,或者利用word2vec這種已經訓練完善的開源訓練向量數據集,來進行一些語義上的分析與擴展,補足BM25局限于關鍵詞而在語義分析上不足的問題,提高語義的泛化性進而達到更完善的推薦。Word2vec的相似詞語的效果[13],如表2所示。

表2 Word2vec同義詞聯想

4 結論

針對自然語言處理中文本相似度評估問題,本文分析了TF-IDF算法和BM25算法,分別介紹了這兩種算法的基本原理。之后分析了TF-IDF算法的文檔歸一化問題、詞頻飽和度問題,并引出了他的改進方法BM25算法。接著通過實驗分析這兩種算法的實際表現效果,對于TF-IDF算法而言,詞頻對于評分的影響是線性增長的,詞頻會無限制的影響得分;而BM25算法中詞頻對得分的影響會收斂,對于BM25算法而言文檔的長度對于得分基本沒什么影響的結論。這些都說明了BM25算法的優越性。最后介紹了BM25算法在推薦系統中的應用,并提出了通過Word2vec解決BM25算法語義泛化的問題。

猜你喜歡
影響
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
影響大師
沒錯,痛經有時也會影響懷孕
媽媽寶寶(2017年3期)2017-02-21 01:22:28
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
基于Simulink的跟蹤干擾對跳頻通信的影響
如何影響他人
APRIL siRNA對SW480裸鼠移植瘤的影響
對你有重要影響的人
主站蜘蛛池模板: 国产亚洲精品无码专| 国产综合网站| 日韩精品无码一级毛片免费| 国产成人亚洲精品无码电影| 国产精品成人一区二区不卡 | 四虎国产精品永久一区| av性天堂网| www.91中文字幕| 国产a v无码专区亚洲av| 精品国产毛片| 中文字幕色在线| 国产一二三区视频| 精品视频一区二区观看| 欧美a在线| 久久国产拍爱| 国产网友愉拍精品| 一级毛片免费观看不卡视频| 欧美a网站| 99re视频在线| 中文无码日韩精品| 亚洲天天更新| 色屁屁一区二区三区视频国产| 日韩高清成人| 亚洲自偷自拍另类小说| 成人va亚洲va欧美天堂| 免费一级全黄少妇性色生活片| 露脸一二三区国语对白| 欧美精品高清| 国产地址二永久伊甸园| 国模私拍一区二区| 宅男噜噜噜66国产在线观看| 亚洲欧美在线综合图区| 有专无码视频| 国产精品jizz在线观看软件| 成人午夜亚洲影视在线观看| 久久国产精品影院| 亚洲精品成人7777在线观看| a级毛片免费看| 欧美一级夜夜爽www| 国产精品免费久久久久影院无码| 在线精品亚洲一区二区古装| 婷婷综合色| 性欧美久久| 青青操视频在线| 思思热在线视频精品| 国产高潮流白浆视频| 国产福利不卡视频| 国产新AV天堂| 手机在线免费毛片| 中文字幕波多野不卡一区| 亚洲日产2021三区在线| 91麻豆精品国产91久久久久| 在线免费看黄的网站| 人妻精品久久无码区| 国产亚洲高清在线精品99| 91九色视频网| 一级高清毛片免费a级高清毛片| 日本久久免费| 二级毛片免费观看全程| 欧美在线导航| 亚洲男人的天堂在线观看| 欧美一区二区啪啪| 国产福利免费视频| 91娇喘视频| 999国内精品久久免费视频| 国产精品久久久精品三级| AV在线天堂进入| 无码中文字幕乱码免费2| 在线欧美一区| 女同久久精品国产99国| 成·人免费午夜无码视频在线观看| 囯产av无码片毛片一级| 国产偷国产偷在线高清| 免费一级成人毛片| 国内精品伊人久久久久7777人| 91精品啪在线观看国产60岁| 成人免费黄色小视频| 九九九九热精品视频| 91视频99| 人人91人人澡人人妻人人爽| 香蕉网久久| 2021国产精品自拍|