999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于加權word2vec算法的文本相似度研究

2022-01-22 07:21:42崔潔
電子測試 2021年21期
關鍵詞:詞匯分類文本

崔潔

(91001部隊,北京,100841)

0 引言

現如今,人們每天都通過互聯網工具,如QQ、微信、微博和大型論壇有效且飛速地交換信息。這些工具極大地方便了人們的生活,同時也造就了海量的數據。隨著大數據時代的來臨,互聯網已經容納了體量巨大的文本,圖像等各種類型的信息和數據。文本形式的數據比其他各種類型的數據如圖像、聲音等占據的互聯網資源少許多,也更加利于信息的傳播。由于文本的這一特性,文本成為了大多數網絡的信息傳播形式。對文本信息數據處理研究能夠快速并準確的幫助人們獲取自己所需要的信息,因此提高文本搜尋結果的精確性是十分重要的。因此,無數學者開始研究文本分類技術,以便于分門別類地管理各種文本信息。

文本相似度計算的各類方法日漸增多。對表面文本相似度的方法是利用字符的組合以及字符串序列,其容易受原始文本直接影響,其測量準則根據兩個文本的字符匹配程度或距離來體現,這種計算方法的原理并不復雜也容易實現,是在各類文本相似度算法中研究歷史最長的一類。表面文本相似度算法只進行了對表層詞匯的考慮,但是缺少對這些詞匯的語義也就是在句子中真實的含義的考慮。為了解決這些問題,對語義相似度[1][2]的計算方法又被學者們進行進一步研究后提出。

本文是在word2vec[3][4]詞向量模型的基礎上,改進了基于均值word2vec的文本相似度的算法。該模型不僅僅能夠計算詞匯與詞匯之間的語義相似度,而且還能夠提高語義相似度值的準確率。由于word2vec詞向量能夠表示語義信息,因此考慮把加權word2vec模型引入到文本相似度計算方法中。該方法能夠從重疊和非重疊兩部分相似度綜合計算文本相似度,從而進一步實現文本分類。

1 基于加權word2vec的文本相似度

本文設計的加權word2vec的文本分類方法,主要由以下五部分組成:語料庫的采集,文本預處理、詞向量訓練,文本內容的提取,相似度計算和文本分類。

1.1 word2vec模型訓練

為了驗證加權word2vec相似度算法的有效性,本文在搜狗綜合語料庫,使用Skip-gram模型對訓練文本集進行訓練,從而得到訓練文本集中每個特征詞的詞向量。最終本課題選用維數為200的詞向量。

1.1.1 預處理步驟

圖1 文本預處理

(1)首先是將訓練文本集構造詞匯表,對每個詞匯的出現的次數進行統計,詞頻需要按照從高到低的順序進行排序,取最頻繁也就是詞頻最高的V個詞,構建成一個詞匯表。每個詞匯都有一個維度是V的one-hot向量。若某個詞匯在詞匯表中出現過,那么向量中詞匯表中對應的位置就賦值為1,其他位置就全賦值為0;若詞匯表中沒有出現該詞匯,則向量全賦值0。

(2)對于每一個詞匯都需要都生成對應一個one-hot向量。因為上下文相關的關系,所以需要對每個詞匯的原始位置進行保留。

(3)確定size參數也就是詞向量的維數N。

1.1.2 Skip-gram處理步驟

圖2 Skip-gram處理

(1)確定窗口大小的參數(window),對每個詞生成兩倍窗口大小數的訓練樣本。

(2)選定batch_size,要確保該參數的大小是兩倍窗口大小數的整數倍,這樣就能夠讓一個詞匯的所有樣本都能被涵蓋在每個batch中。

(3)該模型的訓練算法有兩種,分別是層次softmax和Negative Sampling,本課題選用softmax訓練算法。

(4)輸入層到隱藏層的參數矩陣需要在神經網絡迭代訓練達到一定的次數后獲得,對應詞匯的詞向量就是該參數矩陣中每一行的轉置。

1.2 相似度計算方法

本文采用了一種加權word2vec的文本相似度計算方法主要包含三個步驟:第一根據相似度閾值將文本關鍵詞劃分為重疊詞與非重疊詞兩部分;第二分別計算重疊部分和非重疊部分的相似度;第三對重疊部分和非重疊部分的相似度進行線性加權。算法的具體步驟描述如下:

(1)計算詞匯間向量的距離[5],如公式(1)所示。

(2)根據公式(1)計算出詞匯間向量距離,提取文本A、B中相似度大于閾值的相同詞性詞匯匹配對作為重疊列表C,求其平均相似度作為重疊部分加權相似度值,如公式(2)所示:

其中k表示文本A、B提取的重疊列表C中詞匯匹配對的數目,m、n表示文本A、B的長度,ai和bj表示文本A、B中按詞性分類的關鍵詞,N表示詞向量維數。

(3)使用重疊列表C分別對分詞后的A、B文本進行過濾,得到非重疊列表和循環遍歷列表 ′、B′中的詞,依據公式(1)計算非重疊詞匯間相似度值,用來生成如下公式所示的文本非重疊詞相似度矩陣,如公式(3)所示。

(4)利用文本非重疊詞相似度矩陣,用加權雙向最大相似度的算術平均值作為文本A、B非重疊詞部分相似度值simD,如公式(4)所示。

公式中m、n分別表示非重疊列表A′、B′中的詞項個數。iω、jω分別表示列表中相應詞項在相應文本中的TF-IDF[6]權值,di、dj定義見公式(5)、(6)

(5)采用參數化線性加權的方式計算文本A、B相似度值,其中λ為可調節因子。

1.3 文本分類

KNN(k-NearestNeighbor)分類算法[7]屬于數據挖掘領域中最簡單的分類方法之一。本文采用KNN分類器對文本測試集進行測試。對加權word2vce文本相似度準確性驗證的具體做法如下:

(1)輸入為訓練文本集train_text和測試文本集test_text。輸出的是帶有分類標簽的測試文本集test_text。

(2)首先對文本集進行預處理步驟。下載Python外部擴展庫jieba,用jieba分詞對訓練文本集和測試文本集進行分詞,加載中文停用詞表剔除停用詞之后就得到初始的文本特征集合。

(3)運用word2vec詞向量模型中的Skip-gram模型對訓練文本集進行詞向量訓練,得到每個詞匯對應的詞向量,并根據公式(1)計算詞匯兩兩之間相似度值。

(4)根據2.1小節相似度計算方法,得到測試文本集中某一個文本同訓練文本集中每一個文本的相似度值,然后對相似度進行遞減排序,選取前K篇訓練文本集中的文本對測試文本進行分類。

(5)最后重復以上步驟,直到測試文本集中每一篇文本都分類完成,得到每篇文本的類別標簽,在表格中輸出分類標簽和原標簽以便后續進行對比。

2 仿真結果分析

本文運用語料庫,采集各類短文本,各類別文本數量分布較均勻,采用搜狗的綜合性分類語料,共分10類,其最終包括汽車、財經、IT、健康、體育、旅游、教育、招聘、文化、軍事),選用python擴展包jieba分詞, 選取中文停用詞表去除停用詞。采用TF-IDF 算法來計算非重疊詞匯特征權值,參數設置如下:相似度閾值為0.65,可調節因子λ=0.2,K=100。

將爬取的搜狗語料庫整合為文本形式后,對其進行文本預處理。經過Jieba中文分詞且去除無意義停用詞后,將原文本的內容,類型,以及詞集導入表格,并標明序號。結果如圖4、圖5所示。

圖4 分類前結果

圖5 分類后結果

選取某一基準文本,類型固定為汽車,對測試集中不同類型的文本分別進行相似度計算,每種類型的文本各選取五篇,分別使用均值word2vec和加權word2vec兩種計算方法對相似度值計算,如表1所示。

表1 基準文本對不同文本的相似度計算結果

由表1可以看出,當兩文本類型同時為汽車時,兩種計算方式得出的相似度值明顯比不同類型的文本之間計算的相似度值要高。但是單一對加權word2vec和平均word2vec兩種不同計算方案的相似度值做對比并不能明顯體現加權算法的優越性,需要對計算結果做后續處理。

相似度計算結果只能展示兩文本之間抽象的相似程度,要評價相似度計算的優化效果還需依靠文本分類從側面體現。

本文選取文本測試集,測試文本集內含有十種不同類型的文本(分別是汽車、財經、IT、健康、體育、旅游、教育、招聘、文化、軍事)各20篇,共200篇文本。用測試集中的某一個文本與訓練集中的每一個文本都進行相似度的計算。將計算得到的數值按從大到小的順序排序,排在前面的100篇訓練集中大多數的文本的類型就是該文本經過KNN分類后的結果,同時輸出該文本分類后的標簽和原標簽導入表格便于后續對比展示優化效果。

由表2和表3可見,與均值word2vec模型相比,本文的算法提高了文本計算準確率、召回率和 F1值指標。具體數值如下:平均準確率提升了3.06%、召回率提升了8.00%、F1值提升了5.49%,證明本文的文本相似度方法的性能比傳統的文本相似度的計算方法的有效性高。

表2 加權word2vec文本分類效果

表3 均值word2vec文本分類效果

3 總結

本文研究了一種加權word2vec文本相似度計算方法。首先對語料庫抽取訓練集進行詞向量訓練,然后把獲得的關鍵詞分割成重疊和非重疊兩部分,進而分別計算重疊與非重疊部分的相似度值,最后利用線性加權方法計算獲得最終結果。實驗結果表明本文的算法對文本相似度計算的考慮更加全面也更加準確。

猜你喜歡
詞匯分類文本
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一级一毛片a级毛片| 少妇精品网站| 欧美一区福利| 日本国产在线| 久久精品一品道久久精品| 亚洲第一视频区| 日本人又色又爽的视频| 国产成年女人特黄特色大片免费| 九九线精品视频在线观看| 成人国产一区二区三区| 色悠久久综合| 婷婷久久综合九色综合88| 特级欧美视频aaaaaa| 亚洲三级色| 2020最新国产精品视频| 日韩欧美91| 亚洲欧美一区二区三区图片| 亚洲视频无码| 日韩在线2020专区| 国产91小视频| 91精品国产自产在线老师啪l| 欧美日韩高清在线| 亚洲天堂日韩av电影| 91人妻在线视频| 伦精品一区二区三区视频| 久久成人免费| 在线播放91| 五月婷婷综合网| 日韩天堂在线观看| 激情成人综合网| 欧美日韩综合网| 国产99视频免费精品是看6| 欧美日韩国产一级| 国产精品99久久久| 丁香五月婷婷激情基地| 亚洲精品无码AV电影在线播放| 国产人成在线视频| 福利在线不卡一区| 久久国产香蕉| 欧洲精品视频在线观看| 日韩欧美中文字幕在线精品| 亚洲午夜国产片在线观看| 国产成人禁片在线观看| 丁香婷婷久久| 免费毛片全部不收费的| 高清无码手机在线观看| 国产成人综合久久精品下载| 狼友视频一区二区三区| 综合天天色| 亚洲欧美激情小说另类| 欧美精品H在线播放| 欧美成人精品欧美一级乱黄| 亚洲丝袜第一页| 久久婷婷色综合老司机| 日韩欧美国产精品| 亚洲国内精品自在自线官| 激情综合婷婷丁香五月尤物| 中文字幕资源站| 亚洲精品无码AⅤ片青青在线观看| 国产成人精品无码一区二| 欧美午夜在线播放| 国产激情无码一区二区免费| 亚洲AV无码久久天堂| 日韩欧美色综合| 一级毛片免费高清视频| 亚洲欧美日韩久久精品| 亚洲人成网站观看在线观看| 亚洲日韩精品伊甸| 国产喷水视频| 在线观看av永久| 色综合久久无码网| 国产午夜小视频| 国产内射在线观看| 亚洲一区二区三区国产精华液| 久久综合成人| 色悠久久综合| 91最新精品视频发布页| 天天综合色网| 亚洲福利视频一区二区| 国产成人综合在线观看| 国产福利在线免费观看| 97青青青国产在线播放|