999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于HowNet語義計算的綜合特征詞權重計算方法

2018-10-17 08:38:04孫麗莉張小剛
統計與決策 2018年18期

孫麗莉,張小剛

(1.西安交通大學 人文學院,西安 710049;2.塔里木大學a.學報編輯部;b.信息工程學院,新疆 阿拉爾 843300;3.浙江大學 計算機學院,杭州 310027)

0 引言

隨著信息時代的發展,產生的文本數據越來越多,文本數據挖掘相關研究變得越來越重要。其中,特征詞權重計算方法成為文本數據挖掘領域的一個研究熱點。與傳統的基于統計信息的特征詞權重計算方法相比,基于語義的方法從語義邏輯的角度出發,符合人類感知和認識事物的規律,得到了國內外研究人員的廣泛關注。目前基于語義的特征詞權重計算方法研究已取得一些成果,例如利用詞頻或詞首現位置進行計算的研究(以英文版和中文版WordNet為基礎)[1,2];利用語義擴展度和詞匯鏈進行計算的研究(以《同義詞詞林》為基礎)[3];利用統計信息中的詞頻(termfrequency,TF)和反文檔頻率(inversedocumentfrequency,IDF)進行計算的研究(以HowNet為基礎)等[4,5]。與國外研究相比,國內研究人員主要以向量空間模型(Vector Space Model,VSM)為基礎,利用文本的TF和IDF來計算特征詞權重。但傳統的TF-IDF方法在計算特征詞權重時僅僅考慮到了該詞在文本集中的分布數量,并沒有考慮到該詞在文本中的結構信息(分布位置)和特征詞之間的語義聯系(與特征詞詞義相似的詞在整個文本集中的分布情況),從而影響了特征詞權重計算方法的有效性。

本文提出了一種綜合的文本特征詞權重計算方法,該方法在計算特征詞權重時綜合考慮了特征詞在文本中的詞頻、位置和詞義信息。

1 基于向量空間模型的TF-IDF特征權重計算方法

目前最常用的特征詞權重計算方法是基于統計信息的方法,這種方法根據文本中詞語的統計信息(如詞頻、詞之間的同現頻率等)來計算特征詞的權重。例如傳統的TF-IDF方法是利用向量空間模型中的統計信息來計算權重的。

1.1 向量空間模型簡介

向量空間模型是由Salton等在20世紀70年代提出的,它把對文本相似性的處理簡化為向量空間中向量的相似性計算[6]。其中,特征詞的權重計算是直接影響基于VSM的文本相似度計算精度的關鍵因素[7]。

獲得文本特征向量后,文本Di和Dj的相似度就可以通過它們特征向量之間的關系來度量。目前主流的文本相似度值計算方法是計算兩個文本特征向量的余弦相似度[8,9]。假定兩個文本之間的特征項向量分別可表示為,那么它們之間的相似度度量方法如式(1)所示:

式中Sim值越大表示兩文本的相似度越高,文本的特征詞權重計算直接關系到文本間相似度值的準確性和文本聚類的效果[10]。

1.2 傳統TF-IDF特征權重計算方法

傳統的TF-IDF方法是以向量空間模型為基礎,利用詞頻TF和反文檔頻率IDF來計算特征詞權重的[11]。它的理論基于香農信息學的一個假設:一個特征詞的權重與它在一個文檔中出現的頻率TF成正比,與逆文檔頻率IDF成反比。即如果某個特征項在所有文本中出現的頻率高,那么它所包含的信息熵就越少,如果這個特征項在少量文本中出現的頻率高,那么它包含的信息熵就多[12]。依據這種假設,傳統的TF-IDF權重計算公式如式(2)所示:

其中,tfik表示特征詞tk在文檔Di中的頻數,idfik表示特征詞tk在整個文本集中除Di外其他文檔中出現的頻數。N表示整個文本集的文本數,nk表示整個文本集中出現特征項tk的文本數,α是一個調節系數(常量),通常設為0.01。

1.3 傳統TF-IDF特征權重計算方法存在的問題

從上述可知,傳統TF-IDF是基于統計學的權重計算方式。該方法優點是簡單快速,結果比較符合實際情況。缺點主要有:一是在VSM中,傳統TF-IDF算法沒有體現特征詞在文本中的結構信息。對于文本文檔而言,權重的計算方法應該體現出文本的總體信息,包括特征詞的詞頻、詞義,位置等。二是特征項被假定為是完全獨立的。這樣就將特征詞之間的詞義相似關系,當成完全不相干的兩個詞來處理,缺失了語義信息。因此本文將綜合考慮這些因素,使權重同時兼顧詞頻、位置和詞義信息。

2 一種新的綜合TF-IDF特征詞權重計算方法

本文提出的綜合TF-IDF權重計算方法是在傳統TF-IDF方法依賴詞頻信息的基礎上,增加了特征項的結構信息(位置)和特征項之間的語義信息。

2.1 綜合TF-IDF方法總體思路

針對原始待測文本Di,依據VSM用特征向量表示如式(3)所示:

本文提出的綜合TF-IDF特征詞權重計算方法總體思路如下:對文本Di依據VSM形成的特征向量vi,假設采用傳統TF-IDF方法得到其中特征詞tij(1≤j≤n)的初始詞頻權重為wij(1≤j≤n),將wij結合位置系數pij后計算得到綜合詞頻權重wpj,再將wpj結合語義信息系數oij計算得到綜合詞頻-詞義權重woj。具體計算過程如式(4)所示:

因此,本文方法彌補了傳統TF-IDF方法在特征項權重計算中丟失的部分重要信息,從理論上完善了特征詞權重計算方法的完整性。

2.2 詞頻信息中的位置考量

一些研究也證明,利用與標題相似度較大的語句來提取特征詞進行分類時,分類效果較好[13]。就像句子中有關鍵詞一樣,通常文本中也有中心語句和普通語句,中心語句中保含的特征詞就比普通語句更能反映出文本內容。所以本文對處于不同位置的特征詞分別賦予不同的系數,然后加權乘以特征詞的詞頻,以提高文本表示的效果。

在特征提取之前對文本的各個部分的重要程度(在表達文本內容時的貢獻大小)加以區分。為了體現特征詞對文本內容貢獻的差別,給不同位置的特征詞賦予對應的“權重系數”。以新聞類文本為例(只有標題和正文),本文將文本位置分成三類。第一類:位于文本的標題位置,賦予權重系數α1;第二類:位于文本正文中的開頭語句,賦予權重系數α2;第三類:除開頭語句外的正文語句,賦予權重系數α3,且α1>α2>α3。

按照傳統TF-IDF方法中對于文本Di中的特征詞tij根據頻度賦予權重,則結合特征項位置系數pij后的特征向量vp上各維的權重可由式(5)計算獲得。

由式(5)獲得的文本特征向量vp,每個特征詞的權重綜合了詞頻與位置信息兩個要素,更能表達特征詞的權重。vp特征向量如式(6)表示:

2.3 詞義信息中的相似度考量

現有的詞語語義相似度主要可以分為基于統計信息的方法和基于本體的方法。其中,基于本體的方法主要依靠語義詞典中概念間結構層次關系,相關研究包括基于WordNet的計算方法、基于HowNet的和基于同義詞詞林的計算方法等。

這里,βi(1≤i≤4)表示第i項義原描述式計算所得相似度占整體相似度的比率。其中,第一獨立義原描述式代表了一個概念最主要的特征,其權值所占比例βi最大。依據Sim1到Sim4對于總體相似度所起作用的依次遞減,權值所占比例也依次遞減,即β1≥β2≥β3≥β4。另外,為了保證權重的完整性,要求β1+β2+β3+β4=1。

式中nk表示包含特征詞tij的文本數目;ui表示出現在其他文本中與特征詞tij語義相似特征詞的文本數目;1+r表示特征詞tij及與特征詞tij語義相似的詞語數量。

本文在參考文獻[4]權值計算方法的基礎上,結合語義后的綜合TF-IDF公式如式(8)所示:

式中對參數tfik加以改進,這里tfik表示在文本Di中出現的特征詞tij及與tij語義相似的特征詞之和的平均值,改進后的tfik更能顯示特征詞及其語義相似詞的作用;改進后的idfik表示在文本Di以外的其他文本中特征詞tij及與tij語義相似的特征詞的平均分布情況;這里N表示文本集中文本的總數;Nk表示出現特征詞tij及與tij語義相似特征詞的文本數目之和的平均值。Nk的計算公式如式(9)所示:

3 實驗設計與結果分析

特征詞權重計算通常是為文本相似度計算和文本聚類服務的,所以本文利用文本相似度計算及相似度聚類的效果來檢驗權重計算方法的優劣。對文本相似度的效果檢驗,本文采用文本區分度指標。對相似度聚類效果的檢驗,本文采用相似度計算結果聚類的查準率、查全率和F-Score指標。

3.1 實驗數據說明

實驗數據采用的是哈爾濱工業大學語言技術平臺LTP中多文檔自動文摘語料庫中開放的10%語料[2]。本文實驗數據以同類6篇,異類3篇為例進行深入分析(朝鮮核問題6篇,法國油輪爆炸、菲律賓南部城市連環爆炸和航天專家海口被殺主題各1篇)。通過分析語料發現,可以表達文本主要意思的是句子的主干成分,而主干成分主要由名詞、動詞這類實詞構成,所以本文選擇名詞和動詞作為代表文本的特征項,設置關鍵詞表為20維(名詞10個,動詞10個)。

3.2 實驗思路與結果分析

(1)實驗思路:首先,對實驗數據進行分詞,去虛詞、停用詞后獲取關鍵詞表;其次,利用本文提出的綜合TF-IDF的權重計算方法和傳統的TF-IDF方法分別計算特征詞權重;然后,利用余弦相似度計算公式(1)計算文本相似度;最后,對得到的文本相似度結果進行區分度比較和聚類實驗。

農業機械的保養要嚴格按照使用說明書及當地農機管理部門規定的內容進行。機車的高級保養應在機務管理人員指導下在室內進行。燃油動力機械要做到四小漏 (小漏油、小漏水、小漏氣、小漏電)、五凈(油、水、氣、機器、工具)、六封閉(柴油箱口、汽油箱口、機油加注口、機油檢視口、汽化器、磁電機)、一完好(技術狀態完好);配套農具要實行常年修理,做到三靈活(操作、轉動、升降靈活)、五不(不曠、不鈍、不變形、不銹蝕、小不件)、一完好(技術狀態完好)。

在利用傳統TF-IDF方法取得詞頻相似度后,本文提出的綜合TF-IDF(包含詞頻、位置、詞義)相似度計算步驟如下:

步驟1:文本詞頻相似度計算。將采用傳統TF-IDF方法取得的特征詞詞頻分別與其位置權重系數相乘,得到特征詞綜合詞頻數據,并采用取余弦值的方法計算文本的詞頻相似度,相似度取值范圍為[0-1]。本文采用的語料為新聞類文本,只包括標題和正文,所以設置位置系數三種,標題、開頭句、正文,分別賦予權重系數α1=2,α2=1.5,α3=1。

步驟2:文本詞義相似度計算。以步驟1中得到的特征詞向量相對應的次序,將10個名詞,10個動詞依次采用公式(7)求詞義的相似度;然后采用取余弦值的方法計算文本的詞義相似度,相似度取值范圍為[0-1]。這個步驟是對特征詞進行語義相似度的合并,本文設置閾值0.6,即與特征詞tij語義相似的詞語是與tij語義相似度大于0.6的詞語;否則認為不相關,取值為0。

步驟3:文本綜合相似度計算。將步驟1所得的綜合詞頻相似度結果與步驟2所得的詞義相似度結果加權求和求得綜合相似度。其中,詞頻相似度占比0.7,詞義相似度占比0.3。

說明:步驟2中詞義相似度計算的實驗軟件采用中國科學院計算技術研究所開發的軟件WordSimilarity[2]。本文設置軟件WordSimilarity中的各參數取值分別為:β1=0.5(表示第一項義原描述式β1所占比例0.5),β2=0.2,β3=0.17,β4=0.13;α=1.6;γ=0.2;δ=0.2。

(2)實驗結果一:文本相似度結果的區分度比較

文本區分度,具體來講就是同類文本相似度與異類文本相似度之間的差。對本文而言,就是分別對本文中采用的綜合TF-IDF權重計算方法和傳統TF-IDF方法計算得到的文本相似度進行比較,哪種權重方法的差值越大,則表示該方法的區分性越好。以A1為例,文本區分度比較統計數據如表1所示。

表1 單個文本A1與同類、異類文檔區分度統計

由表1計算結果可知本文中改進的方法與傳統的TF-IDF權重方法相比,從理論上完善了文本相似度比較的定義,并且顯著改善了區分度的區分效果。

(3)實驗二:文本相似度結果的聚類比較

因為文本聚類可以發現最近鄰文檔,所以本文利用文本集中某個文檔與同類、異類文檔相似度聚類的效果來評價相似度算法,進而反推出特征詞權重計算方法的優劣。文檔聚類是以文檔中頻繁出現的術語或詞的列表為依據,利用相似度函數將文檔集合分成不同組的過程[4]。

為了評價本文提出的權重計算方法的效果,本文利用文本相似度結果進行聚類,考慮了三種不同的評價措施:查準率(Accuracy),查全率(Precision)和綜合指標F-Score來衡量算法的性能。

查準率P(i,j)是指屬于類別j的所有文本中,與實際相符的文本所占的比例。運算規則如式(10)所示:

式中nj是聚類j的文本數目,nij是聚類j中隸屬于類別i的文本數目。

查全率R(i,j)是指專家判定的屬于類別j的文本中,正確歸類的文本所占的比例。運算規則如式(11)所示:

其中,ni是類別i的文本數目,nij是聚類j中隸屬于類別i的文本數目。

F-Score是一種利用查準率和查全率來進行聚類效果評價的綜合指標。F-Score運算規則定義如下:

式中P(i,j)代表查準率,R(i,j)代表查全率。利用這三種指標可以判斷每一篇文本在聚類后是否被正確劃分到了所屬類別。

在此實驗樣本中,以相似度0.45作為文本相似度結果聚類同類的臨界值(即大于0.45為同類,否則為異類)。相似度聚類結果如表2所示。

表2 文本A1與同類、異類文檔相似度聚類結果統計

如表2所示,本文分別利用傳統的TF-IDF方法和增加位置、語義信息后的綜合TF-IDF方法,以文本集中文檔A1為標準與其余文檔進行相似度結果聚類實驗。

實驗結果在查準率、查全率以及F-Score指標下的對比情況如圖1所示。

圖1 基于查全率、查準率和F-Score系數的文本相似度結果聚類比較

由圖1看出,在本樣本中,采用本文提出的綜合TF-IDF權重計算方法得到的文本相似度聚類結果,其查準率、查全率以及F-Score系數均高出基于傳統的TF-IDF方法。

綜上顯示:在文本特征詞權重算法中,計算過程中增加特征詞的位置信息和特征詞間的語義信息,能夠在計算文本相似度時有效地提高文本間的區分度;并且能夠明顯提高實驗文檔與同類、異類文檔的相似度聚類查準率、查全率和F-Score系數指標。

4 總結

傳統的利用向量空間模型的文本特征詞提取方法,采用TF-IDF計算文本特征詞的權重時只考慮了文本中的詞頻因素,體現不出特征詞的位置信息,而且在計算權重的過程中把每個特征詞視為孤立的,忽略了特征詞之間的語義相似關系,因此降低了提取特征詞的準確性。本文針對上述問題,提出了一種綜合的文本特征詞權重計算方法。此方法首先利用結構信息(位置)對傳統TF-IDF方法得到的特征詞權重進行矯正,然后利用基于HowNet的語義相似度算法實現對特征詞權重的詞義修正。因此,本文的提出的綜合TF-IDF權重計算方法兼顧了特征詞的詞頻、位置和詞義信息,從理論上完善了特征詞權重計算方法的完整性。實驗結果也表明,該方法能夠在一定程度上提高文本相似度計算的區分度和聚類效果。

主站蜘蛛池模板: 国产真实乱了在线播放| 在线观看免费国产| 538精品在线观看| 中文字幕66页| av无码久久精品| 久久天天躁狠狠躁夜夜躁| 国产成人综合亚洲网址| 日韩精品专区免费无码aⅴ| 亚洲精品天堂自在久久77| 99视频在线精品免费观看6| 国产精品中文免费福利| 国产精品99r8在线观看| 国产一区在线视频观看| 91国内在线观看| 国产自在自线午夜精品视频| 精品国产免费观看| 2021国产精品自产拍在线观看| 91麻豆精品视频| 毛片在线播放a| 久久精品无码国产一区二区三区| 最近最新中文字幕在线第一页| 国产精品观看视频免费完整版| 在线播放91| 日韩在线网址| 欧美成人午夜视频| 婷婷色婷婷| 国产精品丝袜在线| 国产无人区一区二区三区 | 亚洲最猛黑人xxxx黑人猛交 | 国产成人永久免费视频| 又大又硬又爽免费视频| 国产日本一区二区三区| 99久久精彩视频| 国产网站黄| 国产成人麻豆精品| 亚洲无码视频喷水| 美女无遮挡被啪啪到高潮免费| 无码免费的亚洲视频| 国产 在线视频无码| 国产爽歪歪免费视频在线观看| 成人亚洲天堂| 亚洲第一视频网站| 老司机午夜精品网站在线观看| 欧美黄网站免费观看| 成人亚洲天堂| 欧美无遮挡国产欧美另类| 亚洲最新地址| 亚洲av无码牛牛影视在线二区| 在线免费观看a视频| 亚洲天堂在线免费| 99久久性生片| 制服丝袜一区二区三区在线| 亚洲国产精品一区二区第一页免| 国产精品熟女亚洲AV麻豆| 欧美精品亚洲日韩a| 精品成人一区二区三区电影 | 丁香六月综合网| 制服丝袜国产精品| 网久久综合| 性网站在线观看| 日本午夜影院| 久久大香香蕉国产免费网站| 中文字幕调教一区二区视频| 热久久这里是精品6免费观看| 国产va免费精品观看| 中国国产A一级毛片| 大香网伊人久久综合网2020| 亚洲一级无毛片无码在线免费视频| 久久鸭综合久久国产| 在线日韩一区二区| 久久亚洲精少妇毛片午夜无码| 精品人妻系列无码专区久久| 日本高清在线看免费观看| 91在线无码精品秘九色APP| 国产成人1024精品下载| 欧美精品黑人粗大| 尤物国产在线| 欧美第九页| 不卡视频国产| 精品视频一区在线观看| 亚洲综合激情另类专区| 高潮毛片无遮挡高清视频播放|