999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文檔結構的特征權重計算方法研究

2019-05-24 14:17:58羅衎馬佳佳
軟件導刊 2019年5期

羅衎 馬佳佳

摘 要:針對不同類別文檔可能被表示為相同向量的問題,在研究常用文檔特征權重計算方法的基礎上,分析文檔中特征項之間的相對位置關系,引入文檔結構矩陣DS。將DS與3種常用權重算法相結合,構造3種新模型,并利用6種模型在實際語料上進行分類實驗。結果表明,基于DS的權重算法與原始權重算法相比,能夠提高文本分類效果。

關鍵詞:文本分類;向量空間模型;文檔結構;特征權重;特征選擇

DOI:10. 11907/rjdk. 182038

中圖分類號:TP301 文獻標識碼:A 文章編號:1672-7800(2019)005-0065-04

Abstract: Documents in different categories can be represented as the same vector, relative position relationships among features in the document are considered in the paper on the basis of analyzing commonly-used document feature weighting methods aiming at the problem, and document structure matrix DS is introduced. DS is combined with three commonly-used weight algorithms for conforming three new models. The six models are utilized for classification experiment on actual corpus. Experimental results show that the weight algorithms based on DS can improve classification effect of documents compared with original weight algorithms.

Key Words: document classification; vector space model; document structure; feature weight; feature selection

0 引言

隨著網絡技術的快速發展,網絡信息量呈爆發式增長,如何對網絡信息進行有效檢索已成為一個研究熱點。因此,對文檔進行快速有效的分類已成為處理與組織文本數據的關鍵技術之一[1]。

向量空間模型VSM(Vector Space Model)常用于文本分類中,其思想是將文檔形式轉化為多維向量空間中的一個向量,并通過空間中的向量相似度表示文本之間相似度[2]。但其只提供了一個理論框架,并沒有確定特征項權重計算方法[3]。因此,要提高文本分類效果,可以從特征項權重相關算法入手,選擇最合適的權重計算方法。

目前常用權重計算方法是TF-IDF(Term Frequency-Inverse Document Frequeny),但該方法仍然存在一些缺陷。數據集在類間分布往往不均衡,即不同類別文檔數量可能有巨大差別,從而對TF-IDF的最后計算結果造成很大影響[4]。為了降低數據集偏斜對結果的影響,How等[5]提出一種Category Term Descriptor(CTD)方法,取得了很好的效果。

假設某個特征詞在一個類別中出現頻率高,同時在其它類別中出現頻率低,可認為該特征詞能夠很好地表達所在類文檔[6]。但是從IDF定義可得出,該詞有可能被賦予較低權重。針對該缺陷,很多學者從類間分布集中度與類內分布均勻度出發對TF-IDF加以改進,如Deng等[7]提出的CRF算法、沈志斌等[8]提出的BOR-TFI-DF權重函數,以及臺德藝等[9]的TF-IDF-DIC權重函數、張瑜等[10]的WA-DI-SI算法、路永和等[11]的TW-TF-IDF算法、郭紅鈺[12]的ETFIDF算法等。還有學者引入特征選擇函數以修正特征詞權重,如趙小華等[13]的TF-IDF-CHI算法和李原等[14]引入信息熵IG的TF-IDF算法等。

傳統特征權重算法在文檔本身的信息上,只考慮了文檔詞頻信息,而忽略了文檔結構信息。本文根據文檔特征結構對分類的影響,引入文檔結構矩陣DS(Document Structure)對特征權重進行修正。

1 特征權重計算方法

文本特征權重計算是文本向量化過程中最重要的一個環節,特征權重對分類結果有著直接影響。通過特征權重計算,文本中的重要特征將被賦予較高權重。

1.1 經典特征權重

由圖3可看出,當ws取值大于4以后,分類性能基本不再提高,反而會降低,從而得出結論:在一篇文檔中,特征T通常最多與距離為4的特征之間有一定關系,與距離大于4的特征之間關系很弱。因此,在以下實驗中,ws均取值為4。

3.3.2 DS算法有效性

為避免實驗結果的偶然性,本文將訓練數據集和測試數據集獨立重復進行10次實驗,使用宏平均F1值評估6種特征權重計算方法的分類性能,結果如表3所示。

從表3與圖4可以看出,DS算法相對于TF-IDF、TF-IDF-logCHI和ETFIDF幾種算法,分類效果均有一定提升。對10次實驗的F1值取平均后可以看出,DS算法將TF-IDF算法的F1值由88.03%提高到88.82%,將TF-IDF-logCHI算法的F1值由88.64%提高到89.31%,將ETFIDF算法的F1值由89.41%提高到89.99%,說明基于文檔特征結構的權重修正算法是有效的,同時也說明該修正算法具有一定的普適性,在多種權重算法上都得到了驗證。

4 結語

本文重點研究了在文本表示中對特征權重算法的改進,提出基于文檔特征結構DS的權重計算方法。通過在TF-IDF、TF-IDF-logCHI、ETFIDF方法上引入DS矩陣進行權重修正,得到了TF-IDF-DS、TF-IDF-logCHI-DS、ETFIDF-DS模型。經過對比發現,基于DS的權重算法使分類效果整體上得到了提升,但是本文仍然存在以下不足:

首先,在文檔特征結構表示上,本文提出的DS計算方式并不是最佳的,從圖4可以看出,在部分實驗中,基于DS的算法分類效果并未得到提升,說明該算法穩定性不足,對于文檔的結構表示還有待進一步研究。

其次,本文實驗的語料僅局限于情感分類,而未在與主題相關分類中進行實驗。因此,未來可擴大語料選取范圍,以驗證改進算法的普適性。

參考文獻:

[1] 徐燕,李錦濤,王斌,等. 基于區分類別能力的高性能特征選擇方法[J]. 軟件學報,2008, 19(1):82-89.

[2] 路永和,李焰鋒. 多因素影響的特征選擇方法[J]. 現代圖書情報技術,2013(5):34-39.

[3] 段江麗. 基于SVM的文本分類系統中特征選擇與權重計算算法的研究[D]. 太原:太原理工大學, 2011.

[4] 施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009,29(B06):167-170.

[5] HOW B C,NARAYANAN K. An empirical study of feature selection for text categorization based on term weightage[C].Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on. 2004:599-602.

[6] 張帆,張俊麗.統計頻率算法在文本信息過濾系統中的應用[J].圖書情報工作,2009,53(13):116-119.

[7] DENG Z H, TANG S W, YANG D Q, et al. A linear text classification algorithm based on category relevance factors[J]. Lecture Notes in Computer Science, 2002, 2555:88-98.

[8] 沈志斌,白清源. 文本分類中特征權重算法的改進[J]. 南京師范大學學報:工程技術版,2008, 8(4):95-98.

[9] 臺德藝,王俊. 文本分類特征權重改進算法[J]. 計算機工程, 2010,36(9):197-199.

[10] 張瑜,張德賢. 一種改進的特征權重算法[J]. 計算機工程, 2011,37(5):210-212.

[11] 路永和,李焰鋒. 改進TF-IDF算法的文本特征項權值計算方法[J]. 圖書情報工作, 2013, 57(3):90-95.

[12] 郭紅鈺. 基于信息熵理論的特征權重算法研究[J]. 計算機工程與應用,2013(10):140-146.

[13] 趙小華,馬建芬. 文本分類算法中詞語權重計算方法的改進[J]. 電腦知識與技術,2009, 5(36):10626-10628.

[14] 李原. 中文文本分類中分詞和特征選擇方法研究[D]. 長春:吉林大學,2011.

[15] 蔣強榮,宋烈金. 基于圖核算法的文本分類[J]. 計算機與現代化,2017(11):13-16,61.

[16] 張愛華,靖紅芳,王斌,等. 文本分類中特征權重因子的作用研究[J]. 中文信息學報, 2010, 24(3):97-104.

[17] 上官彥輝. 基于投資者情緒的股票預測研究[D]. 北京:北京工業大學,2016.

[18] 譚松波. 有關中文情感挖掘的酒店評論語料[EB/OL]. http://www.datatang.com/data/11936.

[19] 魏善嶺,傅英亮,魯明羽. 一種用于互動型不良信息過濾的貝葉斯改進方案[J]. 廣西師范大學學報:自然科學版,2009,27(3):134-137.

[20] 于洪霞. 基于SVM的中文垃圾郵件過濾[D]. 哈爾濱:哈爾濱工程大學,2009.

(責任編輯:黃 健)

主站蜘蛛池模板: 国产精品第三页在线看| 国产色爱av资源综合区| 蜜臀AV在线播放| 亚洲成人黄色在线观看| 日本国产在线| 好吊色妇女免费视频免费| 国产在线自揄拍揄视频网站| 91麻豆久久久| 天堂在线www网亚洲| 国产一区二区人大臿蕉香蕉| 日本免费a视频| 亚洲无码熟妇人妻AV在线| 久久精品视频亚洲| 99re精彩视频| 欧美日韩导航| 精品国产免费观看一区| 亚洲国产黄色| 日日噜噜夜夜狠狠视频| 国产在线一二三区| 在线综合亚洲欧美网站| 潮喷在线无码白浆| 久久中文字幕不卡一二区| 国产99热| 欧美三级日韩三级| 色综合综合网| 青青青国产视频手机| 国产91精品最新在线播放| 热思思久久免费视频| 国产激情无码一区二区免费| 中国一级特黄视频| 国产一级二级三级毛片| 久久精品人妻中文系列| 中文字幕在线看| 国产成人精品午夜视频'| 国产丝袜第一页| 亚洲人成网址| 不卡的在线视频免费观看| 免费一级毛片在线观看| 国产一级毛片yw| 国产成人综合日韩精品无码不卡| 国产精品视屏| 久久夜色精品| 亚洲色图在线观看| 国产精品视频观看裸模| 无码专区国产精品第一页| 欧美成人免费| 91久久夜色精品国产网站| 97视频在线观看免费视频| 欧美激情,国产精品| 欧美成人在线免费| 一本大道视频精品人妻| 九九热精品视频在线| 欧美人与牲动交a欧美精品| 天天综合色网| 国产亚洲高清在线精品99| 国产真实乱人视频| 又粗又硬又大又爽免费视频播放| 亚洲毛片网站| 久久人人爽人人爽人人片aV东京热 | 中国一级特黄大片在线观看| 91口爆吞精国产对白第三集 | 国语少妇高潮| 亚洲视频二| 亚洲啪啪网| 亚洲精品第一在线观看视频| 国模在线视频一区二区三区| 免费Aⅴ片在线观看蜜芽Tⅴ| 看av免费毛片手机播放| 欧美成人日韩| 欧美19综合中文字幕| 伊人五月丁香综合AⅤ| 99性视频| 色噜噜狠狠色综合网图区| 国产福利2021最新在线观看| 人妻中文字幕无码久久一区| a级毛片在线免费观看| 精品一区二区三区四区五区| 久久久黄色片| 欧美性久久久久| 亚洲欧美一区二区三区蜜芽| 国产精品亚洲欧美日韩久久| 免费激情网址|