999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合CHI統計和改進TF-IDF算法的微博特征項提取

2016-12-16 06:53:24廣東工業大學自動化學院朱燕飛鄭卜松
電子世界 2016年22期
關鍵詞:特征提取特征文本

廣東工業大學自動化學院 嚴 萌 朱燕飛 鄭卜松 徐 迅

結合CHI統計和改進TF-IDF算法的微博特征項提取

廣東工業大學自動化學院 嚴 萌 朱燕飛 鄭卜松 徐 迅

特征項是微博話題檢測中的重要因素,特征項的提取結果直接影響話題檢測計算的復雜度和準確度。本文提出了一種結合CHI方法和改進TF-IDF算法的方法來提取特征項,從而來降低空間向量的維數。本文考慮到了中文詞中存在一義多詞或一詞多義的緣故,對傳統的歸一化TF-IDF算法進行了一些改進,即在計算詞的權重時結合了詞的語義。通過該算法來提取特征項不僅可以降低建空間向量時的維度,而且還可以減少話題的重復性,但在計算權重后容易忽略一些有利于分類的低頻詞,故本文在改進TF-IDF算法的同時還結合了CHI統計方法,該方法可以發現一些有利于文本分類結果的低頻詞。故能從一定程度上提高話題檢測的準確率和速度。

CHI;TF-IDF;特征提取;詞頻

微博是Web2.0的技術基礎上實現的一種媒介(social media),其允許使用者通過Web,Wap以及各種客戶端設備及時發送和更新短文本,微博逐漸成為了人們分享、獲取實時信息,發表個人觀點的最普遍的方式。

比較常用的特征項提取方法主要有互信息、文檔詞頻、信息增益、卡方統計量、文本證據權等,在特征選擇方面,美國卡內基梅隆大學的Yang教授針對文本分類問題,在分析和比較了IG、DF、MI和CHI等方法后,得出IG和CHI方法分類效果相對較好的結論[1],清華大學李粵等人[2]提出結合傳統的互信息方法和CHI統計方法,使得查全率和查準率都得到了明顯的提高。但CHI方法只考慮單詞和類別之間的關系,忽略了單詞與單詞之間的聯系。這樣選擇的特性有更大的冗余。在向量空間模型中,通常使用的權重計算方法是采用TF-IDF方法。在一定的程度上,該方法是能有效地反映一個特征詞的重要程度,雖然該方法可以減少計算時間,簡化提取步驟,但是這種方法沒有考慮詞與詞之間的聯系,并且忽略了低頻詞。該方法限制了文本分類的準確性和特征提取。

本文提出的結合CHI和改進TF-IDF算法的方法來對特征項進行提取,是用改進TF-IDF算法來彌補CHI方法在特征提取中存在的不足,從而提高微博話題檢測的準確率。

1 CHI統計特征選擇方法

CHI統計方法的思想是假設特征項 w與類別с之間的關系是類似于具有一維自由度的χ2分布。 w對于с的統計量可計算為:

其中,A是包含了特征項w并且還是屬于類別c的文檔個數,B是包含特征項w但它不是屬于類別c的文檔個數,C則是沒有特征項,w可屬于類別c的文檔個數,D代表既沒有特征項w也不屬于類別的文檔個數,N是所有的文檔個數。

該方法用來衡量類別c之間與類別c之間的關聯度。當類別c和特征項w相互獨立時,有。而當類別c和特征項w的關聯性越強,的值就會越大,其價值越大,其識別信息量就越大。

Yang[3]的研究表明,CHI統計方法是目前最好的特征選擇方法之一。與其他方法相比,分類效果好。大多數中文分類系統都采用這種方法,可是存在下面幾個缺點:

⑴CHI統計方法只是考慮到了詞的文檔頻,并無顧及到特征的詞頻,故極大的放大了低頻詞的作用。

⑵特征詞的CHI值是將特征詞對一個類別的CHI值與其余不同類別的卡方值做對比,CHI值很可能把對某一特定的類別的貢獻低,而對其它的類的貢獻高的特征詞給選擇出來。

2 TF-IDF及其改進

TF-IDF由Jones[4]首次提出, 其計算公式如下常用的計算方法如下:

其中,m是表示特征詞在文檔i中出現的次數,M 表示文檔i中的總單詞數量。

其中,N 為總文檔數,n 為包含某項特征詞的文檔總數。選用傳統歸一化 TF-IDF算法來給特征項賦權時,其計算公式如下:

tij是代表了第i個文本中的第j個特征項,tfij代表了特征項j出現在文本i的頻率,Wij代表了特征項tij的權重,為逆文檔頻率,N是代表文檔的總數,nij是代表包含了所有tij的文本數量。

采用傳統歸一化 TF-IDF方法來給特征項賦權時,并沒有思考詞語的近義詞會在文本集中出現的情形,如果采用該方法給特征項賦權就忽略了文本中的這種特性,本文在文獻[5]中給出的結合語義給特征項賦權的基礎下改進了傳統歸一化TF-IDF方法,實現了形式與詞義的結合,其定義公式如下:

其中,ε為文本i中包含得得特征項tij和與特征項tij相似度大于γ的特征項的個數之和與特征項tij的個數的商,mij表示包含特征項tij或與特征項tij的相似度大于γ的特征項的文本個數,γ是系統設定值。在文獻[6]中通過對知識的描述語言分析,得悉“知網”的描述知識言可以用集合與義原、特征結構這兩種抽象數據結構來表達,語義的相似計算方法采用的是基于“知網”中的計算相似度的算法來確定γ=0.8。

3 基于CHI方法和改進TF-IDF算法的特征提取

然后結合CHI重新給一個類的所有詞賦權,計算公式如下:

4 實驗環境

本文的實驗數據來自于微博開放平臺API,使用網絡爬蟲技術獲取2015年3月—2015年4月的微博,將每個微博文本的內容當成一個部分。利用結合CHI和改進的TF-IDF算法的方法來提取特征項來減少微博文本的維度。電腦系統Window7,RAM 6G。軟件用Java編程,用MATLAB7.0實現結果的對比。

5 實驗步驟與結果

5.1特征項提取流程圖

圖1 微博特征項提取流程圖

獲取2000關于《太陽的后裔》的微博和2000條與《太陽的后裔》無關的微博。有,SCN=NEWS。

將獲得微博數據進行預處理,本文中使用由張華平、劉群等人設計和開發的 ICTCLAS分詞系統[7]對中文微博信息進行分詞和詞性標注,然后去掉停用詞得到詞。把獲取的微博數據SCN分為兩類一類是《太陽的后裔》和另一類非《太陽的后裔》,取這兩類中的所有不同的詞即為。再計算每個微博中每個詞的詞頻即為,從SCN的一類中取得所有不同詞。

5.2實驗結果

表格1是傳統的歸一化TF-IDF 算法與改進的TF-IDF算法對詞權重計算的結果。從圖2可以得出在改進的TF-IDF算法下得到權重都比傳統的算法得到的值大,這是因為我們在計算的時候考慮到了詞語的語義,將近義詞歸在一起求值。因此改進后的方法可以減少由詞的近義詞所引起的誤差。提高了計算的準確性。

表1 兩種方法下計算的詞權

圖2 權重結果對比仿真圖

做三組實驗,實驗一:取1700條微博,850條關于《太陽的后裔》和850條與《太陽的后裔》無關的微博。實驗二:取1800條微博,900條關于《太陽的后裔》和900條與《太陽的后裔》無關的微。實驗三:取1900條微博,950條關于《太陽的后裔》和950條與《太陽的后裔》無關的微博。用CHI方法和本文提出的方法來進行特征項的選擇。表2是3組實驗數據的結果對比圖。本文根據文獻[8]微平均精確率( micro-averaging precision),被普遍的用于交叉驗證的比較。這里它來比較不同的特征選擇算法的效果。圖3顯示的是SVM分類器分別采用CHI方法和基于結合CHI和改進的TF-IDF算法的方法在微博數據集上的micro_ P曲線。從圖3可知用不同方法分別獲取400,800,1200,1600個特征項時SVM分類器的micro_P值中可以看出基于基于結合CHI和改進TF-IDF算法的方法提取的特征項在一定程度上提高了查準率。

表2 三組實驗數據的結果對比圖

圖3 采用不同方法提取特征的SVM分類器性能比較

6 結束語

本文的研究工作是關于文本特征提取,提高特征提取的準確度從而達到降維的目的。CHI只是關注詞與詞之間的關系,新的方法提高了特征項提取的結果。在此基礎上,利用支持向量機進行文本分類的準確率達到了81.2%,本實驗取得了良好的效果,能提高微博話題檢測的準確率。

[1]Yang Yi-ming,LIU Xin.Annual International ACM SIGIR Conference on Research and Development in information[J].Annual International ACM SIGIR Conference on Research and Development in Information Retrieval New York:ACM,1999,8(6):42-49.

[2]李粵,李星,劉輝等.一種改進的文本網頁分類特征選擇方法[J].計算機應用,2004,7(3):119-121.

[3]Yang Yi-ming.An evaluation of statistical approaches to text categorization[J].Information Retrieval,2000,1(1-2):69-9.

[4]Jones K S.A Statistical Interpretation of Term Specificity and Its Application in Retrieval[J].Journal of documentation,1972,28(1):11-21.

[5]任姚鵬,陳立潮,張英俊,等.結合語義的特征權重計算方法研究[J].計算機工程與設計,2010,10(10):2381-2383.

[6]張敬.網絡輿情的熱點檢測及趨勢分析研究[J].計算機工程與設計,2012,9(8):156-158.

[7]衣波,陳新.網絡輿情信息的話題發現和追蹤技術的研究與應用[J].廣東工業大學學報,2013,8(30):58-64.

[8]程奇華,張立臣.信息物理融合系統語義模型分析[J].廣東工業大學學報,2016,33(03):43-48.

嚴萌【通訊作者】(1991—),女,碩士研究生,主要研究方向:微博話題檢的學習和研究。

朱燕飛(1976—),女,副教授,研究方向:系統建模、智能算法分析及控制。

鄭卜松(1992—),男,碩士研究生,研究方向:系統建模、智能算法分析及控制。

徐訓(1992—),男,碩士研究生,研究方向:系統建模、智能算法分析及控制。

猜你喜歡
特征提取特征文本
如何表達“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 午夜成人在线视频| 亚洲狠狠婷婷综合久久久久| 欧美视频免费一区二区三区| 成人福利在线视频| 亚洲一区二区日韩欧美gif| 亚欧成人无码AV在线播放| 女人一级毛片| 日韩欧美国产中文| 一级毛片在线播放免费| 呦视频在线一区二区三区| 国产亚洲精品资源在线26u| 毛片最新网址| 亚洲香蕉伊综合在人在线| 免费人成在线观看成人片| 国产成人精品亚洲日本对白优播| 强奷白丝美女在线观看| 99精品福利视频| 找国产毛片看| 久久精品亚洲中文字幕乱码| 亚洲美女视频一区| 欧美综合激情| 亚洲国产精品一区二区第一页免| 成年午夜精品久久精品| 免费va国产在线观看| 伊人久久精品无码麻豆精品| 一区二区午夜| 亚洲欧美成人在线视频| av性天堂网| 欧美日韩亚洲国产| 妇女自拍偷自拍亚洲精品| 色偷偷一区二区三区| 精品自窥自偷在线看| 亚洲aⅴ天堂| 最新国产麻豆aⅴ精品无| 亚洲码一区二区三区| a毛片免费看| 国产免费黄| 99这里只有精品免费视频| 最新精品久久精品| 国产精品短篇二区| 免费不卡在线观看av| 她的性爱视频| 成人自拍视频在线观看| 国产91线观看| 亚洲成人黄色在线| 国产精品午夜福利麻豆| 国产无码精品在线播放| 国产成人综合在线观看| 99热这里只有精品免费| 日韩精品亚洲精品第一页| 国产精品刺激对白在线| 五月天综合网亚洲综合天堂网| 国产麻豆va精品视频| 日韩欧美国产中文| 久久国产黑丝袜视频| 伊伊人成亚洲综合人网7777 | www.91在线播放| 色综合天天视频在线观看| 成人免费一级片| 亚洲中文字幕无码爆乳| 亚洲高清无码久久久| 狠狠色香婷婷久久亚洲精品| 亚洲毛片一级带毛片基地| 成人免费午夜视频| 国产一级无码不卡视频| 国产成人福利在线| 亚洲香蕉久久| 亚洲侵犯无码网址在线观看| 欧美成a人片在线观看| 日本一区高清| 国产 在线视频无码| 亚洲人成影视在线观看| 国产中文一区a级毛片视频| 婷婷六月激情综合一区| 免费 国产 无码久久久| 亚洲精品视频免费看| 日本午夜视频在线观看| 九九热精品视频在线| 久久鸭综合久久国产| 日韩精品一区二区深田咏美| 91丝袜乱伦| 日韩在线中文|