999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息增益與CHI 卡方統(tǒng)計(jì)的情感文本特征選擇?

2020-12-23 11:49:54楊新怡肖利雪
關(guān)鍵詞:分類特征文本

楊新怡 肖利雪

(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們獲得信息的方式越來越多,而現(xiàn)今社會中新媒體的盛行,讓更多的人選擇互聯(lián)網(wǎng)來記錄自己在某一時(shí)刻的心理情感,而這些用戶越來越多的評價(jià)情感文本隨之增加,因此就會產(chǎn)生很多的文本數(shù)據(jù),但是如何管理和篩選這些文本是至關(guān)重要的[1]。數(shù)據(jù)挖掘方法中最值得研究的是文本分類,它是將根據(jù)文本中的情感詞的情感偏向,給定整個(gè)文本的情感。文本分類一般過程是第一步進(jìn)行初始文本預(yù)處理,將預(yù)處理后的文本進(jìn)行特征降維,將降維后的文本表示成計(jì)算機(jī)可以識別的方式,分類器的選擇與訓(xùn)練、將需要分類的文本進(jìn)行分類以及結(jié)果評價(jià)[2]。文本表示就是將文本表示成計(jì)算機(jī)可以識別的方式,一般是將一個(gè)分詞后的一個(gè)中文詞條看作最小的表示單位,一個(gè)中文詞條視為一維的語義載體,特征空間就是由全部的中文詞條組成,而有些特征項(xiàng)是對于文本分類沒有幫助的[3]。所以,文本分類的流程中必須要做特征降維。特征降維主要有兩種方法,分別是特征選擇和特征提取[4~7]。

目前,特征選擇方法是:信息增益法(IG),文檔頻率法(DF),互信息方法(MI),卡方檢驗(yàn)法(CHI),加權(quán)對數(shù)似然(WLLR)和加權(quán)頻率和可能性(WFO)[8]。其中就特征選擇實(shí)驗(yàn)結(jié)果最優(yōu)的是IG和CHI。但是它們還是存在一些不足的地方,針對它們的優(yōu)缺點(diǎn)的改進(jìn)算法也是層出不群。在信息增益的方法上,李學(xué)明等[9]提出一種基于信息增益與信息熵的TFIDF算法,主要的研究點(diǎn)是發(fā)現(xiàn)權(quán)重的影響因素有特征詞在不同位置的分布,對特征詞在類內(nèi)和類間做了研究。LIU[10]等提出一種新的結(jié)合LW 索引與序列正向搜索算法的特征選擇算法。文獻(xiàn)[11]使用不同的加權(quán)方法,特征選擇方法是自適應(yīng)遺傳算法,采用多種不同的分類方法對文本分類進(jìn)行研究。HE等[12]通過添加權(quán)重因子來平衡特征項(xiàng)對分類的影響。在卡方統(tǒng)計(jì)的方法上,文獻(xiàn)[13]等是對CHI特征選擇算法的優(yōu)化算法,它的優(yōu)化方法是基于特征項(xiàng)的分布位置差異以及文獻(xiàn)[14]通過對傳統(tǒng)CHI 方法選擇精度的影響因素進(jìn)行分析,提出了消除特征項(xiàng)與類別負(fù)相關(guān)對特征選擇精度影響的改進(jìn)算法。以上兩者都是傳統(tǒng)的文本分類卡方統(tǒng)計(jì)改進(jìn)方式。

上述的方法大多數(shù)都是對傳統(tǒng)文本的分類有較好的效果,相比較而言,情感文本就包含更多的情感信息,觀點(diǎn)信息。所以,如果只使用傳統(tǒng)文本的分類方式,對情感文本去做分類是片面的,我們要做到剖析其隱含的情感色彩[15]。本文主要是在眾多特征選擇算法中,選擇出兩種較優(yōu)的特征選擇算法,將其進(jìn)行算法融合,經(jīng)過實(shí)驗(yàn)證明,融合后的特征選擇算法在情感文本分類有較好的實(shí)驗(yàn)效果。

2 文本分類過程及關(guān)鍵技術(shù)簡述

2.1 文本分類過程

文本分類的主要目的是對于提供的文本信息進(jìn)行分類。在數(shù)據(jù)挖掘中,對文本分類主要有兩大主要部分組成。第一是訓(xùn)練分類效果良好的分類器,第二就是文本分類。在訓(xùn)練分類器是通常是將已經(jīng)準(zhǔn)備好的訓(xùn)練樣本作為輸入,經(jīng)過一些預(yù)處理工作,再選擇一些有代表性的分類算法進(jìn)行分類,最終的分類結(jié)果就是如圖1(a)所示。那對于文本分類,其實(shí)就是將我們已經(jīng)訓(xùn)練好的文本分類器對指定待分類數(shù)據(jù)集的使用,如圖1(b)所示。總的來說,文本分類整體過程就是預(yù)處理、訓(xùn)練、分類的過程。

圖1 文本分類流程圖

2.2 關(guān)鍵技術(shù)簡述

文本分類預(yù)處理即中文分詞和去停用詞。中文分詞,即Chinese Word Segmentation,即將一個(gè)漢字序列進(jìn)行切分,得到一個(gè)個(gè)單獨(dú)的詞。本文選用專用分詞的python 庫jieba,具有分詞效果好,分詞快等特點(diǎn)[16]。去停用詞主要是要確定停用詞表,目前使用最多的停用詞表就是哈工大停用詞表,百度停用詞表,四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫[17~18]。本文是將主流的三種停用詞表做了整合,然會將文本預(yù)處理后得到的特征詞與此整合的詞表做匹配。如果文本預(yù)處理后的特征詞有在停用詞表中,則表明這個(gè)特征詞是無用的。

在文本預(yù)處理后得到特征項(xiàng),但是這些特征項(xiàng)還是包含了很多的無用干擾項(xiàng),所以還需要進(jìn)行進(jìn)一步的篩選。本文采用空間向量模型(VSM)將預(yù)處理后的特征項(xiàng)做了初始化,將每一個(gè)特征項(xiàng)表示為該文檔的特征向量的一個(gè)分量。最后,經(jīng)過初始化的特征集就是后續(xù)特征選擇步驟的輸入。

3 傳統(tǒng)特征選擇算法

3.1 信息增益方法

在信息增益中,選出的特征詞是否有用其判斷標(biāo)準(zhǔn)是這些特征詞的區(qū)分力,如果這個(gè)特征詞蘊(yùn)含的區(qū)別信息越明顯,那它就是有用的,即計(jì)算存在特征t 與不存在特征t 兩種情況之間的計(jì)算差值。

對于分類器而言,類別C 為變量,n 表示類別的總數(shù),取值范圍為C1,C2,…,Cn,而其類別出現(xiàn)時(shí)所相對應(yīng)的概率是P(C1),P(C2),…,P(Cn),此時(shí)分類器的熵表示為

對于無特征t 的狀況下,所表達(dá)的是分類器中已經(jīng)包含特征t,但是t 已經(jīng)是一個(gè)定值,這種情況下的信息的熵就是計(jì)算t 固定時(shí)的信息熵,即條件熵,則無特征t 時(shí)的信息熵計(jì)算公式可以表示為

式中:P(t)表示T 出現(xiàn)的概率,P(tˉ)表示T 不出現(xiàn)的概率。最終特征T 給分類器帶來的信息增益分類器原來的熵與固定特征T 后的條件熵之差:IG(T)=H(C)-H(C|T )

3.2 CHI特征選擇算法

CHI 特征選擇算法是以假設(shè)特征詞與類別相互獨(dú)立為前提,計(jì)算這兩個(gè)變量之間的值(即偏差程度)。如果計(jì)算得到的值越大(即偏差越大),則特征詞與類別越相關(guān)。假設(shè)特征變量t 與類別c相互獨(dú)立,則t 對于類別c 的CHI統(tǒng)計(jì)量表示為

式中,參數(shù)A 表示屬于類別c 且包含特征詞t 的文檔數(shù),參數(shù)B 表示不屬于類別c 但包含特征詞t 的文檔數(shù),參數(shù)C 表示屬于類別c 但不包含特征詞t的文檔數(shù),參數(shù)D 表示既不屬于類別c 也不包含特征詞t 的文檔數(shù),參數(shù)N 表示文檔的總數(shù),上述公式計(jì)算特征詞t 與類別c 之間的相關(guān)性,當(dāng)t 與c相互獨(dú)立時(shí),χ2( )t,c =0 ;當(dāng)t 與c 相關(guān)性越強(qiáng),χ2(t,c)值越大,即特征詞t 中與類別c 就越相關(guān)。

4 基于傳統(tǒng)特征算法的改進(jìn)

針對CHI 和IG 特征選擇方法存在的不足進(jìn)行研究和分析,本文提出一種通過加權(quán)實(shí)現(xiàn)IG和CHI兩種特征選擇算法的融合的特征選擇算法,使用IG_CHI 特征選擇算法選出具有較強(qiáng)類別表征性的特征項(xiàng),可以在兩種方法中取一個(gè)權(quán)值α,綜合其弊端

同時(shí)為了更加突出蘊(yùn)含情感的詞條,在選取合適的特征詞時(shí),對情感特征詞的IG(T,C)_CHI 值乘上β 值,即

式中:y 取0 和1,當(dāng)特征詞為情感特征詞時(shí),y 取1,反之取0。

5 實(shí)驗(yàn)過程及結(jié)果分析

實(shí)驗(yàn)環(huán)境:操作系統(tǒng)是Windows10 64 位,處理器是Inter Core i7-8550U,內(nèi)存是8GB,實(shí)驗(yàn)數(shù)據(jù)集是爬取京東電腦的評論數(shù)據(jù),總共爬取相關(guān)數(shù)據(jù)50152 條,其中對商品好評為25065 條,差評為25087 條。以此作為樣本集對本文改進(jìn)的算法進(jìn)行驗(yàn)證,特征加權(quán)方式是TFIDF,分類器選擇是SVM分類器。

先對數(shù)據(jù)進(jìn)行分詞,去掉停用詞等預(yù)處理操作,其中分詞使用python 的jieba 庫,對分詞后的結(jié)果進(jìn)行進(jìn)一步篩選去除無用信息,再采用選取的兩種傳統(tǒng)的特征選擇算法,以及本文中優(yōu)化后的算法,將傳統(tǒng)算法與改進(jìn)算法做對比實(shí)驗(yàn)。

5.1 評價(jià)指標(biāo)

對于情感分類結(jié)果評價(jià)的指標(biāo)有查準(zhǔn)率(Precision),召回率(Recall)和F-測度值(F-measure)。

對于情感傾向性分類問題,可將樣例根據(jù)其真實(shí)類別與預(yù)測類別的組合劃分為真正類(True Positive,TP),假正類(False Positive,F(xiàn)P),真反類(True NegatIverson,TN),假反類(False Negative,F(xiàn)N)四種情況,真實(shí)類別與預(yù)測類別組合劃分的標(biāo)識結(jié)果如表1所示。

表1 真實(shí)類別與預(yù)測類別組合劃分

其中,F(xiàn)P 是將原本屬于正類的樣本預(yù)測成正類,分類正確;FN 是將原本屬于正類的樣本錯(cuò)分到負(fù)類,分類錯(cuò)誤;FP 是將原本屬于負(fù)類的樣本錯(cuò)分到正類,分類錯(cuò)誤;TN 是將原本屬于負(fù)類的樣本預(yù)測成負(fù)類,分類正確。

查準(zhǔn)率P,查全率R 以及F -測度值分別定義為

其中β 是一個(gè)調(diào)整因子,用來調(diào)節(jié)P 和R 之間的相互關(guān)系,β 通常取為1,則有

5.2 實(shí)驗(yàn)結(jié)果與分析

本文分別采用傳統(tǒng)CHI方法,IG方法以及本文提出的IG_CHI 方法進(jìn)行特征提取,并采用SVM 進(jìn)行分類。表2 為CHI、IG 方法以及本文提出的IG_CHI 方法在不同維度下情感分類的結(jié)果。由表可以看出,基于信息增益與CHI融合的特征選擇算法提取的特征采用SVM 算法在相同特征維度下的識別率要高于其他兩種特征提取算法,當(dāng)特征維度達(dá)到1500 本文提出的算法識別率較高,達(dá)到87.22%。說明本文提出的特征選擇算法能夠較準(zhǔn)確地提取出文本中的特征。

表2 在不同維度下的情感分類準(zhǔn)確率

6 結(jié)語

本文提出了一種基于CHI 和IG 的特征選擇融合算法,通過大量的傳統(tǒng)特征選擇算法與融合算法的對比實(shí)驗(yàn),結(jié)果也證明了該算法對于文本情感分類有明顯效果。對于不同的語言環(huán)境,權(quán)重值的設(shè)定是一個(gè)動態(tài)不確定因子,對特征提取的準(zhǔn)確性具有一定的影響,因此,將進(jìn)一步研究根據(jù)不同語言環(huán)境下的準(zhǔn)確率自適應(yīng)的調(diào)整情感詞的權(quán)重,成為本文后續(xù)研究的方向。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产美女主播一级成人毛片| 国产精品真实对白精彩久久| 国产精品亚洲一区二区在线观看| 国产对白刺激真实精品91| 国产麻豆永久视频| 98精品全国免费观看视频| 老熟妇喷水一区二区三区| 欧美啪啪网| 国产无人区一区二区三区| 国产区网址| 91福利片| 青青久在线视频免费观看| 国产欧美另类| 狠狠色丁香婷婷| 伊人久久大香线蕉影院| 华人在线亚洲欧美精品| 香蕉视频在线精品| 操操操综合网| 福利小视频在线播放| 亚洲天堂免费观看| 99偷拍视频精品一区二区| 蜜桃臀无码内射一区二区三区| 又爽又大又黄a级毛片在线视频| 乱系列中文字幕在线视频| 污网站免费在线观看| 国产欧美日韩另类精彩视频| 欧美日韩激情| 国产欧美日韩资源在线观看| 制服丝袜在线视频香蕉| 国内精品视频| 精品午夜国产福利观看| 国产迷奸在线看| 午夜性刺激在线观看免费| 国产成人精品男人的天堂下载| 日韩中文精品亚洲第三区| 综合天天色| 99热这里只有精品免费| 风韵丰满熟妇啪啪区老熟熟女| 精品久久久久久成人AV| 曰韩人妻一区二区三区| 亚洲最大综合网| 丁香婷婷激情网| 幺女国产一级毛片| 日本一区中文字幕最新在线| 免费xxxxx在线观看网站| 免费无码又爽又刺激高| 青青操国产| 在线观看国产精品日本不卡网| 亚洲天堂福利视频| 精品成人一区二区三区电影 | 亚洲精品男人天堂| 91激情视频| 国产高清国内精品福利| 亚洲成aⅴ人在线观看| 欧美午夜网| 国产精品久久自在自线观看| 无码中文字幕精品推荐| 国产成人精彩在线视频50| 一本大道香蕉高清久久| 欧美中日韩在线| 国产精品一区二区在线播放| 亚洲日韩国产精品综合在线观看| 欧美一级高清视频在线播放| 中文无码日韩精品| 真实国产乱子伦高清| 国产精彩视频在线观看| 青青热久免费精品视频6| 国产主播福利在线观看 | 免费A级毛片无码免费视频| 亚洲,国产,日韩,综合一区| 91福利免费视频| 天堂成人在线| 欧美日在线观看| 永久毛片在线播| 日本黄色不卡视频| 中文字幕一区二区视频| 无码有码中文字幕| 国产成人精品18| 网友自拍视频精品区| 亚洲精品卡2卡3卡4卡5卡区| 99在线观看免费视频| 九九热视频在线免费观看|