999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進(jìn)的情感傾向判別算法

2019-05-29 14:39:30郭汝靜南京工業(yè)大學(xué)浦江學(xué)院南京0000安陽工學(xué)院河南安陽455000
安陽工學(xué)院學(xué)報 2019年2期
關(guān)鍵詞:特征情感實驗

吳 菲,郭汝靜(.南京工業(yè)大學(xué)浦江學(xué)院,南京0000;.安陽工學(xué)院,河南安陽455000)

0 引言

隨著“互聯(lián)網(wǎng)+”時代的到來,人們可以利用微博、微信等社交平臺發(fā)布評論、商品信息,實現(xiàn)快速、及時的溝通交流。然而這些信息具有很強(qiáng)的隨意性,內(nèi)容發(fā)散,短小,話題廣泛,而且還包含了大量無用的信息。這些評論無論對于政府部分的輿情分析,還是企業(yè)的商業(yè)活動,都有著重大的分析價值。因此,提取評論信息中的有效內(nèi)容就顯得十分必要。

目前對于互聯(lián)網(wǎng)評論的研究還處于起步階段,針對這一現(xiàn)狀,本文參考了現(xiàn)有關(guān)于中文文本分析的相關(guān)文獻(xiàn)和研究成果,對現(xiàn)有的特征值提取值算法和權(quán)重計算算法進(jìn)行改進(jìn),提高分類精度。

1 相關(guān)工作

目前,互聯(lián)網(wǎng)評論的情感傾向性分析是一個熱門的研究領(lǐng)域。機(jī)器學(xué)習(xí)是這一領(lǐng)域目前國內(nèi)熱門研究方向,劉志明等[1]研究了SVM等三種機(jī)器學(xué)習(xí)算法,并且對不同的特征提取方法進(jìn)行了深入的研究,從而選取了信息增益方式,驗證了評論的適用性與評論的風(fēng)格和主題內(nèi)容相依賴。李澤魁[2]將目前情感分析方面已有的研究成果做出了一個全面的綜述,得出了一些比較有利的特征組合,這些研究內(nèi)容可以為后續(xù)研究提供一個非常好的研究基礎(chǔ)與理論假設(shè)。

本文針對不同類型的評論進(jìn)行分類,以主觀評論的情感傾向作為重點研究內(nèi)容。首先過濾掉垃圾評論,提取主觀評論。然后通過改進(jìn)的特征組合提取算法IG-S以及TF-IDF-S來構(gòu)建向量空間,提高分類精度。

2 文本表示方法

目前,向量空間模型方法(VSM)是最廣泛的文本表示方法。該模型的基本思想是將文本字符串表示成空間中的多維向量,并以詞或者詞頻等特征項作為向量空間中的一個維度,而每一個維的值對應(yīng)的是特征項在文本中的權(quán)重。向量空間模型就可以表示為特征向量,表示為V(d)=[(t1,w1),(t2,w2),…(tn,wn)],其中ti(i=1,2,3,…,n)為文檔中特征項wi為ti的權(quán)重。

3 特征提取方法

在復(fù)雜的互聯(lián)網(wǎng)評論中包含了大量的不同特征,這些特征之間會相互影響,因此提取特征值是情感分類中的一個重要步驟[3]。在這些特征中,大多數(shù)的特征只是無用特征,只有小比例的特征對分類結(jié)果有很明顯的影響。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)特征提取方法等[4][5]。

傳統(tǒng)IG的算法如下:

公式(1)中m表示所有的評論類別。P(c)表示特征c在數(shù)據(jù)集中出現(xiàn)的概率。P()表示特征c不在數(shù)據(jù)集中出現(xiàn)的概率。P(gi)表示數(shù)據(jù)集中類型gi出現(xiàn)的概率。P(gi|c)表示數(shù)據(jù)集包含特征c,且同時又是類型gi的概率。P(gi)表示數(shù)據(jù)集中不包含特征c,但為類型gi的概率。由于傳統(tǒng)的IG算法無法對情感詞進(jìn)行準(zhǔn)確進(jìn)行辨別,雖然在實際中可以識別出一部分特征,但是在效果上仍然不理想。針對于情感分析這個領(lǐng)域的研究應(yīng)用,通常認(rèn)為對于評論極性判斷最有效的方法是使用情感詞,所以在特征詞的提取中非常有必要加入相關(guān)的挑選比例,以此來提高情感分析的準(zhǔn)確性。本文將以上IG算法進(jìn)行改進(jìn),得到新的算法公式IG-S,如公式(2)所示

公式(2)中n為情感詞集合。IG(c)表示特征c的IG值,表示沒有表達(dá)情感的特征IG的平均值,并且通過α來調(diào)控挑選的情感詞。與公式(1)相比,公式(2)加大了情感詞的權(quán)重,而對于非情感詞本文作者認(rèn)為不需要增加其權(quán)重,這樣也可以把出現(xiàn)頻率較高并且?guī)в忻黠@情感傾向的詞語挑選出來。通過改進(jìn)的特征值提取方法計算出每個特征詞的IG值之后,將其根據(jù)值的大小進(jìn)行從大到小排序,最后選取分?jǐn)?shù)最高的若干詞組成特征詞集,得到所需內(nèi)容。

4 權(quán)重計算

傳統(tǒng)的TF-IDF方法存在著一些缺陷。首先,它無法區(qū)分情感詞和普通詞,而情感詞和普通詞在區(qū)分情感所屬類別的能力上有著明顯的差異,并且沒有考慮情感詞所處的相關(guān)位置因素,比如程度副詞之后是帶有明顯情感傾向的情感詞,那么就應(yīng)該提高情感詞的權(quán)重。其次,該方法過高地估計了一些無用詞的貢獻(xiàn)度,從而造成不同類別之間的特征表示能力的減弱。針對這些不足,本研究改進(jìn)特征權(quán)重的計算方式,提出了改進(jìn)的TF-IDF-S方法,算法公式如下:

公式(3)中Q代表情感詞詞典,T代表程度副詞詞典,Si-1表示特征i前一個詞的內(nèi)容,gni,j表示在一個評論句子中情感詞后面緊接著程度副詞,則將情感詞的權(quán)重加大為1.2倍,否則保持原有的權(quán)值不變。P(nk|ci)表示在類別ci中含有特征i的概率,ni,j表示在類別ci中包含特征i的總數(shù)。P(nk)?表示不在類ci中特征i出現(xiàn)的概率。采用公式(3)的方法既可以將情感詞區(qū)分出來,還能起到減弱稀疏特征的作用。

5 實驗結(jié)果與分析

本文設(shè)計了改進(jìn)的特征值提取方法和權(quán)值計算方法,以此來提高情感傾向性判斷的準(zhǔn)確率。為了驗證算法的有效性,作者進(jìn)行了實驗驗證。本文選擇了幾組有效的特征組合來驗證改進(jìn)的算法,并將單一的分類算法作為參照實驗,實驗結(jié)果表明本文提出的方法在分類精度上較傳統(tǒng)方法有了一定的提高。

5.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)采用通過爬蟲技術(shù)從互聯(lián)網(wǎng)評論中爬取得到的有關(guān)社會輿論的評論,在篩選直觀垃圾評論之后,形成3個話題的測試數(shù)據(jù)集。數(shù)據(jù)集1的測試集和訓(xùn)練集比較相近,數(shù)據(jù)集2的測試集和訓(xùn)練集相似度比較小,數(shù)據(jù)集3的測試集和訓(xùn)練集出于同一個數(shù)據(jù)源。具體內(nèi)容如表1所示。

表1 數(shù)據(jù)集示例

5.2 改進(jìn)的特征值算法和權(quán)重計算方法的試驗結(jié)果

本實驗采取四組實驗,第一組是實驗室傳統(tǒng)的IG和TF-IDF方法,第二組使用的是改進(jìn)的IG方法,第三組使用的是改進(jìn)的TF-IDF方法,第四組使用的是改進(jìn)的IG和TF-IDF方法。幾組實驗使用相同的特征值組合,實驗數(shù)據(jù)為第一個數(shù)據(jù)集。將該數(shù)據(jù)集分為6個標(biāo)簽,分別為POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四種方法在不同標(biāo)簽集上的實驗結(jié)果如表2所示。

從表2的實驗結(jié)果來看,改進(jìn)的IG和TF-IDF方法對分類效果都有所改進(jìn),這說明本文使用的方法更有效。

使用本文的方法在三組不同的測試集上進(jìn)行實驗,結(jié)果如表3所示。

表2 不同方法的比較結(jié)果

表3 不同數(shù)據(jù)集比較結(jié)果

從表3的實驗結(jié)果可以看出,測試集1和測試集2的各類指標(biāo)有很大的區(qū)別。測試集1的數(shù)據(jù)和訓(xùn)練集比較相近,測試集2的數(shù)據(jù)和訓(xùn)練集相似度較小,所以測試集1的分類效果較好。測試集3和訓(xùn)練集出于同一數(shù)據(jù)源,其結(jié)果比前兩個測試集好。可見同一數(shù)據(jù)源的測試集和訓(xùn)練集能取得較好的分類結(jié)果。

6 總結(jié)與展望

本文采用改進(jìn)的IG算法和TF-IDF算法來提取特征值,在情感分析中能夠更好地挑選出情感詞,并且對情感詞加大權(quán)重之后加入到向量空間中去。通過實驗表明,兩種改進(jìn)算法的結(jié)合能夠取得很好的效果。

本文所使用的是有監(jiān)督的機(jī)器學(xué)習(xí)方式,對于相似度較大的訓(xùn)練集可以取得較好的效果。在不同的訓(xùn)練集上的效果并不是特別理想。怎樣在不同訓(xùn)練集上取得較好的效果,這個問題有待進(jìn)一步研究。

猜你喜歡
特征情感實驗
記一次有趣的實驗
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
做個怪怪長實驗
不忠誠的四個特征
如何在情感中自我成長,保持獨立
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
主站蜘蛛池模板: 四虎影视无码永久免费观看| 国产91透明丝袜美腿在线| 国产乱子伦一区二区=| 午夜一级做a爰片久久毛片| 中文国产成人久久精品小说| 午夜国产精品视频黄 | 国产日本一线在线观看免费| 国产后式a一视频| 日韩福利在线观看| 国产精品第5页| 91毛片网| 99热线精品大全在线观看| 亚洲国产成人自拍| 久久综合成人| 亚洲成人一区在线| 中文字幕佐山爱一区二区免费| 久久国产拍爱| 成人在线视频一区| 成人综合久久综合| 精品午夜国产福利观看| 四虎精品黑人视频| 91视频首页| 国产精品极品美女自在线网站| 亚洲一区毛片| 久久99精品久久久久纯品| 毛片基地视频| 国产毛片高清一级国语| 亚洲欧洲日产国码无码av喷潮| 久操中文在线| www.91在线播放| 亚洲成网777777国产精品| 国产不卡在线看| 999福利激情视频| 在线亚洲精品自拍| 国产激情在线视频| 亚洲成人动漫在线| 亚州AV秘 一区二区三区 | 久青草免费在线视频| 亚洲精品无码在线播放网站| 久久精品国产91久久综合麻豆自制| 草逼视频国产| 亚洲一区二区三区国产精华液| 国产午夜无码专区喷水| 中文字幕首页系列人妻| 成年女人a毛片免费视频| 亚洲福利片无码最新在线播放 | 成人精品视频一区二区在线 | 亚洲经典在线中文字幕| 精品無碼一區在線觀看 | 九九热精品在线视频| 精品在线免费播放| 免费在线国产一区二区三区精品| 亚洲愉拍一区二区精品| 国产视频一区二区在线观看| 午夜国产不卡在线观看视频| 欧美中文字幕无线码视频| 999国产精品永久免费视频精品久久| 国产波多野结衣中文在线播放| 波多野结衣视频一区二区| 欧美精品高清| 成人一级免费视频| 欧美日韩成人| 国产日韩欧美精品区性色| 性视频久久| 国产成人精品男人的天堂| 无码精油按摩潮喷在线播放| 久久成人国产精品免费软件| 亚洲综合狠狠| 亚洲中久无码永久在线观看软件| 久热中文字幕在线| 成人在线观看不卡| 三级国产在线观看| 丰满人妻久久中文字幕| 国产高清免费午夜在线视频| 日韩成人午夜| 波多野结衣中文字幕久久| 午夜福利免费视频| 亚洲综合天堂网| 国产精品专区第1页| 韩日免费小视频| 综合色在线| 国产成人成人一区二区|