999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于話題特征詞的情感傾向性研究

2016-04-29 00:00:00林凌楊程程林夏玉
中國管理信息化 2016年22期

[摘 要]面對民眾觀點日益沸騰的互聯網時代,如何理解網絡輿情的傾向性,并且對輿情加以合理的引導是一個日益重要的課題。本文利用PLSA模型對不同時間段上的網絡輿情話題進行子話題提取,采用基于HowNet的語義相似度模型對相應的子話題進行情感分析,通過與閾值的比較得出該話題的褒貶程度。

[關鍵詞]話題特征詞;PLSA模型;語義相似度;情感傾向性

doi:10.3969/j.issn.1673 - 0194.2016.22.098

[中圖分類號]TP393.09 [文獻標識碼]A [文章編號]1673-0194(2016)22-0-02

0 引 言

隨著互聯網的快速發展,網絡逐漸成為民眾取得和發布信息的主要平臺。但是,正是由于網絡的便利性和虛擬性,網絡信息的真實性魚龍混雜,而面對稂莠不齊的信息源,廣大民眾不僅能夠隨時隨地接收,還能夠任意轉發。對網絡輿論進行適當的引導是非常必要的,否則可能引發不良后果,以致形成一定程度的恐慌,更進一步影響到其他民眾的正常社會生活。

因此,準確了解公眾的看法,對普通民眾情緒進行及時有效的引導是人們一直以來不斷努力的方向。本文試圖通過PLSA模型和基于HowNet的語義相似度模型,探究網絡輿情的情感傾向性,從而提出對策,以滿足政府和企業輿情監控以及控制的要求,為政府機構輿論引導的方向和內容提供依據明確的參考。

1 網絡輿情情感傾向性分析模型

網絡輿情話題情感傾向性分析模型共分為2個部分:話題提取和情感分析。其中話題提取主要采取的是PLSA模型,情感分析主要采取的是基于HowNet的語義相似度模型。

1.1 話題提取

1.1.1 文本采集

本文研究的是網絡熱點事件的情感傾向性,因此在數據采集過程中,首先要確定一個網絡熱點事件,然后利用網絡爬蟲到知乎、豆瓣、微博、新聞等平臺上獲取該網絡熱點事件的信息。

1.1.2 文本分詞

本文主要采用ICTCLAS漢語分詞系統。具體ICTCLAS文本分詞處理過程如圖1所示。

采用Java編程實現初步文本分詞,再利用停用詞表和Java程序,進行停用詞處理,從而得到相應的文檔-詞共現矩陣。

1.1.3 子話題抽取

采用PLSA模型對子話題進行抽取,生成k個子話題,并得到特征詞在k個子話題上的概率分布。具體PLSA模型的應用如下:

PLSA模型,全稱為概率潛在語義分析模型,將概率統計模型與EM算法相結合,實現對子話題的抽取。PLSA的概率模型圖,如圖2所示。

其中D表示文檔,Z表示主題,W表示觀察到的單詞。

在該PLSA概率模型中,已知(di,wj),Zk是隱含變量。則(di,wj)的聯合分布見公式(1)。

其中,P(zk|di)和P(wj|zk)都對應多項式分布,筆者通過最大期望(Expectation Maximization,EM)算法來估計多項式分布中的參數。該算法主要分為E步驟和M步驟,然后進行迭代求解。

針對PLSA模型中的參數估計,在E步驟中,使用貝葉斯公式直接計算Zk的后驗概率,見公式(2)。

在M步驟中,是利用E步驟中的后驗概率求得P(zk|di)和P(wj|zk),然后進行迭代求解,得到參數值見公式(3)、(4)。

1.2 情感分析

本文對網絡輿情情感傾向性的分析主要是通過對話題特征詞傾向值的度量,判斷該網絡熱點事件的褒貶程度。其中,默認0為閾值,即傾向值大于0時判斷為褒義,小于0時則判斷為貶義。

對于話題特征詞傾向值的度量,本文是基于知網HowNet,進行語義相似度的計算,從而計算得到相應的情感傾向值。在知網中,詞語是通過義原來描述的,所以將詞語的情感相似度轉化為義原的情感相似度。義原相似度的計算公式為式(5)。

其中,α為權值,w為詞語。

將最大的義原相似度作為詞語相似度,公式為(6)。

其中,y詞語的義原。

假設共有k對基準詞,則單詞w的語義傾向值計算公式(7)。

其中,key-pi、key-ni分別為褒義基準詞、貶義基準詞,Orientation(w)為單詞w的語義傾向值:

通過加權求和可以得到特征詞的情感傾向性值。

2 基于話題特征詞的情感傾向性實證分析

筆者通過實例進行分析,從而驗證本文所提網絡輿情情感分析方法的可行性。本文以2016年5月份的熱點輿論“江蘇高考減招”作為本文情感傾向性分析的對象。利用網絡爬蟲來爬取新浪微博2016年5月9日到5月11日關于“江蘇高考減招”話題的所有微博,設置的時間間隔為1天,劃分實驗預料,在5月9日到5月11日這個時間段,新浪微博中關于這個話題的討論熱度從熱烈到逐漸平緩,因此,選擇這個時間段對輿情情感的變化和分布進行探究。

2.1 PLSA輿情子話題抽取

筆者將半結構化信息處理后,得到純文本語料。隨后,進行分詞統計并且構建“文檔-詞語”的共現矩陣。接著,采用PLSA模型進行子話題抽取,得到每時段子話題及其概率矩陣。表1列出了抽取的4個時間點的子話題,以及出現概率在前5位的話題詞及其概率。

在表1中,整個時間段都被一個子話題貫穿,計算后,兩個子話題之間語義上的關聯度均大于本文設定的閾值0.5,因此,子話題“北京本科率”存在語義上的延續性。

2.2 基于特征詞的情感詞提取

本文以5月9日江蘇高考減招消息出現當天所產生的一個子話題為例,首先將與本話題有關的文本進行資料篩選;隨后,重新進行分類整理;接著,依據特征詞的不同,將句子保存到不同的特征詞文檔中,整理與之相對應的情感詞。

筆者通過BIYING搜索引擎對上述得出的情感詞進行搜索,選擇出現頻率最高的詞匯作為基準詞,選取依據為按照返回的Hits數進行排序的詞組,再以特征詞“減招”的情感關鍵詞為例,通過基于How-Net的詞匯傾向性計算方法得到部分詞匯的傾向值,如下表所示:

通過計算,最后可得到5月9日“江蘇高考減招”子話題中的特征詞“減招”的情感傾向值。計算的結果表明,對于江蘇高考減招,多數民眾認為這一項新政策十分不公平,并且對此懷有強烈的憤怒和不滿情緒,但值得注意的是,盡管不滿情緒高漲,超過半數的群眾還是會接受這項政策。

3 結 語

網絡輿情情感傾向性分析主要包括子話題抽取和情感分析兩大部分。而本文在這兩大部分上都進行了一定的創新,主要創新在子話題的抽取上采用Thomas Hofmann的PLSA模型,在情感分析上采用了基于HowNet的語義相似度分析。但是,這些模型仍然需要進一步改進。第一,將不同的句子結構都統一看成是陳述句進行分析,并沒有考慮其對情感表達的影響,就像反問句就與陳述句有完全不一樣的句意表達效果。第二,該模型需要花費大量的時間進行文本資料的人工整理,在大數據時代下,此種模型的實用性略差。所以未來的工作主要就是將現有的模型實現完全智能化,降低人工成本;考慮語法、句子結構等因素,得到更準確的情感傾向性。

主要參考文獻

[1]黃衛東,陳凌云,吳美蓉.網絡輿情話題情感演化研究[J].情報雜志,2014(1).

[2]黃衛東,林萍,董怡,李宏偉.基于話題特征詞的網絡輿情參與情感演化分析[J].情報雜志,2015(11).

[3]Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machine Learning,2001(1/2).

主站蜘蛛池模板: 波多野结衣无码中文字幕在线观看一区二区 | 2020精品极品国产色在线观看| 亚洲成人在线网| 欧美性久久久久| 国产美女一级毛片| 亚洲成人网在线播放| 无码免费视频| 99视频在线精品免费观看6| 久久国语对白| 亚洲精品无码不卡在线播放| 亚洲精品卡2卡3卡4卡5卡区| 日本久久免费| 激情综合婷婷丁香五月尤物| 天堂成人av| 国产在线麻豆波多野结衣| 少妇人妻无码首页| 国产美女久久久久不卡| 欧美一级黄色影院| 国产毛片基地| 孕妇高潮太爽了在线观看免费| 亚洲AV人人澡人人双人| 先锋资源久久| 亚洲人成网站观看在线观看| 在线人成精品免费视频| 四虎国产精品永久一区| 国产偷国产偷在线高清| 欧美高清三区| 制服丝袜亚洲| 国产导航在线| 国产在线视频自拍| 欧美激情综合一区二区| 国产精品第5页| 欧美a在线看| 五月激情婷婷综合| 亚洲成a人片在线观看88| 最新亚洲av女人的天堂| 精品第一国产综合精品Aⅴ| 久久精品人人做人人爽电影蜜月 | 日韩乱码免费一区二区三区| 欧美三级日韩三级| 国产人妖视频一区在线观看| 91福利国产成人精品导航| 亚洲视频无码| 四虎永久免费地址| 国产成本人片免费a∨短片| 久久永久免费人妻精品| 亚洲国产系列| 亚洲精品国偷自产在线91正片| 日韩精品毛片| 亚洲黄网在线| 97超级碰碰碰碰精品| 高清不卡毛片| 中文字幕在线观| 天堂网亚洲系列亚洲系列| 日本高清免费一本在线观看| 亚洲天堂.com| 欧美日韩精品综合在线一区| 国产内射一区亚洲| 91精品啪在线观看国产91九色| 中文字幕亚洲另类天堂| 国产视频一二三区| 亚洲码一区二区三区| 丝袜久久剧情精品国产| 玩两个丰满老熟女久久网| 日本三级欧美三级| 日韩午夜片| 六月婷婷精品视频在线观看| 老司机aⅴ在线精品导航| 亚洲永久免费网站| 成人中文字幕在线| 亚洲日本一本dvd高清| 日韩小视频在线观看| 亚洲日韩国产精品无码专区| 久久精品无码一区二区日韩免费| 精品国产电影久久九九| 亚洲香蕉伊综合在人在线| 欧美日本不卡| 国模私拍一区二区| 亚洲日本中文综合在线| 伊人久久影视| 国产成人无码久久久久毛片| 无码一区中文字幕|