999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡輿情事件的主動感知實踐

2015-12-14 10:31:33黃煒姚嘉威
現代情報 2015年10期

黃煒++姚嘉威

〔摘要〕隨著網絡時代的到來,網絡數據呈指數爆炸式增長,主題的模糊性越來越明顯。同時多元非結構性的數據使得傳統的聚類算法在網絡輿情事件的發現越來越困難,不能滿足高效,精準,及時、有效的感知需求。本文引入LDA聚類算法,基于主題生成模型,挖掘數據背后的語義關聯,設計并且實現輿情事件的熱點主動感知系統。通過數據實驗表明,該系統能夠快速、高效地發現事件主題,克服偏移詞的干擾,從而實現網絡輿情事件熱點的主動感知。

〔關鍵詞〕網絡輿情;熱點事件;LDA;聚類

DOI:10.3969/j.issn.1008-0821.2015.10.002

〔中圖分類號〕TP391〔文獻標識碼〕A〔文章編號〕1008-0821(2015)10-0007-05

Research on Detection of Network Public Opinion EventHuang Wei1,2Yao Jiawei1

(1.School of Economy and Management,Hubei University of Technology,Wuhan 430068,China;

2.School of Management,Wuhan University of Technology,Wuhan 430070,China)

〔Abstract〕With the era of cloud computing and data arrival,the amount of data the exponential explosion,ambiguity and complexity increase and the theme of the more obvious,and massive multiple non-structured data,the traditional clustering algorithm is found and perceived significantly more and more limitations in the event of network public opinion,can not meet the high efficiency,accurate,timely,effective demand.This paper introduced the modern LDA clustering algorithm,which was based on the theme of generation model,capable of semantic association mining behind the data,through the continuous evolution of reasoning,in order to explore the data hidden value,design and implementation of public opinion events hot perception system.Through a large number of experimental data obtained,the system could efficiently and quickly found the data subject,accurately grasp the core essentials,and ignore the interference of individual words,so as to determine the perception of Internet public opinion hotspot.

〔Key words〕network public opinion;hot topic event;LDA;clustering

網絡信息的爆發式增長,傳統的分析方法已經不能適用這樣的環境。很多垃圾信息充斥著互聯網,導致越來越多的信息資源并沒有被人們所利用。與此同時,泛在網絡和自媒體的快速發展正改變著傳統信息傳播的媒介和方式,憑借其開放性、實時性和自由性,迅速占領了網絡應用市場,例如微博和微信。人們利用這些工具進行隨時隨地的信息發布和傳播,從而使社會的各種矛盾通過網絡不斷展現和放大,產生了較大的負面影響。如何及時發現和感知人民群眾所關心和關注的熱點,促進網絡文明社會的和諧發展,在新形勢下顯得格外重要。

基于主題發現的LDA[1]文本聚類在此需求下應運而生,旨在輔助用戶快速有效地找到所需資源,提供更精準的主題信息服務。本文引入LDA聚類算法進行海量數據處理,分類匯總,提煉數據背后的關聯主題,從而提高信息檢索和主題發現的精準率,為準確把握網絡輿情事件的熱點主題服務。

1LDA與輿情熱點感知

11LDA主題模型

一般傳統聚類算法按照處理方式的不同通常可以分為6類:層次法,劃分法,密度法,網格法,模型法和約束法[2]。而基于概率法的LDA(Latent Dirichlet Allocation),簡稱隱含狄利克雷分配,是近年來發展起來的一種重要的離散數據集合的建模方法[3]。LDA基于一個常識性假設,文檔集合中的所有文本均共享一定數量的隱含主題。基于該假設,它將整個文檔集特征化為隱含主題的集合,而每篇文本被表示為這些隱含主題的特定比例的混合。LDA作為新型數據挖掘和人工智能領域已經成為熱門技術,廣泛應用于信息檢索,機器學習,自然語言處理研究,已經取得一些成果[4-7]。在文本聚類領域引入LDA算法,是一種在無監督學習下,突破傳統聚類方法以詞語重復度作為相似計算的依據,發現文字背后的語義關聯,解決同義詞和多義詞噪聲問題,完成大數據計算環境下的降維。在海量數據中提取精準的主題,使信息檢索與主題發現更加智能化,網絡輿情事件熱點特征的感知與提取更加精準[8]。endprint

2015年10月第35卷第10期現?代?情?報Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期網絡輿情事件的主動感知實踐Oct,2015Vol35No1012輿情熱點感知

隨著網絡自媒體數據量的不斷增加,網民逐漸成為互聯網主宰者,他們的言論往往是實時的最有影響的輿論來源。話題發現與跟蹤技術(TDT)[9]就是在這種環境下產生,它是針對信息發現和信息過載提出一套解決方案,目的是通過對文章主題的發現與跟蹤,把各種分散的信息有效地進行匯集并組織線索,以提供給用戶進行查閱等高層次服務,文本聚類方法是TDT重要組成部分。網絡熱點話題發現[10-11]是從各種網絡源信息中發現某段時間內各個領域發生的引起人們較大關注的話題,發現并監控熱點話題有助于讓大眾知曉某段時間內的社會焦點。網絡輿情[12]具有內容多元、主體主導、群體極化和虛實互動等特征,容易導致群體性事件的產生。及時地發現社會輿情,為政府監管部門制定相關政策提供理論依據,對提高虛擬社會管理水平具有重要意義。

2基于LDA的網絡輿情事件熱點感知方法

網絡輿情事件熱點感知的本質就是文本集自動聚類技術,發現內部隱藏主題。熱點發現往往采用這4個模型[13]:布爾模型、向量空間模型、概率模型、語言模型。布爾模型采用兩個文檔共現的索引項,通常作為聚類算法的輔助工具。向量空間模型將文章以向量形式表示,文章相似性采用向量之間的距離,權值通常采用TF-IDF,兩篇文章共現詞越多,權重越大,相似距離越近,但容易丟掉文章的語義關聯。概率模型使用概率構建主題模型,通過特定算法進行主題模型驅動,自動生成歸類,非常適用在網絡輿情信息源數據量大、主題模糊性高、事件個數不確定性的情況[14]。本文使用的LDA屬于概率模型。

21網絡輿情事件熱點分析

網絡輿情事件,一般屬于敏感話題范疇,與廣大人民群眾的利益相關,即或者人們感興趣的話題。因此一經發布,他的影響力和擴散力是不可估量的。大多數輿情事件都有這樣的特征:速度傳播快、影響力大、轉發轉載用戶比較多。由于網絡數據更新速度快,網絡輿情熱點事件生存周期更短,因此對網絡資源的處理速度也需要與時俱進,時時更新,并挖掘數據背后隱藏的內容[15]。一般網絡輿情事件以新聞形式出現,或由門戶網站轉發,因此它的關注度比較大。其熱點往往以時間、地點、人物、事件的形式出現[16]。為了精準地發現熱點,熱點對應特征詞的識別很重要。本文采用將事件的熱點由若干特征詞構成的序列方案,詞與詞之間的關系集合構成一個熱點事件。

22網絡輿情事件熱點感知的LDA方法

221文本預處理

LDA采用詞作為特征項,通常文本可以看成特證詞的數組構成,因此進行文本聚類之前,首先采用特殊數據結構來構造特定的數據集。輿情事件熱點系統分詞子系統中采用ICTCLAS 2014版本,ICTCLAS(又稱NLPIR漢語分詞系統)主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典等功能。ICTCLAS 2014新增了微博分詞、新詞發現與關鍵詞提取,而且效率高,分詞速度快,準確率好。由于ICTCLAS采用持續共享模式,便于通過調用API進行二次開發。ICTCLAS的API功能強大,可以去除標點符號,引入用戶詞典進行特定分詞,進行新詞的提取等任務。因此本研究只需建立一個過濾詞表進行常用詞過濾,形成網絡輿情特征數據集,并且可以降低文本特征的維數,提高文本處理速度。

222文本特征抽取

分詞過濾之后,剩下的就是文本的核心數據,但是并不是所有單詞都能準確反應文本信息、時間、地點、人物、事件等不同時期不同熱點具有不同側重點。我們不能肯定地說文本中的某一個單詞就能100%表征這篇文檔,只能說這個單詞能以某種程度來“表征”[17]這篇文檔,這個程度具體衡量的標準就是概率。概率越大,說明這個單詞越能表征這篇文檔;反之則越不能表征這篇文檔,當概率小到一個閥值(人為設定)的時候,這個單詞就可以舍棄了,通過此方法可以適當降低文本特征維數。

(1)主題概率化分析

LDA是一個3層貝葉斯概率模型,采用主題生成模型。它是在傳統的聚類算法文本——詞分布引入主題空間,形成3層架構,認為文本是有很多主題構成的,且各主題之間都有一定的概率。 文檔到主題服從Dirichlet分布,主題到詞服從多項式分布 。一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語[18],一篇文章3層貝葉斯結構(隱含主題)模型示意圖如圖1。

圖1文檔3層貝葉斯結構模型示意圖因此如果我們要生成一篇文檔,它里面的每個詞語出現的概率為:

文檔序列概率化表示:D={d1,d2,d3,…,dn};

主題序列概率化表示:T={t1,t2,t3,…,tn};

單詞序列概率化表示:W={w1,w2,w3,…,wn},P{WjDt}=P{WjTj}P{TjDt}。

LDA對主題的混合權重θ進了Dirichlet先驗,用一個超參數α來產生參數θ,即參數的參數。

(2)主題詞抽取

基于LDA主題模型,是利用統計學的知識,分析文檔集內部信息,將文本映射到基于隱含主題的特征空間[19]。對于每一篇文檔,從主題分布中抽取一個網絡輿情主題,從被抽取的主題所對應的單詞分布中抽取一個主題詞,重復上述過程直至遍歷文檔中的每一個單詞。這就是推理演化前期的準備工作,提供迭代的數據。

(3)推理演化

主題模型的初始化

輸入:文檔——主題分布概率;單詞——主題分布概率

迭代推理:更新主題和估計參數,直至收斂

對于任意文本:基于主題模型中參數Beta以及文檔——主題分布;endprint

計算該文檔中每個單詞在主題上的分布;

基于LDA模型參數Alpha和單詞——主題分布;

計算文檔的主題分布

輸出:優化的LDA主題模型Beta和Alpha參數

完成LDA主題模型的參數推演

(4)中間產品

經過推理演化,生成文本——主題概率分布和主題——單詞概率分布產品,他們都是迭代收斂的最終結果,以矩陣形式存在,包含主題概率的詳細信息。

(5)聚類結果

聚類的產品屬于矩陣,可以按照矩陣處理算法和相關的對應關系,將主題、文本、單詞概率分布有機的整合起來,形成最終的聚類結果[20]。文本文件按主題分類歸并以文件夾形式存放,并且對應的文件夾包含特定的主題文件,包含相應的單個類的準確率和總準確率。

3原型系統與實驗

31基于LDA的網絡輿情事件熱點感知原型系統

原型系統采用java語言開發,使用Eclipse集成開發環境設計并且實現熱點感知系統,系統流程如圖2所示。

圖2基于LDA的網絡輿情事件熱點感知原型系統

本系統借助LDA開源架構進行二次開發,實現熱點的感知具有較高的準確率。

32實驗設計與結果

321實驗環境

CPU,Intel雙核15GMHz以上;內存2G;硬盤320G;操作系統Windows Xp sp2以上。編程語言Java;集成開發平臺Eclipse;開源工具ictclas 2014分詞系統。

322實驗數據

新浪中文新聞文本分類語料,包括環境、計算機、交通、教育等十大類別的27 816條網頁文本。

323實驗結果

LDA中文聚類測試數據,同時均迭代40次,結果如表1所示。

K-means聚類測試結果,同時均迭代10次,結果如圖4所示。

33實驗結果分析

LDA聚類算法利用主題模型的特性,在傳統機械統計詞頻的基礎上加入了文本的深層語義知識,從而讓聚類過程更加精準,降低錯誤率。通過實驗筆者發現聚類算法需要基于文本的主題分布,事先了解主題向量的維度,準確率才會達到更高。作為測試數據,已知Topic number是個準確的常量,通過測試Alpha,Beta兩個參數的變化,可知LDA基于語義算法效率有所提升。而且發現準確率的分布圖4K-means迭代結果圖

呈現不確定性和隨機性,這是由于采用貝葉斯概率統計方法所決定的。Alpha,Beta之間沒有直接關系,通過分析得知01~09分布效果最好,至少在70%。

而傳統的k-means聚類算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定。VSM模型僅利用詞頻建立向量,同樣也會丟失部分語義信息,通過實驗可以看出在面對新聞語料長文本中丟失的信息量很大,導致準確率較低,最低在20%。

4結語

本文將LDA主題模型引入網絡輿情文本聚類領域,性能和效果都優于傳統K-means算法。文本聚類主要在文本建模、文本相似度計算以及聚簇描述3個方面。LDA能夠比較精準提煉并且發現主題。文本相似度計算可以嘗試將傳統VSM模型與LDA主題模型進行結合,使用連續性方式或非連續性方式,建立多個文本特征空間,增強文本的向量表示,從而提高文本聚類的質量。在網絡輿情熱點發現領域,為了進一步提高準確率,今后考慮使用外部語義資源庫,嘗試引入本體語義知識。

參考文獻

[1]Blei David M.,Ng Andrew Y.,Jordan Michael I.,Lafferty John.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4):993-1022.

[2]范云滿,馬建霞.利用LDA的領域新興主題探測技術綜述[J].現代圖書情報技術,2012,(12):58-65.

[3]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學報,2010,24(6):43-49.

[4]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報學報,2013,32(3):281-287.

[5]胡勇軍,江嘉欣,常會友.基于LDA高頻詞擴展的中文短文本分類[J].現代圖書情報技術,2013,(6):42-48.

[6]阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,33(3):161-164.

[7]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區劃分及Web文檔聚類算法[J].中文信息學報,2011,25(1):60-65.

[8]林萍,黃衛東.基于LDA模型的網絡突發事件話題演化路徑研究[J].情報科學,2014,32(10):20-23.

[9]Huang,B.,Yang,Y.,Mahmood,A.,& Wang,H..Microblog topic detection based on LDA model and single-pass clustering[J].In Rough Sets and Current Trends in Computing.Springer Berlin Heidelberg,2012:166-171.

[10]李青,朱恒民,楊東超.微博網絡中輿情話題傳播演化模型[J].現代圖書情報技術,2013,(12):74-80.

[11]浦嬌華,朱恒民,劉凱.基于動態網絡的微博輿論觀點演化模型研究[J].情報雜志,2014,33(8):168-172.endprint

[12]唐曉波,宋承偉.基于復雜網絡的微博輿情分析[J].情報學報,2012,31(11):1153-1162.

[13]胡吉明,陳果.基于動態LDA主題模型的內容主題挖掘與演化[J].圖書情報工作,2014,58(2):138-142.

[14]Chen,Y.,Amiri,H.,Li,Z.,& Chua,TS..Emerging topic detection for organizations from microblogs[C].In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:43-52.

[15]唐曉波,向坤.基于LDA模型和微博熱度的熱點挖掘[J].圖書情報工作,2014,58(5):58-63.

[16]王勇,肖詩斌,郭?秀,等.中文微博突發事件檢測研究[J].現代圖書情報技術,2013,(2):57-62.

[17]Efron,M..Information search and retrieval in microblogs[J].Journal of the American Society for Information Science and Technology,2011,62(6):996-1008.

[18]Vosecky,J.,Jiang,D.,Leung,KWT.,& Ng,W..Dynamic multi-faceted topic discovery in twitter[C].In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management,ACM,2013:879-884.

[19]Damak,F.,Pinel-Sauvagnat,K.,Boughanem,M.,& Cabanac,G..Effectiveness of State-of-the-art Features for Microblog Search[C].In Proceedings of the 28th Annual ACM Symposium on Applied Computing,ACM,2013:914-919.

[20]Miyanishi,T.,Seki,K.,& Uehara,K..Combining recency and topic-dependent temporal variation for microblog search[J].Advances in Information Retrieval,Lecture Notes in Computer Science,2013,7814:331-343.

(本文責任編輯:馬卓)endprint

主站蜘蛛池模板: 无码日韩视频| 久草中文网| 久久99国产乱子伦精品免| 国产精品理论片| 亚洲男人在线天堂| 国产一级毛片在线| 天天躁狠狠躁| 亚洲男女天堂| 成人综合久久综合| 一本久道热中字伊人| 日本一区二区不卡视频| jizz在线观看| 97青青青国产在线播放| 男女男免费视频网站国产| 午夜福利亚洲精品| 曰韩人妻一区二区三区| 亚洲无码不卡网| 五月激激激综合网色播免费| 99久久人妻精品免费二区| 无码久看视频| 久操中文在线| 好吊妞欧美视频免费| 噜噜噜久久| 亚洲欧洲综合| 亚洲综合色在线| 亚州AV秘 一区二区三区| 亚洲乱码精品久久久久..| 最新国产你懂的在线网址| 欧美成人A视频| 国产亚洲成AⅤ人片在线观看| 亚洲成年人片| 波多野结衣视频网站| 国产精品福利一区二区久久| 免费一级毛片在线播放傲雪网| 91麻豆久久久| 538国产视频| 欧美日韩国产在线观看一区二区三区 | 国产一国产一有一级毛片视频| 青青草综合网| 欧美亚洲欧美区| 91久久精品日日躁夜夜躁欧美| 依依成人精品无v国产| www亚洲天堂| 另类重口100页在线播放| 无码视频国产精品一区二区| 日韩无码视频专区| 亚洲男人在线天堂| 国产精品女主播| 国产精品尤物铁牛tv | 91亚洲精选| 久久久久夜色精品波多野结衣| 国产亚洲精品资源在线26u| 香蕉eeww99国产精选播放| 91青青草视频| 国产麻豆精品久久一二三| 青青草91视频| 久久成人18免费| 国产91丝袜在线观看| 奇米精品一区二区三区在线观看| 日韩免费毛片视频| 欧美成人午夜视频| 日韩高清欧美| 亚洲中久无码永久在线观看软件| 美女国内精品自产拍在线播放 | 五月天丁香婷婷综合久久| 免费高清自慰一区二区三区| 九九久久精品免费观看| 欧美成人精品一区二区| 在线观看亚洲人成网站| 国产一区成人| 五月天久久综合| 天堂成人在线视频| 69综合网| 无码中文AⅤ在线观看| 国产色婷婷视频在线观看| 污视频日本| 性网站在线观看| 亚洲天堂视频网站| 污视频日本| 国产成人麻豆精品| 亚洲熟妇AV日韩熟妇在线| 欧美国产中文|