999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的網(wǎng)絡(luò)微博輿情分析

2016-05-14 22:04:23徐維林朱宗高麗劉金嶺
軟件導(dǎo)刊 2016年5期

徐維林 朱宗 高麗 劉金嶺

摘要:LDA模型對長文本聚類有優(yōu)勢。將微博文本按一定規(guī)則構(gòu)建長文本,根據(jù)文本中隱含的豐富語義信息,將SVM模型與LDA模型相結(jié)合,利用K-Means算法聚類。實(shí)驗(yàn)結(jié)果表明,SVM和LDA相結(jié)合的模型,明顯提高了聚類質(zhì)量和穩(wěn)定性。

關(guān)鍵詞:SVM模型;LDA模型;微博輿情;K-Means算法聚類

DOIDOI:10.11907/rjdk.161005

中圖分類號:TP319

文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)005-0153-02

0 引言

互聯(lián)網(wǎng)對社會的影響力與日俱增,網(wǎng)絡(luò)輿情研究越來越受到重視。隨著論壇、社區(qū)、博客、微博、微信等新興互聯(lián)網(wǎng)媒體的興起,社會輿情的傳播速度變得越來越快。因此,加強(qiáng)輿情信息的監(jiān)控,及時掌握輿情動態(tài),利用現(xiàn)代信息技術(shù)促進(jìn)網(wǎng)絡(luò)輿情信息健康有序發(fā)展,是各級政府部門的重要工作之一。

主題模型(Latent Dirichlet Allocation,LDA)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),是目前公認(rèn)的自然語言處理中較好的模型之一。為了使LDA模型較好地處理微博文本,以獲得較有價值的輿情信息,先將微博集合信息進(jìn)行粗分類,構(gòu)成主題較為明確的長文本集合,利用數(shù)據(jù)預(yù)處理、特征詞提取,用TF-IDF策略得到SVM特征詞空間向量,結(jié)合LDA進(jìn)行聚類,得到微博輿情熱點(diǎn)話題。本文先將微博集合按一定的規(guī)則構(gòu)成長文本集,將LDA主題模型與SVM有機(jī)結(jié)合,從特征詞和主題兩個方面對文本進(jìn)行聚類分析,以彌補(bǔ)兩種方式的不足,提高了聚類準(zhǔn)確率。

1 相關(guān)研究

LDA模型是Blei[1]提出的一種基于潛在Dirichlet分布的概率主題生成模型,該模型生成文本過程:一系列主題以服從多項式分布形式生成每個文本,再從這些主題中同樣以服從多項式分布的方式抽樣出每個單詞。劉振鹿等[2]應(yīng)用LDA模型進(jìn)行文本的潛在語義分析,將語義分布劃分成低頻、中頻、高頻語義區(qū),以低頻語義區(qū)的語義進(jìn)行Web游離文本檢測,以中、高頻語義區(qū)的語義作為文本特征進(jìn)行文本聚類,采用文本類別與語義互作用機(jī)制對聚類結(jié)果進(jìn)行修正,獲得了較好的聚類效果。曹娟等[3]研究了LDA模型的最優(yōu)化問題,證明當(dāng)主題之間的相似度最小時模型最優(yōu)。王少鵬等[4]提出了一種基于LDA的主題模型文本聚類方法,利用TF-IDF算法和LDA主題模型,通過耗費(fèi)函數(shù)確定文本相似度的融合系數(shù),進(jìn)行線性結(jié)合來獲取文本之間的相似度,通過計算得到文本相似度矩陣,使用K-mean進(jìn)行文本聚類,利用F值對聚類結(jié)果評估,取得了良好的聚類效果。但LDA僅對于長文本效果較為突出,對具有短文本特點(diǎn)的微博文本分類往往效果不明顯。

2 基于LDA與SVM結(jié)合的輿情獲取

2.1 微博數(shù)據(jù)采集

微博輿情信息數(shù)據(jù)采集是進(jìn)行輿情分析的基礎(chǔ)。一般情況下,微博信息的獲取都是通過專門的獲取工具,比如網(wǎng)上免費(fèi)提供的新浪微博數(shù)據(jù)獲取采集器 V1.0綠色版(http://www.cr173.com/soft/141381.html)等。

2.2 微博長文本集構(gòu)建

本文實(shí)驗(yàn)數(shù)據(jù)是新浪網(wǎng)上采集的9 800條微博信息,采用同一用戶某時間段內(nèi)(本文選取48個小時)所發(fā)出的微博按時間順序排序構(gòu)造一個長文本集。具體算法如下:

算法1:構(gòu)建微博長文本集

該算法將每個用戶在時間間隔T0(選取T0=24)內(nèi)發(fā)出的微博有序地構(gòu)建了一個長文本向量,這基于兩方面考慮:①假設(shè)每條微博知識反映一個主題;②一個用戶連續(xù)發(fā)出微博為一個主題的概率很大,因此某一時間段內(nèi)連續(xù)發(fā)出的微博只會是有限個主題。

2.3 基于LDA和VSM的聚類算法設(shè)計

2.3.1 LDA模型

LDA模型具有清晰的層次結(jié)構(gòu),依次為文檔集合層、主題層和特征詞層。

LDA模型是典型的有向概率圖模型[6],由參數(shù)(α,β)確定,α反映了文檔集合中隱含主題間的相對強(qiáng)弱,β刻畫所有隱含主題自身的概率分布。其中θk表示文檔主題的概率分布,φk表示特定主題下特征詞的概率分布,-表示文檔集的文本數(shù),K表示文檔集的主題數(shù),N表示每篇文檔包含的特征詞數(shù)。

2.3.2 LDA 和VSM結(jié)合的聚類算法

3 實(shí)驗(yàn)結(jié)果與分析

3.1 線性相關(guān)系數(shù)λ

λ分別取值0.1-0.9時,計算其漏判率、錯判率和耗費(fèi)函數(shù)值[4],通過實(shí)驗(yàn)數(shù)據(jù)可以看出,漏判率、錯判率和耗費(fèi)函數(shù)值先是隨λ的值增大而減小,在0.6處達(dá)到最低點(diǎn),而后隨著λ的值增大而增大,因此λ=0.6時聚類效果最佳,所以本文實(shí)驗(yàn)取λ=0.6。

3.2 聚類質(zhì)量檢測

基于數(shù)據(jù)集的分布情況常用F值進(jìn)行評價。F值評價原理是利用查全率和查準(zhǔn)率對聚類結(jié)果質(zhì)量進(jìn)行評價。對于實(shí)驗(yàn)的比較,本文通過計算SVM與LDA結(jié)合模型(簡記為SVM+LDA)、LDA模型和SVM模型的F值比較實(shí)驗(yàn)結(jié)果得到,SVM與LDA結(jié)合模型不僅在質(zhì)量上有一定提高,而且聚類結(jié)果的穩(wěn)定性也較好。這是因?yàn)镾VM模型中利用TF-IDF進(jìn)行大樣本集進(jìn)行特征詞抽取時具有明顯的優(yōu)勢,而LDA模型又強(qiáng)化了文本間語義關(guān)系,同時,LDA模型又具有強(qiáng)大的降維能力。綜合以上幾點(diǎn),使得SVM+LDA在進(jìn)行微博集中的輿情識別時提高了聚類質(zhì)量和穩(wěn)定性。

4 結(jié)語

文本間潛在的語義關(guān)系是通過文本相似度來反映和度量的。LDA模型是解決文本潛在主題的概率生成模型,為了發(fā)揮LDA模型對長文本多主題聚類的優(yōu)勢,本文利用微博時序和用戶聚集特點(diǎn),將某用戶在某時間段內(nèi)所發(fā)送的微博按時序排序?yàn)橐粋€長文本,再利用SVM模型提取特征詞的優(yōu)勢,結(jié)合SVM與LDA模型的相似度進(jìn)行聚類,克服LDA主題向量維數(shù)過低和對文本區(qū)分度較弱的不足,以此提高文本聚類的穩(wěn)定性和準(zhǔn)確性。

參考文獻(xiàn):

[1]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Rasearch,2003(3):993-995.

[2]劉振鹿,王大玲,馮時,等.一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J].中文信息學(xué)報,2011,25(1):60-67.

[3]曹娟,張勇東.一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J].計算機(jī)學(xué)報,2008,31(10):1780-1788.

[4]王少鵬,彭巖,王潔.基于LDA 的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學(xué)學(xué)報:理學(xué)版,2014,49(9):129-134.

[5]劉金嶺.基于降維的短信文本語義分類及主題提取[J].計算機(jī)工程與應(yīng)用,2010,46(23):159-161,174.

[6]徐戈,黃厚峰.自然語言處理中主題模型的發(fā)展[J].計算機(jī)學(xué)報,2011,34(8):1423-1437.

[7]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.

[8]張永軍,劉金嶺,馬甲林.中文短信文本信息流中多話題的分類抽取[J].現(xiàn)代圖書情報技術(shù),2014,30(7):101-106.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 国产91丝袜| 亚洲色婷婷一区二区| 99青青青精品视频在线| 国产精品高清国产三级囯产AV| 成人毛片免费观看| 9cao视频精品| 波多野结衣国产精品| 国产永久免费视频m3u8| 免费看av在线网站网址| www.日韩三级| 美女内射视频WWW网站午夜| 亚洲国产av无码综合原创国产| 97亚洲色综久久精品| 国产免费网址| 波多野结衣一区二区三视频| 国产高清毛片| 国产午夜精品一区二区三| 国产综合网站| 欧美成一级| 99资源在线| 国产鲁鲁视频在线观看| 天天躁夜夜躁狠狠躁躁88| 国产www网站| 日韩欧美国产区| 少妇精品网站| 91久久国产综合精品| 欧美专区日韩专区| lhav亚洲精品| 草逼视频国产| 国产福利观看| 亚洲全网成人资源在线观看| 国产午夜福利在线小视频| 精品小视频在线观看| 青青草综合网| 亚洲综合色吧| 精品人妻无码中字系列| 精品少妇人妻av无码久久| 久久这里只有精品2| 美女一级免费毛片| 欧美精品v| 国产乱视频网站| 一本无码在线观看| 精品少妇人妻无码久久| 国产SUV精品一区二区6| 亚洲无码不卡网| 国产综合日韩另类一区二区| 高清免费毛片| 在线观看精品自拍视频| AV不卡在线永久免费观看| 亚洲有码在线播放| 婷婷五月在线| 91久久偷偷做嫩草影院精品| 日本不卡在线视频| 扒开粉嫩的小缝隙喷白浆视频| 天堂成人在线视频| 日韩无码一二三区| 无码一区18禁| 中文字幕66页| 美女一级毛片无遮挡内谢| 亚洲浓毛av| 欧美另类精品一区二区三区 | 久久先锋资源| 欧美成人免费一区在线播放| 国产精品太粉嫩高中在线观看| 欧美不卡在线视频| 亚洲日韩第九十九页| 一区二区在线视频免费观看| 久久这里只有精品23| 国产精品吹潮在线观看中文| 午夜视频在线观看区二区| 国产波多野结衣中文在线播放| 亚洲a级毛片| 国产免费a级片| 中国一级特黄大片在线观看| 成人综合网址| 麻豆精品久久久久久久99蜜桃| 午夜三级在线| 91人妻在线视频| 自慰网址在线观看| 久久综合色天堂av| 亚洲成人精品| yjizz国产在线视频网|