999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的網(wǎng)絡(luò)微博輿情話題識(shí)別與追蹤技術(shù)研究

2019-10-16 00:59:04閆俊伢馬尚才
關(guān)鍵詞:詞匯文本模型

閆俊伢,馬尚才

(1.山西大學(xué)商務(wù)學(xué)院 信息學(xué)院,太原 030031;2.山西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,太原 030006)

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,移動(dòng)網(wǎng)絡(luò)媒體逐漸成為人們獲取和發(fā)布信息的主流渠道。多種形勢的新型網(wǎng)絡(luò)媒體迅速發(fā)展為當(dāng)下主流的網(wǎng)絡(luò)媒介之一,如微信社區(qū)、QQ、微博、知乎論壇等。微博作為一種新型的網(wǎng)絡(luò)交流媒體,讓用戶以十分便捷的方式及時(shí)分享短文本、圖片或者短視頻等內(nèi)容,受到了大量網(wǎng)民的關(guān)注和喜愛[1-4],微博用戶數(shù)量和數(shù)據(jù)量均呈現(xiàn)出爆炸式增長狀態(tài)。微博正在逐步取代傳統(tǒng)的媒體,成為廣大網(wǎng)民和青少年群體獲取和交流信息的主要途徑,并對(duì)社會(huì)產(chǎn)生一定的影響。在這種情況下,如何有效地從海量的微博數(shù)據(jù)中快速、準(zhǔn)確地獲取社交媒體中用戶對(duì)各種突發(fā)事件的認(rèn)識(shí)、態(tài)度、情緒,及時(shí)獲取政府工作所需要的網(wǎng)絡(luò)輿情信息[5-6]成為了政府部門迫切需要關(guān)注的問題。

微博輿情是指微博用戶由于微博信息的刺激而產(chǎn)生的對(duì)信息的一種情感。目前,已經(jīng)出現(xiàn)了不少針對(duì)微博輿情的研究成果。文獻(xiàn)[7]對(duì)3種不同輿情主題下的微博用戶行為進(jìn)行了聚類分析,發(fā)現(xiàn)信息傳播中的微博用戶基本可分“一般關(guān)注”型、“主動(dòng)參與”型、“信息傳播”型3類?!耙话汴P(guān)注”型用戶通常人數(shù)眾多,他們多為輿情信息的接受者。文獻(xiàn)[8]考慮微博用戶權(quán)威性以及主題詞的時(shí)間段相關(guān)特性,對(duì)微博文本和主題詞的熱度進(jìn)行了聯(lián)合排序并互相增強(qiáng),使用主題詞組合支持度作為閾值對(duì)熱度序列中的主題詞進(jìn)行聚類以表征熱點(diǎn)話題。文獻(xiàn)[9]提出了一種基于文本平均相似度的K-Means算法,通過對(duì)每個(gè)文本的平均相似度計(jì)算和排序,以文本平均相似度值為標(biāo)準(zhǔn)來選擇初始聚類中心點(diǎn)。傳統(tǒng)的向量空間模型難以準(zhǔn)確度量文本間的相似度,文獻(xiàn)[10]使用LDA主題模型有效解決數(shù)據(jù)稀疏性問題,并通過聚類算法最終發(fā)現(xiàn)熱點(diǎn)話題。

通過分析上述研究發(fā)現(xiàn),LDA主題模型和K-Means算法在文本主題數(shù)據(jù)挖掘方面均表現(xiàn)出較好的性能,因此本文將兩者相結(jié)合來實(shí)現(xiàn)微博輿情話題識(shí)別與追蹤,采用LDA模型進(jìn)行微博數(shù)據(jù)的文本表示。最后,采用基于遺傳優(yōu)化的K-means算法進(jìn)行聚類分析,提高了聚類結(jié)果的準(zhǔn)確率和穩(wěn)定性。此外,為解決現(xiàn)有研究文獻(xiàn)中較少涉及的微博數(shù)據(jù)的高維、稀疏等問題,對(duì)微博數(shù)據(jù)以特征詞匯選擇的方式進(jìn)行改進(jìn),優(yōu)先選擇時(shí)間片內(nèi)詞頻統(tǒng)計(jì)較高(包含信息量較大)的詞匯作為特征詞匯,從而降低向量空間的維數(shù),提升運(yùn)行效率。實(shí)驗(yàn)結(jié)果驗(yàn)證了提出方法的有效性和準(zhǔn)確性。

1 微博話題識(shí)別與根據(jù)技術(shù)分析

本文首先對(duì)現(xiàn)有的話題識(shí)別與跟蹤方法進(jìn)行分析,重點(diǎn)介紹基于劃分的本文聚類算法。話題識(shí)別與跟蹤方法的基本流程如圖1所示,主要包括7個(gè)部分。其中特征詞匯提取、文本向量表示和文本聚類是本文的研究重點(diǎn)。

目前,文本聚類可以分為4個(gè)類型:① 基于網(wǎng)格的聚類分析;② 基于層次的聚類分析;③ 基于劃分的聚類分析;④ 基于密度的聚類算法。

現(xiàn)階段主流的文本聚類方法是采用基于劃分的聚類分析,其執(zhí)行流程如圖2所示?;趧澐值木垲惙治鏊惴ㄖ凶畹湫偷氖荎-means聚類算法,它是一種無監(jiān)督的聚類算法,實(shí)現(xiàn)較簡單,聚類效果較好,因此應(yīng)用十分廣泛。

圖1 話題識(shí)別與跟蹤方法的基本流程

圖2 基于劃分的聚類算法的執(zhí)行流程

2 基于LDA模型的主題模型構(gòu)建

微博話題識(shí)別的本質(zhì)是文本聚類挖掘的應(yīng)用,即基于文本聚類的數(shù)據(jù)挖掘目標(biāo)是從大量文本信息里發(fā)現(xiàn)知識(shí)。文本挖掘可以看作是一種機(jī)器學(xué)習(xí)的過程,本文采用文本數(shù)據(jù)挖掘的步驟如圖3所示,完成知識(shí)模式評(píng)估后可以實(shí)現(xiàn)知識(shí)模式的輸出。

圖3 文本數(shù)據(jù)挖掘的步驟

2.1 微博數(shù)據(jù)的預(yù)處理

從圖1、3中可以看出:文本預(yù)處理是文本挖掘必不可少的環(huán)節(jié),也是文本實(shí)驗(yàn)處理的第1步,其目的是刪除原始文本數(shù)據(jù)中的無用信息。本文預(yù)處理主要包括噪音數(shù)據(jù)過濾、中文分詞和停用詞處理。

1)噪音數(shù)據(jù)過濾:主要過濾微博信息中各種表情、符號(hào)或鏈接文本,并過濾掉字?jǐn)?shù)低于10個(gè)字的微博文本。

2)中文分詞:采用由中國科學(xué)院計(jì)算技術(shù)研究所開發(fā)的基于多層隱碼模型的漢語詞法分析系統(tǒng)ICTCLAS(institute of computing technology,Chinese lexical analysis system),其分詞系統(tǒng)詞性標(biāo)注集如表1所示。

表1 ICTCLAS分詞系統(tǒng)詞性標(biāo)注集

3)停用詞處理:刪除對(duì)文本內(nèi)容識(shí)別意義不大的語氣助詞、副詞、介詞等中英文停止詞表(stop word)。例如,日常用語中的“在”“里面”“也”“的”“它”“為”等。

2.2 文本特征詞匯的提取

選擇Term Frequeney-Inverse Doeument Frequeney(TF-IDF)方法作為文本特征詞匯的提取手段并進(jìn)行改進(jìn),優(yōu)先選擇時(shí)間片內(nèi)詞頻統(tǒng)計(jì)較高(包含信息量較大)的詞匯作為特征詞匯。

時(shí)間片內(nèi)詞頻統(tǒng)計(jì)較高的詞匯選擇機(jī)制為:設(shè)置一個(gè)合理的時(shí)間片作為時(shí)間區(qū)間來進(jìn)行詞頻統(tǒng)計(jì),如該時(shí)間區(qū)間內(nèi)特征項(xiàng)的詞頻較大,則說明該特征詞匯包含文本內(nèi)容中的大量信息。詞頻統(tǒng)計(jì)按照從大到小排序,取前3位作為該文本的特征詞匯。

對(duì)TF-IDF方法來說,某詞匯t的權(quán)重計(jì)算法方法為

(1)

其中:N表示文本數(shù)據(jù)集中文本的總數(shù);df(t)和tf(t)分別表示包含詞匯t的文本的數(shù)量和其出現(xiàn)的總頻率。

為避免過高頻率的影響,進(jìn)行維數(shù)壓縮,式(1)可簡化為

(2)

2.3 基于LDA模型的微博數(shù)據(jù)文本表示

作為一種非結(jié)構(gòu)化的字符數(shù)據(jù),微博文本是計(jì)算機(jī)不能輕易“讀懂”的內(nèi)容,因此需要把半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本對(duì)象轉(zhuǎn)換成便于計(jì)算機(jī)理解的結(jié)構(gòu)化數(shù)據(jù),以便進(jìn)行后續(xù)聚類分析?,F(xiàn)階段,主流的文本表示方法分為概率模型和向量空間模型(VSM)兩種。概率模型中的LDA模型是一個(gè)3層貝葉斯概率模型,由于對(duì)文本聚類具有一定的優(yōu)勢,成為文檔主題生成模型的熱門方向[10]。因此,本研究采用LDA模型進(jìn)行微博數(shù)據(jù)的文本表示。設(shè)定文本集合共有k個(gè)主題,每個(gè)主題z被表示成一個(gè)詞項(xiàng)的多項(xiàng)式分布。LDA的概率圖模型過程如圖4所示。

圖4 LDA的概率圖模型

在圖4中,方框W表示文本集合,方框N表示文本集中主題z和關(guān)鍵詞w的集合,α為Dirichlet分布的先驗(yàn)參數(shù),β為被估計(jì)的矩陣參數(shù),θ為某文本中所有主題的概率分布。

一個(gè)Dirichlet隨機(jī)變量θ(k維)的概率密度分布可通過式(3)計(jì)算得到:

(3)

其中,Γ(·)表示一個(gè)伽瑪函數(shù)。設(shè)z表示具有N個(gè)元素的主題向量,則聯(lián)合分布可通過式(4)計(jì)算得到:

(4)

(5)

3 基于遺傳優(yōu)化K-means算法的微博話題聚類

作為一種基于劃分的聚類算法,傳統(tǒng)K-means聚類算法是典型的無監(jiān)督學(xué)習(xí)算法,容易陷入局部最優(yōu)陷阱。因此,利用遺傳算法全局優(yōu)化能力來解決該問題。

遺傳算法中交叉搮作選用浮點(diǎn)數(shù)編碼[11]:

(6)

(7)

其中a表示取值范圍為(0,1)的隨機(jī)數(shù)。

釆用均勻變異算子進(jìn)行變異操作,針對(duì)所有變異點(diǎn)從相關(guān)基因值的規(guī)定區(qū)間中選擇1個(gè)隨機(jī)值更新原始基因值:

X′=Umin+r(Umax-Umin)

(8)

其中:r表示取值范圍為(0,1)的隨機(jī)數(shù);Umax表示基因位的取值上限,Umin表示基因位的取值下限。適應(yīng)度函數(shù)為

(9)

其中:E表示誤差平方和;b表示一個(gè)常數(shù)。

以最大迭代數(shù)為終止條件,改進(jìn)的K-means算法實(shí)現(xiàn)文本數(shù)據(jù)聚類的主要步驟如圖5所示。步驟前部分主要任務(wù)是搜尋K-means算法所需的最佳初始聚類中心,主要利用遺傳算法所具有的全局搜索能力使得數(shù)據(jù)聚類結(jié)果更加優(yōu)異。

圖5 文本數(shù)據(jù)聚類的主要步驟

4 實(shí)例分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)分為兩部分:1)識(shí)別測試,通過網(wǎng)絡(luò)爬蟲軟件從新浪微博平臺(tái)上采集關(guān)于30個(gè)熱點(diǎn)話題的微博內(nèi)容作為實(shí)驗(yàn)數(shù)據(jù),共3 672條微博帖子。2)跟蹤測試,利用新浪微博API獲取的公共微博數(shù)據(jù),時(shí)間為24 h,近2萬多條微博帖子。實(shí)驗(yàn)環(huán)境參數(shù)和開發(fā)語言如表2所示。實(shí)驗(yàn)算法的相關(guān)參數(shù)如表3所示。

表2 實(shí)驗(yàn)環(huán)境軟硬件參數(shù)

表3 實(shí)驗(yàn)相關(guān)算法參數(shù)

4.2 評(píng)估指標(biāo)

為對(duì)提出方法的性能進(jìn)行量化分析,選擇信息檢測領(lǐng)域最常用的3個(gè)評(píng)價(jià)指標(biāo)[12-13]:準(zhǔn)確率(Precision)、召回率(recall)和綜合評(píng)價(jià)指標(biāo)(F1-Measure)。三者的計(jì)算方式如下:

(10)

(11)

(12)

4.3 識(shí)別測試結(jié)果

使用識(shí)別測試數(shù)據(jù)得到的30個(gè)話題的識(shí)別性能結(jié)果如圖6所示,并與文獻(xiàn)[9]的K-means聚類算法進(jìn)行對(duì)比??梢钥闯觯涸跍?zhǔn)確率、召回率指標(biāo)上,本文方法均表現(xiàn)出優(yōu)異的性能,這是由于采用的LDA主題模型改善了文本建模,并優(yōu)先選擇時(shí)間片內(nèi)詞頻統(tǒng)計(jì)較高(包含信息量較大)的詞匯作為特征詞匯。

圖6 30個(gè)話題的識(shí)別性能結(jié)果

同時(shí),在綜合評(píng)價(jià)F1指標(biāo)上,本文方法也保持了較高的數(shù)值。這是由于利用了遺傳算法所具有的全局搜索能力,克服了原有K-means聚類初始中心點(diǎn)選擇的隨機(jī)性,從而在性能上更加穩(wěn)定。

4.4 跟蹤測試結(jié)果

跟蹤測試的數(shù)據(jù)來自新浪微博API,由于數(shù)量眾多且范圍廣泛,導(dǎo)致很難從中準(zhǔn)確提取主題詞,因此本文將話題大致分為時(shí)政新聞?lì)?、社?huì)現(xiàn)象類、軍事題材類、廣告營銷類、媒體娛樂類、體育比賽類、科技博文類這7大類。7個(gè)話題在24 h內(nèi)的數(shù)量跟蹤結(jié)果如圖7所示,展現(xiàn)了一段時(shí)間內(nèi)微博輿情話題的變動(dòng)情況。

圖7 24 h的話題跟蹤結(jié)果

5 結(jié)束語

本文提出將LDA模型和基于遺傳優(yōu)化的K-means本文聚類算法相結(jié)合來實(shí)現(xiàn)微博輿情話題識(shí)別與追蹤。此外,為了解決微博數(shù)據(jù)的高維、稀疏等問題,對(duì)微博數(shù)據(jù)以特征詞匯選擇的方式進(jìn)行了改進(jìn),優(yōu)先選擇時(shí)間片內(nèi)詞頻統(tǒng)計(jì)較高(包含信息量較大)的詞匯作為特征詞匯,從而降低向量空間的維數(shù),提升運(yùn)行效率。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出方法的有效性和準(zhǔn)確性,但其在處理海量在線數(shù)據(jù)時(shí)的實(shí)時(shí)性還有待改善。后續(xù)將對(duì)話題文本相似度計(jì)算和生存周期開展進(jìn)一步研究。

猜你喜歡
詞匯文本模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产成人综合网在线观看| 国产综合另类小说色区色噜噜| 国产精品漂亮美女在线观看| 色综合久久久久8天国| 午夜国产理论| 国产精品九九视频| 国产精品免费p区| 狂欢视频在线观看不卡| 亚洲国产一成久久精品国产成人综合| 激情在线网| 中文字幕亚洲精品2页| 亚洲免费黄色网| 久久综合亚洲色一区二区三区 | 国产精品理论片| 欧美成人在线免费| 久久黄色小视频| 精品人妻无码区在线视频| 国产在线高清一级毛片| 欧美精品成人| 欧美激情视频一区| 午夜福利视频一区| 亚洲成在人线av品善网好看| 亚洲男人天堂网址| 超碰aⅴ人人做人人爽欧美| 亚洲男人的天堂在线观看| 久久综合九色综合97婷婷| 亚洲三级影院| 国产毛片网站| 国产超薄肉色丝袜网站| 五月天久久综合| 亚洲国产精品不卡在线| 午夜视频日本| 福利在线不卡一区| a在线亚洲男人的天堂试看| 亚洲精品爱草草视频在线| 久久福利片| 国内精品91| 成人在线天堂| 亚洲欧美在线看片AI| 国产视频入口| 99精品视频九九精品| 久久午夜影院| 精品国产成人av免费| 最新日本中文字幕| 日本三级精品| 麻豆国产精品| 亚洲精品国产综合99久久夜夜嗨| 亚洲精品制服丝袜二区| 久草视频福利在线观看| 国产剧情无码视频在线观看| 亚洲欧美日韩动漫| 青青操国产视频| 国产欧美日韩va另类在线播放| 欧美yw精品日本国产精品| 69综合网| 欧美啪啪一区| 98超碰在线观看| 精品国产成人a在线观看| 久久久久青草大香线综合精品 | 91青青视频| 亚洲成人手机在线| 亚洲an第二区国产精品| 尤物成AV人片在线观看| 91福利在线看| 色悠久久综合| 午夜福利网址| 特级毛片免费视频| 亚洲国产AV无码综合原创| 天天综合网色中文字幕| 一区二区三区在线不卡免费| 国产原创演绎剧情有字幕的| 中文字幕亚洲乱码熟女1区2区| 2021国产精品自产拍在线观看| 欧美成人一区午夜福利在线| 亚洲Av综合日韩精品久久久| 亚洲精品成人福利在线电影| 久久永久视频| 丁香六月激情婷婷| 婷婷伊人五月| 999福利激情视频| 一区二区三区国产| 久久综合结合久久狠狠狠97色 |