999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的微信留言文本主題發(fā)現(xiàn)研究

2017-09-15 01:26:17施利萍
科教導(dǎo)刊·電子版 2017年24期

施利萍

摘 要 目前越來(lái)越多的機(jī)構(gòu)建立微信公眾平臺(tái),在公眾號(hào)文章中的留言反映其受眾在該文章話(huà)題下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn),因此分析和挖掘留言具有十分重要的參考價(jià)值。分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話(huà)題,從而幫助公眾號(hào)更好地發(fā)展。

關(guān)鍵詞 微信留言文本 主題發(fā)現(xiàn) LDA模型

中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

1微信公眾號(hào)留言文本的挖掘價(jià)值

隨著移動(dòng)互聯(lián)網(wǎng)的普及,通過(guò)手機(jī)上網(wǎng)的中國(guó)網(wǎng)民規(guī)模近十億,而微信是目前使用最多的社交軟件,月活躍用戶(hù)數(shù)達(dá)5億,微信公眾號(hào)達(dá)數(shù)百分個(gè)。越來(lái)越多各單位機(jī)構(gòu)建立微信公眾平臺(tái),利用其進(jìn)行宣傳、展示、服務(wù)、產(chǎn)品推介等。微信公眾平臺(tái)傳播資訊具有針對(duì)性強(qiáng),覆蓋一切碎片化時(shí)間;傳播精準(zhǔn),歷史信息傳播周期長(zhǎng);交互性強(qiáng),方便及時(shí)的交互體驗(yàn);實(shí)時(shí)、靈活、低成本等特點(diǎn)。公眾號(hào)的訂閱者一般對(duì)該公眾號(hào)信息較為關(guān)注,在公眾號(hào)文章中的留言反映他們?cè)谠撐恼略?huà)題下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn)。因此我們可以利用數(shù)據(jù)挖掘技術(shù)從這些留言文本中挖掘出網(wǎng)民所討論的熱點(diǎn)話(huà)題,從而了解到網(wǎng)民的態(tài)度。留言大數(shù)據(jù)挖掘有利于公眾平臺(tái)獲取當(dāng)前的熱門(mén)關(guān)注點(diǎn),從而有針對(duì)性地加強(qiáng)相關(guān)內(nèi)容創(chuàng)建,進(jìn)而提升用戶(hù)體驗(yàn)和活躍度,增加用戶(hù)的粘度和參與度。

留言文本具有信息內(nèi)容短、信息量少的特征,這加大了提取話(huà)題的難度。本文針對(duì)公眾號(hào)留言文本,應(yīng)用LDA主題模型提取出熱點(diǎn)話(huà)題。

2 LDA主題模型

主題模型是當(dāng)前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主題模型是一種基于概率的主題發(fā)現(xiàn)模型,能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型,是主體模型中典型的代表。由于LDA模型是全概率主題生成模型,可以利用高效的概率推斷算法進(jìn)行計(jì)算,同時(shí)LDA模型在計(jì)算過(guò)程中與訓(xùn)練文檔數(shù)量無(wú)關(guān),因此更適合處理大規(guī)模語(yǔ)料庫(kù)。

LDA模型是一個(gè)三層貝葉斯產(chǎn)生式概率模型,該模型采用“詞袋”的方法,這種方法將每一篇文檔看作一個(gè)詞頻向量,假設(shè)文檔是由一系列潛在主題混合而成,主題是由詞匯表中所有的詞匯混合而成,每一篇文檔代表了主題所代表的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。

3基于LDA模型的微信留言文本主題提取

3.1文本預(yù)處理

保證數(shù)據(jù)的質(zhì)量,降低無(wú)關(guān)數(shù)據(jù)或噪聲數(shù)據(jù)對(duì)結(jié)果的影響,需要對(duì)抓取到元數(shù)據(jù)進(jìn)行預(yù)處理。本文主要從以下方面對(duì)數(shù)據(jù)進(jìn)行整理:

(1)剔除只包含特殊字符和數(shù)字的留言,只保留重復(fù)評(píng)論中的一條;

(2)利用IKAnalyzer2012開(kāi)源分詞類(lèi)庫(kù)對(duì)每條留言進(jìn)行分詞,保留名詞和動(dòng)詞;對(duì)短文本分詞可通過(guò)使用詞典中的詞條進(jìn)行字符串匹配來(lái)實(shí)現(xiàn)。將短文本分詞后再去掉一些無(wú)意義的詞語(yǔ),如“的”、“了”等詞語(yǔ),雖然出現(xiàn)頻率高,但對(duì)文本分類(lèi)沒(méi)有太大的貢獻(xiàn);

(3)建立停用詞表剔除文本內(nèi)容中的無(wú)用字詞。

3.2 LDA建模

假定給定一個(gè)留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是長(zhǎng)度為Nm的詞匯序列,記為rm={w1,w2,…,wN},其中wn表示序列中的第n個(gè)詞匯,在M篇留言中分布著K個(gè)主題{t1,t2,…,tk}。詞匯wi在留言rm中的概率可以表示為:

p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)

其中,zi是潛在主題,標(biāo)示詞匯wi的主題序號(hào),p(wi|zi=j) 標(biāo)示詞匯wi被分配到第j個(gè)主題的概率p(zj=j|rm),標(biāo)示第j個(gè)主題在留言rm中的概率。

模型假定每篇留言是由各個(gè)主題隨機(jī)混合而成,將主題表示為在詞匯上的概率分布,由此其中每個(gè)主題都是可解釋的。模型使用多項(xiàng)式分布建立貝葉斯網(wǎng)絡(luò)中各參數(shù)和變量之間的關(guān)聯(lián),并假設(shè)多項(xiàng)式分布的參數(shù)服從Dirichlet。每個(gè)主題又是詞匯表中所有詞匯的隨機(jī)混合,混合比例也服從多項(xiàng)式分布。

根據(jù)經(jīng)驗(yàn),模型中主題數(shù)目K預(yù)設(shè)為50,同時(shí)根據(jù)Steyvers的建議,令 根據(jù)主題數(shù)目變化, 的所有分量取經(jīng)驗(yàn)值=50/T,而 的所有分量取固定的經(jīng)驗(yàn)值 =0.01,這三個(gè)可變量的取值確定后,結(jié)合輸入向量運(yùn)行Gibbs抽樣,得到詞匯表中的詞語(yǔ)在K個(gè)潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。

本文認(rèn)為表達(dá)某個(gè)主題的留言越多該主題就越重要。在模型中,一個(gè)留言可能包含一個(gè)或若干個(gè)主題,是若干主題的混合,那么某個(gè)主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關(guān)。所以留言集合中主題的重要度可以通過(guò)計(jì)算留言集合中所有句子包含的該主題的權(quán)重的累加和得到。最后將主題按重要程度排序,從而得到留言文本的熱點(diǎn)主題。

4 結(jié)束語(yǔ)

本文分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話(huà)題,從而幫助公眾號(hào)更好地發(fā)展。

參考文獻(xiàn)

[1] 劉坤峰,劉斌,秦長(zhǎng)濤,劉振名,梁品超.新媒體微信公眾平臺(tái)建設(shè)及運(yùn)營(yíng)策略研究[J].河北工程技術(shù)高等專(zhuān)科學(xué)校學(xué)報(bào),2017(01):42—44.

[2] 余傳明,張小青,陳雷.基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2010(05):103—106.endprint

主站蜘蛛池模板: 91 九色视频丝袜| 国产新AV天堂| 精品少妇人妻av无码久久| 亚洲中文无码h在线观看| 国产精品久线在线观看| 无码免费试看| 亚洲中文字幕无码mv| 激情网址在线观看| 免费看的一级毛片| 国产一区二区福利| 成人在线观看不卡| 一级片一区| av在线人妻熟妇| 亚洲成aⅴ人在线观看| 97在线免费| 国产欧美日韩视频一区二区三区| 亚洲免费黄色网| 亚洲男人在线天堂| 欧美a在线看| 亚洲一级色| 色婷婷在线影院| 亚洲男人在线天堂| 国产精品污污在线观看网站| 久久久久久久久久国产精品| 试看120秒男女啪啪免费| 无码精品福利一区二区三区 | 欧美日韩中文国产va另类| 亚洲精品动漫在线观看| 伊人无码视屏| 国产精品一区在线观看你懂的| 在线观看免费人成视频色快速| 在线精品视频成人网| 中文成人在线| 午夜丁香婷婷| 国产一区成人| 国产成人a毛片在线| 漂亮人妻被中出中文字幕久久| 国产理论精品| 无码专区在线观看| a天堂视频| 永久天堂网Av| 日韩欧美国产成人| 亚洲有无码中文网| 精品国产网| 全部免费特黄特色大片视频| 视频二区中文无码| 日韩天堂视频| 一本色道久久88综合日韩精品| 国产精品欧美亚洲韩国日本不卡| 国产精品手机视频| 国产成年女人特黄特色大片免费| 久久久黄色片| 亚洲中文字幕国产av| 久热中文字幕在线观看| 美女啪啪无遮挡| 亚洲无线一二三四区男男| 亚洲日韩高清无码| 日韩精品高清自在线| 国产精品va| 国内嫩模私拍精品视频| 五月天福利视频| 久久一本日韩精品中文字幕屁孩| 午夜限制老子影院888| 在线免费看黄的网站| 最新加勒比隔壁人妻| 欧美另类一区| 亚洲成人黄色网址| 亚洲人成影院在线观看| 欧美福利在线| 国产欧美日韩在线在线不卡视频| 国模私拍一区二区| 精品少妇人妻一区二区| 国产成熟女人性满足视频| 欧美不卡视频一区发布| 九九免费观看全部免费视频| 伊人AV天堂| 精品免费在线视频| 亚洲黄色网站视频| 国产白浆一区二区三区视频在线| 亚洲男人的天堂视频| 四虎国产精品永久一区| 亚洲天堂成人在线观看|