999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MPOPTM:一種基于熱量模型的微博輿情預測模型

2018-05-07 03:27:21謝凱梁剛楊文太楊進許春
現代計算機 2018年9期
關鍵詞:檢測模型

謝凱,梁剛,楊文太,楊進,許春

(1.四川大學計算機學院,成都 610065;2.四川大學網絡空間安全學院,成都 610065)

0 引言

隨著Web 2.0的快速發展與廣泛的應用,越來越多的新興社交媒體的出現對人們的日常生活以及互聯網產業都產生了巨大的沖擊。得益于網絡交流的便利性、平臺的開放性、終端的可擴展性,使用的便利性與原創性,微博逐漸成為人們獲取信息、分享個人信息與觀點的主流媒介。與情是較多群眾關于某個社會現象或事件的觀點、態度以及情緒等等表現的總和。然而,某一些微博與情的傳播可能會對社會或企業造成危害。例如,2011年3月,日本福島核電站發生核泄漏,導致中國一些地區發生“搶鹽潮”。其原因為微博上有人發布消息稱食鹽在將來可能會受到核污染;黑龍江延壽縣3名在押犯人“越獄殺警”事件在微博上快速傳播,造成了哈爾濱等周邊地區民眾的恐慌。在這些事件中,微博作為一個重要的信息傳播渠道,可能影響事件的走向或對事件的結果造成影響,進而對有關部門對事件的處理造成影響。因此,監控并預測微博與情能夠有效地減少有關部門在處理類似事件時的壓力、快速對事件做出反應,并掌控事件的發展方向,防止其對社會產生危害。

1 相關工作

微博不同于傳統的文檔,大多數微博服務提供商僅允許用戶上傳較短的文本(140字),并且微博信息數量巨大且用語不規范,這些特點為微博的與情監控帶來了新的挑戰。與情預測是基于話題檢測與追蹤(TDT)之上的,TDT已經具有了許多經典的話題檢測模型。例如,隱馬爾可夫模型(HMM)、老化理論、時間序列分析以及LDA(Latent Dirichilet Allocation)模型。但是以上傳統的話題檢測算法均適用于長文本文檔,而在微博這類短文本文檔上的性能就要大打折扣。近幾年來,一部分研究者嘗試去找到一些新的與情檢測算法并且取得了一定的成果。例如,Ritter等人[3]使用了開放域事件提取來解決推特的短文本和噪音數據的問題。Nip等人[4]通過研究回復與原文以及用戶喜好之間的不同來發現微博與情的形成規律。Jiang等人[5]提出一種基于LDA主題模型的微博重要話題發現方法,但其在實時檢測話題上表現欠佳。Cui等人[7]提出了一種通過推特上的Hashtags來發現突發話題的方法,但是其不適用于沒有Hashtags的微博,并且在用戶使用有多種意義的Hashtags的時候其檢測結果不理想。Du等人[8]提出了一種基于用戶關系的微博突發話題檢測算法。其使用基于用戶關系的改進的PageRank算法來計算關鍵詞的權重。但是當微博回復量很小的時候,其同樣不能夠快速地發現目標話題。

綜合上述研究,針對輿情發現中的“冷啟動”問題,本文基于熱傳導的原理,描述了微博輿情檢測中介質的相關定義,提出了微博的熱量以及熱傳導率的概念,并建立了微博輿情發現中有關微博熱量傳播的模型(MPOPTM,Microblog Public Opinion Prediction based on Thermodynamic Model),根據其計算出微博的熱量以及熱傳導率,來判斷微博是否可能形成新的輿情。解決了傳統輿情發現領域中不能在輿情產生初期及時發現微博輿情的問題。本文基于真實數據集進行了實驗以及與傳統方法進行了對比實驗,結果顯示MPOPTM較傳統方法具有更優的檢測效率。

2 系統模型

與熱力學中熱傳導的過程類似,與情的形成過程與時間有關。隨著時間的推移,微博話題將經歷形成、發展、高潮、回落,然后消亡的過程,微博的關注度隨著時間變化而變化,具有一個完整的生命周期。將會形成與情的微博具有兩個特征:1)在一個時間窗口內,該微博話題的熱度將會快速增長;2)該微博傳播非常迅速。這一個過程與熱量傳播的過程類似,一個高熱量的物體將會迅速將熱量往四周傳播。因此,本文根據熱量模型來計算一個話題是否可能形成與情。

2.1 問題定義

在本文中,一條微博被看作一個能夠傳導熱量的介質,微博的關注度作為該介質具有的熱量。一個具有較高關注的微博有更廣的傳播范圍以及更快的傳播速度,也就更有可能形成新的輿情。而在熱力學中,高溫的物體也會向低溫的物體傳導熱量,這兩個過程極其相似。在MPOPTM中,通過計算在一個時間窗口內該介質的溫度、比熱容、質量等值,得到其在該時間窗口內的熱量Q以及熱傳導率c,若這兩個值大于設定的閾值,則該微博有可能形成新的輿情。

熱量的傳播需要介質,在本文中,將總的微博作為輸入數據集,其中每一條微博看作一個能傳播熱量的介質,對介質有如下定義:

定義1將一條微博看作熱量傳播的介質。微博數據集定義為 B,且 B={b1,b2,b3,…,bn},其中 bi即是一條微博,bi∈B,i=1,2,3,…,n。bi能被一個三元組模型描述:bi=(com,fo,li),其中com 是該微博的評論數,fo是該微博的轉發數,li是該微博的點贊數。

對于微博的熱量,我們有如下定義:

定義2在一個時間窗口內,將一條微博增長的熱度看作一個介質增加的熱量。在熱力學模型中,在一個時間窗口內增加的熱量表示為Qb,其描述了在單位時間內該介質增加的熱量。熱量由比熱容c、介質質量m、以及溫度差ΔT決定。比熱容c表示該微博出現的頻率;質量m表示該微博的重要程度;ΔT表示該微博的增加的關注度。

通過計算當前時間窗口內該介質所吸收的熱量,我們可以再計算得到該介質的熱傳導率。對于微博的熱傳導率,我們有如下定義:

定義3將一條微博的傳播速度看作一個介質的熱傳導率。在物理學中,熱傳導率k是評價一個材料傳導熱量的性能的指標。它描述了在該介質中熱量的傳播速度。其由介質長度l、接觸面積A、傳播時間Δt、溫度差ΔT、以及吸收的熱量Q所決定。長度l表示有多少微博可能在討論相似的話題;接觸面積A表示該微博傳播的范圍;傳播時間Δt表示時間窗口的大小;溫度差ΔT表示該微博增加的關注度。吸收的熱量Q表示在一個時間窗口內增加的熱量。

通過計算一條微博在一個時間窗口內的熱量以及熱傳導率,我們可以判斷其是否有可能形成輿情,將其看作輸出數據集,定義如下:

定義 4 P={P1,P2,P3,…,Pn}定義為可能形成與情的微博數據集合。其中 pi∈P,i=1,2,3,…,n,表示一條可能形成與情的微博。

2.2 微博熱量計算

一條微博被定義為一種熱量傳播的介質,該介質所包含的熱量隨著介質的溫度的增長而增長。這個過程與微博關注度增加的過程類似。在MPOPTM中,使用熱量的吸收來描述這一過程。介質在該過程中所吸收的熱量可以由式(1)所計算出來:

ΔTbi可由式(2)計算得到:

其中,Tt1(bi)表示在t1時刻bi的溫度。溫度T由微博的評論數com、轉發數fo以及點贊數li來決定。其描述了bi的關注人數在該時間窗口內的增加量。T(bi)可由式(3)計算得到:

其中,x,y,z分別表示評論數com、轉發數fo、點贊數li的權重,作為對應的調節參數。

質量m表示該微博在整個數據集中的重要程度,其由 TF-IDF(Term Frequency-inverse Document Fre?quency)所決定。

其中,tf(in)和idf(in)分別表示bi中每個詞的TFIDF值。

比熱容c由IDF值計算得到:

其中idf(in)表示bi的IDF值。通過計算一條微博的溫度差ΔT、比熱容c以及質量m等參數,最后得到該微博在一個時間窗口內吸收的熱量Q,該熱量即表示其在一個時間窗口內增加的關注度,熱量越高,關注度也就越高,該微博便越有可能形成新的輿情。

2.3 熱傳導率

熱量的傳播需要介質。介質的熱傳導率越大,熱量在其中傳播的速度越快。熱傳導的過程與微博傳播的過程類似,越熱門的微博,傳播的速度也就越快。在MPOPTM中,使用熱傳導率來描述微博的傳播速度。其計算方式(式6)如下:

其中Q(bi)表示在一個時間窗口內傳播的熱量,在這里我們可將其視為在一個時間窗口內吸收的熱量。因此其同樣可以使用式(1)計算得到。

長度 l由 DF(document frequency)計算得到:

其中df(in)表示bi中每個詞的文檔頻率。面積A由評論數與轉發數決定:

其中com表示bi的評論數,fo表示bi的轉發數。

2.4 微博輿情預測

在2.2和2.3節中,我們定義了微博熱量與熱傳導率的計算方法。但是微博上存在大量相同的信息,因此我們需要對這些微博進行合并,多個微博共同描述同一個話題。本文使用向量空間模型結合余弦相似度的方法來計算微博之間內容的相似度。

在本文中,將數據集中的所有微博通過向量空間模型(VSM)轉換為向量,并計算每兩條微博之間的余弦相似度,來判斷這兩條微博是否描述同一個話題。余弦相似度可以由式(9)計算得到:

3 實驗及結果分析

3.1 實驗數據獲取

為了測試該模型的性能,實驗基于真實的微博數據集。我們選擇從新浪微博上采集數據,并將其作為實驗數據集。我們從工具“艾薇盒子”[13]提供的新浪微博影響力排行榜中,篩選了傳媒類微博影響力排名靠前的用戶微博共計55位作為數據來源。編寫新浪微博爬蟲獲取各個目標用戶發布的微博信息,作為微博輸入數據集。在對其進行人工標注后,用以檢測本文所以算法的性能。在新浪微博首頁,每日會更新24小時內的話題排行榜,將其作為熱門話題的驗證數據集。

3.2 評價指標

實驗計算微博的熱量以及熱傳導率,并使用準確率(Precision,P)、召回率(Recall,R)和綜合指標(F-measure,F1)[11]來對模型進行評價。

其中TP表示將正類檢測為正類數,FN表示將正類檢測為負類數,FP表示將負類檢測為正類數,TN表示將負類檢測為負類數。

3.3 實驗步驟

通過爬蟲采集從2017年4月1至9號,總計9天共8799條新浪微博,將此微博數據集作為模型訓練樣本集。使用人工標注的方法對該樣本集進行標注,提取出形成輿情的微博,將其作為評價實驗結果的標準。通過測試發現,采集一次樣本集耗時2小時左右,將其作為最小時間窗口。輸入在該時間窗口內起始和結束時刻的微博樣本集,計算其中相同微博在該時間窗口內增加的轉發數、評論數以及點贊數的差值,將其作為其熱量Q和熱傳導率k的計算參數。

使用jieba分詞對上一步到的微博樣本集進行分詞,并使用自建停用詞表去停用詞,使用得到的結果作為單詞表。根據定義,首先計算溫度差ΔT、質量m、比熱容c、長度l、面積A等參數,然后計算每一條微博在每個時間窗口下吸收的熱量Q以及熱傳導率k,篩選出大于閾值TQ以及Tk的微博。其中評論數com、轉發數fo以及點贊數li的權值x、y、z的取值范圍為0~1.0約束條件為x=1-y-z。將評論數com、轉發數fo以及點贊數li分別與其權值x、y、z相乘,計算出在不同的參數組合下的值作為訓練數據集。根據訓練數據集中計算得到的分類結果的準確率P,召回率R以及綜合指標F1值。選擇最優的x,y,z的組合使得到的F1值最大,圖1為部分參數取值示意圖。

圖1 部分參數示意圖

經過計算,選擇F1值最大的一組參數組合作為最終選擇,該組的參數取值分別為:x=0.4,y=0.4,z=0.2。使用本文所提算法計算該參數組合下的訓練集中被分類為輿情的每條數據的熱量Q以及熱傳導率k,得到最小的熱量與熱傳導率值分別為Q=15500,k=14600,將其作為熱量以及熱傳導率的閾值。將該參數組合代入本文所提算法進行計算,得到每條微博對應的熱量Q以及熱傳導率k。

將上一步計算得到的微博樣本集計算每兩條微博之間的余弦相似度,相似度大于0.8的微博看作相同的話題,最后得到可能形成輿情的微博集合P。將實驗計算得到的微博集合P與驗證數據集比較,計算得到MPOPTM的各項評價指標。通過訓練得到MPOPTM的 參 數 取 值 為 :x=0.4,y=0.4,z=0.2,TQ=15500,Tc=14600。在測試集上使用該參數組合測試,得到相應的評價指標為P=85.01%,R=86.92%,F1=85.96%。

3.4 對比實驗

使用通過網絡爬蟲所采集2017年4月1日至2017年4月9日共9天總計8799條微博作為數據集。對本文提出的基于熱量模型的微博輿情預測模型以及話題發現領域較有代表性的算法TF-IDF和UFITUF[12]算法進行了對比實驗,用以說明本文所提算法在解決微博輿情發現問題的有效性,得到如圖2所示的結果。

圖2 實驗結果對比

從實驗結果中可以看出,MPOPTM在準確率、召回率以及F值上明顯優于TF-IDF和UF-IUF模型。實驗表明,MPOPTM能夠在微博輿情形成初期快速地檢測到可能形成輿情的微博。

圖3是從2017年4月1日至4月9日MPOPTM和UF-ITUF模型兩種方法的準確率分布情況,其中橫軸表示日期,縱軸表示準確率。從圖上可以看出,本文所提方法的準確率變化波動較小,檢測結果相對更加穩定。在4月1日以及4月4日這兩天,由于話題數量較多且較集中,兩種方法的檢測結果準確率都相對較低,但是MPOPTM的準確率下降幅度較小,算法的穩定性更高。因為本文使用微博首頁每日更新的24小時話題排行榜作為驗證數據集,將其與本文所提方法的最小檢測時間作比較。通過每日隨機選取20條使用本文所提算法計算出為可能形成輿情的微博,將該微博出現在微博話題排行榜上的最早時間和微博發布時間的時間差與使用本文方法能夠檢測出該話題的最小時間窗口作對比。計算兩種方法的每日平均檢測時間,計算結果如圖4所示,其中橫軸表示日期,縱軸表示平均檢測時間。從圖4中可以看出,本文所提方法所需平均檢測時間更少,能夠較微博話題排行榜更快地發現可能形成輿情的微博,即微博輿情形成初期檢測可能形成輿情的微博,解決了微博輿情發現的“冷啟動”問題,反映了本文利用熱量模型來檢測微博輿情的思想的有效性以及準確性。

圖3 準確率對比

4 結語

在本文中,我們使用了熱力學模型進行建模來檢測微博輿情。該模型主要著眼于解決現有技術中的“冷啟動”問題,快速地發現可能形成與情的微博或剛剛產生的新輿情。在我們的模型中,我們將一條微博看作熱量傳播的介質,將微博的傳播過程映射為熱量的傳播過程。通過計算微博在單位時間窗口內增加的熱量Q和熱傳導率k,當其達到閾值時,我們認為該微博即可能形成新的與情。實驗結果顯示,該算法不僅能有效的檢測出在微博中廣為流傳的微博輿情,而且也能夠檢測出剛剛產生的新輿情,克服了現有的微博輿情發現技術中的“冷啟動”問題。

圖4 平均檢測時間

參考文獻:

[1]Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of the IEEE,1989,77(2):257-286.

[2]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of machine Learning Research,2003,3(Jan):993-1022.

[3]Ritter A,Etzioni O,Clark S.Open Domain Event Extraction from Twitter[C].Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2012:1104-1112.

[4]Nip J Y M,Fu K.Networked Framing Between Source Posts and Their Reposts:an Analysis of Public Opinion on China's Microblogs[J].Information,Communication&Society,2016,19(8):1127-1149.

[5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發現與排序方法[J].計算機研究與發展,2013,50:179-185.

[6]賀敏,杜攀,張瑾,等.基于動量模型的微博突發話題檢測方法[J].計算機研究與發展,2015,52(5):1022-1028.

[7]Cui A,Zhang M,Liu Y,et al.Discover Breaking Events with Popular Hashtags in Twitter[C].Proceedings of the 21st ACM International Conference on Information and knowledge management.ACM,2012:1794-1798.

[8]Du Y,He Y,Tian Y,et al.Microblog Bursty Topic Detection Based on User Relationship[C].Information Technology and Artificial Intelligence Conference(ITAIC),2011 6th IEEE Joint International.IEEE,2011,1:260-263.

[9]申國偉,楊武,王巍,等.面向大規模微博消息流的突發話題檢測[J].計算機研究與發展,2015,52(2):512-521.

[10]Zhang X,Chen X,Chen Y,et al.Event Detection and Popularity Prediction in Microblogging[J].Neurocomputing,2015,149:1469-1480.

[11]Powers,David M W.Evaluation:From Precision,Recall and F-Measure to ROC,Informedness,Markedness&Correlation(PDF).Journal of Machine Learning Technologies,2(1):37–63.

[12]Zhu M,Hu W,Wu O.Topic Detection and Tracking for Threaded Discussion Communities[C].Web Intelligence and Intelligent Agent Technology,2008.WI-IAT'08.IEEE/WIC/ACM International Conference on.IEEE,2008,1:77-83.

[13]http://www.iweibox.com/

[14]Agresti A,Kateri M.Categorical Data Analysis[M].International Encyclopedia of Statistical Science.Springer Berlin Heidelberg,2011:206-208.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产毛片基地| 乱码国产乱码精品精在线播放| 成年A级毛片| 中文无码毛片又爽又刺激| 高清不卡毛片| 色男人的天堂久久综合| 在线高清亚洲精品二区| 国产精品极品美女自在线| 国产成人永久免费视频| 亚洲AV电影不卡在线观看| 国产无码制服丝袜| 中文字幕精品一区二区三区视频| 亚洲精品视频免费看| 成人国产精品网站在线看| 米奇精品一区二区三区| 国产成人一二三| 秋霞国产在线| 另类综合视频| 欧美一区中文字幕| 国产精品蜜芽在线观看| 国产经典在线观看一区| 日本精品视频| 欧美午夜精品| 青青操国产| 91成人在线观看| 综合亚洲网| 亚洲中文制服丝袜欧美精品| 亚洲视频影院| 亚洲一本大道在线| 福利在线一区| 成人午夜精品一级毛片| 国产精品三级av及在线观看| 成人一级黄色毛片| 亚洲午夜福利精品无码不卡| 国产一级视频久久| 综合色在线| 99在线视频精品| 国产精品男人的天堂| 特级毛片8级毛片免费观看| 国产噜噜在线视频观看| 九九久久精品国产av片囯产区| 国产精品女主播| 老汉色老汉首页a亚洲| 国产精品手机在线播放| 青青热久麻豆精品视频在线观看| 欧美影院久久| 成人国产一区二区三区| 18黑白丝水手服自慰喷水网站| 精品人妻无码中字系列| 试看120秒男女啪啪免费| 国产91小视频| 91精品专区| 欧美精品成人| 国产成人精品18| 免费国产好深啊好涨好硬视频| 无遮挡国产高潮视频免费观看 | 欧美黄色网站在线看| 国产精品深爱在线| 伊人久久婷婷| 久久久久国色AV免费观看性色| 欧美成一级| 97久久精品人人做人人爽| 亚洲一本大道在线| 亚洲黄色片免费看| 国产精品丝袜在线| 麻豆精品在线视频| 91精品啪在线观看国产60岁| 四虎亚洲国产成人久久精品| 亚洲综合色区在线播放2019| 天天做天天爱天天爽综合区| 久久精品波多野结衣| 免费国产黄线在线观看| 国产成人免费高清AⅤ| 精品国产三级在线观看| 福利在线不卡一区| 国产好痛疼轻点好爽的视频| 国产va免费精品观看| 青青热久免费精品视频6| 国产亚洲欧美另类一区二区| 日韩无码视频专区| 亚洲成人一区二区三区| 人妻无码AⅤ中文字|