999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交媒體內容可信性分析與評價

2019-09-16 02:50:00湯小虎曹玖新
計算機研究與發展 2019年9期
關鍵詞:內容用戶模型

劉 波 李 洋 孟 青 湯小虎 曹玖新

1(東南大學計算機科學與工程學院 南京 211189)2(東南大學網絡空間安全學院 南京 211189)3(計算機網絡與信息集成教育部重點實驗室(東南大學) 南京 211189)

隨著移動互聯網以及智能移動終端的普及,新浪微博(1)http://weibo.com、Facebook(2)http://www.facebook.com、Instagram(3)http://www.instagram.com等社交媒體平臺將人們的生活和互聯網越來越緊密地聯系在一起.由全球領先的社交媒體數字營銷機構DataReportal發表的2019全球數字報告顯示,全球77億人口中活躍的社交媒體用戶已經達到45%,Facebook的月活躍用戶達到了22.71億,中國的新浪微博月活躍用戶也已經達到了4.46億[1].此外,Kantar Media CIC在2017年中國社會化媒體格局概覽中指出中國的社會網絡如新浪微博等社交媒體平臺,已經覆蓋了人們生活的方方面面[2].這是因為社交媒體具有快捷、方便、雙向、開放等特點,給人們消費信息帶來了巨大的便利.然而,社交媒體的這些特點也使它成為了孕育不可信信息的溫床.一方面由于在社交媒體中內容的發布幾乎是零門檻,用戶自身認識局限性導致的錯誤觀點或者是用戶出于某種目的而設計的片面新聞、虛假新聞都能輕易地發布在社交媒體平臺上.另外一方面,由于社交媒體中信息的交換十分頻繁,不可信的內容能夠很快傳播開來,覆蓋大量的用戶,給社會和個人帶來嚴重的負面影響.

傳統的內容可信性判斷是通過人工來實現的,對于社交媒體中海量的內容,這種方法已經不可行.如今隨著數據挖掘、機器學習等技術的發展,采用計算機評估內容可信性成為了主流.該方法的最大優勢在于能夠從全局角度去評價內容可信性,避免了人工評判中信息不對稱的問題.現在大部分社交媒體平臺都有自動化的信息過濾機制,如點評類網站Yelp(4)http://www.yelp.com對垃圾評論進行過濾,問答互動型網站Quora(5)http://www.quora.com會隱藏劣質答案而向用戶推送最佳答案.本文將從社交媒體中用戶的特點出發,考慮用戶的主題因素和從眾因素,提出一種基于概率圖模型的方法來對社交媒體中的內容可信性進行判斷.

1 相關研究綜述

從20世紀90年代中期開始,互聯網內容的可信性研究就成為了一個重要的研究領域[3].隨著社交媒體的興起,研究社交媒體中內容的可信性變得尤為重要.對于計算機領域中的可信性,Fogg等人[4]給出了被大部分研究者所認同的解釋.他們認為可信性包含2個基本維度:可信賴度(trust worthiness)和專業度(expertise).可信賴度包含無惡意(well-intentioned)、真實(truthful)、公正(unbiased)3個方面,側重于描述信息本身;專業度包含經驗豐富(experienced)、知識淵博(know-ledgeable)、能力突出(competent)3個方面,側重于描述信息源.

根據上述2個維度,可以將社交媒體中內容的可信性研究分為面向信息源的可信性研究和面向信息的可信性研究.考慮到傳統網絡媒體中內容可信性的研究方法也適用于社交媒體,本研究把傳統網絡媒體當作特殊的社交媒體也納入到社交媒體內容可信性研究的討論中,那么信息源就體現為傳統網絡媒體中的網站和社交媒體中的用戶.信息則是網站或者用戶發布于傳統網絡媒體或社交媒體上的多媒體內容.

面向信息源的可信性研究可以分為2類:基于網絡拓撲結構的信息源可信性研究和基于信息源特征的信息源可信性研究.基于網絡拓撲結構的研究以信息源為節點、信息源之間的關系為邊構造網絡模型,根據信息源在網絡中所處的位置,對信息源的可信性進行計算.PageRank[5]算法是其中最為經典的算法,之后出現了許多基于PageRank的改進算法,比如Appleseed[6],TrustRank[7],CredibleRank[8],VoteTrust[9]等算法.基于信息源特征的研究是尋找影響信息源可信性的因素,比如信息源的活躍度、權威度、與其他信息源的關系、歷史行為和信息源發布內容語義信息、傳播范圍、時效性等,研究這些因素如何影響信息源的可信性,采用合適的模型對這些因素進行組合,從而得到信息源的可信性[10-11].雖然在信息源的可信性計算中加入了很多因素,但這些研究大部分都忽略了信息源的主題因素,默認信息源在所有主題下是一樣的,不符合常理,比如說人們更傾向于相信一個醫生發布的關于藥品的內容,而不相信他發布的關于天文的內容.

面向信息的可信性研究方面通常考慮多種因素,采用迭代模型、優化模型和概率圖模型3種模型來進行研究.使用迭代模型度量信息可信性的研究利用影響信息可信性的因素和信息可信性之間的相互影響關系,通過影響信息可信性因素計算信息的可信性,然后通過信息可信性量化影響信息可信性的因素,不斷重復這個過程直至收斂.采用迭代模型的最簡單情形是利用信息源可信性和信息可信性之間的相互影響來計算信息的可信性[12-14].也有一些迭代模型考慮多種因素,如信息源之間的關系、信息的語義等[15-16].采用優化模型的信息可信性計算方法主要目的是尋找一個映射把影響信息可信性因素和信息的可信性聯系起來,有2種實現方式:一種是回歸[17-20],另一種是分類[21-22],區別在于前者得到的是連續值,后者得到的是離散值.采用回歸方法時通常會使用邏輯回歸、最大似然估計等算法,或者是根據具體應用場景設計相應的回歸算法;分類方法中會采用支持向量機、決策樹等算法.基于概率圖模型的信息可信性研究認為:信息源做出的判斷、信息源的特征、信息本身的特征等可觀測變量的分布依賴于信息的可信性、信息源的可信性等隨機變量,通過建立隨機變量和可觀測變量之間的關系得到概率圖模型.大部分研究采用了貝葉斯網絡[23-25],也有研究使用的是條件隨機場模型[26].

隨著社交媒體的普及,近幾年研究重心逐漸從傳統網絡轉移到Twitter(6)http://twitter.com、新浪微博等社交媒體平臺.目前國外研究涉及到的媒體平臺主要包括Twitter[14,21]、新浪微博[20,26]以及Yelp[27],研究對象可劃分為事件層面的信息可信性研究[14,20]以及推文層面的可信性研究[21,26-27].文獻[14]通過構建推文與信息源、信息源之間的關系圖,將推文的可信性作為隱含變量通過最大期望(expectation maxi-mum, EM)算法進行求解,進而通過投票思想獲得事件的可信性.文獻[20]通過構建推文間的關系圖來將事件的可信性計算轉化為圖優化問題.社交媒體中往往存在很多噪音數據,比如大量的從眾轉發等現象,對推文可信性判斷帶來干擾進而使事件的可信性判斷出現不可忽視的偏差.由此可見,從大量噪音數據中篩選出真正有用的推文數據就顯得十分重要.推文層面的研究大多依賴于數據集的標注標簽以使用傳統機器學習方法,考慮到訓練集規模較大、人工標注耗費成本較高,我們更傾向于使用無需人工標注的方法,如使用帶標簽數據集或無監督學習方法.Fontanarava等人[27]使用Yelp帶標簽數據集采用了集成學習的方法,混合了多個模型對Yelp上特定領域的評論可信性進行了研究.他們從評論的語言學特征入手,采用判別模型支持向量機和生成模型循環神經網絡對評論內容的可信性進行分析,另一方面采用隨機森林,根據用戶和評論元數據的特征,對評論的可信性進行了分類.最后將3個模型得到的結果采用線性內插法結合到一起,得到最終的結果.Yelp等評價類網站與新浪微博等內容導向的社交平臺的元數據特征存在明顯差別,如評價類平臺特有的星級等,所以針對內容導向的社交平臺仍需挖掘有用特征.

目前國內對社交媒體信息可信性評價的相關工作較少.謝柏林等人[28]在2016年的研究中,側重于及早發現微博中的虛假信息,將轉發以及評論內容的觀點傾向,結合用戶對信息的識別度作為觀測值,使用狀態持續時間概率為Gamma分布的隱半馬爾可夫模型計算原創微博的可信性.除此以外,任亞峰等人[29]在2015年針對虛假評論檢測進行了研究,該研究考慮到人工標注數據集后采用監督學習的不合理性,基于少量已知正例樣本采用PU(positive and unlabeled)學習算法標注未知標簽數據,最后在標注數據集中構建多核分類器來檢測虛假評論.雖然這些研究開始重視社交網絡信息的可信性,但近幾年國內在該方面的研究還很少見.

面向信息的可信性研究中大多忽略了主題因素,然而用戶在不同主題下具有不同的可信性[30].默認信息源在所有主題下具有相同可信性,一方面削弱了信息源在其擅長主題下的可信性,另一方面也增強了信息源在其不擅長主題下的可信性,從而影響最終可信性計算結果的準確性.文獻[21]在研究Twitter平臺中的信息可信性時考慮了用戶主題對信息可信性的影響,認為用戶的主題與其參與的推文的主題偏差越大,推文和用戶的可信性就越低.該研究針對Twitter平臺的10個話題爬取了2 000條相關推文,采用人工進行標注分析,一方面模型對標注信息依賴性較高,另一方面數據規模較小,無法充分挖掘潛在特征.

在解決沖突數據相關問題中,需要保證數據源之間的獨立性.數據源之間的依賴關系如頻繁的拷貝行為,會對最終數據準確性的分析產生影響[31].Dong等人[13]在該問題的研究中,通過貝葉斯建模數據源之間的依賴關系,并據此調整數據源可信性在數據準確性分析中的權重.社交媒體內容可信性分析也應當考慮同樣的問題.此外,頻繁拷貝信息的信息源不僅經常出現在不可信信息的發布者中,也經常出現在可信的發布者中,并不能從他們發布信息的行為中得到所發布信息可信性的傾向.

綜上所述,本文將同時考慮用戶的主題因素和拷貝因素對社交媒體中內容的可信性進行進一步研究.由于社交媒體中缺乏內容和用戶可信性的標記,人工標記難度很大,成本很高,比較適合采用無監督的方法進行研究,而概率圖模型比較適合無監督的學習[32],同時具有直觀易于理解的特點,所以本文在考慮用戶主題和拷貝因素的基礎上,使用了貝葉斯網絡對社交媒體中內容的可信性進行分析和評價.本文的主要貢獻在于同時考慮了用戶的主題特性和從眾行為特性,一方面將可信性評價與用戶的擅長領域聯系起來,另一方面也降低了社交平臺中拷貝內容等噪音數據給可信性評價帶來的干擾,最終在新浪微博真實數據集的實驗結果表明本文提出的社交媒體內容可信性評價模型相比其他模型更具有適用性.

2 內容可信性評價模型

為評價社交媒體信息的可信性,本文提出社交媒體內容可信性評價模型LCEM(latent credibility evaluation model).首先描述模型背后的思想,簡要介紹用戶的主題因素、從眾因素以及各因素與內容可信性之間的關系,然后給出模型的構建過程.

2.1 模型思想

在社交媒體中,用戶發表或者轉發一條內容的行為可以看作是一次投票行為.對于轉發微博,其投票對象是轉發微博對應的原始微博.對于原創微博,其投票對象是發表微博所承載的內容信息,可以認為原創微博是一種特殊的轉發微博,是將抽象內容轉發為具體文本,而不是文本對文本的轉發.為了將原創微博與轉發微博統一起來,近似認為原創微博的投票對象也是原始微博.如果一個用戶發表了原創內容或者單純轉發了他人發表的內容,可以看作是該用戶對其發表或者轉發的內容投了一次贊成票,表示其認為原始內容是可信的.如果在轉發的同時加上了自己對內容的觀點,當觀點的情感極性是正向的,那么可以當作用戶相信原始內容,投出了贊成票;反之,如果評論的情感極性是負向的,那么可以當作用戶不認可原始內容,投出了反對票.很顯然,不同用戶投票對于人們判斷內容可信性的參考價值是不一樣的.

首先,如果一個投票是在用戶從眾的情況下產生的,那么意味著這個投票的產生未經過用戶的判斷,投票中沒有贊成和反對的傾向,其產生獨立于內容的可信性,所以不具備參考價值.如果用戶在非從眾的情況下做出了一次投票,表明用戶是通過自己的思考,利用相關的知識經驗進行了判斷.由于知識經驗和內容是相關的,所以投票也就與內容的可信性聯系在一起,具有參考價值.CNNIC2016年中國互聯網新聞市場研究報告[33]中顯示,超過60%的用戶在轉發新聞內容的時候并未對內容的可信性進行判斷,這些大量的從眾投票會嚴重干擾人們對內容可信性進行判斷,所以依據用戶的從眾行為過濾沒有價值的投票顯得十分必要.

此外,用戶在非從眾情況下投票的參考價值也有著很大的差異.如果一個用戶在一個主題下比較活躍,那么用戶對該主題相關的知識掌握的也就相對較多,也就越容易做出正確的判斷,用戶在該主題下的投票參考價值也就越大;相反,在用戶不熟悉的主題下,用戶缺乏判斷該主題下內容可信性的知識,不容易做出準確判斷,所以這時候用戶做出投票的參考價值很小.總的來說,用戶非從眾情況下投票的參考價值很大程度上取決于用戶在投票對象主題下的專業程度.本文將用戶的活躍程度視為用戶的專業程度.

綜合考慮用戶的從眾行為和主題分布可以很大程度上過濾掉沒有價值的投票,提升具有參考價值投票的作用,從而提高對內容可信性判斷的準確度.下面從這2方面出發,以新浪微博平臺為例,從用戶視角闡述新浪微博中投票的產生.首先用戶打開其微博主頁會看到最新發表或轉發的微博,如果用戶傾向于從眾的話,他很有可能直接轉發看到的熱門微博.如果該用戶獨立思考能力比較強,那么他會選擇自己感興趣的微博進行轉發,并且會考慮微博的可信性,以一定的概率轉發微博,做出投票.這個過程中涉及到2種投票的概率:一種是用戶從眾情況下的概率;另一種是非從眾情況下的概率.對于前者,用戶呈現出的態度可能是支持也可能是反對.可以認為用戶是從已有的轉發微博中隨機挑選了一條進行轉發,所以他的態度取決于他轉發微博的態度.那么從眾用戶投出贊成票的概率就是用戶所處環境下贊成票數占所有票數的比例,即表示支持的轉發數占總轉發數的比例,投出反對票的概率則是反對票數占總票數的比例.對于后者,用戶也會投出贊成票或者反對票,這取決于用戶自身的屬性.用戶在非從眾情況下可能贊成了可信的內容(真陽性),也有可能支持了不可信的內容(假陽性),同樣也會出現反對可信內容(假陰性)和反對不可信內容(真陰性)的情況.所以用戶投贊成票和反對票的概率就是它們在內容可信性下的邊緣概率,也就是在內容可信與否2種情況下的投票概率之和,其中邊緣概率的計算公式為

(1)

2.2 模型建立

考慮到缺乏帶標記的社交媒體內容可信性數據,本文基于生成模型的思想,采用貝葉斯網絡建立了社交媒體內容可信性評價圖模型LCEM,利用盤式記法簡化表示為圖1,模型中的各個符號含義如表1所示.

Fig. 1 Latent credibility evaluation model圖1 社交媒體內容可信性評價模型

Table 1 The Description of Symbols表1 模型符號說明

Continued(Table 1)

下面詳細描述模型的建立過程,從變量之間的關系建模到整個貝葉斯網絡的構建.

ρdu~Bino(1,πu).

(2)

zdu~Muti(1,θd).

(3)

λdu~Bino(1,μd).

(4)

4)vdu表示用戶u對內容d的投票,投票分為贊成票和反對票,分別用1和0表示.其服從的分布分為2種情況:一種是用戶u在從眾情況下產生;另一種是用戶u在非從眾情況下產生.

vdu=Bino(1,φukc).

(5)

vdu~Bino(1,gdu),

(6)

上下文環境變量gdu的建模方法為

(7)

(8)

其中,參數τ是新引入的一個超參數,用于平衡用戶投贊成票和反對票的概率.

上述1)~4)所有變量中,如圖1,用戶從眾行為ρdu、內容主題zdu和內容可信性λdu將作為模型的隱含變量;投票結果vdu、用戶u以及上下文環境gdu則作為可觀測變量;剩下的用戶從眾概率分布參數πu、內容主題分布參數θd、內容可信性分布參數μd以及用戶投票行為分布參數φukc是待估計參數,也就是需要求解的變量.

為了提高模型的靈活性和進行平滑處理,為每個待估計參數引入相應的先驗分布,先驗分布的參數就是超參數.首先用戶u在內容d的從眾行為ρdu服從單次二項分布,那么用戶的所有投票的從眾行為ρu=(ρd1u,ρd2u.…)服從二項分布,那么有:

ρu~Bino(nu,πu),

(9)

其中,nu表示用戶u的投票次數.為便于計算,πu的分布滿足二項分布的共軛先驗貝塔分布,也就是:

πu~Beta(η),

(10)

其中,超參數η=(η0,η1),每個分量表示0和1的個數.同理有:

θd~Dir(γ),

(11)

其中,超參數γ=(γ0,γ1,…,γ|K|),

μd~Beta(α),

(12)

其中,超參數α=(α0,α1),

φukc~Beta(β),

(13)

其中,超參數β=(β0,β1).

模型中,{u,vdu,gdu}是可觀測變量,{μd,φukc,πu,θd}是待估計參數,{ρdu,zdu,λdu}是隱含變量.模型的輸入是所有投票記錄對應的可觀測變量和超參數的值,輸出是所有隱含變量以及待估計參數的值.

圖1中各變量的聯合概率分布的抽象表達為

P(W,λ,z,ρ,μ,θ,φ,π;α,γ,β,η).

(14)

根據上面提出的社交媒體內容可信性評價模型,投票產生的具體過程為

1) 對于每一個用戶u、每一個內容主題k和每一種內容可信性c,從貝塔分布Beta(φukc|β)中取樣生成非從眾情況下用戶u在內容主題為k和可信性為c情況下投票行為的分布參數φukc;

2) 對于每個用戶u,從貝塔分布Beta(πu|η)中取樣生成用戶u的從眾行為分布參數πu;

3) 對于每條內容d:

3.1) 從狄利克雷分布Dir(θd|γ)取樣生成內容d的主題分布θd;

3.2) 從貝塔分布Beta(μd|α)中取樣生成內容的可信性分布μd;

3.3) 對于每個投票給內容d的用戶u:

3.3.1) 從二項分布ρdu~Bino(1,πu)中取樣生成用戶u的從眾行為ρdu;

3.3.2) 從二項分布λdu~Bino(1,μd)中取樣生成內容的可信性標簽λdu;

3.3.3) 從多項分布zdu~Multi(1,θd)中取樣生成內容的一個主題zdu;

3.3.4) 若ρdu=0,則從二項分布vdu~Bino(1,φukc)中取樣生成投票vdu,其中k表示zdu的取值結果,c表示λdu的取值結果;若ρdu=1,則從二項分布vdu~Bino(1,gdu)中取樣生成投票vdu.

3 模型求解

在完成概率圖模型建立后,需要針對其中的待估計參數進行求解.本文在參數估計的過程中采用了吉布斯采樣算法.吉布斯采樣作為馬爾可夫蒙特卡洛方法的一種特殊情況,適用于高維數據的采樣,普遍應用于概率圖模型中.采用吉布斯采樣求解模型,最主要的工作是推導隱含變量的采樣規則.根據采樣結果可以很容易地計算待估計參數.

3.1 隱含變量聯合概率推導

首先給出隱含變量在已知數據,即數據集和超參下的聯合概率分布形式,表示為

P(λ,z,ρ|W;α,γ,β,η).

(15)

引入隱含變量分布參數,即待估計參數后,式(15)可表示為

(16)

那么要計算隱含變量的聯合概率分布,需要先計算P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η),即隱含變量和待估計參數在已知信息下的聯合概率分布.根據貝葉斯公式以及D-分離規則有:

P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η)∝P(W,λ,z,ρ|μ,φ,π)P(θ|γ)P(μ|α)×P(φ|β)P(π|η).

(17)

根據概率圖模型中各條生成路線,式(17)可以整理得到:

P(λ,z,ρ,μ,θ,φ,π|W;α,γ,β,η)∝

(18)

表達式(18-1)對應圖1中η→πu→ρdu生成路線,表示用戶從眾行為的先驗分布中采樣生成用戶從眾行為的分布,然后從該分布中采樣出用戶是否從眾.同理表達式(18-2)對應路線β→φukc→vdu;表達式(18-3)對應路線γ→θd→zdu;表達式(18-4)對應路線α→μd→λdu;表達式(18-5)對應路線gdu→vdu.對于投票結果vw,其生成路徑分別對應表達式(18-2)和表達式(18-5)這2種不同的情況,由公式的指數上標也就是投票記錄對應的用戶從眾行為ρw決定.當該投票是在用戶非從眾(ρw=0)情況下產生時,其生成路徑對應表達式(18-2),當該投票在用戶從眾(ρw=1)情況下產生時,其生成路徑對應表達式(18-5).

將式(18)帶入式(16)計算隱含變量的概率分布,并且將多重積分根據積分變量進行轉化來簡化計算復雜度,整理為

P(λ,z,ρ|W;α,γ,β,η)∝

(19)

(20)

(21)

(22)

(23)

并且表達式(19-5)可以轉化為

(24)

至此,結合式(20)~(24),可以得到隱含變量的聯合概率分布:

(25)

3.2 采樣算法

在3.1節隱含變量的聯合概率分布的推導基礎上,繼續闡述隱含變量的狀態轉移分布推導過程,并給出LCEM的吉布斯采樣算法.

根據吉布斯采樣算法,LCEM的轉移概率為

P(λo,zo,ρo|λ,z,ρ,W;α,γ,β,η)∝

(26)

其中(λo,zo,ρo)表示與一個投票vo對應的隱含變量,{λ,z,ρ}表示剔除該投票vo對應的隱含變量后剩余投票對應的隱含變量.可以看出需要采樣的隱含變量的轉移概率同所有隱含變量的聯合概率與剔除該組變量的隱含變量的聯合概率比值成正比.并且可以使用式(15)的形式來表示聯合概率,整個轉移概率公式推導可拆分成對每一部分的推導.下面具體推導式(26)中F1和F的關系,其中Γ(·)表示伽瑪函數:

(27)

同式(27)推導過程,式(26)中F2和F的關系為

(28)

式(26)中F3和F的關系為

(29)

式(26)中F4和F的關系為

(30)

式(26)中F5和F的關系為

F5=(gvo)ρoF.

(31)

綜合式(27)~(31),一組隱含變量轉移概率的具體表達形式為

P(λo,zo,ρo|λ,z,ρ,W;α,γ,β,η)∝

(32)

其中ρo∈{0,1},若當前隱含變量對應的投票記錄在從眾情況下產生,即ρo=0,最終的概率與上下文gvo無關,同理ρo=1,最終概率與第2項無關.

對其中某個隱含變量進行采樣時,另外2個變量作為隱含變量的固定值.所以該隱含變量的采樣概率只和式(32)中的相關項有關,其他項在當前采樣過程中作為常量.所以各隱含變量的采樣規則為

P(λo|λ,z,ρ,W;α,γ,β,η)∝

(33)

P(zo|λ,z,ρ,W;α,γ,β,η)∝

(34)

P(ρo|λ,z,ρ,W;α,γ,β,η)∝

(35)

根據隱含變量的采樣公式對隱含變量進行采樣,將采樣得到的結果作為后驗知識,結合事先設定的先驗知識,利用先驗分布和后驗分布的共軛關系,可以得到各個待估計參數的計算規則:

(36)

(37)

(38)

(39)

根據這些規則就可以得到本文提出的可信性評價模型LCEM的吉布斯采樣算法.算法輸入是所有內容對應的投票記錄集合W、內容所有主題類別K、內容可信性先驗分布參數α、內容主題先驗分布參數γ、用戶從眾行為先驗分布參數η、用戶在不同主題和可信性下投票行為的先驗分布參數β、上下文環境變量平衡參數τ,以及采樣迭代次數I.算法輸出包括內容可信性分布μ、內容主題分布θ、用戶從眾行為分布π、用戶在不同主題和內容可信性下投票行為分布φ,以及所有隱含變量{λ,z,ρ}.詳細過程如算法1所示.

算法1.LCEM吉布斯采樣算法.

輸入:{W,K,α,β,γ,η,τ,I};

輸出:{μ,θ,π,φ,λ,z,ρ}.

② for alld∈Ddo

③ for allw∈Wddo

⑤λw~U(0,1);

⑥zw~U(1,|K|);

⑦ρw~U(0,1);

⑧ end for

⑨ end for

4 模型評價

本節采用真實社交媒體平臺的數據來驗證本文提出的模型.采用的數據來自于文獻[34]的新浪微博公開數據集,數據中有3萬條原創微博、3 700萬條轉發微博、140萬個用戶.從數據中可以提取出可觀測變量的值,從而得到模型的輸入.

4.1 參數設定

需要設定的參數包括迭代次數I、微博主題類別K,以及各先驗分布的超參.

首先對迭代次數I的設定.由于吉布斯采樣是一個隨機化求解方法,無法保證迭代確定次數后收斂.本文將迭代次數設定為一個較大值1 000,通過觀察困惑度(perplexity)來判斷是否收斂.困惑度是一個用于衡量概率模型擬合程度的量,值越小表示擬合效果越好.隨著采樣進行,困惑度會不斷減少,當困惑度變化范圍小于一定閾值,則認為其收斂,實驗設定閾值為0.001.困惑度計算方法為

(40)

(41)

其中Φ表示待估計參數集合,Ψ是超參數集合.

本文中模型的似然函數可以表示為

(42)

對于主題類別K的設定,也就是主題類別個數的設定,本文采用HDP(hierarchical Dirichlet processes)模型[35].HDP模型可以看做是LDA(latent Dirichlet allocation)模型[36]的擴展,是非參數化的LDA模型,可以自動調整主題個數,達到不用人工確定主題個數的目的.本文將微博文本輸入HDP模型,經過5天32 182次迭代,得到如圖2所示的主題與困惑度關系:

Fig. 2 The relation between number of topics and perplexity圖2 主題數和困惑度的關系

從圖2中可以發現主題數100之后,困惑度趨于平穩,所以本文將主題數確定為100.

對于{α,γ,η,β} 這些先驗分布的超參數,假設它們的各個分量都相等,即α=α′×(1,1),γ=γ′×(1,1,…,1),η=η′×(1,1),β=β′×(1,1)那么對向量的設定就可以轉化為對標量的設定,即對系數{α′,γ′,η′,β′} 的設定.設定{α′,γ′,η′,β′,τ}這些參數時,本文利用了貝葉斯優化工具(7)https://github.com/fmfn/BayesianOptimization搜尋合適的參數,設定的搜索區間為α′∈[0.01,2],γ′∈[0.01,2],η′∈[0.01,2],β′∈[0.01,2],τ∈[0.01,100],搜尋結果為α′=0.01,γ′=0.01,η′=0.01,β′=0.01,τ=94.47.

4.2 實驗結果

為了驗證LCEM模型的有效性,本文選取了6個模型進行對比.

3) TruthFinder[37].該方法是一種迭代模型,通過信息源(source)建立事實(fact)之間的聯系,采用類似于PageRank的方法計算fact的可信性.

4) LTM[24].該模型也是概率圖模型,其思想是各個fact中每個source做出的聲明(claim)受到fact可信與否的影響,利用這個影響關系來判斷fact的可信性.

5) KDEm[17].該模型是一種回歸模型,采用了核密度估計的思想,將同一fact的所有claim映射到函數空間,將用戶的可信性作為權重,對fact的可信性進行擬合.

6) CATD[38].該模型也是回歸模型,通過fact可信性與source之間的關聯,建立優化目標,在計算source權重時考慮了source發表的claim數服從冪律分布,每個source權重的置信度會有很大差別,根據置信度來修正權重.

其中TruthFinder,KDEm,CATD有公開源碼(8)https://github.com/MengtingWan/KDEm,由文獻[17]提供.這6個模型中的source,claim,fact分別對應著本文研究場景中的用戶、投票、微博.

由于本文采用的公開數據集中并不攜帶內容可信或者不可信的標簽,常規的F1值評價方法并不適用.本文將采用的評價方法為:取實驗結果中可信性最高的100條微博和可信性最低的100條微博,采用人工的方式判斷前100條中可信微博的數量和后100條微博中不可信微博的數量,將前100條中可信微博的比例和后100條中不可信微博的比例作為評價指標.

對各個模型中輸出的內容可信性評分排序,提取出可信性最高的100條微博和可信性最低的100條微博,得到的對比結果如圖3所示.本文提出模型的準確程度都要高于其他模型,即使除去用戶主題因素的考慮,相比其他模型也具有一定的優勢.不考慮從眾因素的情況下,效果也和其他模型中最好的相差無幾.其中的原因是對比模型是建立在用戶行為差異比較大的基礎上,即所有用戶投出的贊成票數和反對票數差別較小.但是在社交媒體中反對票數本來就遠小于贊成票數,加上從眾用戶的存在,它們懸殊更加巨大.在本文使用的數據集中,根據情感分析得到的贊成票數和反對票數的比值達到了900.而本文從用戶的從眾因素和主題因素2個角度弱化了這種負面影響,得到了相對于其他模型較好的結果.雖然TruthFinder也考慮到用戶之間存在著拷貝,但是只是單純地為所有內容的可信性加上了一個相同衰減系數,并不影響最終可信性的排名.圖3也體現了用戶從眾因素對內容可信性評價的影響大于用戶的主題因素,原因在于用戶參與其不熟悉的主題往往反映了一定的從眾傾向,即從眾因素中包含了部分主題因素.

Fig. 3 The precision of credibility top100 and bottom100 microblogs圖3 可信性Top100以及Bottom100微博的精確率

同時,從圖3中可以明顯看到,在Top100中可信微博的比例都比較高,而在Bottom100中不可信微博的比例都很低.究其原因,一方面數據集中可信內容數要遠大于不可信內容數;另一方面,用戶在參與負面新聞時往往持批判的態度,即根據情感極性分析得到的是反對票,但實際上是贊成票.這樣就導致了在Bottom100中負面新聞占據了很大一部分,使得真正不可信的內容減少.

Fig. 4 The perplexity of LCEM, LCEMH and LCEMT圖4 模型LCEM,LCEMH,LCEMT的困惑度

5 總結與展望

本文致力于解決的問題是社交媒體中內容可信性判斷的問題.針對該問題,考慮到在社交媒體中用戶在消費信息時有跟風的傾向和選擇自己感興趣信息的傾向,本文從用戶的從眾因素和主題因素以及內容的可信性因素出發,對用戶發表或傳播內容時持有的支持或反對態度進行分析建模,從而實現對內容可信性的評價.實驗結果表明,本文提出的模型更加適合社交媒體中內容可行性的評價.

雖然相比現有的內容可信性評價模型,本文提出的模型具有較好的效果,但是本文模型在以下方面仍有改進的空間:提高評論支持或反對的計算準確程度;更加準確地衡量用戶轉發內容時的上下文環境;除了考慮用戶的從眾行為,加入用戶對特定用戶的依賴能夠提高可信性判斷的準確程度.

猜你喜歡
內容用戶模型
一半模型
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲精品日产AⅤ| 色婷婷天天综合在线| 国产区在线观看视频| 91青青视频| 成年免费在线观看| 亚洲日韩久久综合中文字幕| 国产成人久久777777| 伊人久久久久久久久久| 国产乱人伦AV在线A| 蜜芽一区二区国产精品| 91美女视频在线| 不卡国产视频第一页| 成人日韩欧美| 又猛又黄又爽无遮挡的视频网站| 精品福利网| 国产农村妇女精品一二区| 亚洲精品大秀视频| 欧美一级黄色影院| 在线观看欧美国产| 伊人久久婷婷| 欧美一区精品| 狠狠色丁香婷婷| 亚洲中字无码AV电影在线观看| 亚洲天堂777| 这里只有精品在线播放| 久久综合亚洲鲁鲁九月天| 亚洲精品国产首次亮相| 日本精品视频一区二区| 亚洲欧美成人在线视频| 国产在线精彩视频论坛| 日本人妻一区二区三区不卡影院| a在线亚洲男人的天堂试看| 国产成人精品一区二区秒拍1o| 91久久偷偷做嫩草影院电| 国产精品成人啪精品视频| 99热线精品大全在线观看| 亚洲性视频网站| 成人在线第一页| 国产性生大片免费观看性欧美| 欧美一级高清视频在线播放| 亚洲网综合| 亚洲色图欧美| 综合色区亚洲熟妇在线| 91在线丝袜| 人妖无码第一页| 91福利免费视频| 国产成人一区免费观看| 欧美午夜性视频| 久久中文字幕不卡一二区| 国产97公开成人免费视频| 精品色综合| 2020最新国产精品视频| 九色91在线视频| 国产在线观看高清不卡| 91精选国产大片| 午夜影院a级片| www.亚洲色图.com| 97久久超碰极品视觉盛宴| 日韩精品无码一级毛片免费| 亚洲人视频在线观看| 亚洲性日韩精品一区二区| 在线观看国产黄色| 三级毛片在线播放| 无码'专区第一页| 亚洲二区视频| 人妻无码中文字幕第一区| 色偷偷男人的天堂亚洲av| 亚洲精品图区| 2021最新国产精品网站| 国产成人亚洲精品蜜芽影院| 中文字幕伦视频| 欧美色亚洲| 久久精品国产精品青草app| 国产一级视频久久| 九九九久久国产精品| 成人毛片免费观看| 欧美视频在线第一页| 国产成人无码Av在线播放无广告| 国产欧美日韩视频怡春院| 色135综合网| 无码专区第一页| 国产91视频免费|