李攀攀,謝正霞,王贈凱,靳銳
(1. 嘉興學院信息科學與工程學院,浙江 嘉興 314001;2. 嘉興學院建筑工程學院,浙江 嘉興 314001;3. 哈爾濱工業大學計算機科學與技術學院,黑龍江 哈爾濱 150001)
信息技術的更新迭代一直是社會發展的核心推動力之一,科學技術的關鍵創新推動了信息傳播方式的重大變化,信息傳播一直朝著速度更快、受眾面更廣、傳播成本更低的方向發展[1]。當今,在泛互聯網空間環境下,信息傳播的門檻被極大地降低,信息傳播速度及傳播模式的變革深深影響了人類社會的發展[2-3]。作為衡量信息傳播能量的重要指標,信息影響力的度量在研究信息傳播過程中扮演著重要的角色,因此,研究信息在開放互聯網環境中的傳播影響力、對受眾的影響程度以及探究信息演化的趨勢具有重要的現實意義。
互聯網的出現改變了信息的傳播模式,一方面,信息傳播的廣度顯著增加,所傳播范圍的不確定性日益突出,相比傳統環境,信息共享與傳播的邊界不斷擴大,人們能更便捷地享受信息高效傳播帶來的便利;另一方面,共享開放的網絡空間給信息影響力的傳播帶來了深刻的變革,信息傳播的跨時空性給量化信息的傳播影響力帶來更為嚴峻的挑戰[4-5]。
傳統的信息傳播影響力計算方法有如下研究。在信息影響力關鍵要素抽取方面,文獻[6]使用信息熵建立了中文公眾事件的抽取方法,未對傳播影響力進一步研究;在傳播影響力分析方面,文獻[7]和InfoIBP(influence propagation Indian Buffet process)模型[8]側重于信息主體與信息內容之間相互影響力的分析,忽視了信息之間的傳播影響力,而基于粒子群的LAPSO-IM(a learning automata based discrete particle swarm optimization influence maximization)方法[9]或基于蟻群優化的ACO-IM(ant colony optimization influence maximization)方法[10]通常依賴大規模特定領域的數據集作為初始訓練集,應用范圍受限;在關鍵傳播節點或關鍵事件影響力分析方面,文獻[11]和文獻[12]分別使用貝葉斯方法和實測方法進行了研究,該類方法通常忽略了信息的跨領域傳播。
針對上述問題,本文研究了開放互聯網環境下多維信息因素的建模,充分考慮了互聯網環境的開放性、多維性等特點,研究了基于最大熵理論的信息傳播影響力計算方法。互聯網中海量的信息并非互相獨立,隨著互聯網信息共享能力的提升,大多數傳統的信息“孤島”和數據“壁壘”已被打破,用戶通過互聯網接收傳播信息的同時,其認知也同樣經歷著影響與被影響的過程。互聯網信息傳播的影響力涉及信息對信息、信息對用戶、用戶對用戶等多個方面[13-15]。理論上講,傳播影響力是衡量信息重要程度的內在特征屬性,如何量化這種影響力的傳播過程,探究信息傳播的影響力是研究信息傳播及其演化模型的基礎。
在傳播速度更快、環境復雜性更高的公共互聯網環境中,評價與量化信息傳播影響力主要面臨的挑戰有以下方面。
· 互聯網信息影響力涉及因素眾多,如信息主體、傳播路徑、客體影響等,在開放的公共互聯網中難以獲得完備的信息傳播影響力要素集。
· 互聯網信息類型多樣,如文本、圖片、音/視頻等,信息影響力各因素極其復雜,尤其是各因素相互疊加影響,難以統一量化。
· 信息傳播渠道多樣化,如社交網絡轉發引用、新聞評論、學術論文引用與評述等,不同渠道難以用統一的量綱描述信息的影響力。
鑒于此,本文提出了一種在公共互聯網環境基于信息熵的信息傳播影響力計算方法,通過“奧卡姆剃刀原理”選取關鍵特征。針對多維變量權重的相互影響,難以用傳統的統計學函數分布描述問題展開研究,本文采用最大熵理論探究并量化信息在公共互聯網中傳播的影響力,為信息傳播影響力的可度量、可計算方面的研究提供了理論基礎和實踐指導。
經典的影響力傳播模型主要有兩種:線性閾值模型(linear threshold model,LT)和獨立級聯模型(independent cascade model,IC)。這兩種基于概率的傳播影響力模型[16]在計算過程中,通過引入隨機性參數在一定程度上體現了信息傳播的特點,LT在信息傳播前為節點隨機地選擇概率的閾值,IC中一個節點通常以概率p激活鄰居節點。信息實體A,B,···,H基于LT的信息影響力傳播過程如圖1所示。

圖1 信息實體A,B,···,H基于LT的信息影響力傳播過程
從圖1可以看出,LT通過隨機地選擇閾值作為計算信息傳播影響力的基礎,顯然這種隨機性難以準確反映信息傳播的具體環境特點,尤其在開放的互聯網環境。從理論上看,信息傳播影響力最大化求解過程可抽象力在一個子集上面向特定目標的查找組合優化問題,因此,基于LT和IC的影響力最大化問題屬于非確定性多項式(non-deterministic polynomial,NP)難問題[7],難以適用于開放互聯網中信息傳播影響力的計算,主要原因有以下兩點。
· 這兩種模型的相對隨機性難以適用于互聯網信息影響力的計算,主要因為開放互聯網中信息影響力涉及因素多且這些因素無統一可計算的量綱。
· LT概率閾值及IC激活概率的隨機性使得采用這些模型計算的傳播影響力通用性不高。
信息傳播影響力涉及內、外部因素諸多,難以量化這些因素與傳播影響力之間的關系,如瀏覽、引用、點擊量等。因此,需要使用多維可計算性衡量信息傳播影響力,以使影響力具有通用性。信息傳播影響力具備以下3個主要特征。
· 可度量性:對信息傳播影響力的指標進行綜合分析并量化而成的特性,是信息傳播影響力可計算的基礎。
· 可計算性:不同類型信息傳播影響力具備可計算能力,實現信息傳播過程中影響力的計算。
· 多維性:信息傳播影響力不僅包含較多的因素,而且不同領域的信息影響力具有各自的特性,信息傳播力衡量的特征要具備容納多維特征的能力。
根據文獻[18],信息傳播影響力關系可抽象成有向圖G(V,E,W),其中,V是節點(信息實體)的集合,E是有向邊的集合(信息個體之間的影響關系),W是信息傳播影響力的集合,節點v∈V表示一個信息實體,邊(u,v)?E表示節點u到節點v的影響關系[19]。互聯網信息傳播過程可從以下兩個角度描述。
· 傳播廣度:信息在互聯網被引用、轉載、評述等的次數,是對信息直接影響力的度量。
· 傳播深度:信息被引用、轉載、評述后,還能被后續信息引用、轉載、評述的次數,是對信息間接影響力的度量。
信息的傳播過程由信息及信息之間的引用、轉載、引述、評論等關系組成一個復雜網絡,這種復雜的信息傳播拓撲結構對信息影響力的傳播和擴散起著至關重要的作用。
本書詳細討論特征參數的選取規則。設信息為全集U,由n個子集構成:U1,U2,…,Ui,…,Un。假設n=10,U1表示信息主題集合,U2表示信息類型集合,U3表示所有者集合,U4表示出版源集合,U5表示時間集合,U6表示被引用或被轉載次數,U7表示所屬領域集合,U8表示關鍵詞集合,U9表示摘要信息集合,U10表示其他信息(未抽取信息)集合。顯然,U=U1∪U2∪…Ui∪…∪Un。上述形式化描述是一種對互聯網信息的簡化表述方式,最大限度地包含了涉及信息傳播影響力的要素。
信息傳播是信息主體與被影響主體之間強度的表示方式,由信息影響力元數據(如信息主體、信息傳播路徑等)指標綜合而成,公共互聯網信息傳播影響力關聯要素示意圖如圖2所示,信息的影響力傳播建模基礎工作是從影響信息傳播的眾多因素中選取對傳播影響力有較大貢獻的特征變量,即將信息傳播影響力量化為求解影響力邊際增益或收益最大的問題。

圖2 公共互聯網信息傳播影響力關聯要素示意圖
在評估信息傳播影響力時涉及信息的引用、轉發、評論等多個參數,這些參數難以分別具體量化,參數之間的相互影響程度難以評估,因此,本文采用最大熵理論作為信息影響力傳播的重要理論依據,即從信息熵的原理出發,在評估信息的傳播影響力時,選擇在滿足全部已知條件的情況下,對未知的情況不做任何主觀假設[7-8,19]。
合理的特征選擇是量化信息傳播影響力的基礎,根據“奧卡姆剃刀原理”進行特征工程選取,即在特定的環境下,選用信息傳播影響力最大的特征作為其數學模型的參數,基于信息熵和“奧卡姆剃刀原理”信息傳播影響力特征選擇流程如圖3所示。

圖3 基于信息熵和“奧卡姆剃刀原理”信息傳播影響力特征選擇流程
在圖3中,信息影響力可表示為IDINIA→INIB,顯然,影響力是具有方向性的矢量,因此,信息客體受信息主體的影響力如式(1)所示。

其中,f:IDA→IDB表示信息A對信息B的影響力,需要指出的是f:IDA→IDB≠f: IDB→IDA。
需要進一步指出的是,在參數規則建模過程中,沒有選取信息類型,是因為通過信息摘要能確定信息的所屬領域。根據上述分析,對于有n個隨機變量組成的信息實體,其傳播影響力可以表示為(X1,X2,...,Xn),信息的影響力組成一個隨機信息系統X。因此,X等價于(X1,X2, ...,Xn),其聯合概率分布為(p1,p2, ...,pi, ...,pn)。
作為一種系統中信息含量的分析方法,信息熵理論已被廣泛運用于物理學、信息技術、統計學等領域[3,20]。在互聯網信息傳播領域,信息傳播影響力實質是信息傳播力的熵值隨著信息的傳播和擴散階段不斷減小的過程,消除了信息傳播影響力的不確定性和無序性,從而形成信息傳播影響力不斷提升的過程,因此,信息熵理論非常適合在信息傳播影響力場景中展開研究[21-22]。
在開放互聯網環境下,信息的影響力涉及較多的因素,如信息的發布者、信息的轉發者、信息的評論次數、引用者身份、發布渠道等,這就造成了在衡量信息傳播影響力時,難以量化各指標的權重及其相互之間影響程度的權重,因此,本文使用最大熵模型解決此問題,用最大熵模型描述并量化信息傳播的影響力。
針對不同的信息構建完備合理的語料庫是提取信息特征的基礎,本文通過不同方面的領域專家構建語料庫,并針對不同的應用環境使用不同的語料庫。信息的特征選擇主要包括以下3個步驟。
步驟1使用領域知識對信息進行文本分詞以及詞頻權重統計,分詞ti詞頻權重統計wf(ti)方法如式(2)所示。

其中,N為總的信息數,ni為包含ti信息的總數,mi為特征詞在該類中出現的次數,Mi為該類信息的總數。
步驟2計算分詞之間的逐點互信息(pointwise mutual information,PMI),PMI用于衡量信息變量間相互依賴的程度,因此ni和nj使用聯合概率分布的計算過程如式(3)所示。

其中,若ni和nj無關,則有p(ni,nj) =p(ni)p(nj),此時PMI(ni,nj) = 0;若ni和nj的相關性越大,那么p(ni,nj)/(p(ni)p(nj))越大,隨之PMI(ni,nj)越大。
步驟3根據“奧卡姆剃刀原理”篩選關鍵特征,構成信息的特征集。
經過上述步驟,信息的特征是離散的隨機變量,用X表示影響信息傳播影響力的離散特征值集合,設離散變量X的概率分布是P(X),根據香農信息熵理論,離散隨機變量X的熵H(X)如式(4)所示。

隨機變量X的熵H(X)是p(x)概率分布函數,用于衡量信息的傳播強度。當p(x)=0時,定義0lg(0)=0。從式(4)可以看出,H(X)僅依賴于X的分布,而與X的具體取值無關。還可以看出,熵滿足其中,是X取值的個數,當且僅當X均勻分布時右邊的等號成立。
采用拉格朗日乘子法求解在一定約束條件下X的分布情況,將最大信息熵問題轉化為無約束極值問題進行求解,記拉格朗日函數L(p(xi)) =H(X),文獻[6]采用拉格朗日乘子法求解該問題,得到熵函數H(x)如式(5)所示。

從式(5)可以看出,對于取值有限的離散型隨機變量X來說,當每個變量的取值相等時,其信息熵最大,即當X服從均勻分布時熵最大。信息的影響深度可以表示該信息對后續信息的影響強度,如學術領域的高被引論文通常被認為具有較高的影響力,新聞信息被轉載或評論的次數愈多其影響力也就愈大。因此,若使信息的傳播影響力最大,則式(5)滿足
通過上述推理證明,可得出以下兩個結論。
結論1X均勻分布時,H(X)=lgn,根據定義,此時信息傳播影響力達到最大。
因此,H(x)極值點在時,此時有H(X)=lgn。
結論2推導出因此,信息熵H(X)是關于x的嚴格單調函數。
其中,結論1和結論2保證了信息傳播影響力計算結果的嚴格單調性,是本文方法可用性的基礎。
舉例說明,在n=2時,H(P)的表達式可寫成:
最大熵理論認為所采用的概率模型首先必須滿足既存事實,即約束條件,同時不對未知的情況做任何主觀假設,即在所有可能的概率模型(分布)中。因此,使用最大熵模型評估信息影響力在理論上是可行的。此外,從信息論相關理論上看,信息傳播的最大熵模型中往往包含更多的關聯信息影響力特征,用最大熵計算的影響力也相應最大。包含更大信息量的信息容易造成較大的影響力,根據前文,在(0~1)分布的函數、概率r=0.5時,熵值H(X)最大,這也很好地解釋了互聯網熱點事件或有重大影響力屬性的事件有較高傳播影響力的原因,與文獻[6]的研究結論吻合。
基于最大熵理論的信息影響力定量分析方法需要經過一定的預處理流程,以便于將信息分解為離散、可被計算的參數[23],開放互聯網環境基于信息熵的影響力計算示意圖如圖4所示。

圖4 開放互聯網環境下基于信息熵的影響力計算示意圖
從圖4可以看出,首先,結合社會學理論以及領域知識,利用搜索引擎、網絡爬蟲等工具在互聯網中提取海量領域信息建立合理且完備的語料庫;其次,使用語料庫對待處理的信息進行分詞處理,并由領域專家計算逐點互信息;再次,由領域專家使用基于“奧卡姆剃刀原理”的關鍵特征篩選方法進行預處理,經過上述預處理后,待處理信息被量化為可計算的離散變量;最后,將這些離散變量進行去重和共指消解以提升后續影響力計算的準確性[6]。
具體來說,互聯網信息影響力的信息熵計算方法如算法1所示。
算法1互聯網信息影響力的信息熵計算方法
輸入信息ti(i∈|G|)及其傳播拓撲圖G、語料庫D
輸出信息ti的影響力pi

使用語料庫D對信息ti進行分詞
詞頻及權重統計
計算逐點互信息PMI
提取ti特征集
}
對信息G采用廣度優先遍歷分析信息之間的影響與被影響的關系
執行去重流程
執行共指消解流程
根據拉格朗日乘子法計算ti的影響力信息熵pi
returnpi
}
綜上分析,本文所提方法支持了信息傳播過程中影響力的可度量、可計算并支持多維性因素,并通過領域專家支持了信息的跨領域傳播過程中影響力的計算。
使用隨機變量X表示信息傳播影響力,假設n=10,那么X等價于(X1,X2,…,X10),其中,X1,X2,…,X10是信息傳播影響力指標的參數化表示。X1,X2,…,X10作為影響自變量與熵值H的關系無法確定,難以通過具體的函數模型或量化指標描述X1,X2,…,X10與熵值H的關系,因此,本問題適用文獻[6]所提的最大熵模型加以解決,這使最大熵表示信息影響力的熵值更接近信息在公開互聯網傳播的實際情況。
信息傳播影響力要素由(X1,X2,…,X10)構成,為了計算傳播影響力信息熵,需要分別確定各分變量的取值范圍,則傳播影響力由各分要素組合構成一個多維向量空間。使用ci表示隨機變量Xi的取值次數,當Xi的取值次數為0時,ci為空,對計算結果無影響。因此,根據文獻[6],信息傳播影響力涉及的多維變量取值見表1。的約束。

表1 信息傳播影響力涉及的多維隨機變量取值
在計算信息傳播影響力的最大熵時,受
根據最大熵理論,為了獲得信息的最大傳播影響力,各影響力要素的概率均勻分布,有p(c1)=p(c2)=…=p(c10),根據約束條件,則有p(c1,c2, …,c10) = 1/n,因此,熵函數如式(6)所示。

式(6)是由互聯網信息影響力各特征要素構成的傳播影響力計算方法。
為了衡量本文方法的有效性,本節使用不同領域的數據集對本文方法進行量化評估。
隨著互聯網的發展和廣泛應用,學術論文的傳播以互聯網為主要載體,學術論文的傳播路徑單一,通常以引用、評述為主要傳播路徑,因此,研究學術論文影響力可作為評估本文方法的手段之一。不失一般性,隨著Web3.0、移動互聯網、短視頻等媒體技術的普及,互聯網輿情事件傳播途徑多樣化。因此,選用學術論文、熱點事件為互聯網的內容實體評估本文方法,數據集有以下兩個。
· 針對學術論文信息,數據集來自DBLP(DataBase systems and Logic Programming)學術社交網絡,收集了1997年至今公開發表的計算機類學術論文元數據及引文記錄[24]。物理學論文數據集選取美國物理協會(American Physical Society,APS)公布的物理學領域自1893年以來論文元數據及其引文記錄[25]。本文選取長期活躍的研究者為研究對象,為了體現橫向對比性,本文以自然年為時間單位評價和衡量影響力。
· 針對熱點輿情事件,數據集選用近3年來有影響力的輿情事件作為研究對象,評估本文方法的有效性。
在實驗環境方面,本文使用MATLAB仿真本文的算法,并與LAPSO-IM方法[9]和ACO-IM方法[10]對比分析,其中,LAPSO-IM方法和ACO-IM方法分別是基于粒子群算法和蟻群算法的影響力最大化分析方法。
在開放互聯網中,信息傳播影響力與時間緊密相關,首先分析信息影響力隨時間變化的趨勢,針對此在DBLP引文數據庫中,隨機選取2000—2005年每年各100篇會議論文和期刊論文,DBLP中不同論文影響力隨時間變化趨勢如圖4所示。

圖4 DBLP中不同論文影響力隨時間變化趨勢
從圖4可以看出,會議論文的影響力在刊發1~2年后影響力持續爆發,期刊論文的影響力約在2年后持續爆發,這主要是由于會議論文的評審和刊出時間相比于期刊論文較短,最新的研究成果能更快地在學術會議論文集上刊發,使得其影響力較大,而期刊論文的評審和刊發周期則相對較長,其影響力的爆發時間滯后。與LAPSO-IM方法和ACO-IM方法對比來看,本文方法計算的影響力對其隨時間的變化更為敏感,而另外兩種方法基于粒子群和蟻群隨時間變化的速度慢,驗證了本文方法的高效性。
為了更合理地橫向對比各論文的影響力,本文引入了規格化的影響力,將各學術論文的影響力放在統一的量綱對比分析,選取相同主題的論文,按“IPv6”(105篇)、“人工智能”(178篇)兩個主題范圍進行影響力量化分析,DBLP不同研究方向論文影響力隨時間變化趨勢如圖5所示。

圖5 DBLP不同研究方向論文影響力隨時間變化趨勢
從圖5可以看出,“IPv6”向學術論文的影響力約在2010年度達到頂峰,“人工智能”領域的學術論文在2016年左右萌芽,影響力至今仍呈現上升的趨勢,這與技術的整體發展趨勢相吻合[6,18],實驗結果與LAPSO-IM方法和ACO-IM方法保持一致,驗證了本文方法的有效性。
下面進一步地衡量物理學領域相關論文,從物理學引文數據庫中隨機選取相關論文,物理學領域論文影響力隨時間變化趨勢如圖6所示。

圖6 物理學領域論文影響力隨時間變化趨勢
選取相似領域的多篇文獻,以年度為單位進行影響力計算,通過綜合對比圖4與圖6,進一步看出,物理學論文影響力的上升速度較為明顯,這主要體現了物理學學術論文的累積效應,而計算機領域的論文的累積效應較弱,這與兩個學科的特點有關,物理學學術論文的既往成果對后繼成果有較大的影響力,而計算機領域的論文發展迅速,新興成果的影響力相對較大,本文方法的結果與LAPSO-IM方法和ACO-IM方法計算的結果保持一致。需要指出的是,隨著成果應用領域的不斷拓展,如傳統的計算機網絡技術向物聯網、網絡空間安全、社會計算等領域橫向擴展的范圍不斷加大,導致了既往成果對后續關聯成果的影響力逐漸降低,而新興重要成果的影響力較高。
學術論文的影響力傳播在相對封閉學術團體的范圍內,無法綜合評估本文方法的有效性。不失一般性,進一步分析開放互聯網中網絡輿情事件的傳播影響力。分別選取2019—2021年熱點網絡輿情的事件以確保實驗樣本的豐富性,分別包括文化、科技、民生等領域,范圍來自社交網絡、大眾媒體等,近3年網絡輿情事件實驗數據集見表2,對輿情事件影響力的量化以發布主題、瀏覽次數、評論次數和轉載次數等指標為特征變量。

表2 近3年網絡輿情事件實驗數據集
通常網絡輿情的發展主要有4個階段:潛伏期、擴散期、爆發期和消散期[6]。針對上述網絡輿論事件,選取評論或轉載作為受影響的客體衡量其影響力,為了便于橫向對比分析,本實驗使用加權的影響力計算方法,網絡輿情事件隨時間影響力變化趨勢如圖7所示。
由圖7可知,網絡輿情事件的影響力隨時間呈上升的趨勢,但是,影響力增速呈整體下降的趨勢,這與直觀感受和PageRank算法吻合。另外,通過對比事件1、事件3、事件5與事件2、事件4、事件6,可以進一步發現,事件4、事件6的輿情影響力升上趨勢較為強勁,究其原因,這3件輿情事件來自有影響力的官方媒體,而另外3件的輿情事件影響力發展趨勢較為緩和,這3件輿情事件主題均來自民間團體,其影響力稍遜于官方媒體,這導致了事件影響力的發展出現差距。與圖4的研究結果保持一致,對比圖7(a)、圖7(b)和圖7(c)可以看出,本文方法較LAPSO-IM方法和ACO-IM方法所計算的影響力對時間更為敏感,即對事件影響力的響應表現更為積極,這也與粒子群和蟻群算法的收斂速度不高有關。

圖7 網絡輿情事件隨時間影響力變化趨勢
進一步地,事件4和事件6官方媒體的輿情事件的擴散期、爆發期影響力上升較為強勢,這與官方媒體的權威性有密切聯系;而民間力量的潛伏期較長,這與輿情的前期在廣大民眾中的逐步醞釀的過程有關,互聯網中的意見領袖等對事件的評論轉述在輿情初期及發展期均能引發更持續的傳播影響力。此外,輿情事件的潛伏期與影響力的大小有關,這也驗證了本文方法的有效性。還可以得知,隨著時間的變化,不同網絡輿情事件的影響力發生一定的變化,影響力不是積累的過程,而是由萌芽期、發生期、爆發期以及平緩期等階段組成的。
人類社會互聯網顛覆了信息傳播的方式并深刻影響著社會的發展,研究面向公共互聯網的信息傳播影響力具有較強的現實意義。本文提出了一種基于香農信息熵的公共互聯網信息傳播影響力計算模型和方法,首先,根據“奧卡姆剃刀原理”選取信息事件的多維變量,形成信息可計算的形式化表述;接著,使用香農信息熵理論和最大熵理論研究了公共互聯網最大影響力建模;最后,提出了基于最大熵的信息傳播影響力計算方法,并通過實驗驗證了方法的有效性和可用性。