徐 春, 王 昭, 孫 彬
(新疆財(cái)經(jīng)大學(xué) 信息管理學(xué)院, 烏魯木齊 830011)
在自媒體新技術(shù)日益進(jìn)步發(fā)展的形勢下,網(wǎng)絡(luò)空間治理問題已受全球各地廣泛矚目.網(wǎng)民行為及心智傾向的鏈路預(yù)測問題成為推進(jìn)網(wǎng)絡(luò)空間共同體建設(shè)的重要內(nèi)容.在網(wǎng)絡(luò)新技術(shù)形勢下,網(wǎng)民交互行為與心智傾向檢測涉及到網(wǎng)絡(luò)輿情鏈路預(yù)測、網(wǎng)民交互行為密度測算、網(wǎng)絡(luò)資源密度聚類和分布式架構(gòu)等多個(gè)技術(shù)層面.當(dāng)前輿情檢測及鏈路預(yù)測方案較多依賴“網(wǎng)絡(luò)流量異常”和“文本關(guān)鍵字比較”等檢測技術(shù),檢測指標(biāo)單一、適用面窄、效率不高,有預(yù)測滯后和結(jié)論不準(zhǔn)確等缺陷.隨著大數(shù)據(jù)聚類和人工智能等技術(shù)的發(fā)展,網(wǎng)絡(luò)輿情形勢越來越復(fù)雜,傳統(tǒng)輿情監(jiān)管及網(wǎng)民行為傾向的預(yù)測方法呈現(xiàn)許多適用性不足的問題.
網(wǎng)絡(luò)輿情檢測與異常網(wǎng)絡(luò)活動、網(wǎng)絡(luò)資源聚類特征緊密關(guān)聯(lián).現(xiàn)有的典型研究有:1)基于輿情信息、輿情主體、輿情傳播、網(wǎng)民行為的網(wǎng)絡(luò)輿情演化機(jī)制.例如:基于輿情主題、輿情內(nèi)容、傳播過程、傳播媒介及輿情受眾等建構(gòu)指標(biāo)體系和輿情演化機(jī)制[1];基于在線檢測與自動識別實(shí)現(xiàn)網(wǎng)絡(luò)檢測的動態(tài)聚合機(jī)制[2];一種集識別、監(jiān)控、預(yù)測、評級、治理于一體的網(wǎng)絡(luò)集群行為的監(jiān)測及預(yù)警模型[3];利用LDA(latent dirichlet allocation)方法構(gòu)建研究模型,挖掘出輿情傳播的主題結(jié)構(gòu)、觀點(diǎn)脈絡(luò)和特征[4];在人群密集場景中,通過標(biāo)注真實(shí)圖譜的方法,實(shí)現(xiàn)有效的網(wǎng)民密度監(jiān)督等[5].2)應(yīng)用網(wǎng)絡(luò)輿情監(jiān)測來反映網(wǎng)民交互行為與心智變化的傾向,輿情密度聚類算法被廣泛應(yīng)用.例如基于網(wǎng)絡(luò)活動敏感密度的輿情評價(jià)方法[6]、基于不同時(shí)空窗口對網(wǎng)民行為密度進(jìn)行量化監(jiān)測[7]、網(wǎng)民復(fù)雜交互情境下的輿情博弈分析[8]等.3)利用大數(shù)據(jù)輿情聚類算法提取聚簇中心與聚類效率.例如基于K近鄰的多類合并密度峰值聚類算法[9]、基于平均差異度的輿情聚類算法與信息熵聚簇中心選取模型[10]、不設(shè)定聚類個(gè)數(shù)的大規(guī)模數(shù)據(jù)聚簇中心算法[11]和簡易提取密度峰值聚類中心算法[12]等.4)輿情聚類采用分布式架構(gòu)進(jìn)行研究.例如基于R+Hadoop的微信平臺輿情挖掘框架[13]、分布式K-menus聚類算法與Spark并行架構(gòu)的大數(shù)據(jù)聚類[14]和分布式網(wǎng)絡(luò)協(xié)同的并行聚類模型[15]等.
通過上述梳理可知,網(wǎng)民行為及心智傾向監(jiān)測方法存在較大技術(shù)瓶頸,亟需改良輿情信息聚類算法.主要表現(xiàn)在:1)提升網(wǎng)民行為及心智傾向的鏈路檢測實(shí)效;2)提升輿情數(shù)據(jù)密度聚類的適用性和聚類質(zhì)量;3)進(jìn)一步探究快速定位輿情聚簇中心的有效辦法,升級輿情網(wǎng)絡(luò)的鏈路檢測效率.
基于網(wǎng)民行為傾向的關(guān)鍵特征,設(shè)計(jì)傾向集指標(biāo),實(shí)現(xiàn)適用性輿情密度聚類架構(gòu),助力自媒體網(wǎng)絡(luò)的新觀念、新苗頭預(yù)測工作.
基于體驗(yàn)式交互風(fēng)格的自媒體空間,形成了眾多網(wǎng)民行為指標(biāo).在不同軟件空間和不同地域環(huán)境下,人們所關(guān)注的輿情指標(biāo)差異性較大,許多網(wǎng)民行為指標(biāo)未被充分重視.
1) 關(guān)鍵指標(biāo)與檢測圖.抽取關(guān)鍵部分的輿情信息指標(biāo),形成輿情監(jiān)測的關(guān)鍵測算指標(biāo)覆蓋.通過關(guān)鍵子集的飽和度檢測,把控全局輿情信息可靠度,圍繞網(wǎng)民行為傾向的核心指標(biāo),以具體的交互端“軟件應(yīng)用操作”為“觀測節(jié)點(diǎn)”,以用戶行為異常傳播為“觀測邊”、以用戶流量為“觀測權(quán)重”構(gòu)建網(wǎng)狀的輿情監(jiān)測有向圖.基于輿情監(jiān)測有向圖的鏈路檢測過程,要求約簡次要指標(biāo),形成關(guān)鍵要素子集,以提升鏈路預(yù)測的實(shí)效.
2) 傾向度.在網(wǎng)民行為傾向的有向圖中,基于多項(xiàng)關(guān)鍵性輿情監(jiān)測目標(biāo),構(gòu)建傾向度參量.輿情信息集有向圖描述為T={Gij},其中,Gij表示第j個(gè)軟件應(yīng)用系統(tǒng)的第i個(gè)網(wǎng)民行為(發(fā)帖、舉贊、時(shí)長、頻率和敏感文本等觀察指標(biāo)).有向圖節(jié)點(diǎn)Gij正常活動發(fā)生量為vij,而實(shí)際發(fā)生量為uij,定義傾向度的計(jì)算公式為
(1)
一系列網(wǎng)民行為的傾向度描述構(gòu)成網(wǎng)民心智傾向的有向圖描述.在網(wǎng)民行為有向圖中,將效能邊上的n種網(wǎng)絡(luò)行為進(jìn)行傾向度的負(fù)載合計(jì),即
(2)
式中,ci為流量權(quán)重系數(shù),∑ci=1.
3) 輿情分布.對一個(gè)具體軟件系統(tǒng)而言,聚合在該軟件系統(tǒng)上的網(wǎng)民,可以實(shí)現(xiàn)自由度較大的信息傳播活動.對第j種應(yīng)用軟件系統(tǒng)而言,一條輿情傳播鏈路可表示為xj,該傳播鏈路相對于m種應(yīng)用軟件系統(tǒng)的輿情分布.
對輿情信息有向圖中的任意兩個(gè)輿情鏈路(x,y),可以分別計(jì)算其輿情分布:P(x)、P(y)和P(x,y).基于輿情數(shù)據(jù)集T,可計(jì)算信息熵?fù)p失量為
(3)
參量SM能體現(xiàn)出兩條輿情鏈路聯(lián)合分布的關(guān)聯(lián)性.當(dāng)鏈路x和鏈路y的輿情相互獨(dú)立(無相關(guān)性)時(shí),SM將為0.使用SM能高效估計(jì)鏈路x和鏈路y之間熵值差異.根據(jù)最大熵原理啟示,一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上各種應(yīng)用軟件系統(tǒng)的輿情傾向熵值較大,則標(biāo)志著各種軟件系統(tǒng)之間的傳播狀態(tài)接近,發(fā)生群體觀念極化的可能性較低;相反,各種軟件系統(tǒng)之間的傾向熵值較小,標(biāo)志著各個(gè)鏈路的行為觀念差異較大,輿情異常傳播(群體極化)的可能較大.使用“輿情傾向熵”能分析出輿情鏈路的群體觀念差異性,用dxy表示網(wǎng)民心智觀念的傾向距離為
dxy=|SMT-{y}(x,y)-SMT-{x}(x,y)|
(4)
式中:T-{y}為去除鏈路y后的輿情數(shù)據(jù)集;T-{x}為去除鏈路x后的輿情數(shù)據(jù)集.
4) 輿情密度.在自媒體網(wǎng)絡(luò)環(huán)境下,網(wǎng)民行為數(shù)據(jù)稀疏性較大,需要約簡數(shù)據(jù)集.一方面,通過密度指標(biāo)來約簡輿情監(jiān)測的指標(biāo)數(shù)量;另一方面,通過密度來保障輿情動向的全覆蓋,以便捕捉量小而行為特征典型的輿情監(jiān)測指標(biāo).設(shè)傾向觀念距離的閾值參量為dc,統(tǒng)計(jì)輿情數(shù)據(jù)集中超越預(yù)定閾值的鏈路數(shù)量.定義輿情鏈路的密度ρx為
(5)
(6)
式中:k為輿情鏈路總數(shù);E為判別函數(shù).輿情密度ρx表征與鏈路x同類的鏈路數(shù)量,密度值越大,所聚集的鏈路數(shù)就越多.
5) 聚簇中心.具有密度極大值的節(jié)點(diǎn),即為該類的聚簇中心.在密度聚類過程中,閾值參量dc取值過小,會造成聚簇中心太多的情況;閾值參量dc過大,會造成中心捕捉失敗、聚類失敗.針對閾值參量dc往往需要較多的實(shí)驗(yàn)來確定的情況,通過對2 427條輿情鏈路的密度測算,對已有鏈路的傾向距離升序排列,結(jié)果如圖1所示.觀察適用聚簇中心所處的閾值參量定位發(fā)現(xiàn)dc取6.6%~6.7%位序處所對應(yīng)的距離數(shù)值、準(zhǔn)確率指數(shù)和蘭德指數(shù)均達(dá)到較好的狀態(tài),準(zhǔn)確率達(dá)到94.2%.

圖1 距離參量效用Fig.1 Distance parameter utility
6) 疑似強(qiáng)度與權(quán)值參量.為快速完成輿情聚類,區(qū)分聚簇中心鏈路與一般輿情鏈路的密度差別,構(gòu)建疑似強(qiáng)度參量.如果一個(gè)輿情鏈路的密度高于預(yù)定鏈路的密度,則認(rèn)為聚簇中心的疑似強(qiáng)度較大.定義δx為聚簇中心疑似強(qiáng)度,即
(7)
式中,參量max(ρ)為局域的密度極值.
聚簇中心疑似強(qiáng)度標(biāo)識出一個(gè)輿情鏈路x與其他多條輿情鏈路y的密度差距.通過對1 948條交互軟件鏈路進(jìn)行嫌疑強(qiáng)度比較,結(jié)果如圖2所示.圖2的結(jié)果表明,δx具有較好的聚簇中心(局部中心)甄別作用.
為進(jìn)一步提升聚簇中心的甄別效率,設(shè)置輿情鏈路的權(quán)值參量為
ξx=ρxδx
(8)
通過對1 846條鏈路數(shù)據(jù)實(shí)測發(fā)現(xiàn)權(quán)值參量ξx具有高效甄別聚簇中心的作用,權(quán)值參量曲線如圖3所示.

圖2 密度與嫌疑度分布關(guān)系Fig.2 Distribution relationship between density and suspicion

圖3 權(quán)值參量曲線Fig.3 Weight parameter curve
在自媒體網(wǎng)絡(luò)環(huán)境下,網(wǎng)民行為傾向數(shù)據(jù)集規(guī)模龐大,需要構(gòu)建分布式聚類架構(gòu),克服單機(jī)聚類的困境.分布式架構(gòu)的關(guān)鍵問題是將龐大數(shù)據(jù)計(jì)算任務(wù)負(fù)載均衡地劃分為并行子任務(wù).通常情況下,需要實(shí)現(xiàn)合理的數(shù)據(jù)塊分布,基于數(shù)據(jù)耦合,保障各個(gè)數(shù)據(jù)塊的負(fù)載均衡性,以便發(fā)揮出分布式計(jì)算的優(yōu)勢.面對網(wǎng)民行為傾向數(shù)據(jù)集,分布式聚類架構(gòu)包括數(shù)據(jù)塊劃分、耦合設(shè)計(jì)和聚簇流存儲等3個(gè)主要部分.
1) 數(shù)據(jù)塊劃分.圍繞網(wǎng)絡(luò)流量特征,可以把網(wǎng)民行為數(shù)據(jù)集T分解為N個(gè)子集si,并要求每個(gè)數(shù)據(jù)塊子集消耗的網(wǎng)絡(luò)傳輸流量基本相當(dāng),以均衡負(fù)載各個(gè)子集的計(jì)算任務(wù).在數(shù)據(jù)塊劃分中,每個(gè)數(shù)據(jù)項(xiàng)需要保持獨(dú)立性,即任意一個(gè)數(shù)據(jù)鏈路項(xiàng)只能屬于1個(gè)實(shí)際的數(shù)據(jù)塊.
2) 耦合設(shè)計(jì).每個(gè)計(jì)算單元均由兩個(gè)“數(shù)據(jù)塊”耦合而成,數(shù)據(jù)塊Si和Sj耦合成計(jì)算單元Wij,記為Wij=〈Si,Sj〉.將計(jì)算單元的組合映射過程和聚簇中心參量的匯聚過程組合,形成分布式MapReduce架構(gòu),數(shù)據(jù)塊耦合過程如圖4所示.
分布式耦合計(jì)算過程為:將每個(gè)計(jì)算單元Wij優(yōu)化布局到不同服務(wù)器Map,并完成所屬塊內(nèi)的密度聚簇任務(wù);基于計(jì)算單元Wij獲得本域輿情密度序列ρij和疑似中心強(qiáng)度序列δij;用f(Si)流存儲匯集計(jì)算單元內(nèi)數(shù)據(jù)塊Si的各個(gè)聚簇結(jié)果和權(quán)值參量序列ξx;將各個(gè)數(shù)據(jù)塊Si的聚簇中心參量ξx整合,形成全局性密度聚簇中心的權(quán)值參量序列;最后依據(jù)聚簇中心權(quán)值參量序列,實(shí)現(xiàn)網(wǎng)民行為傾向的密度聚類.

圖4 數(shù)據(jù)塊耦合Fig.4 Data block coupling process
3) 聚簇流存儲.為提高聚簇運(yùn)算實(shí)際效能,設(shè)計(jì)聚簇流存儲機(jī)制,以降低網(wǎng)絡(luò)傳輸?shù)拈_銷.在計(jì)算單元完成各自的聚簇中心鑒別任務(wù)后,將各個(gè)數(shù)據(jù)塊所涉及的聚簇參量進(jìn)行存儲地址規(guī)劃,有序地實(shí)現(xiàn)高效率全局性匯聚.聚簇流存儲以鍵值對〈Key,Value〉結(jié)構(gòu)來快速檢索聚簇節(jié)點(diǎn)密度序列ρx和疑似中心強(qiáng)度序列δx,其中,Key是計(jì)算單元Wij的聚簇地址Idij,Value是對應(yīng)的權(quán)值參量ξx.計(jì)算單元聚簇地址為
(9)
式中:i和j分別為Wij耦合數(shù)據(jù)塊編號(i 依據(jù)聚簇流存儲結(jié)構(gòu),能高效完成各個(gè)數(shù)據(jù)塊的權(quán)值參量序列ξx的全局性合并,為輿情數(shù)據(jù)的高效歸集奠定基礎(chǔ). 本文利用虛擬網(wǎng)民行為來仿真信息傳播鏈路,實(shí)現(xiàn)鏈路預(yù)測效用.鏈路預(yù)測的實(shí)際目標(biāo)就是鑒別輿情新動向和新苗頭.仿真網(wǎng)民行為、仿真輿情鏈路的主要過程是:在某些網(wǎng)民活動相對集中的軟件系統(tǒng)中,提取典型網(wǎng)民行為(或網(wǎng)絡(luò)節(jié)點(diǎn)),加載到傾向密度較低的輿情鏈路中,估算輿情密度的變化情況;或者虛擬構(gòu)建一種軟件交互場景,吸引特殊嗜好的網(wǎng)民進(jìn)行蜜罐監(jiān)護(hù),測試新輿情類別產(chǎn)生的可能性.由此,通過虛擬輿情鏈路或虛擬網(wǎng)民行為仿真出新輿情事件的發(fā)生過程,為面對輿情新動向、新苗頭及早制定預(yù)案. 在自媒體網(wǎng)絡(luò)環(huán)境中,網(wǎng)民行為復(fù)雜、輿情鏈路多變.以網(wǎng)絡(luò)社區(qū)個(gè)體網(wǎng)民為調(diào)查對象,采集相關(guān)性網(wǎng)民活動內(nèi)容,包括微信交互、今日頭條、QQ群、微博交互、朋友圈、網(wǎng)站貼吧和熱文評論等交互端活動,并涉及異常流量、評價(jià)、敏感文本、發(fā)帖、跟帖、贊和刪帖等行為特征.在輿情網(wǎng)絡(luò)有向圖中,形成200多萬個(gè)網(wǎng)民活動節(jié)點(diǎn).為保障輿情密度聚類運(yùn)算需要,集群服務(wù)器部署Hadoop 2.7.18和Spark 2.11.8系統(tǒng),通過Standalone配置,實(shí)現(xiàn)1個(gè)主節(jié)點(diǎn)和9個(gè)從節(jié)點(diǎn)的集群架構(gòu),共為集群服務(wù)器分配720 GB內(nèi)存和1 000 Mb/s連接速度.追蹤調(diào)查網(wǎng)民52 685人,形成大規(guī)模的網(wǎng)民行為與心智傾向數(shù)據(jù)集,完成分布式網(wǎng)民行為與心智傾向的分布式密度聚類與仿真實(shí)驗(yàn)分析. 1) 分布式聚類效率分析.實(shí)驗(yàn)中,按照可信傳播流量的硬件條件,將網(wǎng)民數(shù)據(jù)集劃分成4~10個(gè)數(shù)據(jù)塊進(jìn)行網(wǎng)民行為傾向的密度聚類.通過權(quán)值參量強(qiáng)化聚簇實(shí)效,獲得輿情中心節(jié)點(diǎn)26~233個(gè).對比不同聚簇中心數(shù)的單機(jī)聚類的運(yùn)算效果,分布式算法的效率明顯升高,結(jié)果對比如表1所示.當(dāng)輿情數(shù)據(jù)集不斷擴(kuò)大時(shí),分布式運(yùn)算的優(yōu)勢越顯著,分布式密度聚類的準(zhǔn)確度也越高,而單機(jī)聚類的劣勢比較明顯. 2) 輿情鏈路聚類效果分析.在網(wǎng)民行為傾向的聚類分析過程中,結(jié)合仿真性鏈路檢測技術(shù),檢驗(yàn)預(yù)測輿情新動向和新苗頭.在10個(gè)數(shù)據(jù)塊的聚類規(guī)模情景下,面對網(wǎng)民自媒體交互行為,檢測出輿情鏈路5.2萬多條.虛擬增加或刪除部分網(wǎng)民行為和部分網(wǎng)絡(luò)節(jié)點(diǎn),輿情聚類結(jié)果變化顯著,聚類結(jié)果如表2所示. 通過分布式密度聚類計(jì)算和虛擬仿真過程,目標(biāo)網(wǎng)絡(luò)的輿情動向得到掌控.測試結(jié)果表明:①輿情鏈路數(shù)量與聚簇中心數(shù)量沒有線性關(guān)系,仿真網(wǎng)絡(luò)新節(jié)點(diǎn)或網(wǎng)民交互行為有利于輿情新動向、新苗頭的發(fā)現(xiàn).②對于自媒體下的輿情鏈路而言,網(wǎng)民行為傾向的密度極值越大,發(fā)生群體觀念極化的可能性越大,產(chǎn)生負(fù)向消極影響的可能性也越大.③輿情鏈路數(shù)量較少的網(wǎng)絡(luò),不意味著群體觀念極化的可能性低.④潛在的輿情新苗頭、新動向數(shù)量與聚簇的極大密度類值有近似正向線性關(guān)系. 3) 運(yùn)算效能比較.將聚類準(zhǔn)確度限定在85%以上的水平,比較分布式密度聚類、單機(jī)密度聚類、DisAP近鄰傳播聚類和PK-Means聚類等算法的實(shí)效,效能對比情況如圖5所示.總體上看,分布式架構(gòu)的網(wǎng)民行為傾向密度聚類,對網(wǎng)民輿情數(shù)據(jù)集密度聚類的適用性最好. 隨著輿情數(shù)據(jù)集的擴(kuò)大,各種聚類算法耗用時(shí)間均呈現(xiàn)較快攀升態(tài)勢.在限定1萬個(gè)節(jié)點(diǎn)的規(guī)模下,分布式架構(gòu)與單機(jī)架構(gòu)的耗用時(shí)間大體相當(dāng);在限定2萬個(gè)節(jié)點(diǎn)的規(guī)模條件下,分布式架構(gòu)的耗用時(shí)間是單機(jī)架構(gòu)的1/3;在限定2.5萬個(gè)節(jié)點(diǎn)的規(guī)模條件下,分布式架構(gòu)的耗用時(shí)間增加量不大,但單機(jī)架構(gòu)耗用時(shí)間遠(yuǎn)遠(yuǎn)超出適用的范圍.由于PK-Means聚類算法迭代運(yùn)算特點(diǎn),在節(jié)點(diǎn)規(guī)模超過2萬個(gè)以上時(shí),才能呈現(xiàn)出分布式的優(yōu)勢,而DisAP聚類算法在節(jié)點(diǎn)規(guī)模超過2萬個(gè)以上時(shí),已經(jīng)不具備適用性,耗時(shí)超出可用范圍.在大規(guī)模數(shù)據(jù)集情境下,分布式密度聚類的實(shí)效強(qiáng)于PK-Means聚類.單機(jī)密度算法及傳統(tǒng)DisAP聚類算法均不適用于大規(guī)模數(shù)據(jù)集的聚類任務(wù).分布式密度聚類算法的優(yōu)勢在于高效提取聚簇中心,而PK-Means聚類算法的優(yōu)勢是數(shù)據(jù)歸集,有充分融合的優(yōu)化潛力. 分布式密度聚類架構(gòu)具有時(shí)耗優(yōu)化的優(yōu)勢,能保障自媒體網(wǎng)絡(luò)下的網(wǎng)民行為與心智傾向的大規(guī)模聚類和輿情鏈路預(yù)測任務(wù),能發(fā)現(xiàn)潛在的輿情新動向和新苗頭.與傳統(tǒng)聚類方法相比,基于網(wǎng)民行為與心智傾向的分布式密集聚類算法表現(xiàn)出提取聚簇中心快速和模擬仿真節(jié)點(diǎn)靈活等優(yōu)點(diǎn).面對網(wǎng)民行為傾向性的分布式密度聚類和針對網(wǎng)民行為的仿真實(shí)驗(yàn),豐富了自媒體網(wǎng)絡(luò)情境下輿情鏈路預(yù)測技術(shù)的探究視角.1.3 鏈路檢測
2 實(shí)踐結(jié)果分析
3 結(jié) 論