999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的網絡輿情類型識別模型研究

2018-10-31 07:31:22覃玉冰鄧春林張昊宇
智能計算機與應用 2018年6期
關鍵詞:分類模型

覃玉冰, 鄧春林, 楊 柳, 肖 望, 張昊宇

(1 湘潭大學 數學與計算科學學院, 湖南 湘潭 411105; 2 湘潭大學 公共管理學院, 湖南 湘潭 411105)

引言

2017年10月18日,在第十九次全國代表大會上,習近平總書記作重要報告,其中8次提到互聯網相關內容,25處提到網絡信息相關內容,指出了互聯網建設管理在過去5年取得的歷史成就,強調了互聯網在未來將發揮著更大作用。互聯網的發展為輿論的傳播提供了新的方式,“網絡輿情”這一輿論的網絡概念也隨即產生,并引發各界關注。微博、論壇以及各種搜索引擎等都成為了大眾發表觀點和表訴立場的公共平臺,由于網絡的匿名性,網絡輿情既可能真實地反映社會各個層面的輿情態勢,也可能成為一些謠言輿論散播蔓延的工具。因此精確識別處于潛伏期的網絡輿情事件的類型,為相關部門提供更具針對性的策略性調控建議已迫在眉睫。

近年來,國內已經有許多學者相繼推出了對網絡輿情類型的系列研究成果。郝其宏[1]通過對歷史網絡群體性事件的歸納梳理將其進行了類型的劃分。黃敏等[2]通過聚類分析將城鄉結合部群體性突發事件求得了事件結果歸類。杜鵬[3]基于事件過程的角度對網絡輿情進行了聚類分析,并在分類的基礎上展開事件內涵和特征的討論。袁野等[4]通過分析網絡輿情反轉現象,利用聚類分析和判別分析構建了反轉網絡輿情的分類和預測模型。連芷萱等[5]通過多維聚類劃分了輿情事件的類型,并運用多項logistic回歸探究了網絡輿情事件類型與輿情特征之間的關系。劉曉亮[6]構建了涉軍網絡輿情監測指標體系,為網絡輿情監測分析工作提供了借鑒。陳新杰等[7]基于網絡輿情傳播關系,研究了網絡輿情監測指標構建的基本原則,闡述了網絡輿情發展演變過程,進而建立四維指標體系。洪亮等[8]通過構建政府治理網絡輿情的系統動力學模型對“東方之星沉船事件”進行了仿真研究。梅松[9]探析了政府網絡輿情應對機制體系化的治理思路,并提出了應對體系的基本框架。袁野等[10]構建了網絡輿情熱點事件分類模型,并將網絡輿情熱點事件分為4類。郭韌等[11]運用了可拓聚類理論和方法對網絡輿情的演化趨勢進行建模并預測。宋莎莎等[12]以某地區旱災為例,結合模糊層次分析法和聚類分析對突發事件進行分級研究。

綜上分析可見,很多學者的研究思路都是先通過聚類分析將網絡輿情進行分類,然后利用傳統的預測方法對事件的類型做出預測。然而,隨著機器學習方法的興起,眾學者的研究方法并不能夠很好地適應前沿的探索研究。為此,本文在現有研究成果的基礎上將模型實現了改進,使用機器學習方法中的決策樹分類方法將含有聚類分析結果的數據集作為訓練集,構建網絡輿情類型自動識別模型,期望能較為精確地識別處于潛伏期的網絡輿情的類別,為下一步調控舉措的出臺與實施發揮有益的基礎協助作用。

1 網絡輿情指標體系的構建

首先,研究從中國網絡輿情的實際情況出發,結合網絡輿情自身特點、作用機理以及演化規律,參考現有的評估網絡輿情的相關指標體系,在遵循全面性、科學性、實用性、靈活性以及劃分明確性原則的基礎上,利用層次分析法構建出最小完備指標集,將評估網絡輿情的指標體系劃分為傳播擴散、發布主體、內容要素以及輿情受眾4個一級指標,并在一級指標的基礎上繼續深入,建立了二級指標,研究建立的準確評估網絡輿情的指標體系如圖1 所示。

圖1 網絡輿情評估指標體系

結合圖1中所建立的網絡輿情評估的指標體系,這里對網絡輿情評估指標體系的4個一級指標給出闡釋說明,可詳述如下。

(1)發布主體。發布主體是網絡輿情中的發布者,即將自己所了解的一些事件信息通過文字、圖片以及視頻等形式在網絡上進行公開發布。發布主體傳遞的事件相關信息中往往帶有一定的感情色彩,再加之發布主體的身份信息以及其在網絡上的影響力和引導能力,網民的態度傾向較有可能被發布主體所左右。因此,研究中就將主體身份和影響力作為發布主體的二級指標。

(2)傳播擴散。信息的傳播擴散是網絡輿情形成的必要環節。發布主體將自己所了解的事件信息發布在網絡上,通過微博、論壇以及各種搜索引擎等將信息傳播和擴散出去,使傳播擴散的地理范圍越來越廣,信息熱度急劇上升,最終形成網絡輿情。因此,研究中就將持續時間和地理范圍作為傳播擴散的二級指標。

(3)內容要素。內容要素是反映網絡輿情基本情況的重要指標。網絡輿情的主題內容和內容傾向是整個網絡輿情的研究重點,是監測評估整個網絡輿情的核心所在。因此,研究中就將主題內容和主題內容傾向作為內容要素的二級指標。

(4)輿情受眾。輿情受眾是網絡輿情的參與者和互動者。一方面,輿情受眾的獨立個體因為受教育程度、社會地位、生活壞境以及思想水平的差異,表現出對網絡輿情事件的不同看法。另一方面,每一個網絡輿情事件對輿情受眾的影響程度以及輿情受眾對此的關注程度也千差萬別。因此,研究中就將態度傾向、百度搜索指數以及網民年齡分布作為輿情受眾的二級指標。

2 網絡輿情的分類與識別模型構建

下面將研究構建網絡輿情的分類與識別模型。首先使用聚類分析對歷史網絡輿情事件進行分類,并針對每個類型的網絡輿情事件,制定提出可借鑒的應對策略,然后利用決策樹構建網絡輿情事件類型識別模型,識別正在發生的處于潛伏期的網絡輿情事件的類型,以便未來能夠采用該類型關聯的應對策略,有效干預和控制網絡輿情的發展狀況及走勢。

2.1 分類模型的構建

在分類方法中,K-means聚類[13]計算速度快,處理大數據集時仍然能夠保持高效率性和可伸縮性,故本文研究選取了K-means聚類分析方法來對歷史網絡輿情事件進行分類。

2.1.1 樣本觀測值的確定

設v1,v2,...,vp為p個進行分類的特征指標,則n個樣本的數據結構可見表1。其中,xij表示第i個樣本的第j個指標值。

表1聚類樣本觀測值

Tab.1Observedvalueofclustersample

編號v1v2v3...vp1x11x12x13...x1p2x21x22x23...x2p..................nxn1xn2xn3...xnp

2.1.2 基于最小化平方誤差的分類模型

(1)觀測值點與種子間的歐氏距離。設有v1,v2,...,vp共p個指標變量參與聚類,通過K-means聚類將網絡輿情事件分為k類,首先需在這p個變量所形成的p維空間中隨機選擇k個不同的點,這些點稱為種子。然后采用歐氏距離計算每個觀測值點與這k個種子之間的距離,歐式距離的計算公式為:

(1)

其中,dim為第i個樣本到第m個種子的歐氏距離;xij表示第i個樣本的第j個指標的觀測值;zmj表示第m個種子的在第j個指標上的取值,實際上就是下文提到的第m類的質心的第j個分量。根據上面確定的聚類樣本觀測值可知,i的取值范圍為[1,n],m的取值范圍為[1,k],j的取值范圍為[1,p]。

(2)求出類別質心作為新種子。按照觀測值點距離這k個種子中的哪一個最近就將該觀測值歸為哪一類的原則把所有觀測值分為k類,并求出每一類的質心,作為k個新種子。假設現已將類別劃分為(C1,C2,...,Ck),則質心的計算公式為:

(2)

其中,μCj為類別Cj的質心,實際上是類別Cj的均值向量;xi為屬于類別Cj的第i個樣本;xip為屬于類別Cj的第i個樣本的第j個指標的觀測值;Nj為屬于類別Cj的樣本數量。

(3)最小化平方誤差實現最優分類。把所有觀測值重新按照距離這k個種子的遠近分為k類,如此下去,直到種子的位置基本不變、即平方誤差達到最小為止。平方誤差E的計算公式為:

(3)

2.2 自動識別模型的構建

通過前面構建的分類模型,可以將歷史網絡輿情事件進行分類,并將這些類型已知的輿情事件作為訓練樣本集,利用機器學習方法中的決策樹分類方法,構建網絡輿情類型自動識別模型。該識別模型可以根據正在發生的網絡輿情事件的各特征指標觀測值,自動識別這些網絡輿情的類型,以便相關部門能夠更有針對性地施加干預和引導輿情。

在本文中,研究采用結構簡單、容易理解的CART算法[14]來構建網絡輿情類型自動識別模型。CART算法能夠處理自變量中同時含離散型變量和連續型變量的情況,由于上面構造的評估網絡輿情的指標體系中既有定性變量、也有定量變量,故選擇CART算法構建網絡輿情類型識別模型是合理的。

CART決策樹又稱分類與回歸樹,是一種良好有效的非參數分類和回歸方法。本文中,決策樹的終節點是分類變量,所以本文構造的是分類決策樹模型。分類樹涉及2個基本思想,設計研發要點可總述如下。

(1)劃分自變量空間建樹。研究初始,即需解決特征值的選取。特征值的選擇在于選取對訓練數據具有分類能力的特征,這樣可以提高決策樹學習的效率。CART決策樹用基尼指數選擇最優特征,同時確定該特征的最優二值切分點。假設有n個類,樣本點屬于第k個類的概率為pk,則概率分布的基尼指數定義為:

(4)

(2)用驗證數據集剪枝。在剪枝方面,CART決策樹是根據驗證數據集,在完全生長的樹上剪去分枝實現的,該算法通過刪除節點的分支而剪去樹節點,最下面未被剪枝的節點將成為樹葉。

3 實證分析

下面研究將對前文構建的分類模型和識別模型進行實證分析。

3.1 樣本的選取與賦值

本文數據中選取的事件來源于中國社會藍皮書中的《中國互聯網輿情分析報告》,選取2013~2016連續4年的《中國互聯網輿情分析報告》中列出的80個熱點網絡輿情事件。采用K-means聚類方法進行聚類分析,劃分網絡輿情事件的類別,再根據分類結果,將這80個事件作為訓練集,訓練決策樹模型,并使用混淆矩陣和十折交叉驗證[13]2種不同的驗證方法對構建的網絡輿情類型識別模型進行評價,最后利用構建的自動識別模型對2017年的《中國互聯網輿情分析報告》中所列出的15個熱點網絡輿情事件進行類型識別。

本文建立的指標體系中,大部分末級指標都是定性指標,其觀測值僅代表不同的類別,無大小順序之分,故采用編制序號的方式對所有定性指標的各個水平進行賦值,賦值依據可詳見表2。

表2 賦值依據

結合上述賦值依據,并通過設計開放式問卷量化主觀數據,同時利用百度指數中顯示的趨勢研究、搜索指數以及地域分布、人群屬性等量化客觀數據,由此將運算得到選取的80個熱門網絡輿情事件的各個指標的觀測值。

3.2 分類模型的實證分析

3.2.1 分類過程及結果

對收集的2013~2016年間最受網民關注的80個網絡輿情熱點事件進行K-means聚類,將這些熱點事件分為5個類別,聚類質量如圖2所示。

圖2 樣本事件聚類質量顯示圖

從樣本事件聚類質量圖中可以看出,凝聚和分離的輪廓測量位于聚類質量的良好區間內,這說明使用K-means聚類對這80個事件進行聚類,其效果是良好的,即本文的聚類結果是可靠的。

將80個樣本進行K-means聚類、歸為5類后,每一類中樣本的占比扇形圖則如圖3所示。

圖3 樣本事件聚類大小扇形圖

從圖3中可以看出,在聚類結果中,第五類包含的事件數最多,占所有事件的30%,而第一類包含的事件數最少,僅占所有事件的13.8%。

在使用K-means聚類算法對80個熱點事件進行聚類時,預測變量重要性排在前四的指標分別為影響力、主題內容傾向、態度傾向以及主體身份。每一類對應的這4個指標中最高占比的水平及其比值可見表3。

表3每一類對應的重要指標中最高占比的水平及其比值

Tab.3Thehighestproportionoftheimportantindicatorsofeachcategoryandtheirratio

第一類第二類第三類第四類第五類影響力意見領袖(100.0%)普通網民(100.0%)普通網民(78.6%)意見領袖(100.0%)意見領袖(100.0%)主題內容傾向負面(90.9%)負面(94.7%)負面(85.7%)正面(100.0%)負面(95.8%)態度傾向支持(63.6%)反對(78.9%)反對(57.1%)支持(91.7%)反對(100.0%)主體身份當事人(63.6%)圍觀者(47.4%)知情人(100.0%)當事人(50.0%)知情人(95.8%)

研究中將聚類后的每一類對應的4個重要指標中最高占比的水平及其比值與該類對應的事件進行整理,最終得到每個類別的事件對應的主要特征。限于篇幅,此處將整理后的結果略去。

3.2.2 分類結果分析及應對策略

研究中,通過對具體案例和每一類對應的4個重要指標中最高占比的水平及其比值進行進一步的分析,發現國內5類網絡輿情事件在行動導向、目的以及影響上存在著明顯的區別,因此,即將網絡輿情事件分為5種類型。為獲得簡潔論述效果,這里僅對其中的第三、第四類事件進行解析探討,研究推得重點細則可見如下。

(1)輿論炒作型。該類事件最大的特征就是發布主體中的主體身份是知情人,影響力為普通網民。也就是說,這類事件的相關信息是通過知情人散布的,并且消息在普通網民間不斷傳播,從而形成了具有較大影響力的網絡輿情熱點事件,經過這種不斷的傳播炒作,最終形成了對公眾影響較大的負面事件。

針對該類事件,相關部門應該對刻意進行炒作的機構或者個人酌判相應的懲罰,因其行為已經對整個社會造成了嚴重的后果。相關部門也應該對網絡上的各種不實傳言給予相應的回應,并說明事實的真相。

(2)積極正面型。其主體身份大部分為當事人,影響力為意見領袖;內容要素中主體內容傾向都是正面的;輿情受眾中態度傾向大多為支持。一般來說,這類事件都是一些由權威部門發布的積極正面的事件,此類事件是能夠讓網民感受到國家的繁榮發展、世界的美好格局等積極內容的事件,對此大部分網民也持支持肯定的態度。

對于這類事件,相關部門應該做好宣傳工作,抓住發生此類事件的機會,藉此事件大力弘揚和宣傳與事件相關的一些正面積極的人生觀、價值觀以及世界觀等。

3.3 識別模型的實證分析

3.3.1 訓練決策樹

為了能夠利用研究得到的分類結果自動識別正在發生的網絡輿情事件的類型,設計中使用前文已經劃定分類了的80個事件的觀測值作為訓練集,構造決策樹自動識別模型。構建的決策樹如圖4所示。

圖4 自動識別網絡輿情事件類型決策樹

Fig.4Automaticallyidentifynetworkpublicopinioneventtypedecisiontree

從圖4中可以看出,整個決策樹進行了4次分叉,分叉的變量分別為“影響力”、“主體身份”以及“主題內容傾向”。從構建的決策樹可以看出,根節點處80個事件中每個類別的比為0.14∶0.20∶0.21∶0.15∶0.30,其中第五類事件的個數最多。在根節點,選中“影響力”為拆分變量,當影響力為普通網民時,走向左側節點,并繼續進行判斷,在該節點處,當主體身份為當事人和圍觀者時,走向左側,并做出決策—該事件為第二種類型,當主體身份為知情人時,走向右側,并做出決策—該事件為第三種類型;在根節點,當影響力為意見領袖時,走向右邊節點,并繼續做判斷,在該節點處,當主題內容傾向為正面時,走向右側,并做出決策—該事件為第四種類型,當主題內容傾向為負面和中性時,走向左側節點,并繼續做判斷,當主體身份為當事人和圍觀者時,走向左側,并做出決策—該事件為第一種類型,當主體身份為知情人時,走向右側,并做出決策—該事件為第五種類型。

3.3.2 合理性驗證

在評估決策樹識別網絡輿情事件類型的準確率時,將主要從混淆矩陣和十折交叉驗證2個角度來評定度量。具體闡析如下。

(1)混淆矩陣。混淆矩陣又稱作誤差矩陣,是剖析分類決策樹識別不同類元組的一種有用工具。本文構造決策樹類型識別模型時產生的混淆矩陣可參見表4。

表4 決策樹類型識別模型的混淆矩陣

在混淆矩陣中,行是真實類,列是預測類。從表4的數據中可以看出,80個事件中有1個事件是本來屬于第五類,但決策樹模型將其分到了第一類;有2個事件是本來屬于第一類,但決策樹模型將其分到了第五類;有3個事件是本來屬于第三類,但決策樹模型將其分到了第五類;有2個事件是本來屬于第二類,但決策樹模型將其分到了第三類。

通過混淆矩陣,可算出決策樹識別網絡輿情事件類型的準確率,計算公式為:

(5)

其中,Ttotal為混淆矩陣中所有元素之和,Tdiagonal為混淆矩陣中斜對角元素之和。

在本文中,決策樹模型分類準確率為91.579%,這說明本文構建的決策樹分類模型的識別效果很好。

(2)十折交叉驗證。在決策樹類型識別模型中,因變量有5個水平(1=第一類,2=第二類,3=第三類,4=第四類,5=第五類),相應地分別包含11、16、17、12、24個樣本,為了達到最佳的交叉驗證效果,先把5種類型的每一種都隨機分為10份,然后再將每一份進行匯總,如此就將樣本均衡地分為了10份。

依次選擇樣本中的9份作為訓練集,剩下的一份作為測試集。用訓練出來的模型對測試集進行分類,并統計分類結果,求出每次實驗的誤判率,最后將這10次實驗的誤判率取平均值,由此得到最終的誤判率。

十折交叉驗證得到的用分類樹對網絡輿情事件類型進行識別的平均誤判率為12.866%,這也說明使用決策樹構建的網絡輿情事件類型自動識別模型的識別效果很好。

3.3.3 實例識別

利用上面構建的網絡輿情事件類型識別模型,對2017年中國社會藍皮書中《中國互聯網輿情分析報告》所列出的20個熱點網絡輿情事件的類型進行識別,并將識別結果與事件的具體情況進行對比,討論發現本文研究推證的結果與實際情況基本一致。文中,僅以其中的“十九大召開”事件為例進行具體分析。2017年10月18日至24日,中國共產黨第十九次全國代表大會在北京召開。這次大會的主題是不忘初心,牢記使命,高舉中國特色社會主義偉大旗幟,決勝全面建成小康社會,奪取新時代中國特色社會主義偉大勝利,為實現中華民族偉大復興的中國夢不懈奮斗。黨的十九大是在全面建成小康社會關鍵階段、中國特色社會主義發展關鍵時期召開的一次非常重要的大會,對鼓舞和動員全黨全國各族人民繼續推進全面建成小康社會、堅持和發展中國特色社會主義具有重大意義。分析可知,該事件屬于第四類——積極正面型事件,與通過本文所構建的模型進行識別的結果一致,從而驗證了本文提出方法的可行性和應用有效性。

4 結束語

2018年4月20日,在全國網絡安全和信息化工作會議上,習近平總書記出席會議并發表重要講話,提出領導干部要不斷提高對互聯網規律的把握能力、對網絡輿論的引導能力、對信息化發展的駕馭能力、對網絡安全的保障能力。由此可見,網絡輿情的正確引導是十分關鍵的一步。

本文首先用層次分析法將網絡輿情評估指標體系劃分成為4個維度:傳播擴散、發布主體、內容要素以及輿情受眾,并對每個維度劃分具體的二級指標,該指標體系高度符合中國的實際情況,然后將K-means聚類分析和決策樹分類方法結合起來構建網絡輿情事件類型自動識別模型,可以識別正在發生的網絡輿情事件的類型,以便相關部門能夠對網絡輿情的發展狀況提供及時、有效的干預及調控。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 在线观看无码a∨| 又黄又爽视频好爽视频| 青青久久91| 亚洲av日韩av制服丝袜| 久久无码高潮喷水| 久久综合国产乱子免费| 婷婷色在线视频| 亚洲国产综合精品一区| 免费国产不卡午夜福在线观看| 热伊人99re久久精品最新地| 精品久久久久久成人AV| 亚洲精品无码不卡在线播放| 国产乱视频网站| 伊人中文网| 亚洲国产成人在线| 国产无码在线调教| 国产丝袜一区二区三区视频免下载| 人妻免费无码不卡视频| 亚洲最大看欧美片网站地址| 日韩二区三区无| 国产精品刺激对白在线 | www亚洲精品| 国产精品漂亮美女在线观看| 日本在线欧美在线| 国产精品九九视频| 秋霞一区二区三区| 日本影院一区| 98超碰在线观看| 欧洲一区二区三区无码| 一级片免费网站| 国产在线97| 日韩精品毛片人妻AV不卡| 国产精品一区二区无码免费看片| 毛片免费高清免费| 国产精品免费露脸视频| 色亚洲成人| 蜜桃臀无码内射一区二区三区| 五月天香蕉视频国产亚| 99久久精品免费看国产免费软件| 久久黄色一级片| 超清无码一区二区三区| 人妻精品全国免费视频| 成年人福利视频| 波多野结衣AV无码久久一区| 国内精自视频品线一二区| 在线不卡免费视频| 久久先锋资源| 久久人人爽人人爽人人片aV东京热| 制服丝袜 91视频| 五月天福利视频| 国产精品亚洲αv天堂无码| 亚洲永久视频| 欧美一区中文字幕| 免费日韩在线视频| 亚洲乱伦视频| 日本国产精品| 国产精品亚洲专区一区| 国产真实自在自线免费精品| 狠狠v日韩v欧美v| 亚洲视频二| 少妇高潮惨叫久久久久久| 亚洲美女操| 六月婷婷综合| 中文精品久久久久国产网址 | 国产午夜福利在线小视频| 国产丰满大乳无码免费播放| AV不卡在线永久免费观看| 久久久精品无码一区二区三区| 114级毛片免费观看| 国产精品成人一区二区| 日韩AV无码免费一二三区| 中文字幕亚洲无线码一区女同| 日韩欧美在线观看| 中文字幕人妻av一区二区| 美女无遮挡免费视频网站| 欧美国产中文| 狠狠色噜噜狠狠狠狠奇米777 | 操美女免费网站| 天天躁狠狠躁| 亚洲视屏在线观看| 免费看一级毛片波多结衣| 国产福利不卡视频|