999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體關系的群體事件網絡關注度影響因素數據挖掘研究

2018-10-19 12:35:30鞏曉敏沈惠璋鄧莎莎
上海管理科學 2018年5期

鞏曉敏 沈惠璋 鄧莎莎

(1.上海交通大學 安泰經濟與管理學院,上海 200030;2.上海外國語大學 國際工商管理學院,上海 200083)

1 群體事件網絡關注度影響因素的選取

1.1 群體事件的特征提取

一般而言,在突發性的危機事件中,會采用一種叫作元本體EMM的模型,本文就是基于該模型展開相關研究的。在研究中,本體庫的核心內容則是群體性事件。該事件又被分為三個方面的內容,分別是群體事件所處的狀態、決策以及產生的效果等。這三部分,又能被細分為事件的基本信息、過程信息和結果信息等。

(1)事件的基本信息。在本文的研究中,決策變量為事件中的四個基本屬性,分別為事件所發生的時間、地點、類型以及受到事件影響的人數。

事件的類型:對于群體性事件而言,其類型和覆蓋的范圍都很大,種類也不一而足。而且,各種不同類型的群體性事件,其發生的原因、發展的階段和經過,以及最終導致的后果,也互有差異。鑒于此,這些事件能夠吸引到的群體也千差萬別,引起的網絡關注度也各有高低。

事件的發生地點:相比于世界上其他國家,我國幅員遼闊,人口眾多,各地區人口數量和分布,素質和文化區別很大。所以,群體性事件也會隨著地區的差異而有所變化,比如事件發展的經過、與之相對應的解決方案,等等。換言之,群體事件如果發生在不同地區,其引起的網絡關注程度也會因為地區的差異而發生一定的變化。

事件的發生時間:對群體性事件而言,其發生的時間也會在一定程度上影響該事件的網絡關注度。比如,如果一起群體性事件如果發生在周末,那么該事件所能引起的網絡關注度就會較高,而且參與該事件的人數也會較多。但是,如果該事件發生在工作日內,那么關注該事件的人就會少一點,參與的人數也不會很多。同樣,如果群體性事件發生在白天,其受到的網絡關注度跟發生在晚上所受到的網絡關注度也互有差異。

受到影響的人數:在群體性事件中,圍觀者等也對群體性事件的進程產生了顯著的影響。譬如,圍觀者越多,受影響的人數也就越多,那么和群體性事件相關的信息就會被更廣泛、迅速地傳播開,從而對網絡關注度產生相當的影響。

(2)在事件的過程信息中,本文選用的關鍵變量是群體性事件所能持續的時間。

事件的持續時間:一般而言,如果群體性事件的持續時間很長,那么網民們的猜測不僅會增多,還會失控,甚至產生各種各樣的謠言。由此可見,對于網絡關注度,事件的持續時間也起到了一定的作用。

事件解決的方案:在大部分的群體性事件中,研究發現如果對群體性事件應對不當,比如采用的解決方案不積極、回避問題,甚至增加沖突等,不僅不能平息事件,反倒會激起更大的反彈,讓群體行為變得更加惡性。與此用時,在解決群體性事件時,網民往往對解決方所持的態度,以及采用的解決方案,都極為看重。

(3)事件的結果信息:在本文中,研究所選取的主要變量為傷亡人數,依此對群體性事件所導致的后果進行評定。

事件的傷亡人數:在任何一起群體性事件中,其導致的結果,最直觀的表現就是事件中所產生的傷亡人數。在一些研究中,通過研究和分析網民們的心理。可以發現,傷亡人數越多,會吸引更多的網友關注事件進程并參與討論。

1.2 群體事件網絡關注度的計算

本文主要從三個方面對群體性事件所引起的網絡關注度展開了相關的衡量和評價。這三個方面分別為群體性事件所引起的新聞數量、評論數量和參與的人數。但是,對這三個方面的相關數據進行統計時,它們各自的數量級和要用到的界面,不僅差異大,而且各不相同。因此,在進行統計運算前,要先對各個數據展開標準化變換,接著對它們進行權重的平均分配,最后再開展相關計算。在群體性事件的網絡關注度方面,經常采用的量化方案如下所示:

群體事件網絡關注度=(新聞媒體關注度+網絡參與關注度+網絡評論關注度)/3

(1)新聞數量:在網上,網絡新聞媒體對于群體事件的關注,可通過和群體性事件相關的新聞報導數量直接或間接地表現出來。其計算公式如下所示:

某事件的新聞媒體關注度=(原始數據-min{新聞數量})/(max{新聞數量}-min{新聞數量}

圖1 群體事件網絡關注度及其影響因素結構

(2)新聞評論數:該條意思是指,新聞網頁上對新聞進行評論的人數之和。通常,該人數之和可以反映出網民對某事件的關注程度。其計算公式如下所示:

某事件網絡評論關注度=(原始數據-min{網絡評論數量})/(max{網絡評論數量}-min{網絡評論數量}

(3)新聞參與人數:所謂的新聞參與人數是指,有一些網民不會留言對事件進行評論,他們更樂于觀看其他網民的評論,所以,這些只觀看不留言的網民,也是一種能夠觀察到的變量。其計算公式如下所示:

某事件網絡參與關注度=(原始數據-min{網絡新聞參與人數})/(max{網絡新聞參與人數}-min{網絡新聞參與人數}

2 基于本體關系的ID3算法描述

2.1 基于本體關系的數據挖掘算法研究

利用屬性的本體關系進行分類的算法已有不少,大體上主要有建立本體規則的方法和對屬性值分類的方法。本文所采用的方法是借鑒Zhang Jun的利用本體關系進行分類思想的基礎上,與ID3算法相結合的方法。

2.1.1 算法的優點

傳統的決策樹算法主要通過數據庫二維表對群體事件案例進行表示,語義表達能力較弱,同時每個變量實例都最終會產生一個節點,形成的決策樹規模大,復雜性高,不便于理解和操作。

基于本體的決策樹算法通過對本體的運用,首先能夠增強群體事件案例的語義表達能力,提升決策樹檢索和分類的有效程度。其次,用決策樹表示更加簡單,容易理解,同時在分類方面更加精確、可信。分析和統計有限的數據時,從具體數據層面入手的方式,并沒有從抽象概念層面入手的方式顯得準確和可靠。最后,基于本體的決策樹算法還為解決數據挖掘中的過度擬合現象提供了一個新的解決思路。

2.1.2 算法描述

第一步:構建測試屬性本體。

第二步:依次構建各測試屬性的本體關系。

第三步:頻數統計。

(1)按照詞頻進行統計;

(2)自下而上,將子節點的頻數加到父節點上;

(3)自上而下,將抽象節點的頻數按照子節點分布規律分配到子節點上;

第四步:生成決策樹。

(1)構造向量p,p向量的各分量指向各屬性的一個節點;

(2)計算p向量所指的屬性的熵增,將最大信息熵增p分量作為決策屬性;

(3)構造P向量組,由決策屬性的子節點代替p向量中的父節點,形成新的p向量;

(4)循環以上三步,直至p向量分項值均為空。

2.1.3 算法實現

算法實現通過.NET平臺的進行開發,運用的C#語言實現了基本算法功能。

2.2 群體事件特征本體的構建

本研究采用的算法是一種基于本體的ID3算法,該算法要求對上述群體事件中所選取的特征建立起各自相應的領域本體。同時,還要對本體領域中存在的知識結構進行相當程度的考量,然后再對群體事件中的七個特征做如下的本體表述:

(1)事件的類型:我國的群體性事件,按發生的起因和所在的領域,可以具體地被劃分為下列十種類型:一、公共衛生事件引發的群體行為;二、公關管理與執法不公沖突引發的群體行為;三、勞資沖突引發的群體行為;四、人為事故災害引發的群體行為;五、社會安全事件引發的群體行為;六、征地拆遷沖突引發的群體行為;七、資源與環境沖突引發的群體行為;八、自然災害引發的群體行為;九、族群矛盾與境外勢力沖突引發的群體行為;十、以網絡與微博為載體的群體行為。上述分類較為詳細,包容面廣,在案例信息的搜集和整理方面能起到很大的貢獻。具體見圖2。

(2)事件的發生地點:本文主要對我國境內發生的群體性事件進行研究,并著重于它們的一般特征。所以,在事件的發生地點上,本研究構建了一種具有三層結構的繼承關系。比如,先按照地域,如東北、西北、西南、華中、華北、華南、華東、華西等,將群體性事件的發生地點劃分為四大類型;接著,再根據地域所在的省市細分這四大類型,最終獲得本體。

(3)事件發生的時間:根據群體性事件中參與的人數特點,以及該特點在事件進程各時間段的不同表現,還對群體傳播中時間所發揮的影響展開了相關分析。在本文中,研究者為事件發生的時間構建了具有三層結構的繼承關系,這是一種本體結構。該本體的構建分為兩個步驟:第一,根據工作日和非工作日對群體事件進行劃分;第二,基于白天和黑夜兩個時段中群體性事件的不同特點,對事件進行更加詳細的分類,如非工作日白天、非工作日夜晚、工作日白天、工作日夜晚。具體見圖3。

圖3 事件發生時間的本體關系分解

(4)事故解決方采取的解決方案:根據事故解決方對群體性事件所采取的解決態度,解決方案可以被劃分為兩種類型,即主動反應和被動反應。其中,主動反應又可以依據案例分析的結論,具體細分為8種類型的解決方案,分別為:包庇既得利益者、執法不當、不當言論、武力威懾、對抗、封鎖消息、調解疏導、協商解決。而被動反應又能被細分為下述5種行為,分別為:敷衍民眾、故意拖延、反應遲鈍、無作為、直接妥協。鑒于此,所獲得的事故解決方之繼承本體應如下述內容,見圖4。

圖4 事故解決方的措施本體關系分解

(5)事件的持續時間:群體性事件引起的網絡關注度,受到該事件持續時間的顯著影響。本研究中,群體性事件只是簡單地根據事件的持續時間被劃分為三個類別,分別為:“<1天”“>7天”和“1~7天”。

(6)事件中的傷亡人數:根據全部群體性事件中傷亡的人數展開數字排序,把前面三分之一的傷亡人數定義為“大”,后面三分之一的傷亡人數定義為“小”,中間三分之一的傷亡人數定義為“中”。通過這樣的劃分,構建起一種具有兩層結構的繼承關系本體。

(7)受影響的人數:根據全部的群體性事件案例中受到影響的人數展開數字排序,把前面受影響人數的三分之一定義為“多”,后面的三分之一定義為“少”,中間的三分之一定義為“中”。通過這樣的分類,構建起一種適用于受影響人數的具有兩層結構的繼承關系本體。

3 實驗與分析

本實驗共搜集有效案例612個,其中80%的案例作為訓練集,通過對原始數據的訓練,獲得初始決策樹;另外20%的案例作為測試集,通過測試判別決策樹的有效程度。

3.1 原始數據的搜集

通過查閱相關數據和統計,在我國,每天有超過五百起群體性事件發生,給人民群眾的財產帶去了巨大的損失。而且,這種群體事件有逐年上升的趨勢,從最初的幾萬起,到現在的二十多萬起,嚴重影響了社會的正常生活和生產秩序。本文所做的研究,案例、素材均取自互聯網,共收集和整理了2011—2013年,三年間的我國各類群體事件案例共計612起。新聞報道也主要取自六家既能發布新聞又能讓網民對新聞進行互動評論的網站,比如騰訊新聞、鳳凰資訊、新浪新聞、網易新聞、人民網和中國新聞網。本文案例中,所引用的基礎數據如表1所示。

表1 群體事件部分案例庫

3.2 構建決策樹

基于上述分析和本體的ID3算法,本文對決策樹進行了構建。其中,選擇群體性事件的七個變量,比如事件發生的類型、時間、地點,事件所持續的時間、受到事件影響的人數、出現的傷亡人數,以及解決方所采取的解決方案等,作為測試變量。同時,又將群體性事件所引起的網絡關注度當作分類變量,從而使用改進后的決策樹算法展開相關計算。本文研究中構造的決策樹模型,正如圖5所示。

圖5 群體事件網絡關注度分類樹

3.3 分類規則

根據決策樹生成的分類規則得到:

(1)IF受影響人數=“多”and傷亡人數=“多”THEN網絡關注度=“高”

(2)IF受影響人數=“多”and傷亡人數=“中”THEN網絡關注度=“中”

(3)IF受影響人數=“多”and傷亡人數=“低”and發生時間=“工作日”THEN網絡關注度=“中”

(4)IF受影響人數=“多”and傷亡人數=“低”and發生時間=“非工作日”THEN網絡關注度=“低”

(5)IF受影響人數=“中”and事件類型=“公共管理與執法不公”THEN網絡關注度=“中”

(6)IF受影響人數=“中”and事件類型=“公共衛生事件”THEN網絡關注度=“中”

(7)IF受影響人數=“中”and事件類型=“以網絡與微博為載體的群體事件”THEN網絡關注度=“中”

(8)IF受影響人數=“中”and事件類型=“其他類型”and事故解決方的措施=“協商解決”THEN網絡關注度=“低”

(9)IF受影響人數=“中”and事件類型=“其他類型”and事故解決方的措施=“武力對抗”THEN網絡關注度=“高”

(10)IF受影響人數=“少”and事件持續時間=“<1天”THEN網絡關注度=“中”

(11)IF受影響人數=“少”and事件持續時間=“1~7天”THEN網絡關注度=“少”

3.4 數據檢驗

我們將獲得的612份數據分為10份,然后將其中9份的數據作為訓練集,還有一份作為測試集。具體來說,9個訓練集共擁有540個案例,測試集內有62個案例。使用交叉驗證法對數據集分別進行10次驗證,最終得到表2所示的基于決策樹的驗證準確率,并以此對算法的精度進行估算,得到表2所示的對決策樹效果的校驗結論。

表2 10次交叉驗證結果

由表2我們可知,此分類樹的查準率較高,為88.78%,預測準確性很高,能夠作為參考依據。

3.5 實驗結果分析

本文通過群體事件網絡關注度的分類規則深入了解群體事件網絡關注的驅動因素,為群體事件的治理提出了可行性建議。基于以上決策規則,總結群體事件網絡關注度影響因素的規律:

(1)受影響人數是群體事件網絡關注度的主要影響因素之一,隨著受影響人數的增加,群體事件網絡關注度普遍升高。因此,建議在處理群體事件的過程中,相關單位需要憂患意識,在群體事件集化程度較低時妥善處置,避免事件影響范圍擴大。

(2)與非工作日相比,工作日發生的群體事件的網絡關注度普遍偏低。因此,對于非工作日組織或自發的群體行為要重視并做好引導和協調工作,避免事態的擴大升級。

(3)對于參與人數達到100~1 000人的,即受影響人數中等的,對于不同類型的事件需要采用不同的處置措施。從決策樹規則可以看出,對于勞資糾紛、征地拆遷沖突等事件,采用武力解決會對群體事件網絡關注度產生促進作用,吸引媒體和公眾的關注,未來在群體事件治理過程中,建議采用協商解決的方式積極表態和處理,避免直接沖突。

(4)對于受影響人數低于100人的,側重于觀察事件的持續時間,建議在應對群體事件的過程中,盡量能夠在一周內解決群體事件產生的最尖銳矛盾,將群體事件帶來的危害降到最低。

4 結論

綜上所述,本文的成果和進一步展望如下:

(1)傳統數據挖掘方法語義表達能力較弱,基于本體的數據挖掘算法在傳統算法的基礎上增強了語義表達能力,生成的決策樹更加精簡,具有更高的檢索效率。

(2)得到群體性事件所引起的網絡關注度、群體性事件特點的分類規則,并對以后預警群體性事件和對群體性事件進行有效決策,提供了充足的數據支持。

(3)未來可以建立群體事件案例決策支持系統,案例的數量可以通過滾動式的積累進行進一步拓展和補充。

主站蜘蛛池模板: 精品人妻无码中字系列| 亚洲永久免费网站| 成人一区专区在线观看| 伊人久综合| 亚洲精品视频免费| 二级特黄绝大片免费视频大片| 四虎免费视频网站| 国内精品视频在线| 成人福利一区二区视频在线| 91精品亚洲| 日韩在线1| 欧美 亚洲 日韩 国产| 婷婷六月综合网| 亚洲综合第一区| 久久香蕉国产线| 久久77777| 国产性生交xxxxx免费| 国产日产欧美精品| 性色生活片在线观看| 一本一道波多野结衣av黑人在线| 67194成是人免费无码| 亚洲综合专区| 国产成人永久免费视频| 国产一二三区视频| 日韩久草视频| 2021无码专区人妻系列日韩| 白丝美女办公室高潮喷水视频| 国产在线观看成人91| 97精品伊人久久大香线蕉| 亚洲精品爱草草视频在线| 亚洲国产成人自拍| 精品中文字幕一区在线| 亚洲第一香蕉视频| 国产成人综合网| 国产精品999在线| 亚洲无码37.| 91精品国产综合久久香蕉922 | 91福利一区二区三区| 蜜芽一区二区国产精品| 伊人无码视屏| 国产剧情一区二区| 国产视频大全| 国产精品xxx| 欧美一级爱操视频| 国产免费观看av大片的网站| 国产黑丝一区| 伊人色婷婷| 欧美在线导航| 91热爆在线| 国产精欧美一区二区三区| 亚洲午夜福利精品无码| 国产区人妖精品人妖精品视频| 久久夜色撩人精品国产| 三上悠亚一区二区| 国产人成在线观看| 亚洲免费三区| a色毛片免费视频| jizz在线免费播放| 久久精品国产91久久综合麻豆自制| 亚洲无码视频一区二区三区| 国产精品亚洲日韩AⅤ在线观看| 亚洲免费福利视频| 性网站在线观看| 青青青视频91在线 | 午夜欧美在线| 国产丝袜91| 伊人激情综合网| 99热线精品大全在线观看| 91免费在线看| 色屁屁一区二区三区视频国产| 人人91人人澡人人妻人人爽| 亚洲人成亚洲精品| 久久一本精品久久久ー99| 久久黄色影院| 久久久久久高潮白浆| 老司机aⅴ在线精品导航| 99伊人精品| 青草精品视频| 日韩一区二区三免费高清| 91色爱欧美精品www| 国产精品密蕾丝视频| 久久久精品国产亚洲AV日韩|