999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡評論的網絡輿情研究

2009-04-29 00:00:00宋仙磊
現代情報 2009年12期

〔摘 要〕研究網絡新聞評論可以更好地分析網民對新聞關注程度的發展變化,對于網絡輿情研究也具有重要意義。本文首先選擇任意時間段內網絡上的熱點事件為樣本,繪制其評論增長曲線,進而使用自組織映射神經網絡方法將曲線分類,擬合出代表各類發展規律的曲線,最后利用所得結論判斷突發新聞的類別歸屬,預測其評論發展趨勢,并驗證方法的有效性。

〔關鍵詞〕網絡輿情;聚類;自組織映射神經網絡;曲線擬合;預測

〔中圖分類號〕TP183 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)12-0004-04

Public Opinion Research Based on Network CommentsPeng Dan Xu Bo Song Xianlei

(Institute of E-Business,School of Management,Hefei University of Technology,Hefei 230009,China)

〔Abstract〕The research of news comments on network can analyze the changes of netizens attention to news better,and it is also important to Network Public Opinion research.Firstly,the paper chose network hot spot events during the random time sections as samples,draws up the commentary building-up curves,then classifies these curves by SOM,fits curves that can represent the law of development of each kind,finally,determines the type of breaking news by the conclusion above,forecasts the development trend of its comments,and demonstrates the validity of the method.

〔Keywords〕network public opinion;clustering;SOM;curve fitting;forecasting

據CNNIC第23次中國互聯網發展狀況調查:截至2008年12月31日,中國網民規模達到2.98億人,普及率達到22.6%,超過全球平均水平,位居世界第二。互聯網的出現和勃興,極大地拓展了中國社會的輿論空間。網民通過網絡媒體不僅可以接收信息,還可以表達利益,宣泄情感[1]。輿情一旦在互聯網上出現,其后續傳播勢必會對我們的生活產生深遠影響,找出網絡輿情傳播的規律性,可以對一些可能引發社會穩定的問題提前進行預警從而使相關部門采取一定的措施,影響其傳播過程,這對政府的決策制定,網絡的凈化與繁榮以及和諧社會的建設都具有重要意義。對網絡輿情研究的第一步——如何選擇有用的信息,國內外開展的相關研究主要以web站點發布的各類信息為數據源,其結果反映了網絡媒體對信息的呈現狀況[2],卻無法有效地反映網民對信息的關注程度,因此也就很難反映網絡輿情的真實情況。而網絡輿情存在空間之一的新聞留言板是在網絡新聞報道后開設的供網民發表意見的BBS,將網民的新聞評論作為數據源,能直接對應于用戶行為[3],可以快速,真實地反映關于該事件的輿情。掌握輿情主體即網民發表的網絡新聞評論的特點主要應從量、度、維三方面研究,具體分別為評論的數量、意見和態度的程度問題以及方向問題,而以往的文獻僅對后兩者從語義或訪問頁面鏈接上進行研究,卻忽視了數量這一網絡輿情研究和監測的關鍵,本文旨在運用Web信息挖掘技術[4],通過對大量新聞評論數量歷史數據的收集、聚類和分析,建立網絡輿情傳播的先驗模式,用以預測[5]新事件的傳播趨勢。

1 實驗步驟及結果

1.1 準備工作

1.1.1 數據收集本次實驗數據均采集自騰訊網,共包含有效新聞及其評論1 000條,并依據騰訊網劃分的類別歸類記錄,即分為娛樂體育類、民生類、時事政治類、財經類,每類記錄250條新聞,記錄數據包括新聞標題、發布時間以及不同時間點的評論數量。

1.1.2 評論數據預處理由于每條新聞的發布時間不同,為了使時間數據統一,需把記錄的絕對時間相對化,即將新聞發布時間定為起始時間,評論時間與起始時間之差定為時間距離。例如:新聞發生時間為17∶00,即此時為起始時間,記為0,評論記錄時間若為19∶00,則此次記錄的時間距離為2。每條新聞的評論記錄時間都從0開始,192結束,單位為小時。考慮到評論數量增長的速度一般由快到慢,為了更好的研究其規律性,在評論發生0~2天之內,記錄頻率為1小時,2~4天之內為6小時1次,4~8天之內為1天1次。

1.1.3 缺失值處理對于新聞評論在某些時間點的缺失數據,我們采用線性擬合方式確定填充替代值。

1.2 評論曲線的聚類

1.2.1 減少模型的種類作出所有新聞評論的時間序列圖(橫軸為相對時間,縱軸為評論數量),從圖1可以看出,大多數新聞評論的增長規律類似,但在絕對值大小上差距很大,這使得新聞評論曲線形態千差萬別,若單純依據評論數量這一指標對曲線進行聚類,勢必會掩蓋曲線的內在特點,且聚類效果不理想。因此在聚類之前要做的工作就是消除量綱,減少模型種類,從曲線的動態增長方式上挖掘其相似點。

對于第i條新聞的時序評論數量集Ai={ai1,ai2,…,aim},(i=0,1,…,N)(M指記錄的時間個數,此處取61;N為新聞的個數,此處取1 000),評論增長數量的數據集為:Bi={bi1,bi2,…,biM}={a1,ai2-ai1,ai3-ai2,…,aiM-aiM-1}第i條新聞的評論增長速度xit為:xit=bitbit-1,(t=1,…M)(1)將評論增長速度累加,得到:yi1=xi1;yit=yit-1+xit,(t=2,…M)(2)可知,第i條新聞的評論增長速度累加曲線yi=(yi1,yi2,…,yiM)是一條消除了量綱且變化趨勢相對穩定的遞增曲線,原始評論曲線形態的多樣性被大大簡化了,如圖2所示。上述數據處理過程一方面消除了原始數據量綱的影響,保留了曲線增長的動態趨勢,另一方面對評論增長速度進行累加得到曲線形態更為簡單的yi曲線,可進一步減少模型的種類。

1.2.2 自組織映射神經網絡聚類自組織特征映射網絡[6-8](SOM)是一個由完全連接的神經元陣列組成的無教師自組織、自學習網絡,其網絡拓撲結構如圖3所示:

當某類模式輸入時,其輸出層某一節點得到最大激勵而獲勝,同時該獲勝節點周圍的一些節點因側向相互作用也受到較大的激勵,這時與這些節點連接的權值矢量向輸入模式的方向作相應的調整。當輸入模式類別發生變化時,二維平面上獲勝節點也從原來的節點移到其他的節點[6]。其學習算法[8]如下:(1)初始化輸入神經元到輸出神經元的連接權值;(2)提供新的輸入模式;(3)計算輸入樣本與每個輸出神經元之間的距離(此處取歐式距離),并計算出一個具有最小距離的神經元;(4)給出一個周圍鄰域;(5)修正輸出神經元及其鄰接神經元的權值;(6)計算輸出浮動閾值;(7)提供新的學習樣本來重復上述學習過程。用SOM方法將所有累加曲線進行初次聚類,對結果中相對分散的曲線簇視情況再次聚類。舍去最終結果中曲線個數<20的個別類,因為根據經驗,一般聚集程度較好的類別包含曲線數量也較多[9],最終得到如圖4所示的八類累加曲線。 1.3 實驗結果分析根據記錄時劃分的類別,每類新聞在上述八類中的分布如表1(只顯示比例大于10%的情況),若后面無時間范圍,則表示發布時間分布在全天各個階段。例如:第二行第三列的“32%(0∶00~6∶00)”表示32%的民生類新聞在(1)類中,發布時間都在0∶00~6∶00之間。表1 各類新聞在8類累加曲線中的分布(只例舉>10%的)

曲線類新聞類娛樂體育民 生政 治財 經(1)32%

(0∶00~6∶00)(2)36.2%10.5%

(0∶00~6∶00)(3)12.1%

(0∶00~6∶00)(7)38.8%

(0∶00~6∶00)27.2%(8)56%48.7%42.7%24%

1.4 評論曲線的擬合接下來要對圖4中的各類曲線進行擬合,為了照顧到每類中各條曲線的特征,也為了方便曲線擬合,我們選取對每類曲線的類均值曲線進行擬合。這樣,對一類曲線的擬合就變成了對一條曲線的擬合。例如對第j類曲線擬合,其包含k條評論曲線,則其類均值曲線可表示成:cjt=jt=1k∑ki=1yjit,(t=1,K,T)(3)現在只需對曲線cj=(cj1,cj2,…,cjT),(j=1,2,…,8)進行擬合。我們以包含曲線數量最多的第8類為例,將其帶入(3)式,繪制出類均值點并進行曲線擬合,選擇擬合效果最優的模型:MMFModel:y=ab+ctdb+td其中,a=3.4688427,b=1 018.3912,c=60.286081,d=2.0158328。其擬合優度為0.997,效果如圖5:

圖5 藍點為類均值點,紅線為擬合后的曲線 其他類別曲線可類似建立模型,如表2:

表2 曲線類別及其對應模型

類別號擬合模型常量取值(1)y=a(b-ect)a=75.687699,b=0.99341617,c=0.031964544(2)y=a(b-e-ct)a=75.738171,b=1.1044557,c=0.030683468(3)y=a(1-e-bt)a=111.68531,b=0.010774366(4)y=ab+ctdb+tda=0.41027705,b=69.50943,c=46.429644,d=1.4255683(5)y=ab+ctdb+tda=2.2353685,b=433.54498,c=56.275408,d=1.7202683 續表2

類別號擬合模型常量取值(6)y=a1+be-cta=47.954468,b=11.112949,c=0.097708055(7)y=a+bt+ct2+dt3+…a=0.23253753,b=1.7517241,c=-0.017479688,d=7.9340853e-5,e=-1.3509821e-7(8)y=ab+ctdb+tda=3.4688427,b=1018.3912,c=60.286081,d=2.0158328

2 新聞評論傳播趨勢預測

2.1 累加曲線的預測上述工作的目的除了對新聞評論從增長規律角度進行分類,得出各類的傳播規律外,更重要的是對日后突發新聞事件評論進行發展趨勢預測,其步驟如下:(1)根據新聞性質及發布時間確定其在表1中所屬類別,然后使用表2中對應公式可得出其發展趨勢曲線。對于根據此步無法判斷出所屬類別的新聞,可以采用下一步。(2)記錄事件評論最初增長情況,并將其依次代入表2公式中便可判斷其所屬類別,因為從圖3中可以看出:各類曲線在初始階段的形狀各不相同。由于第一步縮小了判斷范圍,因此工作量大大減少。例如,對于突發新聞邁克爾·杰克遜去世,根據語義判斷其所屬類別為娛樂體育類,查閱表1可將范圍縮小至(2)和(8)類,即現在只需關注這兩類新聞的發展趨勢,接下來記錄前6小時評論狀況,再使用METLAB來比較前兩類曲線初始6小時與其吻合程度,比較結果誤差分別為4.9966和30.6277,最終取(2)類模型作為本條新聞發展趨勢預測曲線。

2.2 返回到原始數據由判斷出的最終歸屬模型可求出t時刻的yt,相對應的xt=yt-yt-1(t=1,2,…,61),返回到原始數據值為:bt=bt-1xt。同樣以杰克遜去世的新聞為例,由此得出的預測數據與兩周后真實數據相比較,如圖6所示,可見有90%的預測數據的誤差都控制在10%之內,預測效果良好。

圖6 預測曲線與真實曲線的比較

3 總 結本文主要從量的角度對收集的網上新聞評論數據進行處理并聚類,通過分析實驗結果,我們能歸納出不同類別新聞事件在網上的傳播規律。此外,本文得出的擬合曲線模型,可對突發新聞評論發展趨勢進行預測,網上評論數據的挖掘處理方法以及實驗的結果也可提供給行為學專家和社會學專家,以幫助他們進行用戶行為和網絡熱點新聞的研究。在下一階段,我們將設計調查問卷,以獲取現實生活中人們對同事件的關注程度,并建立網上可知度和現實可知度的聯系,從而更系統地對新聞傳播規律進行研究。

參考文獻

[1]Fong J,Burton S.A cross-cultural comparison of electronic word-of-mouth andcountry-of-origin effects[J].ScienceDirect Journal of Business Research,2008,61:233-242.

[2]Manquan Y,Luo W H,Xu H B,et al.Research on hierarchical topic detection in topic detection and tracking[J].Journal of Computer Research and Development,2006,43(3):489-495.

[3]Huang W T,Zhao Y,Yang S Q,et al.Analysis of the user behavior and opinion classification based on the BBS[J].In Applied Mathematics and Computation,2008,205:668-676.

[4]王澤彬,金飛,李夏,等.Web數據挖掘技術及實現[J].哈爾濱工業大學學報,2005,37(10):1403-1405.

[5]Doganis P,Alexandridis A,Patrinos P,et al.Time series sales forecasting for short shelf-life food products based on artificial neural networks and evolutionary computing[J].Journal of Food Engineering,2006,75:196-204.

[6]Mangiameli P,Chen S K,West D.A comparison of SOM neural network and hierarchical clustering methods[J].European Journal of Operational Research,1996,93:402-417.

[7]Hagan M T,Demuth H B,Beale M H.神經網絡設計[M].北京:機械工業出版社,2002:285-301.

[8]李春華,李寧,史培軍.自組織特征映射神經網絡原理和應用研究[J].北京師范大學學報:自然科學版,2006,42(5):543-547.

[9]龍文,王惠文.曲線分類建模方法及其在多地區GDP預測中的應用[J].系統工程理論與實踐,2008,(3):72-75.

[10]周亞東,孫欽東,管曉宏,等.流量內容詞語相關度的網絡熱點話題提取[J].西安交通大學學報,2007,41(10):1142-1150.

主站蜘蛛池模板: 91av成人日本不卡三区| 熟妇丰满人妻av无码区| 亚洲一区二区三区香蕉| 国产精品hd在线播放| 日本一本在线视频| 国产成人精品男人的天堂下载| 99视频在线免费| 激情无码字幕综合| 国产精品综合久久久| 亚洲高清资源| 国产男人天堂| 色综合色国产热无码一| 国产99在线| 久久国产av麻豆| 四虎永久免费网站| 国产日韩欧美视频| 久久五月天国产自| 欧美一级一级做性视频| 国产在线91在线电影| 中文字幕在线看| 国产精品无码一二三视频| 国产精品一区二区无码免费看片| 久久精品人妻中文视频| 成人精品视频一区二区在线| 一级毛片免费观看久| 亚洲第一成人在线| 亚洲国产91人成在线| 亚洲精品麻豆| 57pao国产成视频免费播放 | 成人日韩视频| 久久久精品久久久久三级| 亚洲国产日韩一区| 97国产精品视频自在拍| 国产成人调教在线视频| 国产网站在线看| 国产国拍精品视频免费看| 91精品国产91久久久久久三级| 人妻无码一区二区视频| 亚洲区一区| 欧美成人看片一区二区三区| 亚洲 欧美 中文 AⅤ在线视频| 亚洲一区二区三区中文字幕5566| 亚洲国产午夜精华无码福利| 日韩欧美国产另类| 青青草一区| 人人艹人人爽| 狠狠久久综合伊人不卡| 国产日本欧美在线观看| 国产XXXX做受性欧美88| 久久久精品无码一区二区三区| 国产sm重味一区二区三区| 毛片基地美国正在播放亚洲| 久久伊人色| 亚洲精品在线91| 一级毛片免费观看久| 婷婷六月色| 亚洲AⅤ永久无码精品毛片| 国产日韩精品欧美一区喷| 97视频精品全国在线观看| 亚洲日韩精品综合在线一区二区| 波多野结衣AV无码久久一区| 欧美性久久久久| 尤物成AV人片在线观看| 91系列在线观看| 国产日本欧美亚洲精品视| 婷婷色一二三区波多野衣| 久久精品欧美一区二区| 久久semm亚洲国产| 精品一区二区三区自慰喷水| 啦啦啦网站在线观看a毛片| 国产极品美女在线| 日本精品一在线观看视频| 国产一级毛片高清完整视频版| 青青青视频免费一区二区| 亚洲男人的天堂在线观看| 日韩激情成人| 亚洲欧美日韩综合二区三区| 日本成人不卡视频| 四虎成人免费毛片| 无码中文字幕精品推荐| 精品丝袜美腿国产一区| 日韩在线成年视频人网站观看|