999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計學最近鄰分類方法在網絡輿情分析中的運用

2017-02-16 13:18:09常璟瑄
文理導航 2017年2期

常璟瑄

【摘 要】隨著計算機網絡的迅速發展,生活中發生的突發事件通過網絡瞬間傳播和擴散,這些帶有傾向性的網絡信息即網絡輿情迅速成為人們談論的焦點。怎樣對網絡輿情進行分析和正確的引導成為網絡安全領域一個新的熱點問題。文章通過采用統計方法對網絡數據進行分析,對網絡輿情進行分類處理,從而發掘網絡輿情中新的熱點問題。由于分類算法采用分類統計技術簡單、高效從而保證了分析的準確性和即時性。

【關鍵詞】網絡輿情;最近鄰分類;統計方法

導語

隨著互聯網的迅猛發展,網絡成為全社會所有人發表和傳播自己言論的場所,生活中的突發事件在網絡中被迅速傳播,其中對突發事件的評論有相當一部分言論被各種政治團體和敵對勢力所控制,通過錯誤的言論控制人們的思想,因此,對網絡中這些熱點通過計算機進行分析、發掘并進行正確的引導是目前網絡輿情中需亟待解決的問題。網絡輿情監控系統通常采用復雜的機器學習技術對輿情中的話題進行分類,由于算法的復雜性速度較慢,文章通過把數學統計學中的距離運算引入到輿情分析,采用最近鄰分類方法對輿情進行分類,解決了分類的實時性,從而提高輿情檢測的實用性。

1.輿情數據的提取

網絡輿情文本的提取一般通過爬蟲實現。網絡爬蟲會選取一些備用的網址并把它們放入要抓取的網址隊列中,通過域名解析得到對方的ip并將網頁保存到下載網頁庫中。爬蟲通過分析已抓取網頁的各種鏈接通過一定的抓取策略一個鏈接一個鏈接抓取下去,直到達到系統的某些條件時才停止下來。

2.輿情數據的預處理

網絡輿情數據的預處理包括背景噪聲的去除,中文的分詞,詞性的標注和停頓詞的去除等幾個步驟。

被抓取后的網頁除網頁本身的信息外還有一些和網頁無關的內容,如各種廣告、游戲等內容。這些內容往往與網頁本身無關,如果拿來分析會降低輿情分析的準確率,因此要去除這部分內容。廣告、游戲這些背景噪聲往往會鏈接到多個頁面,即多個頁面的鏈接出現的是同一個鏈接地址,因而,通過刪除這些重復的鏈接地址對應的網頁即可消除背景噪聲對輿情分析的影響。

中文分詞是把中文的一篇文章、一段文字或者一個語句分割為一個個單獨的詞。目前主流的分詞算法主要包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。主流的分詞工具包括中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS,該系統采用多層隱馬爾可夫模型實現中文的分詞、詞性標注和新詞識別等功能。其詞典除自帶的以外還可按用戶的要求進行手動的更新因而使用十分方便。CSW中文智能分詞DLL組件則可講一段文本自動的按常規漢語詞組進行拆分,并以指定方式進行分隔,且可對其拆分后的詞組進行語義、詞性和詞頻標注。

中文分詞的詞性主要包括名詞、動詞、形容詞和副詞等,其中的形容詞和副詞往往表示作者的情感取向和對某個事件的善惡態度因而它們決定了作者對輿情的價值取向,其中的動詞往往表示作者的動作和采取的行動,是作者情感對外直接的體現,因而這些分詞對輿情的分析是非常重要的。

停頓詞是指詞本身無明顯詞意與文本的內容無太多關系的詞。絕大部分的助詞如“的”,“地”,“得”等屬于這一類。這些詞在文本中出現的頻率很高,對輿情分析的準確率存在較大的影響,因此在網絡輿情數據的預處理時要去除這些停頓詞。

3.文檔特征的提取

文檔特征的提取是中文分詞后提取最能代表文檔特征的一些分詞作為文檔的特征,這樣既減小了分類算法的計算數據量又能提高分類的準確性。文檔特征的提取最本質的方法是分析詞頻,因為詞頻在很大程度上決定了作者的情感和態度,因此目前文檔特征提取的方法很大一部分是在分析詞頻的基礎上發展起來的。目前在文檔特征提取中常用的方法有信息增益法、期望交叉熵、互信息、χ2統計以及TF-IDF(詞頻-逆向文件頻率)分析方法。其中TF-IDF運用最廣泛,TF—IDF算法的核心是統計詞頻并比較詞語在單個文檔和整個文檔之間出現頻率的差異,并認為區分度最大的詞語是在單個文檔出現頻率較高而在所有文檔集合中出現的頻率較低。它將詞頻分為單個文檔中的詞頻和所有文檔中的逆向詞頻兩類,通過比較這兩類詞頻找出文檔的特征。其基本原理如下:

設詞w在文檔d中的詞頻tf(Term Frequency),同時詞w在整個文檔中的逆向詞頻為idf 則詞頻tf 為詞w在文檔d中出現次數count(w, d)和文檔d中總詞數size(d)的比值。

即tf(w,d)=count(w, d)/size(d)

整個文檔中的逆向詞頻則為idf = log(n/docs(w,D))

即為文檔總數n與詞w所出現文檔數docs(w,D)比值的對數。

tf-idf模型根據tf和idf為每一個文檔d和由關鍵詞w[1]...w[k]組成的查詢串q計算一個權值,用于表示查詢串q與文檔d的匹配度

tf-idf(q, d)

=sum { i = 1..k | tf-idf(w[i], d) }

=sum { i = 1..k | tf(w[i], d) * idf(w[i]) }

4.文檔特征的分類

文檔特征的分類是輿情分析的關鍵,它決定了輿情分析

的準確率和速度。本文采用最近鄰分類方法,解決了分類的實時性,從而提高輿情檢測的實用性。

具體過程如下:

(1)確定帶有分類類別的訓練文檔集合N = ( x1,x2,… xn)

(2) 計算待分類文檔到訓練文檔xi中的距離D(x,xi)=‖x-xi‖其中距離的算法采用歐氏距離測量方法。

(3)如果D(x,xk)=min D(x,xi) (i=1,2,3…n)且xk∈ωj ,則分類的結果為x∈ωj。

5.實驗分析

為了檢測算法的性能抽取了天涯社區論壇中經濟、軍事、社會時事、情感、娛樂五個話題的帖子作為訓練數據,其中每個話題抽取100個帖子共計500個帖子。測試文檔同樣來至于天涯社區論壇。隨機抽取的200個帖子包含經濟、軍事、時事、情感、娛樂五個話題,每個話題均為40個帖子,采用文中的分類算法進行分類,檢測它們的準確性。實驗結果的分析采用召回率和精度兩個廣泛運用于信息檢索和統計學分類領域的度量值。召回率是指檢索出的正確分類的相關話題文檔數和文檔庫中所有的相關話題數的比率。精度是檢索出的正確分類的相關話題文檔數與分類器分類出的相關話題文檔總數的比率。對這五類話題測試的結果如表1所示。

從表1可以看出采用本文的文本特征提取和話題分類方法結果令人滿意,由于采用的方法簡單因而系統的檢測時間不長,效率較高。

6.結束語

隨著網絡的迅猛發展,輿情監測已經成為目前網絡安全中的重要工作,對輿情進行分類,有利于發掘熱點輿情,為網絡的監控提供可靠的保證。面對海量的數據,準確而高效的方法顯得尤為重要,因而輿情監測的方向是采用多種科學的方法保證監測具有較快的響應速度和較低的誤報率。

【參考文獻】

[1]毛先領,何靖,閆宏飛.網頁去噪:研究綜述[J].計算機研究與發展,2010.47(12):2025-2036

[2]郭艷華,周昌樂.自然語言理解研究綜述[J].杭州電子工業學院學報,2000.20(1):58-65

主站蜘蛛池模板: 57pao国产成视频免费播放| 精品99在线观看| 亚洲美女一区二区三区| 亚洲无限乱码一二三四区| 亚洲自偷自拍另类小说| 国产综合精品日本亚洲777| 国产嫩草在线观看| 幺女国产一级毛片| 超清无码熟妇人妻AV在线绿巨人| 国产免费羞羞视频| 成人精品午夜福利在线播放| 麻豆国产精品一二三在线观看| 91无码网站| 98超碰在线观看| 另类专区亚洲| 国产精品一区不卡| 亚洲人成电影在线播放| 欧美成人综合视频| 青草视频在线观看国产| 国产午夜人做人免费视频| 欧美午夜在线观看| 欧美亚洲国产一区| 色综合成人| 亚洲va精品中文字幕| 亚洲国内精品自在自线官| 亚洲天堂在线免费| 日本免费高清一区| 91九色视频网| 婷婷午夜天| 夜夜拍夜夜爽| 国产无人区一区二区三区| 国产小视频在线高清播放| 欧美日韩精品一区二区视频| 欧美yw精品日本国产精品| 国产性生交xxxxx免费| 久久精品这里只有国产中文精品| 日韩在线永久免费播放| 国产一二三区视频| 午夜啪啪网| AV无码一区二区三区四区| 尤物亚洲最大AV无码网站| 91精品专区国产盗摄| 丁香婷婷综合激情| 女人av社区男人的天堂| 99久久精品久久久久久婷婷| 欧美成人在线免费| 亚洲国产成人麻豆精品| 丁香五月亚洲综合在线| 亚洲精品天堂自在久久77| 久久久久国产精品免费免费不卡| 欧美一区二区福利视频| 亚洲天堂视频在线观看免费| 激情国产精品一区| 亚洲区一区| 中文无码精品a∨在线观看| 国产成人高清亚洲一区久久| 国产在线专区| 亚洲天堂网2014| 国产91av在线| 国产日产欧美精品| 日韩在线网址| 亚洲最猛黑人xxxx黑人猛交| 一级毛片中文字幕| 54pao国产成人免费视频| 精品伊人久久久香线蕉 | 亚洲成a人片在线观看88| 亚洲婷婷六月| 青草国产在线视频| 国产亚洲欧美日韩在线一区二区三区| 精品人妻系列无码专区久久| 久久这里只有精品66| 97se亚洲综合在线天天| 99精品国产自在现线观看| 欧美激情视频二区三区| 国产毛片高清一级国语| 91黄视频在线观看| 久草视频中文| 国产91精品调教在线播放| 青青青视频免费一区二区| 亚洲国产精品一区二区第一页免| 免费观看男人免费桶女人视频| 精品少妇三级亚洲|