999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

輿情監測系統設計

2015-07-28 12:42:11張昕孫江輝
現代電子技術 2015年11期

張昕 孫江輝

摘 要:為了及時調控和遏制校園內突發的不良網絡輿情事件的蔓延,引入最近幾年針對網絡輿情監測過程中的方法及思路,以加強網絡信息的監測管理工作為目的,結合信息采集和輿情監測指標研究,設計了一套校園網輿情監測系統。該校園網輿情監測系統實現了信息采集模塊功能及部分分析模塊功能,達到了采集信息的效果,對輿情完成了初步分析。

關鍵詞: 校園網輿情; 爬蟲系統; 模塊設計; 監測系統

中圖分類號: TN915.08?34; TP393.07 文獻標識碼: A 文章編號: 1004?373X(2015)11?0098?05

Design of public opinion monitoring system

ZHANG Xin1, SUN Jiang?hui2

(1. Information Center, Xian University of Posts and Telecommunications, Xian 710061, China;

2. School of Communication and Information Engineering, Xian University of Posts and Telecommunications, Xian 710061, China)

Abstract: To timely control and restraint the spread of the burst and adverse public opinion events in campus network, methods and ideas in recent years for aiming at the monitoring process of network public opinion are introduced to strengthen monitoring and management work of the network information. Combined with information acquisition and index research of public opinion monitoring, campus network public opinion monitoring system is designed. The functions of information acquisition module and part analysis modules were realized, the effect of information acquisition was achieved, and the preliminary analysis of public opinion was completed by campus network public opinion monitoring system.

Keywords: campus network public opinion; crawler system; module design; monitoring system

0 引 言

近年來,高校網絡建設伴隨著網絡技術的發展取得了巨大進步,同時,為了保障在校學生通過網絡獲取的是安全健康的信息,使得校園網輿情監測越來越受到重視。學生上網的人數已經超過了7 600萬,而在校大學生的比率就達到了1[∶]4,在校大學生受到了來自現實生活中敏感問題的最大波及,而部分學生可能會將自身生活中的負面情緒在虛擬的校園平臺上散播,導致校園網絡充斥著各種情緒[1]。

雖然在當下我國對大型媒體網站輿情信息分析已有不少研究,比如北大方正集團研究的方正智思系統,它可以深入分析輿情信息,并起到正確導向作用。但它主要針對的是政府部門的輿情信息,而針對新興媒體如校園貼吧和微博校園等現在大學生獲得校園知識與信息的主要媒介的輿情監測僅僅處于初級階段,對輿情的監督分析并不到位,因此進行針對有關校園的輿情監測的研究是有必要的。

1 網絡輿情概述及相關指標研究

1.1 網絡輿情概述

輿情是指在特定的社會環境中,隨著社會發展,民眾對社會管理者產生的社會政治態度。它是多數群眾關于社會環境中出現的各種現象表達出的觀點、態度的總和。網絡輿情則是指網絡上傳播的社會輿論的一種表現形式,是互聯網上的公眾對現實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點[2]。校園網輿情信息的主要傳播途徑是:新聞網站、門戶網站等。網絡輿情的形成如圖1所示。

通過有關校園的網絡信息傳播包含了大學生對當今社會各個方面很多癥狀以及許多討論度高的現象的想法和方向。因此,網絡輿論能夠最有效、迅速地回應不一樣的層次社會輿情現狀與發展態勢。怎樣抓住虛擬網絡社會的即時信息,保證校園甚至社會有關方面的茁壯發展,不僅僅要對傳統方式重視,更需要在網絡的安全方面做出努力。

1.2 相關指標研究

輿情監測系統指標體系的建立有較強的研究價值和應用需求,它恰到好處地將互聯網信息的研究知識和應用需求融為一體,使得網絡輿情監測手段和系統的架構建設有了更廣闊的空間。因此高校等學生基數大的社會空間能夠得到更為真實可靠的信息,及時接收來自學生的聲音。并且通過辨別和抓取具有引導性、輿論性、熱點性的校園網絡信息,及時做出預警措施,達到對輿論信息的正確導向,對網絡安全的實時引導,從而在苗頭上撲滅可能出現的隱患。這種指標的建立同時能夠在研究和應用的不同層次上引導輿論信息的監測,并提前發現傾向性的輿情信息,因此構成高校校園網的輿論信息發現、處理、監測以及預警。

輿情監測系統相關指標如表1所示。

2 輿情監測系統設計

2.1 輿情監測系統設計框架

根據信息傾向研究能夠知道信息發布者所包含的情緒、立場、想法、意愿等?,F在基本使用聚類手段和信息傾向研究手段,針對在校園網中發布的可能帶有不良傾向的信息進行分析,分類區別并歸納學生觀點。這樣可以同時進行話題的進展追蹤,研究新出現的主題是否有重復的題目。其次可以及時處理突發事件,從時間,空間上進行主題追蹤,預防出現大規模的影響。最終通過需求分析,確定系統模塊規劃,可以得出校園網輿情監測系統的基礎是能夠進行信息采集,而目的是達到輿情預警的效果并通過展示界面及時通知決策者,整個監測模塊的設計如圖2所示。

在整個系統設計中,采集模塊、分析模塊、預警模塊的關系層層遞進,采集模塊作為基礎模塊完成整個系統信息的采集工作,將信息儲存在文件中;分析模塊在采集模塊之后進行文本分析,完成輿情的趨勢分析和熱點話題發現;最后預警展示模塊根據前兩個模塊分析的信息,依據危機度設定進行輿情的預警并通過展示界面傳達信息給最終決策者。模塊之間的關系如圖3所示。

2.2 詳細設計

2.2.1 信息采集模塊

信息采集模塊為整個輿情監測系統的基礎模塊。本模塊的目的是實現對目標空間內的信息采集,選擇具有較多采集價值的目標網站,可以減少不必要的爬行過程。采集模塊流程圖如圖4所示。

在整個模塊中,首先進行鏈接分析,Spider主要通過各種Web協議自動采集網絡上的相關信息,并將Web頁面下載到本地進行分析。信息采集的起點是從一個種子URL集出發,通過Web協議向所需的頁面擴展。根據Linkage /Sibling Locality特性,需要選擇質量較高的主題URL作為初始種子UR集;然后在頁面采集完后,對頁面進行解析,從中獲取鏈接及其上下文數據、正文、標題、摘要等信息;接著完成無法解析的頁面模塊的過濾,無效頁面數據的去除;只保留有效的主題詞語。最后保存有效文本數據。

通過信息采集,可以進行網絡信息管理、輿情趨勢調控。而網絡爬蟲正是網絡輿情采集的核心方法。網絡爬蟲(Web Crawler)實質上是一個HTML頁面爬行程序,通過HTML頁面對應的URL地址下載HTML頁面,從此頁面(一般是網站的首頁)開始,下載HTML頁面的內容,通過分析器,篩選過濾找到這個HTML頁面上的其他URL連接,這些URL地址將作為尋找下一批HTML頁面的基礎,直到將站內所有的HTML頁面都遍歷完為止[1]。

網絡爬蟲基本上可以劃分為6個部分:URL處理器,Web信息提取器,網頁去重檢測器,URL提取器,標簽信息獲取器,數據庫,各部分協作從Web上獲取信息。網絡爬蟲的基本結構圖如圖5所示。

(1) URL處理器。這個部件主要給“待提取的URL”進行排序,并根據一定的策略向Web信息提取器分派URL。URL處理器主要有三個數據來源:初始的種子URL集合;從URL提取器傳遞過來的新發現的URL集合,它們是從己提取頁面中分析得來的;頁面的Meta信息、主題以及摘要等信息,來自標簽信息獲取器,它們主要用來顯示從URL提取器中傳遞過來的URL的重要性,為在隊列中進行排序提供依據。

(2) Web信息提取器。這個部件處于系統的底層,主要通過各種Web協議來完成網絡數據的采集,如圖6所示。一般來說,協議包括HTTP、Gopher、BBS以及FTP等,也有些Web信息提取系統會根據實際需要獲取Web Chat、ICQ等特殊網絡信息。

(3) 網頁去重檢測器。Web上存在著大量的鏡像頁面和重復的頁面內容,不進行網頁重復內容的檢測過濾,將極大地浪費網絡帶寬和系統的運行效率。在進行重復內容檢測時,一般可以采用簡單的段落匹配方法或者相對復雜的相似度匹配方法。

(4) URL提取器。對于采集到的頁面,通過網頁去重檢測后,需要分析其中的鏈接,并對鏈接進行必要的轉換以獲取真實的URL,這些任務就是由URL提取器來完成的。首先需要判別頁面類型,可在對HTTP應答頭的分析中得出,有時也可以通過分析URL中的文件擴展名來判別頁面類型。隨后,需要分析的HTML標記包括,,等。頁面鏈接中給出的URL格式可能是不一樣的,既可能是完整的絕對路徑URL,也可能是一個相對路徑。

(5) 標簽信息獲取器。這里所要獲取的信息包括已提取頁面的Meta信息、作者信息、頁面的標題、頁面的摘要等。主要目的是在沒有對頁面內容進行語義信息理解的前提下,盡可能多地分析出HTML標簽、結構等的信息,對從頁面中提取出的URL質量的好壞給出一個度量,然后再傳輸到URL處理器,對待提取URL隊列進行排序。

(6) 數據庫。通過網頁去重檢測后的頁面數據、提取出來的Meta信息、作者信息、主題和摘要等均需存入數據庫中,以備使用。例如,進行分析建立索引等。由于Web頁面規模龐大,提取的相關數據在存入數據庫之前,一般要進行壓縮處理。

2.2.2 輿情分析模塊

輿情分析模塊是在采集模塊的基礎上,對采集所獲得的內容進行分類和分析,對信息初步完成再處理,主要目的是將原網頁的數據通過處理轉化成數據形式。輿情分析模塊的主要目的是通過分析將采集到的信息進行智能處理,最終完成輿情關鍵信息的獲取,它是整個設計的核心部分。輿情分析模塊由預處理子模塊、分詞功能子模塊、信息聚類子模塊和熱點發現子模塊組成,如圖7所示。

預處理子模塊:本模塊的目的是在抓取頁面時,去除干擾信息,保留有用信息。

分詞子模塊:本模塊通過中文分詞技術,對初步獲取的信息進行分詞,達到電腦自動識別語句含義的效果,然后通過TF*IDF算法完成關鍵詞詞頻等信息的記錄。中文分詞指的是將一個漢字序列切分成一個個單獨的詞,它是文本挖掘的基礎,在本文中使用的是MMSEG分詞算法,通過這種改進算法,可以提高系統的正確識別率。

信息聚類子模塊:本模塊的目的是發現某一主題的所有相關信息和相關的用戶群,通過文本聚類分析將經過處理的輿情信息按照不同的性質分類成不同的類別,然后經過一定的計算處理判斷該主題的輿情構成和公眾基本態度。

熱點發現子模塊:該模塊功能是通過關注度算法計算熱點關注度,再進行熱點統計,判斷熱點信息類型,最后通過搜索功能進行信息查找,及時進行輿情導向控制。

2.2.3 輿情預警展示模塊

輿情預警展示模塊的目的是通過輿情預警,及時反饋信息給決策者。本模塊首先會對聚類后的輿情信息進行統計,統計元素包括時間、網站、回復和點擊數等;再通過直觀的圖表方式展示到瀏覽器端頁面上。其次預設輿情信息的安全類別有5個類別,由弱至強分別由數字1~5代表;然后對信息關鍵字的負面詞進行加權計算,再將計算結果與安全級別匹配,最后把結果推送給輿情工作人員,從而幫助他們及時發現輿情,及時響應。

預警模塊的主要目的是判斷當前的主題輿情的傾向性,及時進行輿情預警。通過設定危機等級,判斷當前信息傾向性;根據輿情相關指標研究,可以通過科學計算設置危機度等級,當搜索到有害信息,計算出危機度,即可以按照相應危機度的處理方法進行處理,一旦達到輿情危機度等級,立刻反饋給決策者,由決策者決定處理方法。

3 輿情監測系統模塊實現

3.1 信息采集模塊實現

信息采集模塊為整個輿情監測系統的中心模塊, 本模塊實現了對目標空間內的信息采集,再將采集到的信息保存在有效文本中,為信息分析做鋪墊。信息采集模塊是整個系統設計的核心模塊,無論是分析模塊還是預警模塊都是在采集模塊的基礎上完成的;信息采集模塊主要用到的就是網絡爬蟲技術。其內部工作流程圖如圖8所示。

采集模塊和分析模塊有很多交融點,在采集模塊建設過程中也要規劃好分析模塊的建設,在學習采集模塊所使用的技術手段時可以同時進行下一步的設計工作。最后,校園網輿情監測系統設計的基礎也是相關信息的采集。

由于Web文檔使用了文本標記語言,利用這個特點,找出Web文檔中文本和標簽匹配規律,生成其對應的DOM樹(Document Object Model)。

InsertDOMNodes(Nodepnode,TNodetree_node)

{

if(pnode.hasCNodes())

{

IHTMLDOMChildrenCollectionallchild=(IHTMLDOMChildrenCollectio

n)pnode.CNodes;

intlength=allchild.length;

for(intj=0;j

{

Nodechild_node=(Node)allchild.item(i);

TNodetempnode=tree_node.Nodes.Add(child_node.nodeName);

InsertDOMNodes(child_node,tempnode);

}

}

}

//將 domnode 插入

eVipSBrowser_DocumentComplete(objectsender,AxSHDocVw.DWebBrow

serEvents2_DocumentCompleteEvente)

{

DOMTreeView.Nodes.Clear();

IHTMLDocument3HTMLDocument=(IHTMLDocument3)eVIPSBrowser.Docum

ent;

IHTMLDOMNoderootDomNode=(IHTMLDOMNode)HTMLDocument.documentEl

ement;

TNoderoot=DOMTView.Nodes.Add("HTML");

InsertDOMNodes(rootDomNode,root);

}

通過輸入一個目標HTML頁面,如圖9所示。保存的頁面信息如圖10所示。

3.2 輿情分析模塊實現

輿情分析主要運用中文分詞技術,該模塊的實現使用基于詞典的分詞算法MMSEG算法,以正向最大匹配為主,多種消除歧義的規則為輔。通過這種改進算法,可以提高系統的正確識別率。它是中文分詞技術的一項改進,中文文本在計算分析時有一個問題是缺少單詞的邊界,由于單詞是一個基本的語義單元,因此有必要識別中文文本的單詞讓進一步的處理可以進行。而MMSEG算法的目的是開發一個基于最大匹配算法的兩種變體的中文單詞識別系統,這個系統由一個詞典,兩種匹配算法以及四種歧義消解規則組成。在一個由1 013個單詞組成的樣本中,這個系統的正確識別率達到98.41%。

其次,分詞完成后,通過TF*IDF可以計算某個關鍵字在某篇文章里面的重要性,因而識別這篇文章的主要含義。TF*IDF是一種用于信息搜索和信息挖掘的常用加權技術。

TF*IDF單純使用頻率因子并不能保證系統的查詢性能。當高頻特征項在文檔集合中經常出現時,使用它進行查詢就會得到集合中的大多數文檔,這會影響檢索系統的查準率。因此需要引入一個與文檔集合有關的因子,加大文檔之間的區分度。如果特征項在集合中較少的文檔中出現,則相應的文檔集因子IDF較大。在文檔總數為[N]的集合中,如果包含某特征項的文檔數為[n,]相應的文檔集因子是:[IDF=log2(Nn)。]

經典的TF*IDF賦權因子在實際應用中取得了一定的效果,但是缺乏理論基礎。概率模型則考慮特征項之間、特征項與文檔之間的概率相依性,從而選擇特征項并修正它們的權重,這樣可以大大提高文檔內容表達的準確度。在概率模型中,特征項賦權因子定義為出現特征項的相關文檔個數除以不相關文檔個數,但是系統無法自動確定文檔與特征項是否相關,因此無法直接計算特征項的權重??梢栽谌鄙偻暾南嚓P信息的情況下估計特征項的賦權因子,在特定情況下,賦權因子為[log2(N-n)n]這就是概率模型IDF,有:

[W=TF*IDF]

TF和IDF參數是在文本檢索中最常用的向量權重計算方法。它們刻畫了特征項表達文本內容屬性的能力。TF詞頻指的是某一個給定的詞語在該文件中出現的次數。TF越大,此特征項在文檔集中出現的范圍越廣,說明它的重要程度越高;IDF反文檔頻率的主要思想是:如果包含詞條的文檔越少,IDF越大,并且此特征項在文檔中的的分布越集中,說明它在區分該文檔內容屬性方面的能力越強,且詞條具有很好的類別區分能力。

聚類結束后,可以獲得關鍵詞的詞頻數,TF*IDF,和權重。同時獲得的詞頻數,權重等具體數據將可以用于預警模塊中具體的指標參數計算,由圖11可知,其中“陜西”一詞,在文件中出現的次數是1次,權重為0,圖12為聚類結果。

4 結 語

通過對校園網絡輿情特點的分析,在一些門戶網站的信息收集、整理,能夠及時發現網絡輿情熱點。在現有的基礎上提出了一套適合校園網絡的輿情監控系統,根據現存的輿情指標,將輿論信息的發布、受眾傾向、信息擴散度和不同區域作為4大校園網輿情指標,并且實現了信息采集和輿情分析模,從而對網絡輿情進行實時監管。

參考文獻

[1] 于琨,孫新領.基于信息挖掘的高校網絡輿情監測系統開發[J].河南機電高等??茖W校學報,2012(1):24?26.

[2] 李舒晨,劉云,李勇,等.網絡輿情分析中網頁信息預處理方案的實現[J].電腦與電信,2008(10):30?33.

[3] 陸瑞.水利工程輿情分析模型及指標體系設計[D].武漢:華中科技大學,2011.

[4] 潘文富,郭友實.網絡輿情監測技術研究綜述[J].福建電腦,2011(8):39?41.

[5] 謝國強,藍立新.基于Web的網絡爬蟲技術研究[J].科教文匯,2008(4):198?199.

[6] 高承實.微博輿情監測指標體系研究[J].情報雜志,2011(9):66?70.

[7] 王粱.淺談突發公共事件中網絡輿情監測指標體系的應用[J].計算機光盤軟件與應用,2011(12):46?47.

[8] 任德志.基于網絡流量的主機安全防護系統研究與實現[D].長沙:國防科學技術大學,2010.

[9] 戰琴.基于AJAX技術的Deep Web爬蟲實現方法研究[D].青島:山東科技大學,2009.

[10] 龔靜,李安民.一種改進的k?means中文文本聚類算法[J].湖南工業大學學報,2008(2):52?54.

[11] 錢愛兵.基于主題的網絡輿情分析模型及其實現[J].現代圖書情報技術,2008(4):49?55.

主站蜘蛛池模板: 国产好痛疼轻点好爽的视频| 97se综合| 色135综合网| 日本成人精品视频| 久久香蕉国产线看观| 欧美人与牲动交a欧美精品| 国产超碰一区二区三区| 自偷自拍三级全三级视频| 国产97视频在线| 99久久这里只精品麻豆| 无码免费视频| 人妻无码一区二区视频| 欧美日韩第二页| 日本三级精品| 2022国产91精品久久久久久| 欧美一级色视频| yjizz视频最新网站在线| 久久青草免费91线频观看不卡| 久久国产成人精品国产成人亚洲| 欧美性猛交一区二区三区| 999福利激情视频| 永久免费无码成人网站| AV不卡在线永久免费观看| 91综合色区亚洲熟妇p| 亚洲av片在线免费观看| 毛片国产精品完整版| 热久久这里是精品6免费观看| 日本尹人综合香蕉在线观看| 亚洲免费人成影院| 97视频在线观看免费视频| 精品国产免费人成在线观看| 2020精品极品国产色在线观看| 91欧洲国产日韩在线人成| 成人中文在线| 色天堂无毒不卡| 自偷自拍三级全三级视频| 片在线无码观看| 亚洲一区毛片| 亚洲无码高清免费视频亚洲| 久99久热只有精品国产15| 91美女在线| 五月综合色婷婷| 国产精品蜜芽在线观看| 国产精品30p| 狠狠躁天天躁夜夜躁婷婷| 九色在线观看视频| 9966国产精品视频| 国产成人欧美| 无码AV高清毛片中国一级毛片| 久久精品亚洲专区| 欧美精品在线观看视频| 亚洲人成电影在线播放| 97在线免费| 91麻豆国产在线| jizz在线免费播放| 九色视频最新网址| 波多野结衣第一页| 91精品国产无线乱码在线| 99久视频| 免费又黄又爽又猛大片午夜| 久久久精品无码一二三区| 91毛片网| 又爽又黄又无遮挡网站| 国产精品女主播| 18黑白丝水手服自慰喷水网站| 免费A∨中文乱码专区| 亚洲精品人成网线在线 | 老司机久久99久久精品播放| 一区二区三区成人| 欧美激情视频二区三区| 中国成人在线视频| 刘亦菲一区二区在线观看| www.亚洲天堂| 自拍亚洲欧美精品| 91在线视频福利| 92午夜福利影院一区二区三区| 在线观看亚洲天堂| 国产一级二级在线观看| 一级爆乳无码av| 九九九国产| 婷婷色婷婷| 在线99视频|