999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)輿情中的大數(shù)據(jù)分析方法研究

2017-12-29 23:48:59常衛(wèi)東劉完芳
求知導(dǎo)刊 2017年28期

常衛(wèi)東+劉完芳

摘 要:網(wǎng)絡(luò)輿情是指在網(wǎng)絡(luò)空間中對(duì)網(wǎng)民和生活中的社會(huì)事件尤其是一些突發(fā)事件的看法和態(tài)度。網(wǎng)絡(luò)輿情通常涉及社會(huì)的熱點(diǎn)事件,因而經(jīng)常在網(wǎng)絡(luò)中快速傳播,成為人們談?wù)摰慕裹c(diǎn)。因而,對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和正確的引導(dǎo)顯得尤為重要。文章采用大數(shù)據(jù)分析方法分析網(wǎng)絡(luò)數(shù)據(jù),通過(guò)聚類(lèi)的方法發(fā)掘網(wǎng)絡(luò)輿情中的熱點(diǎn)問(wèn)題。實(shí)驗(yàn)證明該分析方法具有較高的熱點(diǎn)挖掘能力和及時(shí)的能力。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù)分析;統(tǒng)計(jì)方法

一、輿情信息的獲取

輿情分析的第一步是要對(duì)網(wǎng)頁(yè)中的信息進(jìn)行抓取,第二步是對(duì)抓取的網(wǎng)頁(yè)的信息進(jìn)行預(yù)處理。

對(duì)網(wǎng)頁(yè)信息抓取主要采用網(wǎng)絡(luò)爬蟲(chóng),爬蟲(chóng)的主要作用是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。它既可以爬取網(wǎng)頁(yè)鏈接,又可以爬取網(wǎng)頁(yè)的文本信息和圖像信息。它通過(guò)關(guān)鍵字的搜索將對(duì)應(yīng)的統(tǒng)一資源定位為相關(guān)的網(wǎng)頁(yè)頁(yè)面進(jìn)行抓取,通過(guò)對(duì)其進(jìn)行文本和圖像的解析,提取對(duì)應(yīng)網(wǎng)頁(yè)的文本和圖像信息并進(jìn)行保存。 本文中主要提取的是網(wǎng)頁(yè)的文本信息。

而中文分詞是把中文中的漢字系列分割為一個(gè)個(gè)獨(dú)立的中文詞匯。由于中文詞匯與詞匯之間的界限遠(yuǎn)不如英文單詞那樣清晰,因此,中文分詞也是一個(gè)技術(shù)難點(diǎn)。當(dāng)前中文分詞主要是從主要包括字符串匹配分詞方法和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法。字符串匹配分詞方法是事先通過(guò)一定的方法建立一個(gè)龐大的數(shù)據(jù)庫(kù)字典,按照一定的方法把待分詞的詞匯與數(shù)據(jù)庫(kù)字典中的詞進(jìn)行匹配從而實(shí)現(xiàn)分詞的方法。機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法是通過(guò)詞匯出現(xiàn)的頻率和在文中的含義等信息對(duì)漢字的這些特征進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)分詞。字符串匹配分詞方法比較準(zhǔn)確,但缺乏靈活性,機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法能對(duì)詞的語(yǔ)意進(jìn)行識(shí)別,但由于算法的不完善,準(zhǔn)確率不高,因此,在實(shí)際中通常是將這兩種結(jié)合來(lái)實(shí)現(xiàn)分詞。

中文分詞的詞性主要包括名詞、動(dòng)詞、形容詞和副詞等,形容詞和副詞常表示事物的狀態(tài)和特征,因而經(jīng)常能表明作者對(duì)事件的喜怒哀樂(lè)之情;動(dòng)詞一般就是用來(lái)表示動(dòng)作或狀態(tài),它是對(duì)事物采取的動(dòng)作的直接體現(xiàn)。這些詞在輿情分析中就顯得尤為重要。

二、文檔特征的提取

一個(gè)網(wǎng)頁(yè)的文本通過(guò)分詞后會(huì)有成百上千個(gè)中文詞匯,如果直接對(duì)其分類(lèi)會(huì)影響分類(lèi)的效率和準(zhǔn)確性。因此,在分類(lèi)前要去除一些無(wú)關(guān)的詞語(yǔ),留下最能代表文檔特征的一些分詞作為文檔的特征。文檔特征提取最主要的方法是把文檔的內(nèi)容和詞頻進(jìn)行結(jié)合。

文檔特征提取的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),從而降低向量空間維數(shù)。其中最重要的方法是分析詞頻。其基本原理是一個(gè)詞在一個(gè)文本中出現(xiàn)的次數(shù)越多,通常它在文本中就越重要。因此,可以計(jì)算詞在文檔中出現(xiàn)的概率即詞頻,來(lái)對(duì)文檔的特征進(jìn)行提取。另外,如果一個(gè)詞在很多的文檔中出現(xiàn),表明它在該文檔中的重要性越低,這個(gè)詞就不能代表該文檔的特征,文檔的貢獻(xiàn)度應(yīng)該就越小,也就是通過(guò)這個(gè)詞來(lái)區(qū)分文檔的區(qū)分度越小,可以用逆文檔頻率(idf)來(lái)度量詞在該文檔中的重要性。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。

設(shè)文檔d中詞w出現(xiàn)次數(shù)為count(w, d),文檔d中總詞數(shù)為size(d),則詞w在文檔d中的詞頻tf由下式計(jì)算。

即tf(w,d) = count(w, d) / size(d)。

詞w在整個(gè)文檔中的逆向詞頻idf為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,d)比值的對(duì)數(shù)。

即idf = log(n / docs(w,d))。

如果要對(duì)逆向詞頻歸一化可以采用如下的公式:

idf = log((n+0.5) / docs(w,d))/log(n+1)

tf-idf模型根據(jù)tf和idf為每一個(gè)文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢(xún)串q計(jì)算一個(gè)權(quán)值,用于表示查詢(xún)串q與文檔d的匹配度

tf-idf(q, d)

= sum { i = 1...k | tf-idf(w[i],d) }

= sum { i = 1...k | tf(w[i],d) * idf(w[i])}

三、文檔特征的分類(lèi)

文本特征的分類(lèi)是在事先確定的分類(lèi)標(biāo)準(zhǔn)下,根據(jù)文本的內(nèi)容確定待分類(lèi)的文本已知文本之間的類(lèi)型關(guān)聯(lián)。它和普通的數(shù)據(jù)分類(lèi)方法是一致的,原則上現(xiàn)有的數(shù)據(jù)分類(lèi)方法都可以實(shí)現(xiàn)這一功能。這一具體過(guò)程主要包括輸入訓(xùn)練和分類(lèi)兩個(gè)步驟,對(duì)應(yīng)的數(shù)據(jù)庫(kù)包括訓(xùn)練數(shù)據(jù)庫(kù)和檢測(cè)數(shù)據(jù)庫(kù)。訓(xùn)練數(shù)據(jù)庫(kù)為帶有分類(lèi)標(biāo)記的n個(gè)特征的若干個(gè)向量X組成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文檔向量的一個(gè)特征,y為該文檔的分類(lèi)標(biāo)記。檢測(cè)數(shù)據(jù)庫(kù)同樣是帶有n個(gè)特征的若干個(gè)向量X組成的集合只是缺少分類(lèi)標(biāo)記。輸出數(shù)據(jù)為標(biāo)記號(hào)的集合即檢測(cè)數(shù)據(jù)的分類(lèi)標(biāo)記。本文采用SVM分類(lèi)方法對(duì)文本分類(lèi),對(duì)于一組訓(xùn)練數(shù)據(jù) x=(w1,... wi ...,wn,y),在線(xiàn)性可分的情況下會(huì)有一個(gè)超平面,將這兩類(lèi)樣本完全分開(kāi),并且離超平面最近的向量與超平面之間的距離最大。

四、實(shí)驗(yàn)與分析

本實(shí)驗(yàn)數(shù)據(jù)來(lái)源于天涯社區(qū),它主要通過(guò)論壇、博客、微博為基礎(chǔ)提供一系列網(wǎng)友和網(wǎng)站之間,網(wǎng)友和網(wǎng)友之間互動(dòng)的虛擬綜合平臺(tái)。網(wǎng)友通過(guò)在其中發(fā)各種帖子能發(fā)表對(duì)各種事件的看法。實(shí)驗(yàn)中數(shù)據(jù)是從中獲取的1500個(gè)帖子,其中1200個(gè)帖子作為訓(xùn)練數(shù)據(jù),另外300個(gè)帖子作為測(cè)試數(shù)據(jù)。這1500個(gè)帖子包含六個(gè)話(huà)題,即經(jīng)濟(jì)、房產(chǎn)、體育、軍事、時(shí)尚和汽車(chē),每個(gè)帖子均帶有話(huà)題類(lèi)型的標(biāo)記以方便訓(xùn)練和測(cè)試。實(shí)驗(yàn)中采用SVM分類(lèi)方法對(duì)文本進(jìn)行分類(lèi)。

在信息檢索中通常采用召回率和精度衡量分類(lèi)系統(tǒng)對(duì)數(shù)據(jù)分類(lèi)的能力。召回率是檢索出的某一類(lèi)型的文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,它表明該文檔類(lèi)型的查全率。精度即正確率是在所有相關(guān)話(huà)題文檔中,檢索到的正確分類(lèi)文檔所占的比例,它表示分類(lèi)的準(zhǔn)確程度。上述六類(lèi)文檔分類(lèi)的召回率和精度如下表所示。

五、結(jié)束語(yǔ)

綜上所述,網(wǎng)絡(luò)輿情的分析在維護(hù)互聯(lián)網(wǎng)安全方面起到了重要的作用,通過(guò)網(wǎng)絡(luò)輿情分析挖掘網(wǎng)民所關(guān)心的熱點(diǎn)問(wèn)題,發(fā)現(xiàn)其中的意見(jiàn)領(lǐng)袖,對(duì)網(wǎng)絡(luò)輿情進(jìn)行正確的引導(dǎo)是工作的重點(diǎn)。同時(shí)要根據(jù)這些數(shù)據(jù)的實(shí)際情況,采用高效的算法保證輿情分析具有較快的響應(yīng)速度和較低的誤報(bào)率。

參考文獻(xiàn):

[1]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報(bào)雜志,2015,34(2):1-5.

[2]江華麗.中文分詞算法研究與分析 [J]. 物聯(lián)網(wǎng)技術(shù),2016(1):87-89.

[3]張鵬高,畢 曦.基于大數(shù)據(jù)的教育網(wǎng)絡(luò)輿情監(jiān)控與分析[J].中國(guó)教育信息化,2015(15):7-9.

主站蜘蛛池模板: 日韩亚洲综合在线| 午夜国产在线观看| 久久综合亚洲色一区二区三区| 欧美精品v欧洲精品| 亚洲精品第一页不卡| 亚洲第一黄色网址| 国产成人亚洲无吗淙合青草| 欧美成在线视频| 日本91视频| 999国产精品永久免费视频精品久久 | 国产日韩欧美精品区性色| 日本一区二区三区精品国产| 亚洲欧美日韩综合二区三区| 超清无码熟妇人妻AV在线绿巨人| 日本欧美一二三区色视频| 国产夜色视频| 青青青国产精品国产精品美女| 色综合狠狠操| 午夜国产理论| 中文字幕 91| 亚洲性影院| 男女猛烈无遮挡午夜视频| 综合网久久| 高清精品美女在线播放| 亚洲国产中文综合专区在| 欧美日韩国产精品va| 国产亚洲欧美另类一区二区| 精品少妇人妻av无码久久| 国产在线视频二区| 波多野吉衣一区二区三区av| 91高清在线视频| 91福利国产成人精品导航| 国产亚洲精品资源在线26u| 国产在线视频福利资源站| 国产网友愉拍精品视频| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲女同欧美在线| 曰AV在线无码| 久久久久久久蜜桃| 欧美特黄一免在线观看| 亚洲人成网站观看在线观看| 一级毛片免费不卡在线| 亚洲视频免| 香蕉久人久人青草青草| 香蕉久久永久视频| 欧美日韩在线成人| 国产人成在线视频| 国产一级视频久久| 成人福利在线看| 国产精品手机在线观看你懂的| 91网在线| 色老头综合网| 久久国产精品娇妻素人| 成人精品视频一区二区在线 | 精品第一国产综合精品Aⅴ| 久久天天躁狠狠躁夜夜2020一| 亚洲精品无码日韩国产不卡| 天天躁夜夜躁狠狠躁图片| 亚洲视频一区在线| 欧美成人aⅴ| 日韩久久精品无码aV| 国产成人三级在线观看视频| 欧美日在线观看| 黄色网站不卡无码| 国产日韩精品欧美一区灰| 久热这里只有精品6| 国产精品任我爽爆在线播放6080 | 国产人碰人摸人爱免费视频| 四虎在线观看视频高清无码| 亚洲一区二区成人| 欧美天天干| 欧美午夜在线视频| 国产福利拍拍拍| 日韩高清无码免费| 91成人在线免费视频| 一级片一区| 福利国产微拍广场一区视频在线| 久久精品人人做人人爽97| 久热中文字幕在线| 国产乱子伦手机在线| 亚洲无码精品在线播放| 国产免费人成视频网|