999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

K-means聚類算法及其在網(wǎng)絡(luò)輿情中的應(yīng)用

2018-11-19 11:05:10徐建國韓青君
軟件導(dǎo)刊 2018年11期
關(guān)鍵詞:分析

徐建國,韓青君,李 青

(1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590;2.山東政法學(xué)院 公共管理學(xué)院,山東 濟(jì)南 250014)

0 引言

2018年8月20日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布第42次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2018年6月,中國網(wǎng)民規(guī)模已高達(dá)8.02億,普及率達(dá)到57.7%,2018年上半年新增網(wǎng)民數(shù)量較上一年末增長3.8%[1]。互聯(lián)網(wǎng)成為社會大眾獲取信息、發(fā)布信息、交流觀點(diǎn)最主要的平臺[2]。網(wǎng)絡(luò)輿情成為社會輿情的最主要組成部分,而網(wǎng)絡(luò)因其特有的開放性、自由性、傳播速度快等特點(diǎn),很容易使網(wǎng)民在發(fā)表自己觀點(diǎn)的同時(shí)受到外界誘導(dǎo),也非常易于虛假信息的傳播。因此,網(wǎng)絡(luò)輿情熱點(diǎn)的準(zhǔn)確獲取與分析對政府掌握輿情動態(tài)以及維護(hù)社會穩(wěn)定具有重要的現(xiàn)實(shí)意義。

通過檢索相關(guān)文獻(xiàn)發(fā)現(xiàn),國外很早就已經(jīng)出現(xiàn)輿情熱點(diǎn)相關(guān)研究。1996年,首次出現(xiàn)話題檢測與跟蹤技術(shù)(Topic Detection and Tracking,TDT)[3],主要研究報(bào)道切分、關(guān)聯(lián)發(fā)現(xiàn)、話題跟蹤、新事件發(fā)現(xiàn)、話題發(fā)現(xiàn)5個方面;而后,馬賽諸塞大學(xué)探索形成了語料庫,為TDT研究打下堅(jiān)實(shí)基礎(chǔ);Manquan Yu等[4]采用層次聚類算法將新聞?wù)Z料進(jìn)行分類,避免了相似話題聚攏的問題,也可將時(shí)間跨度較大的幾個話題組間聚類為一個話題;Zheng等[5]利用Aging Theory對BBS中熱點(diǎn)話題進(jìn)行識別,可快速挖掘任意時(shí)間段內(nèi)的熱點(diǎn)話題。國內(nèi)關(guān)于輿情熱點(diǎn)的研究起步較晚,但隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,越來越多學(xué)者關(guān)注輿情熱點(diǎn)問題。其中,王偉、許鑫[6]構(gòu)建了基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)及分析系統(tǒng),通過二次聚類提高輿情相關(guān)度質(zhì)量及輿情分析準(zhǔn)確度;張壽華、劉振鵬[7]針對網(wǎng)絡(luò)輿情發(fā)生和傳播的特點(diǎn),提出自動挖掘熱點(diǎn)關(guān)鍵詞并根據(jù)關(guān)鍵詞進(jìn)行話題聚類的方法;王亞民、胡悅[8]提出一種基于BTM模型的微博輿情熱點(diǎn)發(fā)現(xiàn)方法,有效解決了傳統(tǒng)模型在文本建模中的高維度、稀疏性問題,改善了熱點(diǎn)話題的發(fā)現(xiàn)質(zhì)量;鄧先均、楊雅茜等[9]使用幾種聚類算法對網(wǎng)絡(luò)輿情熱點(diǎn)話題監(jiān)測進(jìn)行對比試驗(yàn),進(jìn)而分析出更適用于熱點(diǎn)話題監(jiān)測的算法。因此,本文結(jié)合網(wǎng)路輿情特點(diǎn),在理解K-means算法的基礎(chǔ)上,將改進(jìn)后的K-means算法運(yùn)用于輿情熱點(diǎn)獲取與分析中,提高網(wǎng)絡(luò)輿情分析準(zhǔn)確度,為政府輿情管理工作提升技術(shù)保障。

1 K-means聚類算法

K-means聚類的基本原理是,首先隨機(jī)選取需要的k個聚類中心,計(jì)算每個樣本到聚類中心的距離,根據(jù)樣本點(diǎn)與k個聚類中心的距離可將所有樣本聚類成k個類,然后不斷地修正聚類中心,再計(jì)算每個樣本到新的聚類中心的距離,將所有樣本聚成k個類,由此循環(huán)往復(fù)直到每個類的大小幾乎不再發(fā)生變化,在閾值范圍內(nèi)停止,聚類完成[10]。5種常見的聚類算法分別是:劃分式聚類算法、層次式聚類算法、基于網(wǎng)格的聚類算法、基于密度的聚類算法和基于模型的聚類算法[11]。

K-means聚類算法中,指定聚類C=V2{V1}中心的特點(diǎn)使得到的聚類結(jié)果受人為干預(yù)影響大,還會導(dǎo)致不準(zhǔn)確的話題聚類結(jié)果。為解決該問題,進(jìn)一步改進(jìn)K-Means聚類算法,步驟如下[12]:

第一步,按照特征項(xiàng)個數(shù)由多到少對論壇主題特征向量排序,并存儲在D′={V1,V2,V3,…Vn}中,將V1作為第一個聚類中心,使聚類中心集合C={V1},確定聚類個數(shù)k。

第二步,設(shè)定n=0,從V2開始,依次比較D′中元素與聚類中心集合C中的元素是否含有相同特征項(xiàng)。若有,從D′中刪除該元素,反之,把該元素放入聚類中心集合C中,且n=n+1,直到n=k時(shí)停止,聚類中心集合為C={V1,V2,V3,…Vk}。

第四步,循環(huán)往復(fù)前2步,直到每個類的大小幾乎不再發(fā)生變化,在閾值范圍內(nèi)停止,聚類完成。

第五步,輸出聚類結(jié)果。

對于給定的論壇主題特征向量集D={T1,T2,T3,…Tn},可以得到k個聚類中心,這樣就把每個特征向量對應(yīng)的主題分到k個聚類中心。話題聚類后,根據(jù)話題存在的實(shí)際意義,對話題進(jìn)行過濾,以提高準(zhǔn)確性。

2 K-means聚類算法在網(wǎng)絡(luò)輿情中的應(yīng)用

K-means聚類分析目前在電子商務(wù)、圖情分析、生物科學(xué)、企業(yè)經(jīng)濟(jì)等領(lǐng)域都得到了有效應(yīng)用,如人體體型分類、圖書館主題挖掘、高校學(xué)生消費(fèi)數(shù)據(jù)、卷煙零售門店庫存分析等[14-17]。同時(shí),該算法也適用于網(wǎng)絡(luò)輿情中的輿情熱點(diǎn)獲取與分析,因?yàn)榫W(wǎng)絡(luò)輿情分散在互聯(lián)網(wǎng)各個網(wǎng)頁中,針對某一個網(wǎng)絡(luò)輿情事件的每一句留言或評論都是輿情熱點(diǎn)分析的范疇。所以,使用K-means聚類算法有助于將網(wǎng)民的相同觀點(diǎn)與不同觀點(diǎn)劃分到不同類,它是輿情數(shù)據(jù)處理的關(guān)鍵一步,算法精確與否關(guān)系到數(shù)據(jù)處理的精確度。

2.1 K-means聚類算法應(yīng)用流程

網(wǎng)絡(luò)輿情熱點(diǎn)提取主要是將獲取的輿情數(shù)據(jù)經(jīng)熱點(diǎn)提取算法劃分到不同話題簇中,并在需要時(shí)對話題簇進(jìn)行更新,以便政府管理人員快速發(fā)現(xiàn)有用信息,有助于監(jiān)督和了解互聯(lián)網(wǎng)上的輿論情況。本文分析使用K-means聚類算法實(shí)現(xiàn)以上要求,該算法的簡易流程如圖1所示。

圖1 K-means聚類算法應(yīng)用流程

2.2 實(shí)現(xiàn)過程

算法實(shí)現(xiàn)過程主要代碼如下:

print' Start Kmeans'

from sklearn.cluster import Kmeans

For k in range(3,5,1):

Clf=Kmeans(n_clusters=k)

S=clf,fit(weight)

Centroids=clf.cluster_centers_

#進(jìn)行降維處理

From sklearn.decomposition import PCA

Pca=PCA(n_components=2)

#輸出兩維

newData=pca.fit_transform(weight)

載入N維

Mark=['or','ob','og','oy','^r','+r','sr','dr','

For i in range(0,455,1):

Sign=''

markIndex=clf.labels_[i]

Plt.plot(newData[i][0],newData[i][1],mark[markIndex]

For j in range(numword):

If weight[i][j]>0.4:

Sign=sign+word[j]

Plt.text(newData[i][0],newData[i][1],sign,fontsize=6)

Plt.show()

3 結(jié)語

互聯(lián)網(wǎng)不斷發(fā)展使得網(wǎng)絡(luò)輿情的形成、傳播和發(fā)展復(fù)雜多變[18]。本文通過對比分析,對近年來網(wǎng)絡(luò)輿情熱點(diǎn)的獲取方法進(jìn)行了研究,在理解K-means聚類算法的基礎(chǔ)上進(jìn)一步改進(jìn)該算法,對新聞中的關(guān)鍵詞進(jìn)行聚類分析以獲得輿情熱點(diǎn),最后給出該算法的實(shí)現(xiàn)過程,以提高聚類性能的精度和穩(wěn)定性[19]。研究表明,該方法能為引導(dǎo)網(wǎng)絡(luò)輿情的發(fā)展方向提供依據(jù),也可及時(shí)防范誤導(dǎo)性言論對社會公眾的消極影響。然而,如何更加全面、準(zhǔn)確、深入地獲取輿情熱點(diǎn),深入挖掘輿情信息,仍需要更深入的研究。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 一区二区理伦视频| 国产a v无码专区亚洲av| 亚洲黄网视频| 成人看片欧美一区二区| 久久9966精品国产免费| 综合成人国产| 国产亚洲精品97在线观看| 丰满人妻一区二区三区视频| 欧美日韩国产成人高清视频| 色综合中文| 午夜视频在线观看免费网站| 国产成人一区二区| 久久国产乱子| 欧洲亚洲一区| 911亚洲精品| 在线观看国产精美视频| 视频二区亚洲精品| 日韩视频福利| 国产乱人激情H在线观看| 凹凸精品免费精品视频| 精品1区2区3区| 日本免费高清一区| 毛片卡一卡二| 人妻丰满熟妇av五码区| 18禁影院亚洲专区| 日本欧美午夜| 日本手机在线视频| 欧美一级黄色影院| 国产SUV精品一区二区| 亚洲美女高潮久久久久久久| 99无码中文字幕视频| 日韩大片免费观看视频播放| 久久综合九色综合97婷婷| 亚洲精品波多野结衣| 国产高清又黄又嫩的免费视频网站| 天天操天天噜| 国产精品性| 精品视频在线观看你懂的一区| 久久精品亚洲专区| 亚洲aⅴ天堂| 天堂网亚洲系列亚洲系列| 亚洲精品久综合蜜| 国产精品久久自在自2021| 第一区免费在线观看| 中文字幕首页系列人妻| 免费国产黄线在线观看| 日韩国产一区二区三区无码| 高清无码不卡视频| 欧洲亚洲一区| 97在线碰| 欧美日韩第三页| 秋霞午夜国产精品成人片| 91丝袜乱伦| 国产成人在线小视频| 99视频在线免费观看| 亚洲精品高清视频| 欧美成人免费一区在线播放| 色天堂无毒不卡| 免费国产高清视频| 国产一区二区色淫影院| 国内精品手机在线观看视频| 色综合久久综合网| 国产日韩欧美一区二区三区在线| 国产精品亚洲片在线va| 老司机久久精品视频| 亚洲中文字幕在线一区播放| 99视频在线免费看| 欧美一级高清免费a| 亚洲人成在线精品| 欧美日韩国产在线人| 日韩二区三区无| 91精品国产自产91精品资源| 国产农村妇女精品一二区| 亚洲va欧美va国产综合下载| 免费女人18毛片a级毛片视频| 亚洲天堂网2014| 久青草国产高清在线视频| 伊人久久大香线蕉影院| 亚洲伦理一区二区| 天天摸天天操免费播放小视频| 欧美亚洲国产精品第一页| 国产在线97|