999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度峰值優(yōu)化K-means聚類算法的微博輿情分析*

2022-05-10 07:27:16葉瑾玫
關(guān)鍵詞:文本

葉瑾玫 程 科

(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)

1 引言

隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了人們工作和生活中非常重要的一部分。同時(shí),互聯(lián)網(wǎng)上的信息量也在不斷的增長(zhǎng),甚至出現(xiàn)了信息的“大爆炸”。當(dāng)今的互聯(lián)網(wǎng)包含著各種各樣的信息,網(wǎng)絡(luò)輿情(Public Opinion)是其中非常重要的一種。

特別是微博的興起,對(duì)企業(yè)網(wǎng)絡(luò)輿情以及社會(huì)事件的發(fā)展趨勢(shì)產(chǎn)生著巨大的影響力,作為互聯(lián)網(wǎng)中的一種新媒體[1],企業(yè)將其運(yùn)用到營(yíng)銷活動(dòng)、產(chǎn)品或其他企業(yè)信息發(fā)布等管理活動(dòng)中,同時(shí)也能夠讓消費(fèi)者隨時(shí)隨地收聽企業(yè)微博“直播”,對(duì)促進(jìn)社會(huì)的經(jīng)濟(jì)建設(shè)具有極其重要的意義。

聚類分析是基于相似性的思想,指將相似度較高的數(shù)據(jù)對(duì)象劃分為同一類簇,不同類別之間相似度較低的分析過程,通常又被稱為無監(jiān)督學(xué)習(xí)[2],與監(jiān)督學(xué)習(xí)不同的是,在群集中沒有指示數(shù)據(jù)類型的分類或者分組信息。現(xiàn)階段的聚類算法中,最常用的有一下幾種[3]:基于密度的聚類、基于網(wǎng)格的聚類、基于層次的聚類、基于劃分的聚類。

K-means作為一種最經(jīng)典、使用場(chǎng)景最廣泛的一種基于劃分的聚類算法[4],主要用于網(wǎng)絡(luò)輿情的聚類分析。然而,該算法存在一些缺陷,隨機(jī)選取的k個(gè)聚類中心點(diǎn)導(dǎo)致結(jié)果有很大的隨機(jī)性,聚類結(jié)果很大程度上取決于一開始選取的位置,不能保證全局最優(yōu)。針對(duì)上述情況,研究者圍繞K-means算法展開了各種研究,加以改進(jìn)算法缺點(diǎn)。文獻(xiàn)[5]提出基于直方圖方法從空間上劃分樣本數(shù)據(jù),憑借數(shù)據(jù)分散布局具有本身一定的特色來找出初始類簇中心;文獻(xiàn)[6]提出依據(jù)每個(gè)樣本對(duì)象與類中心點(diǎn)的距離與之輪廓系數(shù)自適應(yīng)地選擇高質(zhì)量樣本來確定初始聚類中心;文獻(xiàn)[7]生成樣本的初始中心是利用密度敏感的相似性度量計(jì)算出對(duì)象的密度,該中心的生成具有啟發(fā)性,以均衡化函數(shù)為基則確定K值。本文根據(jù)每個(gè)數(shù)據(jù)對(duì)象的密度分布來選擇峰值密度較高的對(duì)象作為初始類中心點(diǎn),并以初始中心數(shù)來確定類別數(shù),使用選定的初始聚類中心進(jìn)行聚類,提高數(shù)據(jù)分析的準(zhǔn)確性、快速性,彌補(bǔ)了K-means算法選擇初始聚類中心和類別數(shù)目的缺陷,且使得算法迭代次數(shù)大大減少。

2 改進(jìn)的FSDPC算法

2.1 FSDPC算法

FSDPC算法是由Alex Rodriguez和Alessandro Laio于2014年提出,并將論文《Clustering by fast search and find ofdensity peaks》發(fā) 表 在Science[8]上。主要思想是尋找被低密度區(qū)域分離的高密度區(qū)域,類簇中心點(diǎn)的密度大于周圍鄰居點(diǎn)的密度并且類簇中心點(diǎn)與更高密度點(diǎn)之間的距離相對(duì)較大。因此,F(xiàn)SDPC算法主要有兩個(gè)需要計(jì)算的量:局部密度ρi和相對(duì)最小距離δi(與局部密度更大的樣本點(diǎn)之間的最小距離)[9]。這兩個(gè)量都與點(diǎn)之間的距離dij相關(guān)。對(duì)于點(diǎn)的局部密度ρi定義方式有兩種:

dij表示兩點(diǎn)i和j之間的歐式距離,dc>0為截?cái)嗑嚯x,每個(gè)數(shù)據(jù)點(diǎn)與之距離不超過dc的點(diǎn)數(shù)目大概占數(shù)據(jù)點(diǎn)總數(shù)的2%。

δi與比自己局部密度更高的點(diǎn)的距離定義為

δi是具有最高局部密度的點(diǎn)與所有其他點(diǎn)之間的距離的最大值。定義為

計(jì)算出各點(diǎn)的ρi和δi值后,根據(jù)ρi和δi值生成決策圖,如圖1所示。

圖1 決策圖

從決策圖中可以選出具有較大局部密度ρi值和較大距離δi值,γi=ρi*δi,γi按從大到小進(jìn)行排序,γi的值越大則數(shù)據(jù)點(diǎn)越有可能為聚類中心[10]。

2.2 改進(jìn)的FSDPC算法

在上述局部密度的計(jì)算公式中,截?cái)嗑嚯xdc參數(shù)需要手動(dòng)設(shè)置這一缺陷直接影響了初始中心選取結(jié)果,即使將閾值定為選取數(shù)據(jù)對(duì)象的2%,但該算法的魯棒性依然較弱,本文介紹基于相鄰元素最大差值dc選取法。

計(jì)算出數(shù)據(jù)對(duì)象間的歐氏距離按升序進(jìn)行排序,獲取到距離集合di={di1,di2,…,din}(i=1,2,…,n),由圖2可以看出,在同一個(gè)簇中數(shù)據(jù)點(diǎn)到數(shù)據(jù)對(duì)象i的距離較小,而另一個(gè)簇中的數(shù)據(jù)點(diǎn)到i的距離差距較大,這時(shí)距離集合可以設(shè)為di={di1,di2,…,dij,di(j+1),…,din}(j=1,2,…,n;i≠j),其中,dij=M,di(j+1)=L。M和L兩個(gè)相鄰的元素之間有著最大差值,則理想的截?cái)嗑嚯xdci可以定義為

圖2 截?cái)嗑嚯x示意圖

對(duì)于離群點(diǎn),從圖3中可以看出離群點(diǎn)與簇內(nèi)數(shù)據(jù)點(diǎn)同樣有著最大差值,即dij=M,di(j+1)=N,則理想的截?cái)嗑嚯x為

將各個(gè)數(shù)據(jù)對(duì)象的截?cái)嗑嚯x組成集合D={dc1,dc2,…,dcn},該集合中包含有數(shù)據(jù)群臨界點(diǎn)以及孤立點(diǎn)的截?cái)嗑嚯x,為避免受到這些噪聲點(diǎn)的影響,dc應(yīng)取集合D中擁有最小截?cái)嗑嚯x的數(shù)據(jù)對(duì)象值,即dc=min(D)。

3 改進(jìn)的k-means算法

3.1 K-means算法

K-means算法的思想很簡(jiǎn)單,把給定的樣本集按照樣本之間的距離大小劃分開來,取k個(gè)類簇和k個(gè)初始中心,將數(shù)據(jù)樣本點(diǎn)分配到與之距離最近的類簇中,以保證各簇中數(shù)據(jù)對(duì)象與簇中心的距離之差的平方總和最小,簇和簇之間的距離盡量拉大[11],數(shù)據(jù)對(duì)象間的相似程度以歐式距離為準(zhǔn)則,采用方差作為目標(biāo)函數(shù),其定義為

K-means算法實(shí)現(xiàn)過程:

1)從樣本集中隨機(jī)指定k個(gè)點(diǎn)作為初始類簇中心;

3)重新計(jì)算每個(gè)集合的中心點(diǎn);

4)新計(jì)算出來的中心點(diǎn)位置變化不大,趨于穩(wěn)定,則聚類結(jié)束,反之循環(huán)上述步驟2)和3)。

3.2 改進(jìn)的K-means聚類

將改進(jìn)的FSDPC算法獲取到的初始聚類簇中心在K-means算法中進(jìn)行迭代,得到最終的微博聚類結(jié)果。實(shí)現(xiàn)過程如表1所示。

表1 聚類實(shí)現(xiàn)過程

4 實(shí)驗(yàn)過程與結(jié)果分析

4.1 實(shí)驗(yàn)過程設(shè)計(jì)

為驗(yàn)證改進(jìn)后的算法在聚類效果上的優(yōu)越性,分別用傳統(tǒng)的K-means算法和本文基于密度峰值優(yōu)化后的K-means算法應(yīng)用于微博輿情分析實(shí)驗(yàn)中,然后根據(jù)實(shí)驗(yàn)結(jié)果對(duì)比分析,輿情分析應(yīng)用的數(shù)據(jù)集情況見表2。

表2 實(shí)驗(yàn)數(shù)據(jù)集

輿情采集的爬取腳本用JavaScript語言編寫,以微博中討論較多,比較熱門的話題作為關(guān)鍵詞抓取數(shù)據(jù)。然后對(duì)文本集預(yù)處理,利用分詞系統(tǒng)ICTCLAS對(duì)微博文檔進(jìn)行分詞、搜集停用詞表過濾掉已經(jīng)淘汰的詞語,建立微博文本的向量空間模型(Vector Space Model,VSM),使用向量空間信息檢索范例提出的文本特征計(jì)算方法TF-IDF(詞頻-逆文檔頻率)來計(jì)算權(quán)重。

4.2 實(shí)驗(yàn)結(jié)果分析

本文采用F度量值作為聚類結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。該方法結(jié)合了精確率(P)和召回率(R)兩個(gè)指標(biāo),P和R分別由下面的計(jì)算公式得到[12]:

其中,TP為檢索到的相關(guān)文本,即聚類的正確文檔數(shù),F(xiàn)P為聚類到的不正確的文本數(shù),F(xiàn)N為未聚類到的正確的文本數(shù),TP+FP表示所有相關(guān)的文本數(shù),即聚類到的所有正確的文本總數(shù),TP+FN表示用來聚類的文本總數(shù)。引出F度量值來綜合精確率和召回率兩個(gè)指標(biāo),度量值計(jì)算公式為

本文提出的算法和傳統(tǒng)的K-means算法相比較,在F度量值和迭代次數(shù)上均有明顯變化,實(shí)驗(yàn)結(jié)果如表3,表4所示。

表3 傳統(tǒng)的K-means算法的聚類結(jié)果

表4 本文算法的聚類結(jié)果

從表3,表4的結(jié)果對(duì)比可以看出,改進(jìn)后的算法聚類效果對(duì)比傳統(tǒng)的K-means算法,雖然有一類別F值稍稍偏低,但其他三類都明顯高于傳統(tǒng)K-means算法,在迭代次數(shù)上,改進(jìn)后的算法明顯要少于傳統(tǒng)的K-means算法,從而證明改進(jìn)后的算法減少了聚類時(shí)間。由此可見,改進(jìn)后的K-means算法微博聚類分析上具有更高的準(zhǔn)確度,而且保證了分析結(jié)果的穩(wěn)定性,提高了在輿情分析過程中的效率,在輿情熱點(diǎn)話題上具有更好的挖掘效果。

5 結(jié)語

本文主要對(duì)微博不同類別的輿情進(jìn)行聚類分析,為了提高聚類效果,克服K-means算法隨機(jī)選取初始聚類中心的缺陷,引入密度峰值算法,并對(duì)其相關(guān)參數(shù)進(jìn)行優(yōu)化,在一定程度上提升了聚類算法的全局搜索能力,更加準(zhǔn)確、高效地對(duì)微博輿情進(jìn)行聚類分析。聚類結(jié)果表明,密度峰值優(yōu)化后的K-means算法具有更好的聚類效果,能夠更加精確地挖掘出微博的熱點(diǎn)話題。

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
重點(diǎn):論述類文本閱讀
重點(diǎn):實(shí)用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開對(duì)具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
主站蜘蛛池模板: 国产一级裸网站| 亚洲成人一区二区三区| 日韩黄色大片免费看| 欧美亚洲日韩中文| 国产精品极品美女自在线看免费一区二区| 日韩成人免费网站| 91丝袜在线观看| 欧美成人免费一区在线播放| 日日碰狠狠添天天爽| 日韩欧美91| 精品无码日韩国产不卡av| 国产凹凸视频在线观看| 国产成人乱无码视频| 亚国产欧美在线人成| 国语少妇高潮| 国产成本人片免费a∨短片| 亚洲男人的天堂网| 欧美成人日韩| 女同久久精品国产99国| 久久精品人人做人人综合试看| 熟妇丰满人妻| 成人综合网址| 丝袜国产一区| 国产喷水视频| 91精品视频在线播放| 沈阳少妇高潮在线| 国产微拍一区| 国产人人射| 国产精品极品美女自在线| 日韩精品一区二区三区视频免费看| 黄色成年视频| 国产丰满成熟女性性满足视频| 亚洲日韩高清在线亚洲专区| 97视频在线观看免费视频| 2020极品精品国产| 欧美国产精品不卡在线观看| 精品综合久久久久久97| 久久黄色影院| 国产av一码二码三码无码| 欧美日韩中文字幕二区三区| 国产美女无遮挡免费视频网站| 国产精品久线在线观看| 欧美成人精品欧美一级乱黄| 中文字幕一区二区人妻电影| 露脸一二三区国语对白| 91国内在线观看| 国产成a人片在线播放| 国产欧美日韩在线一区| 91亚洲精品国产自在现线| 国产主播一区二区三区| 伊人网址在线| 夜夜爽免费视频| 国产成人无码播放| 欧美日韩另类在线| 国产一区二区福利| 国产一区二区三区日韩精品| 亚卅精品无码久久毛片乌克兰| 亚洲天堂网2014| 毛片免费观看视频| 中文字幕久久波多野结衣| 日本亚洲国产一区二区三区| 国产极品粉嫩小泬免费看| 在线免费无码视频| 污网站在线观看视频| 国产成人av一区二区三区| 国产免费看久久久| 国产一区二区免费播放| 色综合久久久久8天国| 亚洲欧洲自拍拍偷午夜色| 成人久久18免费网站| 91精品国产一区自在线拍| 日韩美一区二区| 国产一级裸网站| 97国产成人无码精品久久久| 狼友av永久网站免费观看| 四虎永久在线| 国产视频入口| 无码日韩精品91超碰| 人人妻人人澡人人爽欧美一区| 日本午夜视频在线观看| 特级毛片免费视频| 在线观看免费黄色网址|