999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式數(shù)據(jù)挖掘算法在熱點(diǎn)微博分析系統(tǒng)中的應(yīng)用

2018-11-12 03:13:42黃克清
數(shù)字通信世界 2018年10期
關(guān)鍵詞:數(shù)據(jù)挖掘分類分析

朱 賀,黃克清

(中國(guó)電子科技集團(tuán)第15研究所,北京 100083)

1 引言

二十一世紀(jì)是互聯(lián)網(wǎng)的時(shí)代,如今互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠帧;ヂ?lián)網(wǎng)信息鋪天蓋地的進(jìn)入人們的視野中,這其中大量的信息產(chǎn)生的了大量的數(shù)據(jù)[1]。然而,傳統(tǒng)的數(shù)據(jù)處理能力已經(jīng)不能夠滿足互聯(lián)網(wǎng)時(shí)代對(duì)數(shù)據(jù)分析的需求,因此一種切實(shí)可行、高效的數(shù)據(jù)處理技術(shù)越來越受人們的關(guān)注。分布式數(shù)據(jù)挖掘算法作為近些年新起的數(shù)據(jù)分析方法,由于其高效的計(jì)算能力和數(shù)據(jù)處理能力已經(jīng)適用于各個(gè)行業(yè)領(lǐng)域中[2]。

針對(duì)大部分分布式計(jì)算環(huán)境廣泛應(yīng)用于互聯(lián)網(wǎng)中。本文著重對(duì)分布式數(shù)據(jù)挖局算法在熱點(diǎn)微博分析系統(tǒng)的應(yīng)用進(jìn)行了研究,對(duì)數(shù)據(jù)挖掘算法的基本設(shè)計(jì)思想和相關(guān)算法分析的基礎(chǔ)上,設(shè)計(jì)一套基于分布式數(shù)據(jù)挖掘算法的熱點(diǎn)微博分析系統(tǒng)。本系統(tǒng)的設(shè)計(jì)思路為:通過貝葉斯分類算法完成對(duì)文本的分類;通過K-Means算法實(shí)現(xiàn)對(duì)微博相關(guān)特征的聚類分析。

2 樸素貝葉斯分類算法的設(shè)計(jì)

樸素貝葉斯分類算法設(shè)計(jì)的理念在于對(duì)貝葉斯分類算法的重組的基礎(chǔ)上,通過編程完成了分布式數(shù)據(jù)挖掘算法的構(gòu)建。貝葉斯文本分類算法的流程圖大致可設(shè)計(jì)為如圖1所示的結(jié)構(gòu)。

分析圖1可知,貝葉斯分類算法可以設(shè)計(jì)可以概括為三步:第一,實(shí)現(xiàn)對(duì)訓(xùn)練集的規(guī)劃;第二,實(shí)現(xiàn)對(duì)訓(xùn)練集的精簡(jiǎn);第三,實(shí)現(xiàn)對(duì)測(cè)試集的規(guī)劃[3]。經(jīng)實(shí)踐應(yīng)用表明,樸素貝葉斯分類算法所實(shí)現(xiàn)的文本分類是很難滿足實(shí)際需求的,故需在樸素貝葉斯分類算法的基礎(chǔ)上引入TFIDF計(jì)算,如圖2所示。引入TFIDF計(jì)算的樸素貝葉斯分類算法從根本增強(qiáng)了分布式貝葉斯的實(shí)際研究意義。

圖1 貝葉斯分類算法流程圖

圖2 改進(jìn)后貝葉斯分類算法實(shí)現(xiàn)步驟

3 分布式數(shù)據(jù)挖掘K-Means算法的設(shè)計(jì)

分布式數(shù)據(jù)挖掘K-Means算法是基于K-Means算法實(shí)現(xiàn)的,該算法的實(shí)現(xiàn)步驟是在傳統(tǒng)K-Means聚類算法的基礎(chǔ)上完成的。

分布式數(shù)據(jù)挖掘K-Means算法實(shí)現(xiàn)步驟:第一,將所有的數(shù)據(jù)樣本進(jìn)行分類,保證其在各自的節(jié)點(diǎn)上,并保證每個(gè)節(jié)點(diǎn)只對(duì)其自身的數(shù)據(jù)樣本進(jìn)行運(yùn)算;第二,以“全局變量”的原則對(duì)本地所有數(shù)據(jù)樣本的簇進(jìn)行計(jì)算;第三,對(duì)比第二步計(jì)算的結(jié)果,若該結(jié)果與整個(gè)數(shù)據(jù)樣本的中心相同,則此時(shí)的分類結(jié)果為最優(yōu);若計(jì)算結(jié)果不一致,則重復(fù)第二步的計(jì)算,直至滿足要求[4]。分布式數(shù)據(jù)挖掘K-Means算法的具體計(jì)算流程如圖3所示:

4 分布式數(shù)據(jù)挖掘算法的應(yīng)用

本文以熱點(diǎn)微博分析為研究對(duì)象,著重對(duì)分布式數(shù)據(jù)挖掘算法在其中的應(yīng)用效果進(jìn)行研究分析,故需對(duì)熱點(diǎn)微博分析系統(tǒng)的基本組成進(jìn)行說明。簡(jiǎn)單的說,熱點(diǎn)微博分析系統(tǒng)主要包括有:數(shù)據(jù)預(yù)處理、文本處理、相關(guān)特征獲取及預(yù)處理以及最終的分析等幾個(gè)部分[5]。具體如圖4所示:

圖3 分布式數(shù)據(jù)挖掘K-Means算法計(jì)算過程

圖4 熱點(diǎn)微博分析系統(tǒng)組成圖

在圖4所述的幾個(gè)組成部分中,若想準(zhǔn)備、快速的實(shí)現(xiàn)對(duì)熱點(diǎn)微博的分析,主要部分是對(duì)微博相關(guān)特征信息的獲取,并對(duì)該特征進(jìn)行預(yù)處理。

4.1 基于分布式樸素貝葉斯算法實(shí)現(xiàn)對(duì)特征量的處理

本文的分布式樸素貝葉斯算法文本分類是通過兩個(gè)步驟實(shí)現(xiàn)的。其一,完成對(duì)已知的數(shù)據(jù)樣本的訓(xùn)練;其二,完成對(duì)數(shù)據(jù)集的測(cè)試。因此,基于分布式樸素貝葉斯算法實(shí)現(xiàn)對(duì)文本分類算法的設(shè)計(jì)主要包括了對(duì)訓(xùn)練集數(shù)據(jù)處理的設(shè)計(jì)和對(duì)測(cè)試集數(shù)據(jù)處理的設(shè)計(jì)。為了確保對(duì)微博進(jìn)行精準(zhǔn)、快速的分析,本文引入了IKAnalyzer分詞器。基于上述步驟設(shè)計(jì)的文本分類軟件界面如圖5所示:

圖5 文本分類軟件截面圖

4.2 基于分布式K-Means算法的特征向量處理

基于3.1實(shí)現(xiàn)了對(duì)微博文本內(nèi)容的分類處理,在此基礎(chǔ)上,本文基于分布式K-Means算法實(shí)現(xiàn)對(duì)熱點(diǎn)微博信息的歸類劃分,進(jìn)而得到微博的熱點(diǎn)信息。經(jīng)分析,本文選取轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)以及點(diǎn)贊數(shù)三項(xiàng)指標(biāo)作為熱點(diǎn)微博的特征向量?;诜植际終-Means算法實(shí)現(xiàn)對(duì)熱點(diǎn)微博特征向量的處理,需要進(jìn)行如下步驟的計(jì)算:

首先,將數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)分配至離其最近的群中,并通過式(1)的計(jì)算替換該群。

本文將各個(gè)數(shù)據(jù)樣本之間的相對(duì)距離采用歐式距離作為評(píng)價(jià)標(biāo)準(zhǔn),其計(jì)算公式為:

其中,d為兩個(gè)數(shù)據(jù)樣本之間的距離,ci為該群的中心,x為屬于該群數(shù)據(jù)樣本的集合點(diǎn)。

通過上述計(jì)算得到熱點(diǎn)微博數(shù)據(jù)樣本的聚類,基于K-Means算法度熱點(diǎn)微博特征向量的計(jì)算,從而得出某條微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)以及點(diǎn)贊數(shù),從而可以確定該條微博是否為熱點(diǎn)微博。

5 基于分布式數(shù)據(jù)算法熱點(diǎn)微博分析系統(tǒng)實(shí)驗(yàn)仿真

本文所搭建的熱點(diǎn)微博分析系統(tǒng)是基于貝葉斯分類方法對(duì)微博文本分類的基礎(chǔ)上,基于分布式K-Means聚類算法對(duì)熱點(diǎn)微博的特征向量進(jìn)行細(xì)分類并最終獲得劃分結(jié)果。

本次實(shí)驗(yàn)仿真采取對(duì)比的方式驗(yàn)證分布式數(shù)據(jù)算法在熱點(diǎn)微博分析系統(tǒng)中的應(yīng)用效果。該實(shí)驗(yàn)對(duì)照組采用的數(shù)據(jù)分析方法是在單機(jī)環(huán)境下進(jìn)行的。除此之外,二者所處理的數(shù)據(jù)大小和內(nèi)容是完全一致的。最終熱點(diǎn)微博分析結(jié)果如表1所示:

6 結(jié)束語(yǔ)

當(dāng)前,正處于互聯(lián)網(wǎng)時(shí)代,在如今大數(shù)據(jù)時(shí)代中,如何快速、準(zhǔn)備的掌握熱點(diǎn)信息是一個(gè)國(guó)家、一個(gè)企業(yè)、個(gè)體能夠正確做出決策的基礎(chǔ)。本文以“熱點(diǎn)微博”為研究對(duì)象,著重對(duì)分布式數(shù)據(jù)挖掘算法進(jìn)行了研究。本文基于貝葉斯算法對(duì)微博文本分類結(jié)合基于K-Means算法對(duì)熱點(diǎn)微博聚類劃分兩步驟設(shè)計(jì)了熱點(diǎn)微博分析系統(tǒng)。并通過實(shí)驗(yàn)證明:基于分布式貝葉斯算法和分布式K-Means算法設(shè)計(jì)的熱點(diǎn)微博分析系統(tǒng)的性能遠(yuǎn)優(yōu)于單機(jī)環(huán)境下的數(shù)據(jù)分析系統(tǒng)。

表1 不同算法下熱點(diǎn)微博分析效果對(duì)比

猜你喜歡
數(shù)據(jù)挖掘分類分析
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
分類討論求坐標(biāo)
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 亚洲不卡av中文在线| 丁香亚洲综合五月天婷婷| 黄片一区二区三区| 天天激情综合| 中文字幕亚洲综久久2021| 久久久精品国产亚洲AV日韩| 国产精品主播| 色综合天天综合中文网| 国产高清在线观看| 精品无码一区二区三区电影| 青青操国产| 99精品福利视频| 国产色爱av资源综合区| 亚洲精品视频在线观看视频| 国产18页| 国产午夜小视频| 午夜电影在线观看国产1区| 久久久久青草大香线综合精品| 欧美日韩久久综合| 国产成年无码AⅤ片在线| 日本人妻一区二区三区不卡影院| 啪啪永久免费av| 日韩AV无码免费一二三区| 免费一级无码在线网站| 久久鸭综合久久国产| 亚洲高清中文字幕| 国产xx在线观看| 伊人中文网| 日韩一级二级三级| 91福利一区二区三区| a国产精品| 青青草国产一区二区三区| 国产一区二区福利| 久久伊人操| 亚洲看片网| 激情综合网址| 91精品国产情侣高潮露脸| 午夜精品一区二区蜜桃| 国产一区二区三区精品欧美日韩| 亚洲欧美极品| 天堂在线www网亚洲| 国产丝袜无码精品| 丰满人妻一区二区三区视频| 无套av在线| 青草视频在线观看国产| 亚洲天堂精品视频| 中文字幕不卡免费高清视频| 国产成人综合久久精品下载| 伊人欧美在线| 日本草草视频在线观看| 国产99精品视频| 亚洲天堂久久久| 国产精品刺激对白在线| 黄色福利在线| 在线看片中文字幕| 欧美另类图片视频无弹跳第一页| 999国内精品视频免费| 国产福利免费在线观看| 亚洲无码高清视频在线观看| 日本高清有码人妻| 国产精品毛片一区视频播| 国产a网站| 九月婷婷亚洲综合在线| 欧美高清视频一区二区三区| www欧美在线观看| 99偷拍视频精品一区二区| 国产一二三区视频| 国产精品久久久久久搜索| 国产精品视频猛进猛出| 99青青青精品视频在线| 国产精品香蕉| 国产一级裸网站| 成人午夜视频免费看欧美| 国产v欧美v日韩v综合精品| 亚洲精品欧美日本中文字幕| 国产成人久久777777| 国产成人1024精品下载| 永久成人无码激情视频免费| 国产美女精品在线| 激情综合婷婷丁香五月尤物| 欧美性精品不卡在线观看| 日本一区中文字幕最新在线|