999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種實現微博興趣挖掘的粒子群優化k-means 算法?

2020-10-14 11:49:44黃樹成
計算機與數字工程 2020年8期
關鍵詞:用戶

沈 超 王 遜 黃樹成

(江蘇科技大學計算機學院 鎮江 212003)

1 引言

微博是人們日常交流、獲取社會資訊不可或缺的一種網絡渠道。由于微博用戶數量的急劇增長,產生的信息量也隨之呈指數級增長。一個正常的微博用戶,通常每天收到的博文數高達幾千甚至上萬條。面對如此巨大的數據量,用戶很難在其中發現感興趣的博文,因此個性化地推薦用戶感興趣的博文就顯得格外重要。在此過程中,如何快速地捕獲用戶在當前時間段感興趣的話題是關鍵。

從文獻調查中發現,微博興趣挖掘近年來被國內外眾多學者關注和研究。對興趣挖掘的研究分為兩個方向,第一個方向是對挖掘文本的選擇研究,如Abel[1]等研究了微博文本長短對興趣挖掘的影響。第二個方向是對挖掘算法的研究,如劉紅兵等使用改進的Single-Pass 結合層次聚類算法對博文進行挖掘。使用聚類算法[2]對用戶博文數據進行挖掘,可以很好地將相似的興趣點挖掘出來。

目前k-means算法[3]在數據挖掘領域使用得較為廣泛,使用該算法可以很準確地挖掘出用戶當前時間所關注的興趣話題。但在對微博用戶大量數據處理時,時間代價較大,同時存在受初始聚類中心影響較大的缺點。因此,劉靖明提出在k-means的基礎上,結合粒子群算法加以優化。綜上所述,本文提出一種參數間相互作用的MPSO-kmeans 算法。該算法可以有效地節約處理時間,同時避免k-means的缺點,具有更好的聚類效果。

2 相關算法介紹

2.1 k-means算法

k-means 是聚類算法中使用場景最廣泛的一種,對數據的處理過程分為兩個階段,第一階段設置類族數量,將數據集中的每個數據分別劃分到類族中某一類中,第二階段通過迭代計算,找出聚類中心,重新劃分,達到結束條件為止。該算法原理是通過計算不同空間數據的歐式距離,進行相似度分析,將相似度高的數據聚類到同一個類族。

該算法聚類步驟如下:首先輸入樣本S=X1,X2,X3,…,Xm。

1)設定類族數量,即算法k值;

2)隨機指定k個聚類中心 μ1,μ2,…,μk,k <m;

4)若算法達到結束條件,則算法結束。如果沒有,使用同一類簇中的數據,計算新的類簇中心,然后轉到步驟2)進行迭代。

雖然k-means 具有操作簡單、所需資源少、計算速度快等優點。但仍存在一些缺點:

1)該算法需先給定聚類個數,聚類個數很難估計,在知道給定數據集前,并不能確定將其分為多少類最合適;

2)算法需先設置初始聚類中心,隨機選取,對導致聚類結果變化巨大;

3)迭代過程中,需要不斷的計算,找出新的中心,時間開銷很大;

4)若類族中存在孤立點,將導致均值偏移。

2.2 粒子群算法

粒子群算法[4]是一種基于動物集群活動而產生的群體搜索算法,該算法利用個體間信息的共享,使群體的求解從無序到有序,進而求出最優解。群體中的每個個體稱為粒子。粒子在空間以隨機初始速度飛行,根據個體最優位置、群體最優位置和粒子當前速度,不停地調整飛行位置和速度。

假設粒子在q 維空間飛行,那么粒子i 的位置、速度均為q 維向量,其速度可表示為優位置表示為Pbi=( Pbi1,Pbi2,…,Pbiq),群體最優位置表示為Gb=(Gb1,Gb2,…,Gbq)。

如果找到個體最優解,群體最優解,可以使用以下公式調整粒子飛行的位置和速度:

在式(1)和(2)中,w表示慣性權重,而c1,c2表示學習因子,其表示個體最優位置、群體最優位置對粒子i 飛行速度的影響程度;r1,r2為[0,1]間隨機值,表示速度定義不同部分的隨機權重。

粒子群算法通過計算適應度函數,對算法結果評價。設適應度函數為f(X),則個體最優位置Pbi對應的函數為f(Pbi),全局最優位置對應的函數為f(Gbi)。如果粒子適應度值優于個體最優值,那么用粒子當前位置替代個體最優位置。群體中適應度值最優的粒子位置,即為群體最優位置。

粒子個體最優位置更新公式,如式(3)所示:

3 MPSO-kmeans算法

3.1 粒子群優化的k-means算法

k-means 是聚類算法中最經典、簡單的一種,被運用到很多領域,如數據挖掘、模式識別等,但如2.1 節所介紹,傳統k-means 算法仍具有一些缺點,而粒子群算法在全局搜索方面具有顯著的優勢,為克服k-means 中存在的問題提供了新的方案。根據上述分析,使用粒子群算法和k-means融合[5],不僅可以提高收斂速度、減少時間代價,而且可以提高聚類效果,克服算法缺陷。

雖然這種融合算法在選取最優聚類中心方面很好地克服了k-means 的缺陷,但是并不能擺脫粒子群自身存在的缺陷,如粒子在飛行過程中,根據式(1)、(2)不斷調整自身的位置和速度,而慣性權重和學習因子通常被設為固定常量,或者被設定為獨立變量,這種情況下各參數之間相互削弱,難以達到全局搜索、局部開發的相對平衡;粒子在迭代飛行過程中,可能存在過于早熟現象;針對上述問題,本文對融合PSO-kmeans算法進行優化處理。

3.2 算法優化策略

1)慣性權重優化

慣性權重[6]是粒子群優化中非常重要的參數之一,通過設置不同權重,可以控制算法具有不同的全局搜索能力。較大的慣性權重有助于提升全局搜索能力,防止算法早熟。而較小的慣性權重有助于提升局部搜索精度。因此,慣性權重在一定程度上有著平衡全局和局部搜索能力[7]的作用。

在利用粒子群優化算法尋找最優解的早期,希望算法具有較好的全局搜索能力,而后期則希望其具有較高的精度搜索。因此本文引入了一種線性遞減的慣性權重,該權重w 值隨運行次數的增加,不斷減小。最終,算法由初期的全局搜索轉為后期局部的高精度搜索,權重設置如式(4)所示:

式(4)中:wmax為慣性權重最大值;wmin為慣性權重最小值;一般wmax取0.9,wmin取0.4;t 為當前迭代次數;N為最大迭代次數。

2)學習因子優化

學習因子[8]也是影響粒子飛行的重要參數之一。學習因子c1表示自我認知對飛行軌跡的影響程度,學習因子c2表示群體認知對粒子飛行軌跡的影響程度。如果c1較大,會使粒子不斷地在局部飛行、震蕩;如果c2較大,會使粒子過早收斂,導致早熟。為了權衡自我認知、群體認知對飛行軌跡的影響,引入隨慣性權重變化的學習因子,公式如下所示:

式(5)、(6)中,c1s,c2s表示對應學習因子的初始值;c1e,c2e表示對應學習因子的終止值。

3)時間飛行因子的引入

由粒子位置更新公式可知,其位置更新方式是在原位置的基礎上加上粒子更新后的速度。在物理學概念中,位移只能與位移進行計算,由此可知,粒子位置更新公式中存在著隱藏的時間因子[9]。傳統的位置更新公式是將時間因子固定為1,在公式上會呈現位移加速度的更新方式。但這種更新方式將會導致粒子不斷在最優解附近震蕩,因此在算法中引入隨慣性權重線性變化的時間因子T 。令T=0.1+w,當T ≠1時,運行初期,因為慣性權重較大,時間因子也較大,粒子飛行位置保持著較大的變化,有利于全局搜索。后期由于慣性權重變小,時間因子也隨之變小,粒子飛行位置保持著較小的變化,提高了局部的搜索精度。

大數據分析平臺利用其分布式存儲能力,通過對綠通治理相關業務數據進行采集、清洗,存儲海量數據;同時,利用其并發計算能力,對海量歷史數據進行分析計算,對離散的數據進行實時的在線分析計算,并將計算結果同步至系統的各子平臺中。大數據分析平臺采用分布式主從節點架構、集群橫向可擴展和多數據副本冗余存儲,確保平臺穩定工作、數據安全不丟失;節點與節點之間使用RPC通信,經任務調度器實現任務資源的統一分配和統一管理。結合運維平臺,更加人性化、簡潔化地對整個大數據分析平臺進行監控、管理,可針對分析任務的實際情況進行調優,提升大數據平臺的分析效率。

因此,位置更新公式變更為式(7)所示:

3.3 MPSO-kmeans算法流程

本文采用粒子群算法融合k-means 算法進行改進優化,同時針對粒子群中存在的各參數相互獨立、相互削弱影響力的問題加以改進,改進后的算法步驟如下:

步驟一:初始化,將學習因子c1s,c2s初始值,c1e,c2e終止值,wmax,wmin慣性權重最大、最小值,群體中粒子的速度、個體最優位置、群體最優位置等參數初始化,并將其隨機分配到某一個類群中。

步驟二:運用粒子群算法搜尋最優的聚類中心。

1)采用式(3),調整粒子位置、速度,求出其適應度函數值;

2)比較當前粒子位置與歷史最優位置的適應度函數值,如果當前位置適應度更優,那么使用此位置替換個體最好位置;

4)按照最近鄰計算法則,把各粒子分類到對應的類簇;

5)利用新的類簇值計算出新的聚類中心,判斷是否達到結束條件,如果達到,則結束,否則,迭代執行步驟1)。

步驟三:將新的中心輸出到k-means,運行并得出結果。

4 實驗分析

4.1 數據集獲取與預處理

本文從微博獲取文本數據,獲取對象為某一位微博用戶及其特別關注的100 名用戶,獲取的時間是2017 年9 月10 號到2017 年9 月30 號,對于每個用戶取近20 天的相關數據,數據主要包括微博賬號自身信息,發布博文,轉發以及被轉發的微博數[10]等。使用每個用戶的這些數據,提取出其在當前時間段所感興趣的兩個話題。

對獲取到的文本數據,進行預處理[11],以便計算機對數據的處理分析,過程如下。

1)對獲取到的文本數據進行清洗、分詞、去停用詞、提取特征詞等操作;

2)將預處理后的數據使用向量空間模型進行表示,將其轉變成計算機能處理的數據模型;

3)通過特征選擇、權重計算,對模型再次處理;

4)對預處理數據,進行聚類分析。

以一位用戶為例,預處理后的數據如表1 所示。

表1中,每一行中1表示此微博含有此特征詞,如第二行數據表示第一條博文含有的特征詞為“袁隆平”,“海水”,“水稻”,“改良”,“院士”,“鹽堿地”,0表示無此特征詞。

表1 各條博文的行特征詞(部分)

4.2 實驗分析

使用傳統的k-means、傳統粒子群和k-means混合算法、學習因子和飛行因子隨慣性權重調整的MPSO-kmeans 算法進行實驗。算法評價指標使用純度值[12],如式(8)所示:

由于傳統k-means 對初始聚類中心較為依賴,不同中心的選取在實驗中產生的結果差別較大。因此使用傳統k-means 運算5 次,取其平均值進行比較分析。實驗得到的純度如表2所示。

表2 聚類挖掘結果純度比較

由表2純度值可知:傳統k-means的處理結果,雖然某些結果純度值較高,但其5 次運算的平均值偏低,且波動較大。這是因為傳統k-means 對初始中心的選擇存在隨機性的緣故。使用粒子群改進的k-means 算法可以很好地解決聚類結果波動較大的問題,使其不受初始聚類中心影響而產生較大波動。而結合了慣性權重、學習因子、飛行因子的MPSO-kmeans 算法,不僅提升了算法的全局搜索能力[13],而且提升了算法的收斂精度[14]。實驗表明 ,改 進 后 的MPSO-kmeans 同PSO-kmeans、k-means 相比,在挖掘結果上具有更好的挖掘純度。

為了避免實驗數據的局限性,隨機選取的20名微博用戶近20 天的博文,使用以上這三種算法對其文本信息進行聚類分析,實驗結果如圖1 所示。

圖1 部分用戶不同算法聚類純度圖

圖1 中,橫軸數字i 代表第i 位用戶,縱軸表示聚類純度值。 由圖1 可知,使用k-means,PSO-kmeans,MPSO-kmeans 三種算法對微博用戶在近20 天所感興趣的兩個話題進行了挖掘[15]。經過比較分析得出改進后的MPSO-kmeans 算法在聚類效果上存在較為明顯的優勢。

5 結語

本文對微博用戶當前時間段感興趣的話題進行研究,根據微博用戶近20 天的博文信息,使用k-means 算法挖掘用戶所感興趣的話題。實驗過程中,為了提高聚類效果,克服k-means 存在的缺陷,引入了粒子群優化算法,并對相關參數進行了優化,提升了全局搜索能力,能夠更加精確、高效地完成聚類操作。實驗表明,MPSO-kmeans 算法可很好地解決了受初始聚類中心影響大的問題,同時提高了算法的全局搜索能力以及局部尋優能力,具有更好的聚類效果。后續工作將根據聚類出的用戶感興趣話題,搜索相關話題的博文,建立推薦模型,給用戶推薦其在當前時間段所感興趣的博文,實現微博的個性化博文推送。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 最近最新中文字幕在线第一页| 日韩大片免费观看视频播放| 欧美一级黄色影院| 亚洲成aⅴ人在线观看| 蜜臀AVWWW国产天堂| 国产日本欧美在线观看| 日韩国产精品无码一区二区三区| 91成人试看福利体验区| 亚洲综合精品香蕉久久网| 亚洲精品免费网站| 99久久国产综合精品女同 | 亚洲天堂网视频| 午夜不卡视频| 国产av色站网站| 亚洲娇小与黑人巨大交| 亚洲不卡av中文在线| 综合色区亚洲熟妇在线| 熟妇丰满人妻av无码区| 无码人妻热线精品视频| Jizz国产色系免费| 国产在线八区| 色呦呦手机在线精品| 国产精品成人观看视频国产 | 精品91自产拍在线| 亚洲欧美日韩高清综合678| 国产综合亚洲欧洲区精品无码| 国产成人啪视频一区二区三区 | 欧美日韩v| 精品三级在线| 久久美女精品国产精品亚洲| 亚洲水蜜桃久久综合网站| 亚洲综合第一区| 91视频日本| 亚洲日韩精品伊甸| 欧美色视频网站| 污网站在线观看视频| 一级一级一片免费| 一级毛片在线播放免费观看| 亚洲婷婷在线视频| 国产精女同一区二区三区久| 色噜噜狠狠色综合网图区| 伊人久久大线影院首页| 夜夜操天天摸| 亚洲视频四区| 婷婷色丁香综合激情| 国产精品久久久久无码网站| 亚洲第一视频区| 天天躁狠狠躁| 日韩在线欧美在线| 特黄日韩免费一区二区三区| 欧美成人免费午夜全| 亚洲欧州色色免费AV| 操国产美女| 国产在线高清一级毛片| 日韩中文精品亚洲第三区| a天堂视频在线| 麻豆国产在线不卡一区二区| 国产视频a| 鲁鲁鲁爽爽爽在线视频观看| 伊人大杳蕉中文无码| 精品欧美日韩国产日漫一区不卡| 午夜限制老子影院888| 免费在线不卡视频| 重口调教一区二区视频| 亚洲资源站av无码网址| 亚洲色图综合在线| 都市激情亚洲综合久久| 国产va欧美va在线观看| 日韩精品欧美国产在线| 不卡视频国产| 久久久久国色AV免费观看性色| 欧美日韩精品一区二区在线线 | 无码精油按摩潮喷在线播放| 婷婷六月综合网| 一级毛片在线播放| 高潮爽到爆的喷水女主播视频| 国产青榴视频| 欧美日韩久久综合| 国产成人精品三级| 国产不卡国语在线| 国产高清免费午夜在线视频| 人人澡人人爽欧美一区|