999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法微博熱點話題預測分析

2019-04-19 12:42:12李鵬浩朱立敬石秀君
數字通信世界 2019年3期
關鍵詞:數據挖掘模型

李鵬浩,朱立敬,石秀君

(1.濟寧職業技術學院教務處,濟寧 272000;2.濟寧職業技術學院電子信息工程系,濟寧 272000)

1 微博熱點話題預測背景及現狀介紹

隨著互聯網的不斷發展,微博熱點話題已經出現,指人們對某一問題的評論和評價。微博熱點話題具有直接性、突發性、偏離性等特點。它們傳播迅速,影響很大。一些負面微博熱點話題會對國家安全和社會穩定產生負面影響,微博熱點話題的預測可以了解未來趨勢,因此微博熱點話題的預測已經成為網絡輿情研究領域的一個重要研究方向。

微博熱點話題的建模和預測主要基于時間分析。他們將微博熱點話題的歷史樣本視為時變數據,可分為兩類:傳統方法和現代方法。有指數平滑、線性回歸、灰色模型等。微博熱點話題的預測準確率較低,主要是因為微博熱點話題受到多種因素的影響,其中人為因素最為嚴重,具有很強的時變性。傳統模型無法準確描述變化特征,其應用范圍受到一定限制。現代方法主要使用數據挖掘技術,如神經網絡和支持向量機,以獲得比傳統模型更理想的預測結果。

2 K-means文本聚類算法

K-means算法是一種十分典型的基于距離的聚類算法,具有相似性查看的作用。K-means算法使用距離作為相似性的評價指標,即兩個對象之間的空間立體距離近,它們的相似性高。該算法認為聚類是由相互靠近的對象組成的,因此它以獲得緊湊和獨立的聚類為最終目標。

K個初始聚類中心點的選擇對聚類結果有很大影響,因為在算法的第一步中,任意K個對象被隨機選擇為初始聚類的中心,最初代表一個聚類。在每次迭代中,該算法根據距離每個聚類中心的距離,將數據集中剩余的每個對象重新分配到最近的聚類。當檢查所有數據對象時,迭代操作完成,并計算新的群集中心。如果迭代前后j的值沒有變化,則算法已經收斂。公式(1)如下:

K-means算法流程:

①從M個文檔隨機選取I個文檔作為要參考的質心量。

②對剩余的每個文檔測量其到每一個質心空間距離,并將其聚類至最短空間距離的質心。

③重新計算已經得到的各個類的質心。

④再迭代2~3步直至新的質心與原質心相等或小于指定閾值,算法結束。

具體如下:

輸入 :i,data[n];

(1)選擇i個初始中心點,例如c[0]=data[0],…c[i-1]=data[i-1];

(2)對于data[0]….data[m],分別與c[0]…c[i-1]比較,假定與c[i]差值最少,就標記為a;

(3)對于所有標記為a點,重新計算c[a]={所有標記為a的data[b]之和標記為a的個數;

(4)重復(2)(3),直到所有c[a]值的變化小于給定閾值。

3 研究和設計

基于K-means算法,本文設計了識別中文微博熱點話題的過程,其主要鏈接如中文微博熱點話題流程圖1所示。

圖1

首先,通過微博爬蟲系統獲取所需的數據,如微博內容、評論號、轉發號和受眾號。其次,從獲取的數據中提取話題識別的數據源,并通過中文分詞對數據進行過濾。對于預處理后的微博內容中的每個特征詞,使用特征詞權重計算方法TF-IDF(術語頻率-反文檔頻率)計算特征權重并建立向量空間模型,然后使用K均值文本聚類來總結多個主題。最后,對幾個主題的影響進行了計算和分析,并通過效果驗證確定了熱點主題。

4 模擬測試

為了分析基于數據挖掘技術的微博熱點預測性能,采用python編程實現了微博熱點預測模型,選取金庸之死作為微博熱點預測的目標,并選取最后50個微博熱點來測試模型的泛化能力,熱點趨勢圖如圖2所示。

圖2

4.1 結果和分析

從該模型中微博熱門話題的預測結果來看可以發現,該模型能夠準確描述微博熱點話題的變化特征,微博熱點話題的預測誤差非常小,預測結果非常穩定,預測結果可靠。預測結果可以為網絡輿論管理者提供有用的信息。本文中的模型已經獲得了微博熱點話題非常理想的預測結果。然而,由于新浪爬蟲程序抓取的數據有限,本文僅限于對可以收集的數據進行研究,實證結果不可避免地會有一定的局限性。此外,微博內容凌亂,噪聲信息較多,主題聚類效果有待提高,相關聚類算法的改進也是未來研究的方向。主題影響力的驗證方法需要改進,并且可以在后期動態跟蹤熱門主題,以發現熱門主題的總體趨勢變化。

5 結束語

微博熱點話題是當前網絡輿情研究的焦點。由于多種因素的影響,變化非常復雜,導致當前微博熱點話題預測的準確率較低。因此,提出了一種基于數據挖掘技術的熱點預測模型。利用數據挖掘技術中的神經網絡算法對微博熱點話題進行分析和建模,并給出了支持向量機的參數。數值優化結果表明,該模型對微博熱點話題的預測效果非常好,預測結果可靠,具有廣闊的應用前景。

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 欧美日韩北条麻妃一区二区| 精品成人一区二区| 国产综合亚洲欧洲区精品无码| 欧美不卡视频一区发布| 一级毛片基地| 国产成人AV综合久久| 国产AV无码专区亚洲精品网站| 国产精品毛片一区视频播| 欧美不卡视频一区发布| 欧美啪啪网| 女同久久精品国产99国| 欧美区一区| 国产激爽大片在线播放| 免费人成在线观看视频色| 亚洲人成网7777777国产| 999在线免费视频| 欧美亚洲国产精品第一页| 久久综合亚洲色一区二区三区| 国产特级毛片aaaaaa| 精品国产自在现线看久久| 国产剧情伊人| AV无码一区二区三区四区| 手机在线看片不卡中文字幕| 亚洲国产综合自在线另类| 99视频精品全国免费品| 一本大道无码高清| 91区国产福利在线观看午夜| 国产精品视频免费网站| 大香网伊人久久综合网2020| 国产成人精品免费av| 国产欧美综合在线观看第七页| 久久人人爽人人爽人人片aV东京热| 影音先锋丝袜制服| 欧美一区二区三区不卡免费| 精品一区二区三区自慰喷水| 天堂成人在线| 中文字幕一区二区视频| 亚洲成A人V欧美综合天堂| 香蕉国产精品视频| 国产精品人莉莉成在线播放| 九色在线视频导航91| 亚洲天堂网2014| 在线视频亚洲欧美| 中文字幕永久视频| 成人国产精品2021| 97综合久久| 毛片久久久| 亚洲国产日韩欧美在线| 一级毛片在线播放| yjizz国产在线视频网| 波多野结衣一区二区三区AV| 色综合狠狠操| 中文字幕2区| jizz在线免费播放| 无码在线激情片| 在线国产欧美| 青草视频网站在线观看| 成·人免费午夜无码视频在线观看 | 国产在线98福利播放视频免费| 欧美日韩免费在线视频| 18禁黄无遮挡免费动漫网站| 欧美在线精品怡红院| 亚洲第一黄色网址| 国产精品伦视频观看免费| www.youjizz.com久久| 91九色国产在线| 欧美成人午夜视频免看| 亚洲综合色婷婷| 国产青青操| 国产新AV天堂| 亚洲成肉网| 国内精品手机在线观看视频| 潮喷在线无码白浆| 国产精品尤物在线| 免费亚洲成人| 香蕉蕉亚亚洲aav综合| 亚洲日韩国产精品无码专区| 亚洲天堂在线免费| 国产自在自线午夜精品视频| 日韩无码黄色| 亚洲天堂在线免费| 中国成人在线视频|