李鵬浩,朱立敬,石秀君
(1.濟寧職業技術學院教務處,濟寧 272000;2.濟寧職業技術學院電子信息工程系,濟寧 272000)
隨著互聯網的不斷發展,微博熱點話題已經出現,指人們對某一問題的評論和評價。微博熱點話題具有直接性、突發性、偏離性等特點。它們傳播迅速,影響很大。一些負面微博熱點話題會對國家安全和社會穩定產生負面影響,微博熱點話題的預測可以了解未來趨勢,因此微博熱點話題的預測已經成為網絡輿情研究領域的一個重要研究方向。
微博熱點話題的建模和預測主要基于時間分析。他們將微博熱點話題的歷史樣本視為時變數據,可分為兩類:傳統方法和現代方法。有指數平滑、線性回歸、灰色模型等。微博熱點話題的預測準確率較低,主要是因為微博熱點話題受到多種因素的影響,其中人為因素最為嚴重,具有很強的時變性。傳統模型無法準確描述變化特征,其應用范圍受到一定限制。現代方法主要使用數據挖掘技術,如神經網絡和支持向量機,以獲得比傳統模型更理想的預測結果。
K-means算法是一種十分典型的基于距離的聚類算法,具有相似性查看的作用。K-means算法使用距離作為相似性的評價指標,即兩個對象之間的空間立體距離近,它們的相似性高。該算法認為聚類是由相互靠近的對象組成的,因此它以獲得緊湊和獨立的聚類為最終目標。
K個初始聚類中心點的選擇對聚類結果有很大影響,因為在算法的第一步中,任意K個對象被隨機選擇為初始聚類的中心,最初代表一個聚類。在每次迭代中,該算法根據距離每個聚類中心的距離,將數據集中剩余的每個對象重新分配到最近的聚類。當檢查所有數據對象時,迭代操作完成,并計算新的群集中心。如果迭代前后j的值沒有變化,則算法已經收斂。公式(1)如下:

K-means算法流程:
①從M個文檔隨機選取I個文檔作為要參考的質心量。
②對剩余的每個文檔測量其到每一個質心空間距離,并將其聚類至最短空間距離的質心。
③重新計算已經得到的各個類的質心。
④再迭代2~3步直至新的質心與原質心相等或小于指定閾值,算法結束。
具體如下:
輸入 :i,data[n];
(1)選擇i個初始中心點,例如c[0]=data[0],…c[i-1]=data[i-1];
(2)對于data[0]….data[m],分別與c[0]…c[i-1]比較,假定與c[i]差值最少,就標記為a;
(3)對于所有標記為a點,重新計算c[a]={所有標記為a的data[b]之和標記為a的個數;
(4)重復(2)(3),直到所有c[a]值的變化小于給定閾值。
基于K-means算法,本文設計了識別中文微博熱點話題的過程,其主要鏈接如中文微博熱點話題流程圖1所示。

圖1
首先,通過微博爬蟲系統獲取所需的數據,如微博內容、評論號、轉發號和受眾號。其次,從獲取的數據中提取話題識別的數據源,并通過中文分詞對數據進行過濾。對于預處理后的微博內容中的每個特征詞,使用特征詞權重計算方法TF-IDF(術語頻率-反文檔頻率)計算特征權重并建立向量空間模型,然后使用K均值文本聚類來總結多個主題。最后,對幾個主題的影響進行了計算和分析,并通過效果驗證確定了熱點主題。
為了分析基于數據挖掘技術的微博熱點預測性能,采用python編程實現了微博熱點預測模型,選取金庸之死作為微博熱點預測的目標,并選取最后50個微博熱點來測試模型的泛化能力,熱點趨勢圖如圖2所示。

圖2
從該模型中微博熱門話題的預測結果來看可以發現,該模型能夠準確描述微博熱點話題的變化特征,微博熱點話題的預測誤差非常小,預測結果非常穩定,預測結果可靠。預測結果可以為網絡輿論管理者提供有用的信息。本文中的模型已經獲得了微博熱點話題非常理想的預測結果。然而,由于新浪爬蟲程序抓取的數據有限,本文僅限于對可以收集的數據進行研究,實證結果不可避免地會有一定的局限性。此外,微博內容凌亂,噪聲信息較多,主題聚類效果有待提高,相關聚類算法的改進也是未來研究的方向。主題影響力的驗證方法需要改進,并且可以在后期動態跟蹤熱門主題,以發現熱門主題的總體趨勢變化。
微博熱點話題是當前網絡輿情研究的焦點。由于多種因素的影響,變化非常復雜,導致當前微博熱點話題預測的準確率較低。因此,提出了一種基于數據挖掘技術的熱點預測模型。利用數據挖掘技術中的神經網絡算法對微博熱點話題進行分析和建模,并給出了支持向量機的參數。數值優化結果表明,該模型對微博熱點話題的預測效果非常好,預測結果可靠,具有廣闊的應用前景。