魏藝澤,郭 慧,時曉旭
(華北科技學院計算機學院,北京東燕郊 065201)
網絡輿情熱點發現(TDT)是一種通過檢測與跟蹤目標話題的方法,提供對新信息的發現和特定熱點的關注。 通過數據收集、預處理、相關性分析和熱點跟蹤等步驟,自動聚類相關內容,并跟蹤新聞事件的發展,為用戶提供事件發展的軌跡和態勢。 現有的研究技術主要有Single-Pass 聚類算法、KNN 最鄰近法、K-means 算法等。
為了能夠實現在線話題檢測,需要對現有聚類算法進行改進,最常用的增量聚類算法是Single-Pass 算法。 稅儀冬等[1]提出了一種結合周期性分類和Single-Pass 聚類話題識別和跟蹤方法,通過降低漏檢率和錯檢率,提高了準確性。 方星星,呂永強[2]通過引入子話題中心和時間距離計算公式以及優化耗費函數,顯著改善了算法在漏檢率、誤檢率、耗費函數等方面的性能。 張琛等[3]使用了Single-Pass 算法來處理大量的評論語料,并從其中提取出主題信息以展現新冠肺炎期間公眾的關注熱點。 楊波[4]通過設置高閾值提高了Single-Pass算法的準確性。 孫紅光等[5]只對新增加的文本進行處理,提高了Single-Pass 算法的效率。
文本表示是將文本數據轉化成結構化數據的方法,TF-IDF(Term Frequency-Inverse Document Frequency)以簡單快速被好多學者所用。 羅燕等[6]采用齊普夫定律、特征詞的詞頻以及TF-IDF算法來提取文檔關鍵詞。 牛永潔等[7]綜合考慮張瑾提出基于TF-IDF、詞位置和詞跨度的關鍵詞自動提取的方法,在情報關鍵詞提取中有廣泛的應用價值。 高楠等[8]提出了一種融合語義特征的TF-IDF 提取方法。 曹義親等[9]使用TF-IDF算法作為基準進行關鍵詞提取,并結合特征詞詞頻均值化與特征詞位置信息對權重算法對其進行改進。……