徐菲菲, 陳賽紅
(上海電力大學 計算機科學與技術學院, 上海 200090)
在網絡日漸發達的背景下,各式各樣的信息交流平臺隨之出現,比如微博、微信朋友圈、今日頭條、網易、騰訊等,人們可以通過這些網絡平臺了解各類主題信息,并發表自己的觀點。這些大量的信息數據以文本形式為主,人們急需計算機機器對這些龐雜的文本信息進行高效分析。在此背景下,自然語言處理研究熱潮應運而生。聚類算法無疑可作為處理龐雜信息所帶來的問題的有效手段。與文本聚類相比,文本分類需要大量的訓練集進行訓練,并在分析訓練集內容的基礎上根據已有的類別給測試集分配一個或多個類別。文本聚類則依據文本內容和結構關系確定該文本屬于哪個類別,該過程稱為文本聚類中的文本分析和文本標記。文本分析和文本標記有利于挖掘文本內部信息,可以作為一種消除歧義的文本預處理步驟[1]。文本聚類算法可以節省檢索成本,協助用戶得到感興趣的信息,進而提高文本檢索的精度和效率[2]。文本聚類可用于圖書館服務的文檔自動整理[3-4],也可用于發現并跟蹤網絡熱點話題,診斷出網絡中存在的病毒,對加強網絡安全具有重要意義[5]。
文本主題檢測旨在不浪費人工成本的前提下獲取文本闡述的核心主題、多個主題間的關系以及界定主題的外延等。它是很多文本處理領域中的重要組成部分,比如文本理解、語言建模、信息檢索、文本分類和聚類等[6]?!?br>