(浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023)
如今,互聯(lián)網(wǎng)正飛速地發(fā)展,網(wǎng)絡已成為網(wǎng)民接收和傳播信息的主要途徑。通過網(wǎng)絡,每個網(wǎng)民都可以在極短的時間內(nèi)了解到全國各地最新的事件,并實時地對這些事件發(fā)表自己的感想,也可以把自己了解到的事件分享給其他人。在這種形勢下,網(wǎng)絡文本的挖掘成了如今科學研究的一大熱點。如何從海量文本中提取出有價值的信息一直是一件很有挑戰(zhàn)的事情。文本不同于一般的數(shù)值型數(shù)據(jù),表示和處理都比較復雜。空間向量模型(Vector space model)把文本中的每個詞語映射到向量空間,這使得文本可以通過傳統(tǒng)的數(shù)值型數(shù)據(jù)挖掘算法來處理,不過對于海量數(shù)據(jù),會面臨維度災難。TF-IDF[1]等方法利用了詞的詞頻信息和逆文檔頻信息,能夠快速提取文章的關(guān)鍵字,不過單純以詞頻度量詞的重要性不夠全面,而且不能夠處理同義詞的情況。近年來,主題模型在文本挖掘中得到了不錯的運用,其中最具有代表性的就是潛在狄利克雷分配(Latent Dirichlet allocation,LDA)。如今,已經(jīng)有許多針對不同語料特點改進的LDA模型被用在了情感分析、輿情控制和個性化推薦上。
對于論壇文本,因為其本身具有一些結(jié)構(gòu)化信息,使用原始的LDA模型并不能夠最大化地利用文本信息來挖掘主題。論壇里面可能會存在大量的短回復和水帖,短回復會造成詞的稀疏性,水帖會給主題挖掘帶來很多噪音,這些因素都極大地影響了LDA在論壇上的建模效果。……