王夢(mèng)遙 王曉曄 洪睿琪



摘? 要: 本文對(duì)于意見(jiàn)挖掘領(lǐng)域中的評(píng)價(jià)對(duì)象的修剪和聚類(lèi)問(wèn)題,提出使用K-means聚類(lèi)算法和BIRCH聚類(lèi)算法相結(jié)合的方式來(lái)進(jìn)行評(píng)價(jià)對(duì)象的修剪和聚類(lèi)。利用BIRCH算法類(lèi)別聚類(lèi)的功能對(duì)評(píng)價(jià)對(duì)象進(jìn)行聚類(lèi),并刪除包含較少數(shù)據(jù)的簇來(lái)實(shí)現(xiàn)修剪評(píng)價(jià)對(duì)象;再通過(guò)對(duì)于剩下的簇使用K-means聚類(lèi)算法來(lái)獲得最優(yōu)評(píng)價(jià)對(duì)象。這種修剪聚類(lèi)方法與以往的基于PMI算法修剪然后基于K-means聚類(lèi)算法相比,減少了評(píng)價(jià)對(duì)象修剪時(shí)對(duì)語(yǔ)料庫(kù)的依賴(lài),最終聚類(lèi)的結(jié)果更加精準(zhǔn),而且BIRCH算法采用一次掃描數(shù)據(jù)庫(kù)的策略,可以有效提高速度。
關(guān)鍵詞: 名詞詞組模式;BIRCH聚類(lèi)算法;K-means聚類(lèi)算法;PMI算法
【Abstract】: For the pruning and clustering evaluation objects in opinion mining, this paper proposes a method that combines BIRCH clustering and K-means clustering algorithm to prune and cluster evaluation objects. Firstly, utilizing BIRCH algorithm of self-learning cluster category, after clustering by BIRCH algorithm, delete the clusters containing few data so that we can prune the evaluation objects. Then use K-means clustering algorithm to make global cluster for the remaining clusters. Compared with pruning using PMI algorithm and clustering using K-means clustering algorithm, our method eliminates the dependency on the corpus. And the cluster result is more accurate. Also BIRCH algorithm scans the database one time, so it can increase the speed greatly.
【Key words】: Noun phrase pattern; BIRCH clustering algorithm; K-means clustering algorithm; PMI algorithm
0? 引言
隨著電子商務(wù)行業(yè)的發(fā)展,網(wǎng)購(gòu)在人們生活中起到越來(lái)越重要的作用,用戶通過(guò)查看購(gòu)物網(wǎng)站的評(píng)論信息來(lái)對(duì)商品有更加全面的了解。但同一產(chǎn)品在網(wǎng)絡(luò)中的評(píng)論可能會(huì)達(dá)到成千上萬(wàn)條,給用戶全部逐條查看帶來(lái)了極大的麻煩,這基本是不可能實(shí)現(xiàn)的。而且評(píng)價(jià)信息數(shù)據(jù)量雖然極大,但信息量稀疏,也就是說(shuō)不是所有的句子都是有用的,這又使得用戶評(píng)論的參考價(jià)值大大降低。因此,挖掘用戶評(píng)論提取出有用信息供給用戶查看就顯得十分必要了。
評(píng)論信息的意見(jiàn)挖掘是從評(píng)論信息中提取主題詞的過(guò)程,主題詞包括評(píng)價(jià)對(duì)象,然后對(duì)評(píng)價(jià)對(duì)象進(jìn)行處理分析。目前對(duì)評(píng)價(jià)對(duì)象處理的方法有很多,比如,張俊飛[1]等人,通過(guò)改進(jìn)PMI算法實(shí)現(xiàn)特征值提取,利……