[摘 要]本文基于關鍵詞集的中文文本特征表示方法,將本體和詞共現的思想引入到中文文本的特征表示中,能夠更加準確地表達中文文本特征,進而提高中文文本聚類的質量。
[關鍵詞]個性化;Web挖掘;文本聚類
doi:10.3969/j.issn.1673-0194.2009.15.020
[中圖分類號]TP391[文獻標識碼]A[文章編號]1673-0194(2009)15-0065-03
1 文本聚類問題及詞共現模型
目前個性化信息服務主要是針對文本資源,中文文本聚類是教育政務資源庫個性化信息服務中重要的基礎性工作。
文本信息多數是無結構化的,如何準確地表示文本是影響聚類性能的重要因素。文本聚類是一個將文本集分組的全自動處理過程,是一種典型的無監督的機器學習問題,它將文本集分為若干個子集,稱為聚類,使得類內的成員相似度盡可能大,類間的成員相似度盡可能小。
文本聚類的本質是是對一個給定的文本集合D={d1,d2,…,dn}進行劃分,從而得到一個聚類的集合C={c1,c2,…,ck},其中cjD(j=1,2,…,k),使得對di(di∈D),cj(cj∈C),且di∈cj,同時使得∑di∈cjSim(di,cj)∑dicjSim(di,cj)達到最大,其中Sim(di,cj)為文檔di與聚類cj的相似度函數。
中文文本信息多數是無結構化的,并且使用自然語言,很難被計算機處理。因此,如何準確地表示中文文本是影響聚類性能的主要因素。
目前的文本聚類系統主要采用向量空間模型(Vector Space Module,VSM)來表示文本。傳統的向量空間模型是基于關鍵詞集的,它是根據詞頻建立向量的一種統計模型。然而,中文文本存在語法修飾和上下文的語義關聯,例如不同的詞匯表示相同的概念,相關的詞匯共現表示一個主題等,因此,基于關鍵詞集的向量空間模型無法表示中文文本中的深層語義信息。……