摘要:個性化信息檢索使得搜索引擎能滿足不目的,背景的用戶的查詢需求,該文主要探討了個性化信息檢索中常用的文本分類算法。
關鍵詞:個性化;信息檢索;文本分類
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時期的用戶查詢需求,因此需要針對擁護特征向用戶提供個性化服務。文本分類方法通過構造某種分類模型,并以此判斷樣本所屬的類別。文本分類對合理組織,存儲文本信息,提高信息檢索速度,提高個性化信息檢索效率的基礎。
2 分類方法
2.1 樸素貝葉斯方法
樸素貝葉斯方法是一種在已知先驗概率與條件的情況下的模式識別方法,假設詞條之間是相互獨立的。設d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯合概率來計算給定文檔的分類概率的公式如下:
計算所有文本類在給定d情況下的概率,概率值最大的那個類就是文本d所屬的類,既:
2.2 貝葉斯網絡分類法
貝葉斯網絡分類法考慮了特征之間的依賴關系,該方法更能真實反映文本的情況,但是計算復雜度比樸素貝葉斯高的多。
2.3 決策樹方法
決策樹極強的學習反義表達能力使得其適合于文本分類,它是通過一組無序,無規則的實例推理出樹型的分類規則,采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值進行判斷從該結點向下的分支,在決策樹的葉結點得到結論,決策樹的建立算法有很多,文獻[5]其中包括基于信息增益的啟發式計算ID3;基于信息增益率的解決聯系屬性的算法C4.5;基于Gini系數的算法CART和可并行性算法SPRINT算法。決策樹方法特點是使用者只要將訓練樣例能夠使用屬性-結合式的方法表達出來,就能夠用該方法來學習,但是這種算法生成的仍是多叉樹。
2.4 K-鄰近方法
K-鄰近方法,根據測試文本在訓練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個重要的參數,文獻[4]K值過大,則與待分類文本實際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現待分類文本的特點.一般對K會選定一個初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統中相似值的計算采用余旋相似度,則公式如下:
Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數,若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權重最大的類別中去。
2.5 支持向量機
Vapnik提出在結構風險最小化準則理論上的支持向量機方法,能有效解決小樣本集的機器學習問題,向量機主要是針對兩類分類問題,在高維空間尋找一個滿足分類要求的最優超平作為兩類的分割,既保證分類精確度,又要使超平面兩側的空白區域最大化,以保證最小的分類錯誤率,文獻[1]對于大于兩類的多類文本分類,就對每個類構造一個超平面,將這一類與其余的類分開,有多個類就構造多個超平面,測試時就看哪個超平面最適合測試樣本。支持向量機方法避免了局部性問題,樣本中的支持向量數,能夠有效地用于解決高緯問題。
2.6 神經網絡方法
神經網絡是模仿人腦神經網絡的基本組織特性構成的新型信息處理系統,其性質取決于網絡拓撲結構,網絡的權值和工作規則.通常由等于樣本特征數的輸入層,輸出層,等于樣本類數的神經元組成。其中,每一個連接都有一定的權值,通過訓練類來訓練的過程就是調整這些權值的過程,從而使神經網絡與可以正確地預測類別。
3 幾種方法的比較
3.1 樸素貝葉斯與網絡貝葉斯
樸素貝葉斯方法使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現,但是大部分情況是文本特征之間的依賴關系是相互存在的,所以特征獨立性會影響樸素貝葉斯分類的結果;網絡貝葉斯能夠考慮特征之間的依賴關系,但是計算復雜度比樸素貝葉斯高得多;
3.2 支持向量機方法
支持向量機方法的優點:首先,該方法是針對有限樣本情況的分類方法,其算法最終將轉化為一個二次型尋優萬惡提,理論上得到的將是全局最優點,避免了局部極值問題;其次,該方法計算的復雜度不再取決于空間維度,而是取決于樣本數,這可能有效地用于解決高維度問題;再次,該方法對稀疏數據不敏感,能更好地捕捉數據的內在特征。缺點是:該方法參數的調整比較困難,分類比較費時。
3.3 神經網絡方法
神經網絡方法的優點:首先,具有自適應功能,它能根據所提供的數據,通過學習找出輸出結果之間的內在聯系,從而球的問題的解答;其次,神經網絡善于聯想、概括、類比和推廣,任何局部的操作都不會影響整體效果;再次,具有高速尋找優化解的能力。缺點:該方法根據輸入輸出的關系訓練網絡,缺少解釋能力,受訓練樣本影響大,訓練過程較慢,不適應大量數據的學習。
3.4 決策樹方法
決策樹方法的優點是它在學習過程中不需要使用者了解很多背景知識,只要訓練樣例能夠使用屬性-結論式的方法表示出來,就能使用該方法。缺點是測試屬性的選擇對該方法影響較大。
3.5 K-鄰近方法
K-鄰近方法的優點是該方法訓練過程較快,且可隨時添加或更新訓練文本來調整;缺點是因為需要很大的空間來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.
4 文本分類方法效果評價
1) 精確度(查全率):是指通過分類系統正確分類的文本數與實際分類的文本數的比值,其公式如下:
精確度:=
2) 召回率(查全率):是指通過分類系統正確分類的文本數與人工分類中應有的文本數的比值,公式如下:
召回率:=
3) F1測試值:對查權率和查準綠的綜合測試
F1測試值:=
參考文獻:
[1] 史忠植.知識發現[M].北京:清華大學出版,2002.
[2] 朱明.數據挖掘[M].合肥:中國科技大學出版社,2002.
[3] 王繼成,潘金貴,張福炎.web文本挖掘技術研究[J].計算機研究與發展,2000,37(5):513-520.
[4] 李勇,桑艷艷.網絡文本分類技術與實現算法[J].情報學報,2002,21(1):21-26.
[5] 王麗坤,王宏,陸玉昌.文本挖據及關鍵技術與方法[J].計算機科學,2002,29(12):12-19.