999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最優權重的神經網絡集成文本分類研究

2008-12-31 00:00:00周樸雄
計算機應用研究 2008年10期

收稿日期:2007-12-02;修回日期:2008-03-24

基金項目:廣東省自然科學基金資助項目(07300647)

作者簡介:周樸雄 (1970-),男, 湖北荊州人,博士,主要研究方向為信息檢索、信息資源管理(puxiongzhou@163.com)*

(華南理工大學 電子商務學院,廣州 510006)

摘 要:將神經網絡集成思想引入Web文本分類領域,提出了利用最小估計誤差策略進行最優加權網絡集成的方案。具體做法是根據各網絡的分類性能、各網絡同其他網絡的相關程度給每個網絡的后驗概率估計賦予不同的權值,通過加權平均提高后驗概率估計的準確程度,進而提高分類率。英文數據庫的實驗結果表明,與經典的Bayes模型、kNN模型相比,該模型具有更高的分類精度與更快的分類速度。

關鍵詞:文本分類;神經網絡集成;精度

中圖分類號:TP391

文獻標志碼:A

文章編號:1001-3695(2008)10-2982-02

Study of Web document classification

based on best weight neural network ensembles

ZHOU Pu-xiong

(College of E-business, South China University of Technology, Guangzhou 510006, China)

Abstract:Inspired by the ideas of neural network ensembles, this paper constructed a multi-BP neural network modeling with best weights that was based the strategy of minimum estimate error. To do this, according to the capability of classification of each network and the degree of each network related to other networks, the different weight would assign to the probability estimates of maximum a posterior (MAP). Further, improved the accuracy of estimate and classification. The experimental results of English database demonstrate that this model hold the better accuracy and speed than the Bayes and kNN models.

Key words:document classification; neural network ensembles; accuracy

0 引言

文本是當前最主要的非結構化信息資源,隨著Internet的日益發展和網上各類信息的迅猛增長,用戶對散布在網絡各處的文檔的檢索工作變得愈加困難。 傳統的做法是對網上信息進行人工分類并加以組織和整理,為人們提供一種相對有效的信息獲取手段。但這種人工分類的做法存在許多弊端,如耗費大量的精力、分類結果一致性不高等。因此,研究高精度的自動文本分類方法具有重要的理論意義和廣闊的應用前景。目前文本自動分類已經成為一個研究熱點,并提出了一系列的分類方法。較為著名的文檔分類方法有支持向量機(SVM)[1,2]、k最近鄰(kNN)[3]、神經網絡[4]、線性最小二乘估計(LLSF)、貝葉斯(Bayes)算法和決策樹等。

自從Hannsen等人[5] 提出神經網絡集成之后, 該技術已被成功地應用于很多領域, 如手寫體數字識別、OCR、語音識別等。神經網絡集成利用多個神經網絡對同一個問題進行學習,集成在某輸入示例下的輸出由構成集成的各神經網絡在該示例下的輸出共同決定。理論與實驗結果證明神經網絡集成能有效提高模型的泛化能力,被視為一種非常有效的工程化神經計算方法[6]。從20世紀80年代開始,人們提出了各種神經網絡結構,對于某個分類問題,可以在同樣的特征下設計出不同的神經網絡分類器。一種做法是:在這些分類器中選出性能最好的一個,如絕對多數投票法和相對多數投票法等;另一種策略則是探索如何將這些分類器的結果綜合起來,典型集成方法是將神經網絡的輸出直接平均[7,8]。直觀上第二種策略應該能獲得更高的識別率,很多研究工作者理論和實踐的結果[5,8]也證明了這一點。但是,已有的結論表明,要增強神經網絡集成的泛化能力,就應該盡可能地使集成中各網絡的誤差互不相關。而另一方面直接平均方法在各神經網的輸出含義不同、各網絡性能差異較大或各網絡的相關性不同時卻很難奏效。

本文針對文本分類問題,從最小后驗概率誤差出發,提出一種新的利用線性回歸進行多神經網絡分類器集成以盡量減少后驗概率誤差的方法,該方法能根據各網絡的分類性能、各網絡同其他網絡的相關程度給每個網絡的后驗概率估計賦予不同的權值,通過加權平均提高后驗概率估計的準確程度,進而提高分類率。

1 用于文本分類的最優權重神經網絡集成模型

假設文本對象有C個類別(ω1,ω2,…,ωC ),構造M個三層BP神經網絡分類器,對于輸入樣本s提取的特征向量為x,則每個BP神經網絡分類器的輸入層有x個神經元,輸出層C個神經元。對于某屬于y類(y∈{1,2,…,C})的輸入樣本其期望輸出為第y個輸出神經元輸出為1,其他的神經元輸出為0,即q(x)=[p1=0,p2=0,…,py=1,pC=0]T,而實際訓練過程中,由于訓練樣本的不充分、訓練時的局部極小等原因,造成第i個分類器的實際輸出為qi(x)=[p^i1, p^i2,…,p^iC]T ,i=1,2,…,M。造成估計誤差 εij(x):p^ij=pj+εij。

基于統計中多次平均降低測量誤差的思路,取各個網絡后的加權和,減小估計誤差。這里對不同網絡給予不同權值是考慮到它們各自性能的差異和彼此相關程度的不同。

設各個分類器的權重為wi(i=1,2,…,M),則q^(x)=∑Mi=1wiqi(x)。構造如圖1所示的神經網絡集成模型。

本文的目的是尋找一個最優加權。在本文中權值選擇的原則是使E{|q(x)-q^(x)|2}達到最小,即dE{|q(x)-q^(x)|2}/dwk=0;k=1,2,…,M(1)而由于E{|q(x)-q^(x)|2}=∑Cj=1E{(pj(x)-∑Mi=1wip^ij(x))2},式(1)即∑Mi=1wi∑Cj=1E{p^ij(x)p^kj(x)}=∑Cj=1E{pj(x)p^kj(x)}

k=1,2,…,M(2)令aik=∑Cj=1E{p^ij(x)p^kj(x)},bk=∑Cj=1E{pj(x)p^kj(x)}

W=w1

w2

wM, A=a11a12…a1M

a21





aM1……aMM, B=b1

b2

bM

則式(2)等價于 AW=B(3)

W=A-1B(4)

因為aik=aki,所以A是一個對稱矩陣。aik實際反映的是第i個和第k個分類器輸出的相關性;bk是第k個分類器期望輸出與真實輸出之間的相關性,反映的是各分類器的準確性。

在實際中,A和B都是通過統計估計得到的:取N個訓練樣本x1,x2,…,xN,則a^ik=1/CN∑Nn=1∑Cj=1p^ij(xn)p^kj(xn)(5)

b^k=1/CN∑Nn=1∑Cj=1pj(xn)p^kj(xn)(6)

對于集成的BP網絡,其具體的訓練及識別過程如下:

a)假設訓練數據集中包含C類文本的信息, 共有m個樣本, 各BP網絡分別用m個樣本進行訓練, 各自分別達到一定精度后停止;

b)根據式(4),按圖1的結構進行神經網絡的集成;

c)提交測試樣本,輸入網絡進行識別,對于一個待識別的文本特征x,若第j( j = 1, 2, …, C)個神經元輸出值最大,則將x歸為第j類文本。

2 實驗結果

本文實驗使用了英文語料庫20newgroup和Reuters 221578,并與kNN、Bayes分類器的結果進行了比較。在預處理部分,選用PCA技術進行文檔向量的降維。對數據集合,筆者選取Reuters221578 中五個類別和20newgroup 中所有的類別,來分別測試算法對于非均勻分布的文檔集合和均勻文檔集合效果。Reuters221578 中的文檔分布如表1所示。

表1 Reuters221578中的文檔分布類別總文檔數類別總文檔數Acq2 369Earn3 864Corn237grain582Crude578

在20newgroup中筆者選取comp.windows.x ,sci.crypt ,alt. atheism ,talk.religion.misc , soc.religion.christian ,共五個類別,每個類別都有1 000 篇文檔。本文使用精度指標(正確判定的類別中正確的文檔數目除以整個測試文檔數) 來評價算法性能。實驗結果如表2、3所示。

表2 Reuters221578數據集分類結果方法訓練時間分類時間分類精度/%Bayes768.8332.482.9kNN010 816.378.6本文方法589.2248.590.6表3 20newgroup數據集分類結果方法訓練時間分類時間分類精度/%Bayes256.2136.983.5kNN01 089.388.3本文方法212.7141.292.1

從結果可以看出,在數據分布不均勻的集合Reuters221578上,kNN的精度最低,而花費的時間最多,反映了kNN算法具有耗時的缺點,且在處理不均勻數據集時精度過低。在20newgroup數據集上的結果表明,kNN算法精度要高于Bayes算法,但仍然是需要高的時間耗費。在兩個數據集上,本文算法無論是時間還是精度都要優于其他兩類算法,表現了好的魯棒性。

3 結束語

高速度、高精度率是所有分類方法追求的目標。本文將神經網絡集成思想應用到文本分類領域,提出了利用最小估計誤差策略進行最優加權網絡集成的方案。 仿真實驗結果表明: 該方法與Bayes模型和kNN模型相比不僅可以明顯提高分類精度,而且具有更快的分類速度,因此該方法不失為一種高效的文本分類新方法,其在文本分類領域的應用是一個有前景的研究方向。

參考文獻:

[1]VAPNIK V N. The nature of statistical learning theory[M] .New York: Springer-Verlag, 1995: 235-313.

[2]CORTES C, VAPNIK V. Support vector networks[J]. Machine Learning,1995,20(3):273-297.

[3]王煜,白石,王正歐.用于Web文本分類的快速kNN算法[J].情報學報,2007,26(1):60-64.

[4]HORNIK K M, STINCHCOMBE M, WHITE H. Multilayer feed-forward networks are universal approximators[J]. Neural Networks, 1989,2(2):359-366.

[5]HANNSEN L K, SALAMON P. Neural network ensembles[J]. IEEE Tran on PAMI,1990,12(10):993-1001.

[6]周志華,陳世福.神經網絡集成[J].計算機學報,2002,25(1):1-8.

[7]TUMER K, GHOSH J. Analysis of decision boundaries in linearly combined neural classifiers[J]. Pattern Recognition, 1996,29(2):341-348.

[8]BATTITI R, COLLA A M. Democracy in neural nets: voting schemes for classification[J]. Neural Networks,1994, 7(4):691-707.

主站蜘蛛池模板: 国产欧美精品一区二区 | 国产精女同一区二区三区久| 亚洲性影院| 亚洲一级毛片免费观看| 国产成人精品优优av| 中字无码av在线电影| 欧美成人免费午夜全| 日本一区二区不卡视频| 黄片一区二区三区| 美女啪啪无遮挡| 热伊人99re久久精品最新地| 91在线丝袜| 国产av一码二码三码无码| 成年免费在线观看| 国产凹凸视频在线观看| 久久久精品国产SM调教网站| 制服丝袜 91视频| 国产黑丝一区| 国产日韩欧美一区二区三区在线| 青青青视频蜜桃一区二区| 欧美第九页| 亚洲欧美不卡视频| 国产aaaaa一级毛片| 国产靠逼视频| 欧美一级黄色影院| 91娇喘视频| 欧美色99| 日韩在线播放中文字幕| 成人免费一级片| 国产91丝袜在线播放动漫 | 99在线小视频| 国产日产欧美精品| 国产福利在线免费| 亚洲成年人片| 免费中文字幕一级毛片| 色婷婷成人网| 久久精品国产精品国产一区| 2021无码专区人妻系列日韩| 国产 在线视频无码| 就去吻亚洲精品国产欧美| 午夜精品福利影院| 亚洲AV电影不卡在线观看| 一区二区三区四区精品视频 | 亚洲无码91视频| 久久精品丝袜| 无码精品福利一区二区三区| 国产乱人伦AV在线A| 无码av免费不卡在线观看| 国产你懂得| 日本午夜精品一本在线观看 | 婷婷午夜天| 日韩在线2020专区| 欧美一级高清片欧美国产欧美| 亚洲丝袜第一页| 中国毛片网| 青青草国产在线视频| 9啪在线视频| 在线永久免费观看的毛片| 国产女人18水真多毛片18精品| 看国产毛片| 亚洲 日韩 激情 无码 中出| 欧美日韩一区二区在线播放| 日本AⅤ精品一区二区三区日| 日本影院一区| 99这里精品| 91国内外精品自在线播放| 国产91av在线| 精品国产黑色丝袜高跟鞋| 午夜视频免费试看| 日韩精品无码免费专网站| 日本免费a视频| 国产青榴视频| 91久久偷偷做嫩草影院免费看| 欧美黑人欧美精品刺激| 粗大猛烈进出高潮视频无码| 久久精品视频一| 免费aa毛片| 国产精品夜夜嗨视频免费视频| 国产精品原创不卡在线| 日韩毛片免费观看| 欧美三級片黃色三級片黃色1| 亚洲综合色吧|