999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于受限玻爾茲曼機的中文文檔分類

2012-04-29 00:44:03楊瑩吳誠煒胡蘇
科技創新導報 2012年16期
關鍵詞:分類深度特征

楊瑩 吳誠煒 胡蘇

摘 要:最近,許多不同類型的人工神經網絡(Artificial Neural Network)已經應用于文檔分類,并且得到了較好的結果。但是,大多數的模型僅使用了少量特征作為輸入,因此可能沒有足夠的信息來對文檔進行準確分類。如果輸入更多的特征,將可能發生所謂的維數災難,導致模型的訓練時間大幅度增加,其泛化能力也可能會惡化。因此,在原始高維的輸入特征中抽取出高度可區分的低維特征,并將其作為相應模型的輸入對改善模型的泛化性能會有很大的幫助。受限玻爾茲曼機(Restricted Boltzmann Machine)是一種新型的機器學習工具,因為其強大的學習能力,受限玻爾茲曼機已經被廣泛應用于各種機器學習問題。在本文中,我們使用受限玻爾茲曼機從原始輸入特征中抽取低維高度可區分的低維特征,并且使用支持向量機(Support Vector Machine)作為回歸模型。

關鍵詞:文檔分類受限玻爾茲曼機低維特征支持向量機

中圖分類號:TP393 文獻標識碼:A 文章編號:1674-098X(2012)06(a)-0035-02

目前,隨著社會網絡化信息化的日益發展,網絡上充斥著越來越多的各類文檔,給用戶檢索帶了諸多不便。如何對文檔進行并自動分類已經成為機器學習的重要研究課題之一。由于大多數模型只選擇少量的特征作為輸入,因此可能導致模型沒有足夠的信息來泛化模式。如果加入更多的輸入特征,訓練時間將會明顯上升,而且模型的泛化性能也可能會惡化。

受限玻爾茲曼機 (Restricted Boltzmann Machine)是一種由可視層和隱藏層組成的馬爾可夫隨機場(MarkovRandomField),并且處于相同層的節點相互無連接。受限玻爾茲曼機還可以組成深度信念網絡(DeepBeliefNetwork),深度信念網絡可以從復雜的高維輸入數據中抽取維數更低、區別度較高的特征。

這篇論文的主要貢獻是將受限玻爾茲曼機和支持向量機結合起來,采用受限玻爾茲曼機對原始輸入的高維特征抽取低維高度可區分特征,并將其作為回歸模型支持向量機的輸入,對文檔進行分類。

1 受限玻爾茲曼機

1.1 基本概念

受限玻爾茲曼機(Restricted Boltzmann Machine) 是一種沒有可見節點與可見節點或者隱藏節點與隱藏節點之間的連接的玻爾茲曼機。標準的受限玻爾茲曼機如圖1所示。受限玻爾茲曼機一個最主要的優點是所有可見的節點是獨立于其他可見節點(對于隱藏節點亦然),因此可以通過使用基于層的快速學習算法如對比散度(Contrastive Divergence)來訓練網絡。

受限玻爾茲曼機的能量函數如下所示:

其中代表可視節點的狀態,代表隱藏節點的狀態,為參數集合,在代表可視節點與隱藏節點的連接權重,,分別是可視節點和隱藏節點的偏置向量。

受限玻爾茲曼機歸一化因子(配分函數)定義如下:

,

對于受限玻爾茲曼機的某一狀態的概率如下所示:

可視節點的條件概率如下所示:

,

隱藏節點的條件概率如下所示:

,

其中,表示權重矩陣的第個行向量,表示權重矩陣的第個列向量。

高斯-伯努利受限玻爾茲曼機(Gaussian-Bernoulli Restricted Boltzmann Machine)[1]將二進制可視節點替換為具有高斯分布的實數可視節點,高斯-伯努利受限玻爾茲曼機的能量函數如下所示:

其中,為高斯可見節點的標準方差向量。

高斯-伯努利受限玻爾茲曼機的可視節點條件分布服從如下高斯分布:

其中代表均值為,標準方差為的高斯分布。

高斯-伯努利受限玻爾茲曼機的隱藏節點的條件概率如下所示:。

1.2 特征抽取

由于受限玻爾茲曼機采用隱藏節點為輸入數據庫建模,采用受限玻爾茲曼隱藏節點的期望值作為抽取的特征是一種最直截了當的做法。近來的研究表明,某些問題使用受限玻爾茲曼機抽取的特征作為回歸模型的輸入,比采用原始數據作為輸入在分類性能上得到了顯著的改善。

1.3 深度信念網絡

受限玻爾茲曼機的另外一個優點是可以將受限玻爾茲曼機堆疊起來組成深度信念網絡(Deep Belief Network)抽取的更加抽象的特征。圖2展示了一個三層深度信念網絡。

深度信念網絡可以采用無監督的分層對比散度算法訓練:1)底部受限玻爾茲曼機以原始輸入數據訓練。2)將底部受限玻爾茲曼機抽取特征作為頂部受限玻爾茲曼機的輸入訓練。3)過程1)和2)可以重復來訓練所需要的盡可能多的層數。無監督的分層訓練完畢后,還可以采用反向傳播法(backpropagation)微調權重和偏置來提高深度信念網絡的抽取性。

1.4 對比散度學習算法

2 基于受限玻爾茲曼機的文檔分類

由于文檔的文本內容本身是不規范的,而且直接將文本內容作為輸入,將會導致輸入數據的維數過高而無法處理。因此對文檔進行預處理是必要的,抽取代表其本質特征的元數據,以結構化的形式保存。文檔原始特征的提取一般可以選擇某些字、詞組的出現頻率作為特征項。

由上所述,即使進行了預處理,原始特征的維數仍然很龐大,對原始特征進一步抽取也是很必要。傳統的降維技術有主成份分析法(Principal Component Analysis)[2]等。本文采用深度信念網絡對原始特征進行抽取低維高度可區分特征,然后將抽取的特征作為支持向量機的輸入,進行回歸分析,從而達到文檔分類的目的。

3 實驗

3.1 實驗數據

國內目前還沒有標準的且普遍接受的中文文檔分類測試文檔庫,我們使用自己建立的測試文檔庫測試我們的文檔分類器。測試文檔庫中的文檔均來自騰訊門戶網站,它們被分為40個類,我們取其中的包含文檔數最多的20個類進行測試,訓練集總共包含10033篇文檔,測試集包含8032篇文檔。

3.2 實驗設置

實驗環境為Intel Core Quad 2.4GHz、4GB內存和GeForcegt240顯卡,顯存為1GB.權重矩陣的元素初始為的隨機數,偏置和初始化為0,高斯可視節點的標準方差固定為1.0。采用Java實現受限玻爾茲曼機框架,并且通過JCDUA(http://www.jcuda.org)使用GPU進行加速運算。支持向量機框架的實現是采用LIBSVM[3]開源代碼。

3.3 實驗結果

為了測試受限玻爾茲曼機及其深度體系的分類性能,我們進行了三種不同類別的實驗:

使用300常用詞的統計頻率作為支持向量機的輸入。(SVM+300)

使用3000常用詞的統計頻率作為原始特征,使用PCA對高維文檔進行降維處理,將抽取出的低維特征作為支持向量機的輸入。(SVM+PCA)

使用3000常用詞的統計頻率作為原始特征,使用4層深度信念網絡抽取低維高度可區分特征,并將抽取的特征作為支持向量機的輸入。深度信念網絡的節點數分別為3000,500,100,30。(SVM+DBN)

對于每一種類型的實驗,我們對支持向量機采用不同的配置參數,并將最好的實驗結果作為其代表,實驗結果如表1所示。由表1可以看出,采用深度信念網絡抽取低維高可區分特征有助于提高支持向量機的回歸性能,從而提示文檔分類的準確度。

4 Conclusion

本文采用了基于受限玻爾茲曼機抽取低維高可區別特征對中文文檔進行分類。深度信念網絡抽取低維高度可區分特征有助于提高支持向量機的回歸性能,從而提示文檔分類的準確度。實驗結果表明這種方法獲得令人滿意的分類結果。盡管如此,本文原始特征的提取過于簡單,采用一些更加成熟的方法將有助于提高分類性能。

參考文獻

[1] 王自強,錢旭.基于KDA和SVM的文檔分類算法[J].計算機應用,2009,2,416~418.

[2] 王自強,錢旭,孔敏.面向文檔分類的LDE和簡化SVM方法研究[J].計算機工程與應用,2009,45(22):1~6.

[3] 何明,馮博琴,傅向華.基于Rough集潛在語義索引的Web文檔分類[J].計算機工程,2004,30(13):3~5.

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 99re免费视频| 亚洲第一香蕉视频| 91福利在线看| 91视频免费观看网站| 久久久久久高潮白浆| 亚洲成a人片77777在线播放| 91无码国产视频| 免费三A级毛片视频| 免费国产在线精品一区| 亚洲精品你懂的| 亚洲国产成熟视频在线多多| 精品久久久无码专区中文字幕| 欧美自慰一级看片免费| 中文字幕在线观看日本| 国产成人h在线观看网站站| 国产在线观看高清不卡| 国产免费网址| 国产精品毛片一区视频播| 精品福利网| 国产女人在线视频| 国产欧美日韩另类| 一级做a爰片久久毛片毛片| 亚洲精品男人天堂| 看av免费毛片手机播放| 国产菊爆视频在线观看| 久热中文字幕在线| 2020国产在线视精品在| 久久香蕉国产线| 全部毛片免费看| a天堂视频| 拍国产真实乱人偷精品| 91在线激情在线观看| 亚洲色中色| 一本久道久综合久久鬼色| 77777亚洲午夜久久多人| 日韩毛片免费观看| 久久黄色视频影| 黄色污网站在线观看| 国产人人乐人人爱| 最新国产精品第1页| 亚洲欧美不卡中文字幕| 国产在线八区| 中文字幕不卡免费高清视频| 91av成人日本不卡三区| 欧美曰批视频免费播放免费| A级全黄试看30分钟小视频| 亚洲天堂精品视频| 亚洲男人的天堂久久精品| P尤物久久99国产综合精品| 日韩欧美国产中文| 人妖无码第一页| 亚洲AV无码一二区三区在线播放| 亚洲伊人天堂| 国产99热| 免费日韩在线视频| 中文字幕资源站| 日本国产精品| 久久这里只有精品国产99| 日韩av电影一区二区三区四区| 一区二区日韩国产精久久| 亚洲综合第一区| 国产69精品久久久久孕妇大杂乱| 欧美日韩精品一区二区在线线 | 欧美在线天堂| 国内精品伊人久久久久7777人| 国产乱子伦手机在线| 亚洲午夜国产精品无卡| 澳门av无码| 国产正在播放| 极品国产在线| 欧美翘臀一区二区三区| 国产成人精彩在线视频50| 国产精品.com| 国产一级裸网站| 亚洲天堂免费观看| 日韩一二三区视频精品| 国产av色站网站| 国产成人高清精品免费5388| 亚洲精品欧美日本中文字幕| 欧美在线一二区| 精品無碼一區在線觀看 | 日韩毛片视频|