999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于受限玻爾茲曼機的中文文檔分類

2012-04-29 00:44:03楊瑩吳誠煒胡蘇
科技創(chuàng)新導(dǎo)報 2012年16期
關(guān)鍵詞:分類深度特征

楊瑩 吳誠煒 胡蘇

摘 要:最近,許多不同類型的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)已經(jīng)應(yīng)用于文檔分類,并且得到了較好的結(jié)果。但是,大多數(shù)的模型僅使用了少量特征作為輸入,因此可能沒有足夠的信息來對文檔進(jìn)行準(zhǔn)確分類。如果輸入更多的特征,將可能發(fā)生所謂的維數(shù)災(zāi)難,導(dǎo)致模型的訓(xùn)練時間大幅度增加,其泛化能力也可能會惡化。因此,在原始高維的輸入特征中抽取出高度可區(qū)分的低維特征,并將其作為相應(yīng)模型的輸入對改善模型的泛化性能會有很大的幫助。受限玻爾茲曼機(Restricted Boltzmann Machine)是一種新型的機器學(xué)習(xí)工具,因為其強大的學(xué)習(xí)能力,受限玻爾茲曼機已經(jīng)被廣泛應(yīng)用于各種機器學(xué)習(xí)問題。在本文中,我們使用受限玻爾茲曼機從原始輸入特征中抽取低維高度可區(qū)分的低維特征,并且使用支持向量機(Support Vector Machine)作為回歸模型。

關(guān)鍵詞:文檔分類受限玻爾茲曼機低維特征支持向量機

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2012)06(a)-0035-02

目前,隨著社會網(wǎng)絡(luò)化信息化的日益發(fā)展,網(wǎng)絡(luò)上充斥著越來越多的各類文檔,給用戶檢索帶了諸多不便。如何對文檔進(jìn)行并自動分類已經(jīng)成為機器學(xué)習(xí)的重要研究課題之一。由于大多數(shù)模型只選擇少量的特征作為輸入,因此可能導(dǎo)致模型沒有足夠的信息來泛化模式。如果加入更多的輸入特征,訓(xùn)練時間將會明顯上升,而且模型的泛化性能也可能會惡化。

受限玻爾茲曼機 (Restricted Boltzmann Machine)是一種由可視層和隱藏層組成的馬爾可夫隨機場(MarkovRandomField),并且處于相同層的節(jié)點相互無連接。受限玻爾茲曼機還可以組成深度信念網(wǎng)絡(luò)(DeepBeliefNetwork),深度信念網(wǎng)絡(luò)可以從復(fù)雜的高維輸入數(shù)據(jù)中抽取維數(shù)更低、區(qū)別度較高的特征。

這篇論文的主要貢獻(xiàn)是將受限玻爾茲曼機和支持向量機結(jié)合起來,采用受限玻爾茲曼機對原始輸入的高維特征抽取低維高度可區(qū)分特征,并將其作為回歸模型支持向量機的輸入,對文檔進(jìn)行分類。

1 受限玻爾茲曼機

1.1 基本概念

受限玻爾茲曼機(Restricted Boltzmann Machine) 是一種沒有可見節(jié)點與可見節(jié)點或者隱藏節(jié)點與隱藏節(jié)點之間的連接的玻爾茲曼機。標(biāo)準(zhǔn)的受限玻爾茲曼機如圖1所示。受限玻爾茲曼機一個最主要的優(yōu)點是所有可見的節(jié)點是獨立于其他可見節(jié)點(對于隱藏節(jié)點亦然),因此可以通過使用基于層的快速學(xué)習(xí)算法如對比散度(Contrastive Divergence)來訓(xùn)練網(wǎng)絡(luò)。

受限玻爾茲曼機的能量函數(shù)如下所示:

其中代表可視節(jié)點的狀態(tài),代表隱藏節(jié)點的狀態(tài),為參數(shù)集合,在代表可視節(jié)點與隱藏節(jié)點的連接權(quán)重,,分別是可視節(jié)點和隱藏節(jié)點的偏置向量。

受限玻爾茲曼機歸一化因子(配分函數(shù))定義如下:

,

對于受限玻爾茲曼機的某一狀態(tài)的概率如下所示:

可視節(jié)點的條件概率如下所示:

,

隱藏節(jié)點的條件概率如下所示:

,

其中,表示權(quán)重矩陣的第個行向量,表示權(quán)重矩陣的第個列向量。

高斯-伯努利受限玻爾茲曼機(Gaussian-Bernoulli Restricted Boltzmann Machine)[1]將二進(jìn)制可視節(jié)點替換為具有高斯分布的實數(shù)可視節(jié)點,高斯-伯努利受限玻爾茲曼機的能量函數(shù)如下所示:

其中,為高斯可見節(jié)點的標(biāo)準(zhǔn)方差向量。

高斯-伯努利受限玻爾茲曼機的可視節(jié)點條件分布服從如下高斯分布:

其中代表均值為,標(biāo)準(zhǔn)方差為的高斯分布。

高斯-伯努利受限玻爾茲曼機的隱藏節(jié)點的條件概率如下所示:。

1.2 特征抽取

由于受限玻爾茲曼機采用隱藏節(jié)點為輸入數(shù)據(jù)庫建模,采用受限玻爾茲曼隱藏節(jié)點的期望值作為抽取的特征是一種最直截了當(dāng)?shù)淖龇ā=鼇淼难芯勘砻?某些問題使用受限玻爾茲曼機抽取的特征作為回歸模型的輸入,比采用原始數(shù)據(jù)作為輸入在分類性能上得到了顯著的改善。

1.3 深度信念網(wǎng)絡(luò)

受限玻爾茲曼機的另外一個優(yōu)點是可以將受限玻爾茲曼機堆疊起來組成深度信念網(wǎng)絡(luò)(Deep Belief Network)抽取的更加抽象的特征。圖2展示了一個三層深度信念網(wǎng)絡(luò)。

深度信念網(wǎng)絡(luò)可以采用無監(jiān)督的分層對比散度算法訓(xùn)練:1)底部受限玻爾茲曼機以原始輸入數(shù)據(jù)訓(xùn)練。2)將底部受限玻爾茲曼機抽取特征作為頂部受限玻爾茲曼機的輸入訓(xùn)練。3)過程1)和2)可以重復(fù)來訓(xùn)練所需要的盡可能多的層數(shù)。無監(jiān)督的分層訓(xùn)練完畢后,還可以采用反向傳播法(backpropagation)微調(diào)權(quán)重和偏置來提高深度信念網(wǎng)絡(luò)的抽取性。

1.4 對比散度學(xué)習(xí)算法

2 基于受限玻爾茲曼機的文檔分類

由于文檔的文本內(nèi)容本身是不規(guī)范的,而且直接將文本內(nèi)容作為輸入,將會導(dǎo)致輸入數(shù)據(jù)的維數(shù)過高而無法處理。因此對文檔進(jìn)行預(yù)處理是必要的,抽取代表其本質(zhì)特征的元數(shù)據(jù),以結(jié)構(gòu)化的形式保存。文檔原始特征的提取一般可以選擇某些字、詞組的出現(xiàn)頻率作為特征項。

由上所述,即使進(jìn)行了預(yù)處理,原始特征的維數(shù)仍然很龐大,對原始特征進(jìn)一步抽取也是很必要。傳統(tǒng)的降維技術(shù)有主成份分析法(Principal Component Analysis)[2]等。本文采用深度信念網(wǎng)絡(luò)對原始特征進(jìn)行抽取低維高度可區(qū)分特征,然后將抽取的特征作為支持向量機的輸入,進(jìn)行回歸分析,從而達(dá)到文檔分類的目的。

3 實驗

3.1 實驗數(shù)據(jù)

國內(nèi)目前還沒有標(biāo)準(zhǔn)的且普遍接受的中文文檔分類測試文檔庫,我們使用自己建立的測試文檔庫測試我們的文檔分類器。測試文檔庫中的文檔均來自騰訊門戶網(wǎng)站,它們被分為40個類,我們?nèi)∑渲械陌臋n數(shù)最多的20個類進(jìn)行測試,訓(xùn)練集總共包含10033篇文檔,測試集包含8032篇文檔。

3.2 實驗設(shè)置

實驗環(huán)境為Intel Core Quad 2.4GHz、4GB內(nèi)存和GeForcegt240顯卡,顯存為1GB.權(quán)重矩陣的元素初始為的隨機數(shù),偏置和初始化為0,高斯可視節(jié)點的標(biāo)準(zhǔn)方差固定為1.0。采用Java實現(xiàn)受限玻爾茲曼機框架,并且通過JCDUA(http://www.jcuda.org)使用GPU進(jìn)行加速運算。支持向量機框架的實現(xiàn)是采用LIBSVM[3]開源代碼。

3.3 實驗結(jié)果

為了測試受限玻爾茲曼機及其深度體系的分類性能,我們進(jìn)行了三種不同類別的實驗:

使用300常用詞的統(tǒng)計頻率作為支持向量機的輸入。(SVM+300)

使用3000常用詞的統(tǒng)計頻率作為原始特征,使用PCA對高維文檔進(jìn)行降維處理,將抽取出的低維特征作為支持向量機的輸入。(SVM+PCA)

使用3000常用詞的統(tǒng)計頻率作為原始特征,使用4層深度信念網(wǎng)絡(luò)抽取低維高度可區(qū)分特征,并將抽取的特征作為支持向量機的輸入。深度信念網(wǎng)絡(luò)的節(jié)點數(shù)分別為3000,500,100,30。(SVM+DBN)

對于每一種類型的實驗,我們對支持向量機采用不同的配置參數(shù),并將最好的實驗結(jié)果作為其代表,實驗結(jié)果如表1所示。由表1可以看出,采用深度信念網(wǎng)絡(luò)抽取低維高可區(qū)分特征有助于提高支持向量機的回歸性能,從而提示文檔分類的準(zhǔn)確度。

4 Conclusion

本文采用了基于受限玻爾茲曼機抽取低維高可區(qū)別特征對中文文檔進(jìn)行分類。深度信念網(wǎng)絡(luò)抽取低維高度可區(qū)分特征有助于提高支持向量機的回歸性能,從而提示文檔分類的準(zhǔn)確度。實驗結(jié)果表明這種方法獲得令人滿意的分類結(jié)果。盡管如此,本文原始特征的提取過于簡單,采用一些更加成熟的方法將有助于提高分類性能。

參考文獻(xiàn)

[1] 王自強,錢旭.基于KDA和SVM的文檔分類算法[J].計算機應(yīng)用,2009,2,416~418.

[2] 王自強,錢旭,孔敏.面向文檔分類的LDE和簡化SVM方法研究[J].計算機工程與應(yīng)用,2009,45(22):1~6.

[3] 何明,馮博琴,傅向華.基于Rough集潛在語義索引的Web文檔分類[J].計算機工程,2004,30(13):3~5.

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
深度觀察
深度觀察
深度觀察
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 五月婷婷激情四射| 国产va免费精品观看| 亚洲人在线| 黄网站欧美内射| 波多野结衣爽到高潮漏水大喷| 国产精品自在在线午夜区app| 伊人久综合| 免费毛片全部不收费的| 欧美日韩另类国产| 国内丰满少妇猛烈精品播| 国产精品三级专区| 日韩区欧美国产区在线观看| 97国产在线播放| 四虎精品黑人视频| 久久综合色88| 亚洲免费毛片| 日本成人福利视频| 自慰高潮喷白浆在线观看| 精品人妻AV区| 国产aⅴ无码专区亚洲av综合网| 亚洲一区二区三区在线视频| 中文字幕av无码不卡免费 | 国产精品私拍99pans大尺度| 香蕉视频在线精品| 国产精品久久自在自线观看| 亚洲欧美成人| 天天做天天爱天天爽综合区| 欧美日韩成人在线观看 | 色老头综合网| 亚洲天堂首页| 日韩毛片免费观看| 大香网伊人久久综合网2020| 国产裸舞福利在线视频合集| 国产精品夜夜嗨视频免费视频 | 亚洲成人一区二区三区| 亚洲色图欧美视频| 在线观看无码av免费不卡网站| 欧洲亚洲欧美国产日本高清| 国模粉嫩小泬视频在线观看| 国产美女91视频| AV无码无在线观看免费| 国产精品亚洲天堂| 国产在线精品美女观看| 99视频有精品视频免费观看| 久久精品66| 嫩草影院在线观看精品视频| 国内毛片视频| 高清乱码精品福利在线视频| 国产精品九九视频| 在线亚洲天堂| 综合久久五月天| 91亚洲影院| 亚洲综合精品香蕉久久网| 精品亚洲麻豆1区2区3区| 中文字幕色在线| 国产XXXX做受性欧美88| 国产区成人精品视频| jizz在线免费播放| 久草视频精品| 99热这里都是国产精品| 午夜高清国产拍精品| 狂欢视频在线观看不卡| 91免费观看视频| 欧美精品亚洲精品日韩专区| 国模极品一区二区三区| 亚洲狠狠婷婷综合久久久久| 国产午夜人做人免费视频中文| 国产高潮流白浆视频| 秋霞午夜国产精品成人片| 亚洲综合亚洲国产尤物| 九九线精品视频在线观看| 国产杨幂丝袜av在线播放| 午夜欧美理论2019理论| 久久无码av三级| 日本人妻丰满熟妇区| 999国产精品永久免费视频精品久久| 视频二区国产精品职场同事| 国产成人亚洲无吗淙合青草| 亚洲中文无码h在线观看| 无码丝袜人妻| 亚洲最大在线观看| 日本欧美午夜|