999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模擬退火的多標記數據特征選擇

2011-09-07 10:16:54張永波游錄金陳杰新
計算機工程與設計 2011年7期
關鍵詞:特征方法

張永波, 游錄金, 陳杰新

(1.浙江旅游職業學院圖書信息中心,浙江杭州311231;2.上海思備計算機有限公司,上海200030;3.寧波城市職業技術學院信息中心,浙江寧波315100)

0 引 言

若一個樣本和多個類標相關聯,則稱這樣的數據為多標記數據。在當前的數據分析領域,多標記數據分析任務有很多[1-8]。比如,在網頁分類中,不同的網頁屬于不同的主題,而且有多個類別,一個具有海灘和高山的圖片,可以分類為大海、高山、風景等不同的語義類?,F在常見的多標記學習算法中,一個個樣例與多個類標關聯在一起,多標記學習技術要為未知測試樣例預測其類標集合,一般情況下,類標集合大小并不知道的。多標記學習所使用的數據通常都是高維數據,由于多標記學習技術的復雜性,其降維和特征選擇方法的研究仍然很少。目前多標記學習技術大體可以分為兩類[1-2]:轉化問題方法,改寫算法方法。轉化問題方法獨立于算法,把多標記學習任務轉化為一個或多個但標記分類任務,如單標記學習打分、組合類標、繼承學習方法等;改寫算法方法通過擴展特定的學習算法(如Boosting,支持向量機,決策樹等)來直接處理多標記數據。

對于特征維數高影響學習器效果方面,近年發表的一個特征抽取方法是多標記最大依賴維數約簡(MDDM)算法[9-10],這個方法采用希爾伯特-斯密特準則(Hilbert-Schmidt independence criterion,HSIC)作為依賴性的評測準則。這個算法的最大特色在于通過最大化數據集特征集合與類標的依賴性,這樣可以監督方式得到低維特征空間,已有的實驗結果顯示MDDM性能略優于局部投影追蹤(LPP),主成份分析(PCA),明顯優于多標記線性語義索引(MLSI)。多標記線性降維方法[11]將最小平方損以及其他損失函數如hinge loss和squared hinge loss用于多標記學習問題中,也取得了較好的效果。MDDM和多標記線性降維算法的一個問題就是無法得到低維的原始特征,不利于科學問題的理解。

特征選擇旨在去除不相關特征和冗余特征,力求以最少的特征來表達原始信息,并達到最優的預測或分類精度。特征選擇能夠明顯提高分類模型的可理解性并且建立一個能更好的預測未知樣本的分類模型,具有重要的現實意義,當前主要的特征選擇方法大致可分為3類:過濾式特征選擇方法(filter)[12],封裝式特征選擇方法(wrapper),嵌入式特征選擇方法(embedded)[13]。封裝式方法依賴于分類器,在封裝式方法中,學習算法被“包含”在特征選擇中。封裝式方法用學習器來評估用潛在的特征子集預測類標時精確度。雖然封裝式方法比較費時,但是選擇結果是建立在學習算法基礎上,所得結果對特定的學習技術是最優的,所以在科學數據分析中應用廣泛。在多標記特征選擇方面,文獻[12]使用了過濾式特征選擇技術,文獻[13]去年提出的嵌入式特征選擇方法(MEFS),并結合到半監督多標記學習的特征選擇中[14]。在封裝式特征選擇中,遺傳算法被引入到特征選擇中取得了較好效果[15]。

本文將結合多種多標記學習算法,嘗試模擬退火的優化技術,提高封裝式特征選擇的效果,并與已有的多標記數據降維方法進行比較。

1 SAML算法

葛雷等采用嵌入式特征選擇進行多標記數據選擇,提出MEFS,本文算法結構與之類似,所以先給出MEFS算法如圖1所示[13]。張敏靈等采用遺傳算法對多標記數據進行特征選擇分析[15],但是該算法僅僅結合MLNB-Basic算法,并且遺傳算法在優化方面有一定局限性,如果嘗試不同優化技術,進行特征子集的搜索,或許能進一步提高特征選擇效果。本文提出嘗試引入變異算子的模擬退火算法,得到最優特征子集,提出了基于模擬退火的多標記特征選擇算法,SAML(simulated annealing based feature selection for multi-label data)。如圖2所示,算法在特征選擇的過程中,以Average Precision結果作為特征子集的適應度函數。也即在訓練數據上進行特征選擇的過程中,在驗證集上通過ML-KNN[16]、MLNB-BASIC[15]等多標記學習技術建模所得測試結果的Average_Precision準則作為評估特征子集的適應度函數。Average_Precision準則詳見文獻[1]。

圖1 MEFS算法

圖2 SAML算法

2 數據與實驗設置

SAML將與MEFS[5]和MLNB[7]等兩個方法在YAHOO頁面分類數據集上進行比較。ML-KNN[8]和MLNB-Basic[7]作為多標記分類器,k設置為10[8]。為了比較SAML進行特征選擇的效果,用ORI表示原始空間下訓練的結果。

Yahoo(http://www.keel.ntt.co.jp/as/members/ueda/yahoo.tar.gz)網頁數據集是從“yahoo.com”網站收集的網頁面,有11個子數據集。每個數據集包含2000個訓練數據文本和3000個測試數據文本。本文使用2個子數據集,它們詳細情況如表1所示。這些數據集在先后用到很多的工作中,這些工作都用了這個數據集進行算法評測,所以這些數據都很權威。

表1 Yahoo數據集的描述

3 SAML特征選擇結果

選擇AveragePrecision作為SAML特征選擇的評價指標。選擇Yahoo數據集中Arts&Humanities和Business&Economy作為樣例,對SAML與MEFS,MLNB的特征選擇效果進行分析比較。Arts&Humanities和Business&Economy數據集上的結果分別列在表2-表5中,并用粗體表示最優結果。

從實驗結果中,我們可以看出SAML和MLNB稍優于MEFS,明顯優于ORI。同時,經過SAML進行特征選擇后,Hammingloss,Coverage以及AveragePrecision等指標都明顯提高。不同學習器效果略有不同,在ML-kNN上SAML所得結果明顯比MLNB有好的結果,而在MLNB-Basic作為分類器時,SAML跟MLNB則效果相當。綜合兩種分類器上的結果,得出SAML略好或相當于MLNB的結論。

表2 Arts&Humanities上ML-KNN的結果

表3 Business&Economy上ML-KNN的結果

表4 Arts&Humanities上MLNB-Basic的結果

表5 Business&Economy上MLNB-Basic的結果

4 結束語

本文將模擬退火用于多標記數據的特征選擇中,用卷積式模型的特征選擇技術,這樣可以克服有監督的多標記特征選擇中的很多問題,比如復雜的多標記交錯帶來的問題。在Yahoo網頁上的實驗證明,基于模擬退火的卷積式特征選擇方法能夠有效提高多標記學習的建模精度。進一步的工作包括如何進行高效的特征選擇,如何提高多標記特征選擇的速度、如何通過更高級的技術來處理多標記的問題。今后將在更多的多標記學習技術[17-18]和數據集上進行研究,提高算法的適應性和效率。

[1]Tsousmakas G,Zhang M L,Zhou Z H.Learning from multi-label data[C].Bled,Slovenia:ECML/PKDD'09,2009.

[2]Zhang M-L,Zhou Z-H.Multi-label learning by instance differentiation[C].Vancouver,Canada:Proceedings of the 22nd AAAI Conference on Artificial Intelligence,2007:669-674.

[3]Zhou Z-H,Zhang M-L.Multi-instance multi-label learning with application to scene classification[C].Sch?lkopf B,Platt J C,Hofmann T,et al.Vancouver,Canada:Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2007:1609-1616.

[4]Zhang M-L,Zhou Z-H.A k-nearest neighbor based algorithm for multi-label classification[C].Beijing,China:Proceedings of the 1st IEEE International Conference on Granular Computing,2005:718-721.

[5]Zhang M-L,Zhou Z-H.Multilabel neural networks with applications to functional genomics and text categorization[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1338-1351.

[6]Jin R,Wang S,Zhou Z-H.Learning a distance metric from multiinstance multi-label data[C].Miami,FL:Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2009:896-902.

[7]Li Y-X,Ji S,Kumar S,et al.Drosophila gene expression pattern annotation through multi-instance multi-label learningb[J].ACM/IEEE Transactions on Computational Biology and Bioinformatics,2011,4(2):22-35.

[8]Li Y-X,Ji S,Ye J,et al.Drosophila gene expression pattern annota-tion through multi-instance multi-label learning[C].Pasadena,CA:Proceedings of the 21st International Joint Conference on Artificial Intelligence,2009:1445-1450.

[9]Zhang Y,Zhou Z-H.Multi-label dimensionality reduction via dependency maximization[C].Chicago,IL:Proceedings of the 23rd AAAI Conference on Artificial Intelligence,2008:1503-1505.

[10]Zhang Y,Zhou Z H.Multi-label dimensionality reduction via dependence maximization[J].ACM Transactions on Knowledge Discovery from Data,2010,4(3):14-24.

[11]Ji S W,Ye J P.Linear dimensionality reduction for Multi-Label classification[C].Pasadena,CA:Proceedings of the 21st International Conference on Artificial Intelligence,2009:1077-1082.

[12]LiuY-H,Li G-Z,Zhang H-Y,etal.Feature selectionforgenefunction prediction by using multi-label lazy learning[J].International Journal of Functional Informatics and Personalised Medicine,Inderscience,2008,1(3):223-233.

[13]葛雷,李國正,尤鳴宇.多標記學習的嵌入式特征選擇[J].南京大學學報,2009,45(5):671-676.

[14]Li G-Z,You M,Ge L,et al.Feature selection for semi-supervised multi-label learning with application to gene function analysis[C].Niagara Falls,NY:Proceedings of The First ACM International Conference On Bioinformatics and Computational Biology,2010:354-357.

[15]Zhang M L,Pena J M,Robles V,et al.Feature selection for multilabel naive Bayes classification[J].Information Sciences,2009,179(19):3218-3229.

[16]Zhang ML,ZhouZ H.ML-KNN:A lazylearning approachto multi-label learning[J].Pattern Recognition,2007,40(7):2038-2048.

[17]Zhang M L,Zhou Z-H.M3MIML:A maximum margin method for multi-instance multi-label learning[C].Pisa,Italy:Proceedings of the 8th IEEE International Conference on Data Mining,2008:688-697.

[18]Sun Y-Y,Zhang Y,Zhou Z-H.Multi-label learning with weak label[C].Atlanta,GA:Proceedings of the 24th AAAI Conference on Artificial Intelligence,2010:593-598.

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久天天躁狠狠躁夜夜躁| 中文字幕啪啪| 久久人妻xunleige无码| 国产成人1024精品下载| 国产精品刺激对白在线| 二级毛片免费观看全程| 青草娱乐极品免费视频| 国产精品福利导航| 欧美无专区| 一级成人a毛片免费播放| 国产精品性| 午夜三级在线| 国产乱码精品一区二区三区中文| 国产成人亚洲精品色欲AV| 九九九久久国产精品| 99re精彩视频| 久草性视频| 久久窝窝国产精品午夜看片| 欧美三級片黃色三級片黃色1| 久久久91人妻无码精品蜜桃HD| 国产一级毛片在线| 日韩欧美一区在线观看| 一本视频精品中文字幕| 亚洲电影天堂在线国语对白| 亚洲视频三级| 亚洲免费播放| 日本不卡在线播放| 亚洲欧洲日产无码AV| 97久久免费视频| 国产精品无码影视久久久久久久 | AV片亚洲国产男人的天堂| 任我操在线视频| 欧美色99| 永久免费无码成人网站| 亚洲不卡无码av中文字幕| 日本亚洲国产一区二区三区| 福利一区三区| 日韩高清中文字幕| 色天天综合久久久久综合片| 欧美三級片黃色三級片黃色1| 午夜日b视频| 97久久人人超碰国产精品| 亚洲欧美一区二区三区蜜芽| 国产麻豆福利av在线播放| 日韩无码真实干出血视频| 亚洲乱码在线播放| 亚洲av无码专区久久蜜芽| 国产精品久久久久鬼色| 中文毛片无遮挡播放免费| 午夜无码一区二区三区在线app| 在线一级毛片| 国产色婷婷| 视频二区国产精品职场同事| 2021国产在线视频| 中文字幕久久亚洲一区| 浮力影院国产第一页| 久久公开视频| 毛片久久久| 国产成年女人特黄特色毛片免| 亚洲精品第1页| 日本爱爱精品一区二区| 亚洲欧洲日本在线| 中文字幕免费播放| 中文字幕2区| 久久国产免费观看| av尤物免费在线观看| 久久99久久无码毛片一区二区| 就去吻亚洲精品国产欧美| 亚洲成人在线免费观看| 性69交片免费看| 五月天在线网站| 波多野结衣AV无码久久一区| 精品五夜婷香蕉国产线看观看| 亚洲色图欧美一区| 色呦呦手机在线精品| 色婷婷国产精品视频| 亚洲无线一二三四区男男| 99精品伊人久久久大香线蕉| 日本伊人色综合网| 在线观看无码av免费不卡网站| 台湾AV国片精品女同性| 无码aⅴ精品一区二区三区|