999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進PM-MD的分類器集成①

2019-04-29 08:58:52吳立凡何振峰
計算機系統應用 2019年4期
關鍵詞:競爭力分類策略

吳立凡,何振峰

(福州大學 數學與計算機科學學院,福州 350116)

Hub[1]指一些經常出現在其他數據點的最相鄰列表中的數據點,它是隨著維度的增加而出現的,這種現象一般稱為Hubness 現象[2].Hubness 是高維空間數據分布的一個固有性質,對高維數據分析產生了顯著的影響[2],受影響的方法和任務包括貝葉斯建模,近鄰預測和搜索,神經網絡等等[2].比如,Hubness 的出現會直接影響到KNN 分類的準確性[3],這是因為:Hub 在相應的距離空間中傳播其編碼信息過于廣泛,而非Hub 攜帶的信息基本上丟失,導致這些距離空間不能很好地反映類信息[4].

為了減少Hubness 的負面影響,有兩類(共五種)降Hubness 的分類器策略應用于數據轉換以提高KNN 分類精度:其中第一類策略(二次距離策略)將距離矩陣換算到二次距離(NICDM[1]、MP[1]),第二類策略(線性換算策略)直接應用于數據向量(CENT[3]、MINMAX[5]、ZSCORE[5]).第一類策略中:NICDM 是將Hubness 問題與使最近鄰關系對稱的方法聯系起來,它需要得到每個數據點的局部鄰域,因此并不適用于非常大的數據庫;MP 是一種無監督的將任意的距離函數轉換成概率相似性(距離)測量的方法,適用于非常大的數據庫,并且支持多個距離空間的簡單組合.實驗表明NICDM 和MP 顯著的減少了Hubness,提高了KNN分類精度,還增強了近鄰的穩定性[1,6];但是,NICDM和MP 適用于中心性和內在維度較高的數據集,否則性能不穩定[1].第二類策略中:CENT 是將特征空間的原點移到數據中心,可用于內積相似空間以減少Hubness(其中每個樣本和中心的相似性在CENT 后等于零),但它并不是適用于所有數據集,它成功的必要條件是Hub 與數據中心點有著高相似度[1];而MINMAX和ZSCORE 則是應用很廣泛的數據標準化方法,MINMAX 是對原始數據進行線性變換,適用于原始數據的取值范圍已經確定的情況;ZSCORE 基于原始數據的均值和標準差進行數據的標準化,適用于最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況.

在本文中對這兩類策略進行多分類器集成,由于不同的分類器提供了關于被分類的對象的補充信息,因此多分類器系統可以獲得比整體中任何單一的分類器更好的分類精度.本文中的集成采用了一種計算特征空間分類器競爭力的名為PM-MD[7]的方法.在該方法中,首先使用KNN 的驗證對象來確定分類對象x點的決策表,決策表提供了被識別對象屬于指定類的機會.在概率模型中,決策表的自然概念是基于x點上的類的后驗概率.接下來,將決策表與分類器所產生的響應(支持向量或判別函數的值)進行比較,并根據相似性規則[8]計算分類器的分類競爭力:對決策表的響應越接近,分類器的競爭力就越強[9,10].

本文的第1 部分介紹兩類降Hubness 策略(共五種),第2 部分介紹PM-MD 集成的方法并對第1 部分的策略進行集成,第3 部分介紹對PM-MD 集成進行改進的部分,第4 部分對實驗結果進行分析.

(1)兩類降Hubness 策略

1)二次距離策略

① NICDM

NICDM (Non-Iterative Contextual Dissimilarity Measure)用K近鄰的平均距離來重新換算距離,相比于利用K近鄰距離來重新換算距離,這將返回更穩定的換算數據.NICDM 通過式(1)得到二次距離:

其中,μx表 示x最近鄰的平均距離,μy同理.NICDM 傾向于通過換算的數據點x和y的局部距離統計數據使得近鄰關系更加對稱[6].

② MP

相互接近(Mutual Proximity)通過將兩個對象之間的距離轉換為一個相互接近的距離來重新解釋原始的距離空間,使得兩個共享最近鄰的對象之間的距離就更緊密了,而不共享最近鄰的對象則相互排斥.在n個對象集合中,計算一個給定距離dx,y可以歸結為簡單地計算出j與x和y之間大于dx,y的距離[1]:

式(2)中,MP 是計算點x和y的相似度,通過計算1-MP將相似度變成了二次距離[6].

2)線性換算策略

① CENT

定心(Centering)將特征空間的原點轉移到數據中心它是一種去除數據中觀測偏差的經典方法,但直到最近才被確定為減少Hubness 的方法.

式(3)中simCENT(x;q)是計算相似度,需要通過計算1-simCENT(x;q)將相似度變成了距離.

② MINMAX

在MINMAX 算法里,原始數據是線性變化的.MINMAX 使用式(4)將v值進行映射到v′:

將xmin和xmax定義為樣本中變量的最小值和最大值,MINMAX 將在[xmin,xmax]區間的訓練樣本映射到[0,1].

③ ZSCORE

ZSCORE 通過式(5)將v值進行映射到v′:

其中,和 σx分別為訓練集中變量值的均值和標準差.在映射之后,平均值將為0,標準差將為1.

(2)集成方法

本文采用的PM-MD 是一種全新的計算特征空間中分類器能力的集成方法,被集成的方法為第一章中提到的5 種策略:NICDM、MP、MINMAX、ZSCORE、CENT.PM-MD 方法是由兩個方法結合起來:PM 方法(Potential function Method)和MD 方法(Max-max Distance).PM-MD 的特色在于對驗證集的不同使用,在PM-MD 中驗證集是用來評估測試點的類支持向量的,并且在PM 中使用K近鄰來確定測試點的決策表,最后在MD 中由類支持向量與決策表的相似性決定分類器的競爭力[7].

集成流程的圖示如圖1,本文采用的是5 種降Hubness 策略和KNN 分類,也可以采用其他策略和分類方法.

1)類支持向量

分類器ψl相當于一個從特征度量空間x?Rdim到一個類標簽集合M={1,2,···,m}的函數.對于每個數據點x,分類器 ψl經過該分類器的數據轉換后通過KNN找到x的K近鄰從而生成相應的類支持向量:

2)根據PM 計算決策表

決策表 ω (x)=[ω1(x),ω2(x),···,ωM(x)]提供了數據點x屬于指定類的機會,其中

用PM 方法通過K近鄰計算數據點x的決策表的步驟如下:

① 計算一個非負勢函數H(x,xk)[11],其值隨著x和xk之間距離增大而快速減少(xk為來自驗證集的數據對象):

② 根據上一步得到的勢函數計算決策表 ωj(x),它是x屬于第j類的機會的衡量:

其中,NK(x)為驗證集V中的數據點x的K近鄰集合,xk為來自驗證集的數據對象,jk為相應的類標簽.

3)根據MD 計算分類器競爭力

分類器競爭力c(ψl|x)用來衡量分類器ψl在數據點x的分類能力,它隨著支持向量dl(x)和 決策表ω (x)的距離dist[ω(x),dl(x)]的增大而減少.

圖1 結合降Hubness 過程的分類器集成框架

根據MD 方法計算分類器競爭力步驟如下:

① 令j為分類器 ψl在數據點x產生的類支持向量的最優值的類編號,即dl j(x)=maxk∈M(dlk(x));同理,令i為決策表ω (x)在數據點x產生的最優值的類編號.

則支持向量dl(x)和 決策表ω (x)的距離定義如下:

假設類支持向量為dl(x)=[0.1,0.4,0.2,0.3],決策表為ω(x)=[0.2,0.1,0.2,0.5] ,則dl j(x)=0.4,j=2 ,ωi(x)=0.5,i=4.所以距離計算如下:

② 根據上一步得到的距離計算競爭力c(ψl|x):

4)組合投票以及最后分類精度的計算

對于測試數據點x,其最后的分類結果 ψ (x)是由分類器組合中的每個分類器產生的類支持向量(式(6))結合其對應的分類器競爭力(式(11))組合投票得出來的:

其中,T為分類器的個數.

最后的分類精度是對測試集V中的每個測試數據點進行分類,然后計算正確分類的數據點數占總點數的比例:

其中,m(x)為x的真實類標簽,m(x)∈M.

將所有屬于測試集V的數據點的result(x)相加后除以測試集V的數據點總個數num便可得到最終的分類精度Result.

(3)改進PM-MD

原PM-MD 中式(7)采用高斯勢函數將歐氏距離||x-xk||映射到(0,1)之間,但當數據集的內在維度較高時不同樣本距離經過高斯勢函數轉換后會非常地趨于0,這會弱化距離所帶來的不同類的區別.如圖2,圖2(d)MINMAX 的距離均值較大,大部分樣本距離采用高斯勢函數會得到趨于0 的結果,這樣會使得MINMAX 分類效果變弱,從而影響集成效果;這個情況在文獻[7]的表3所給實驗結果中也可以體現出來,當數據集的內在維度較高時(如Ionosphere 和Spam等)PM-MD 的分類結果往往不是很好.

根據PM-MD 不適用于高維數據集的情況下,本文提出將直接采用歐氏距離計算決策表.

將PM 進行改進:

所對應的決策表公式:

(4)實驗結果

實驗中共選用12 個UCI 數據集[12]進行測試.經過10 輪十折交叉驗證,取100 個結果的準確率均值.12 個UCI 數據集測試結果(表1)表明:

1)單一分類器并不適用于所有情況(比如NICDM在數據集seeds 效果最優但在數據集mammographic_masses 效果很差),PM-MD 集成中和分類器的優劣,在一定程度上可以獲得比整體中任何單一的分類器更好的分類精度.

圖2 數據集Dermatology 在各個分類器中得到的距離箱線圖

2)對于一些存在較大異常值的數據集(比如Pima_indians_diabetes),PM-MD 集成之后比起單一分類器有著更優的精度,由此可見對于存在大量較大異常值的數據集,PM-MD 集成獲得了比任何單一分類器要更高的分類精度.

3)對于一些不僅存在較大異常值還存在較小異常值的數據集(比如wine),集成后的分類效果明顯優于

大部分單一分類器分類效果,也明顯優于原始分類結果.

4)改進后的PM-MD 在一定程度上具有比PMMD 更精確的分類效果(比如數據集Liver),由此可見改進后的PM-MD 確實提升了PM-MD 的分類效果.

5)NICDM、CNET、MINMAX、ZSCORE 的復雜度都為O (n2),MP 的復雜度為O (n3),故PM-MD 的復雜度為O (n3).

表1 實驗結果

(5)結論與展望

Hubness 現象是維度災難的一個方面,hub 的出現嚴重降低了分類器的性能.本文結合了五種降Hubness 策略以減少Hubness 的影響,由于每種策略所適用范圍的差異,為此采用了PM-MD 方式進行集成以擴大適用范圍.并針對PM-MD 不適用于高維數據集的問題提出改進,直接將歐氏距離直接用于計算決策表.實驗結果表明,PM-MD 獲得了比單一分類器要高的分類精度的同時擴大了適用范圍,改進后的PMMD 獲得了更高的分類精度.目前研究主要關注于噪聲較小的高維數據分類,未來我們將致力于通過有效分類器集成以解決噪聲較大的數據集的分類問題.

1 Schnitzer D,Flexer A,Schedl M,et al.Local and global scaling reduce hubs in space.Journal of Machine Learning Research,2012,13(1):2871-2902.

2 Zhai TT,He ZF.Instance selection for time series classification based on immune binary particle swarm optimization.Knowledge-Based Systems,2013,49:106-115.[doi:10.1016/j.knosys.2013.04.021]

猜你喜歡
競爭力分類策略
分類算一算
例談未知角三角函數值的求解策略
我說你做講策略
分類討論求坐標
論外賣品牌的競爭力
消費導刊(2018年10期)2018-08-20 02:56:32
數據分析中的分類討論
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
教你一招:數的分類
日本競爭力
“北上廣深”pk城市競爭力
南風窗(2015年11期)2015-09-10 07:22:44
主站蜘蛛池模板: 国产国拍精品视频免费看 | 欧美色视频网站| 国产成人精品午夜视频'| 91香蕉国产亚洲一二三区| 无码'专区第一页| 福利国产微拍广场一区视频在线| 亚洲午夜国产精品无卡| 激情六月丁香婷婷| 国产欧美精品午夜在线播放| 久久精品国产亚洲AV忘忧草18| 国产精品大白天新婚身材| 国产精品视频系列专区| 91免费观看视频| 色精品视频| 国产成人麻豆精品| 精品无码一区二区在线观看| 日韩无码一二三区| 亚洲经典在线中文字幕| 成人在线第一页| 亚洲婷婷六月| 自偷自拍三级全三级视频| 国产精品流白浆在线观看| 亚洲国产黄色| 亚洲乱码在线播放| 99精品伊人久久久大香线蕉| 中文字幕av一区二区三区欲色| 99热最新在线| 高潮毛片免费观看| 狠狠v日韩v欧美v| 无码精品一区二区久久久| 国产人妖视频一区在线观看| 欧美日韩在线观看一区二区三区| 久久香蕉欧美精品| 青青草久久伊人| 中文纯内无码H| 超薄丝袜足j国产在线视频| 国产毛片基地| 国产最新无码专区在线| 欧日韩在线不卡视频| 国产精品一区二区国产主播| 国产欧美日韩一区二区视频在线| 国产打屁股免费区网站| 精品三级网站| 午夜a级毛片| 精品国产成人三级在线观看| 久久综合结合久久狠狠狠97色| 国产精品无码在线看| 国产精品一区不卡| 国产精品成人免费视频99| 2021国产精品自产拍在线| 99热在线只有精品| 国产亚洲欧美在线视频| 久久精品视频亚洲| 国产成人免费观看在线视频| 欧美人人干| 婷婷亚洲天堂| 成人免费视频一区| 日韩国产黄色网站| 国产在线一二三区| 久久一本精品久久久ー99| 久久综合国产乱子免费| 国产新AV天堂| 成人韩免费网站| 欧美日韩资源| 亚洲欧美一区二区三区麻豆| 亚洲精品视频免费观看| 欧美一级高清片久久99| 成人精品在线观看| 婷婷六月综合| 国内丰满少妇猛烈精品播| 专干老肥熟女视频网站| 国产美女视频黄a视频全免费网站| 久久久久亚洲Av片无码观看| 4虎影视国产在线观看精品| 波多野结衣视频一区二区 | 日韩大片免费观看视频播放| 激情爆乳一区二区| 伊人蕉久影院| 国产69精品久久| 日a本亚洲中文在线观看| 欧美性精品| 国产在线91在线电影|