999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于似然比統(tǒng)計量的超高維特征篩選研究

2018-12-20 07:20:24高羽飛趙英序
統(tǒng)計與決策 2018年22期
關(guān)鍵詞:分類特征方法

來 鵬,孫 鑫,高羽飛,趙英序

(南京信息工程大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,南京 210044)

0 引言

隨著網(wǎng)絡(luò)與通信技術(shù)的飛速發(fā)展,人們常會遇到各種超高維復(fù)雜數(shù)據(jù)問題,如證券市場的交易數(shù)據(jù)、X射線斷層攝影數(shù)據(jù)、生物基因表達(dá)數(shù)據(jù)、文檔詞頻數(shù)據(jù)等。在分析超高維數(shù)據(jù)問題時,最大的難點是隨著維數(shù)的膨脹,分析和處理數(shù)據(jù)的復(fù)雜度、成本以及所需的空間樣本數(shù)都將呈指數(shù)級增長。傳統(tǒng)的多元統(tǒng)計方法在處理超高維數(shù)據(jù)問題時會遇到如計算效率無法滿足、計算存儲空間需求變高、傳統(tǒng)統(tǒng)計指標(biāo)不再適用、方法的假設(shè)條件不再滿足等困難,所以構(gòu)建適用于超高維數(shù)據(jù)的新統(tǒng)計方法是很有必要的。

特征篩選是目前最常見的處理超高維數(shù)據(jù)問題的手段之一,一般遵循“兩步走”的篩選過程:第一步在稀疏性假設(shè)下對超高維數(shù)據(jù)進行大規(guī)模粗略的變量篩選,將超高維數(shù)據(jù)降到一個小得多的低維空間中;第二步再用傳統(tǒng)的統(tǒng)計方法進行建模分析。由此可見,初步特征篩選的準(zhǔn)確降維直接影響到后續(xù)建模。Fan和Lv[1]、Fan等[2]、Fan和Song[3]、Fan等[4]、Liu等[5]在參數(shù)或半?yún)?shù)模型下提出了多種特征篩選方法。然而在超高維數(shù)據(jù)分析過程中,想要找到合適的模型是很困難的,因此,Li等[6]、He等[7]、Mai和Zou[8]提出了無模型下基于多種統(tǒng)計度量指標(biāo)的特征篩選方法。

在超高維數(shù)據(jù)分析中,有一類特殊的超高維數(shù)據(jù)類型,其響應(yīng)變量和協(xié)變量都為分類變量。對于該類問題,Huang等[9]提出了超高維分類數(shù)據(jù)的特征篩選方法Pearson卡方檢驗算法(PC-SIS),對超高維數(shù)據(jù),利用χ2統(tǒng)計量檢驗協(xié)變量與響應(yīng)變量是否具有顯著的相關(guān)關(guān)系,即對指標(biāo)進行排序。

盡管PC-SIS方法擁有很多優(yōu)點,但其不足也顯而易見:Pearson卡方檢驗要求樣本量大于40,樣本量越大,得到的效果越好。然而實際情況中這些條件可能無法確保滿足,為了對其改進,本文提出了似然比統(tǒng)計篩選方法(LR-SIS)。與PC-SIS相比,似然比統(tǒng)計量是反映靈敏度和特異度的復(fù)合指標(biāo),不僅非常穩(wěn)定,而且可用于有20%以上的單元格的期望頻數(shù)小于5或者最小為1的樣本數(shù)據(jù)。此外,LR-SIS也是一種無模型算法,通過適當(dāng)分組變換可應(yīng)用于連續(xù)型變量的分組篩選問題。下文將給出LR-SIS特征篩選過程和漸近理論性質(zhì),并通過蒙特卡羅數(shù)值模擬和實例分析進行有限樣本研究。

1 似然比特征篩選(LR-SIS)

超高維數(shù)據(jù)中,變量維數(shù)p遠(yuǎn)大于樣本量n,通常只有少數(shù)的協(xié)變量與Y有關(guān),滿足稀疏性假設(shè)。令Y∈{1,2,…,R} 表 示 具 有R類 的 離 散 分 類 變 量 ,X=(X1,X2,…,Xp)T∈Rp表示p維離散協(xié)變量,其中Xi可取值為{1,2,…,K},i=1,…,p。超高維特征篩選關(guān)鍵在于通過分析協(xié)變量與響應(yīng)變量之間的邊際相關(guān)性,來篩選出可能的重要協(xié)變量進行快速降維。為此,令F(y|X)為Y關(guān)于X的條件分布函數(shù),定義重要變量集合與不重要變量集合分別為:

其中φy為Y的取值范圍。則變量篩選的目的,就是找到一個估計?使得D??且||盡可能小,其中||表示集合?中的元素個數(shù)。

為了改進Huang等[9]所提出PC-SIS方法,本文提出了更穩(wěn)健的似然比統(tǒng)計量作為特征篩選指標(biāo)。定義,則似然比統(tǒng)計量可定義為:

若Xj與Y獨立,則P(Y=r|Xj=k)=P(Y=r),那么ln(Pj,rk/Pr)=0,即wj=0。若響應(yīng)變量Y與協(xié)變量Xj不獨立,則存在某些r∈{1,2,…,R}使P(Y=r|Xj=k)≠P(Y=r),即 ln(Pj,rk/Pr)≠0 ,從而wj≠0 。所以|wj|越大說明Xj與Y相關(guān)性越強,因此可以利用|wj|的值評估Xj的重要性。

利用隨機樣本{Yi,Xi=(Xi1,Xi2,…,Xip)T},i=1,2,…,n,可求出wj的估計為:

接下來探討所提出特征篩選方法的理論性質(zhì)。為方便后續(xù)的證明,給出以下條件:

(C1)存在兩正數(shù) 0<c1<c2<1,使的c1<Pr,Pj,rk<c2,1≤j≤p,1≤r≤R,1≤k≤K。

(C2)存在正數(shù),使得 min∈Dj|wj|≥2cn-τ。

(C3)假設(shè)lnp≤na,0<a<1-2τ。

條件(C1)要求每個類別的響應(yīng)變量和協(xié)變量取值的概率都是有界的,因此排除了那些可能具有特定分類概率過大或過小的取值情況。條件(C2)要求所有重要變量的指標(biāo)最小值有下界,并隨樣本量趨向于無窮大時以n-τ的速度趨向于0,在Fan和Lv[1]的文章中也有相似的假設(shè)。條件(C3)允許特征維度p隨樣本量n呈指數(shù)級發(fā)散,表明了其超高維特性。

定理1(確定篩選性):在條件(C1)至條件(C3)下,對于任意,有:

其中c3-c5為正數(shù),sn為D的基數(shù)。

2 數(shù)值模擬

為了研究所提出似然比特征篩選方法LR-SIS的有限樣本性質(zhì),本文將利用蒙特卡洛模擬,參考Ni和Fang[10]的例 1 對 LR-SIS 方法與 SIS[1]、PC-SIS[9]、IG[10]、KF[8]等方法進行比較。首先生成Yi∈{1,2,…,K}其中K=2,同時對于任意1≤k≤K,P(Yi=k)=1/k。同時生成二元協(xié)變量向量X={X1,X2,…,Xn} ,其中Xi={Xi1,Xi2,…,Xip}T,定義真實的重要變量集為D={1,…,10},|D|=d0。在Yi的條件下,生成Xij滿足P(Xij=1|Yi=k)=θkj,1≤k≤K且j∈D,詳細(xì)數(shù)值見表1。其次,對于1≤k≤K且j?D,本文定義θkj=0.5。設(shè)協(xié)變量的維度p=2000,樣本量n=160,240,320。

表1 模擬所用參數(shù)規(guī)格

為了便于比較,仿照Ni和Fang[10],定義下列結(jié)果評估標(biāo)準(zhǔn):MMS,包含所有重要變量的最小模型尺寸;P,在給定模型尺寸為[n/logn]的情況下是否包含所有重要變量的指標(biāo);MS,模型尺寸d,由Ni和Fang[10]中所提出的d值算法所得的篩選變量個數(shù),其中dmin=1,dmax=n;dc表示被正確挑選出的重要變量的數(shù)量;di=d-dc表示被挑選出的不重要變量的數(shù)量;CZ,在所有p-d0個不重要變量中,沒有被挑選出的不重要變量所占的比例;IZ,在所有d0個重要變量中,沒有被正確篩選出的重要變量所占的比例;CP1,表明所選出的模型包含所有的重要變量的比率;CP2=dcd0,表示所篩選出的重要變量占所有重要變量的比率。

表2記錄了500次模擬中MMS的5%、25%、50%、75%和95%的分位數(shù)值以及其他評價指標(biāo)的平均值。從表2中可以看到當(dāng)樣本量和維數(shù)相同時,LR-SIS方法的效果最好,MMS中每個指標(biāo)都接近10,說明LR-SIS能夠更有效地篩選出所有重要的協(xié)變量;IG方法僅次于LR-SIS,與其他方法相比,其優(yōu)越性主要體現(xiàn)在篩選重要協(xié)變量的錯誤率更低,PC-SIS與SIS效果近似,他們的優(yōu)勢在于具有較好的MMS指標(biāo);KF方法的MMS結(jié)果比較差,但其篩選重要協(xié)變量的正確率更高。隨著樣本量n的不斷增大,LR-SIS方法在各指標(biāo)的收斂速度最快,與其他方法相比更加穩(wěn)定,計算效率較高。因此可見LR-SIS方法具有較顯著的優(yōu)越性。

表2 模擬結(jié)果

3 實例分析

在研究文本分類問題的過程當(dāng)中,特征篩選是最重要的環(huán)節(jié)之一,能夠降低特征向量空間維數(shù),簡化計算。本文從UCI機器學(xué)習(xí)庫收集到亞馬遜網(wǎng)站關(guān)于電影的大量評論(http://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences#)。該評論集中包含正面評論(Y=1)和負(fù)面評論(Y=0)(部分評價如表3所示)。則所要研究的問題為利用評論中出現(xiàn)來源于詞庫的關(guān)鍵詞X=(X1,…,Xp)T,來預(yù)測評論的類別Y,這是一個超高維文本分類問題。

表3 亞馬遜電影評論文本

經(jīng)過數(shù)據(jù)整理,利用LR-SIS方法對此評論集進行關(guān)鍵詞篩選。表4根據(jù)ωj值對影響評價分類的關(guān)鍵詞進行了排序。從這些排名靠前的關(guān)鍵詞可以看出,評論者主要從電影本身、演員、演技以及音樂等方面對電影進行評價,重點關(guān)注這些方面的質(zhì)量、好壞、趣味性等,來對電影做出正面或負(fù)面的評價。

表4 電影評價分類與關(guān)鍵詞篩選結(jié)果

通過LR-SIS方法進行特征篩選后,利用決策樹模型進行判別分類,對整個數(shù)據(jù)集270條負(fù)面評論、240條正面評論進行判別的分類結(jié)果見表5??梢园l(fā)現(xiàn)總共510條評論,LR-SIS結(jié)合決策樹的錯判率為0.126。錯判率比較低,說明LR-SIS方法的篩選效果不錯,利用LR-SIS方法來進行降維和判斷評論的正負(fù)性是合理可行的。

表5 LR-SIS方法預(yù)測結(jié)果

4 定理證明

因此有:I1與I2擁有相同的結(jié)構(gòu),下面只處理

由Hoeffding不等式:

通過積分中值定理,知在Pr與間存在使得。 當(dāng)時,有,又因為 Pr≥c1,所以,且當(dāng)時,有。故由Bernstein不等式:

類似Liu等[5]引理4的證明,可得存在正數(shù)c3和c4,有:

因此存在正常數(shù)滿足:

同理可得:

其中c3-c9都為正數(shù)。最終,由式(5)、式(9)、式(10)得到:

其中c10-c12為正數(shù)。

下面證明公式(3)。由條件(C2)可得對于某些j∈D,,若 D?,則必存在某些 j∈D 使得<cn-τ,即。所以:

其中sn為D的基數(shù)。所以P(D?)→1。

5 結(jié)論

針對傳統(tǒng)統(tǒng)計分析方法在超高維數(shù)據(jù)特征篩選方面的不足之處,本文在卡方檢驗特征篩選方法(PC-SIS)的基礎(chǔ)上,提出了基于似然比檢驗的特征篩選方法(LR-SIS),LR-SIS具有無模型假設(shè)、計算簡便、穩(wěn)健性高的特點,允許響應(yīng)變量與協(xié)變量之間存在任意回歸關(guān)系,避免了篩選初期尋找準(zhǔn)確回歸模型的困難。在樣本量較大時,LR-SIS的準(zhǔn)確程度與PC-SIS方法相當(dāng),而在小樣本情況下效果要優(yōu)于PC-SIS。從數(shù)值模擬以及實例數(shù)據(jù)的分析結(jié)果表明,此方法對于高維數(shù)據(jù)特征篩選工作是合理有效的。

猜你喜歡
分類特征方法
分類算一算
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品大秀视频| 亚洲视频免费播放| 多人乱p欧美在线观看| 日韩精品成人网页视频在线| 精品视频在线观看你懂的一区| 亚洲天堂777| 无码中文字幕乱码免费2| 久久伊伊香蕉综合精品| 国产精品自在线拍国产电影| 精品无码一区二区在线观看| 91亚洲免费| 成人免费视频一区| 欧美日韩午夜视频在线观看| 亚洲日本中文字幕天堂网| 免费看a毛片| 狼友视频一区二区三区| 日本高清成本人视频一区| 国产成人h在线观看网站站| 国产欧美中文字幕| 久视频免费精品6| 欧美精品不卡| 日韩 欧美 国产 精品 综合| 在线观看欧美国产| 日韩AV手机在线观看蜜芽| 九色在线视频导航91| 国产区人妖精品人妖精品视频| 亚洲区一区| 国产免费羞羞视频| 最新国产你懂的在线网址| 中文字幕在线一区二区在线| 欧美激情视频在线观看一区| 少妇精品网站| 天天躁日日躁狠狠躁中文字幕| 国产成人高清精品免费| 人妻无码中文字幕第一区| 男人天堂亚洲天堂| 亚洲综合专区| 亚洲性视频网站| 欧美亚洲香蕉| 欧美特黄一级大黄录像| 日本一区高清| 免费播放毛片| 国产在线观看成人91| 午夜视频在线观看免费网站| 99视频精品全国免费品| 六月婷婷精品视频在线观看| 欧洲成人在线观看| 黄色网址免费在线| 永久免费无码日韩视频| 国产流白浆视频| 特级欧美视频aaaaaa| 99热国产这里只有精品9九| аⅴ资源中文在线天堂| 伊人中文网| 国产毛片高清一级国语| 狠狠色综合久久狠狠色综合| 国产第一色| 不卡国产视频第一页| 色综合天天综合中文网| 色综合久久综合网| 久久影院一区二区h| 久久国产精品影院| 精品黑人一区二区三区| 亚洲欧美日韩中文字幕在线一区| 91亚洲影院| 亚洲一区第一页| 欧美色图久久| 久久精品免费看一| 国产精品免费p区| 青青草一区| 久久青草视频| 强乱中文字幕在线播放不卡| 91精品国产综合久久不国产大片| 热99re99首页精品亚洲五月天| 中文字幕天无码久久精品视频免费 | 一级毛片在线免费看| av无码一区二区三区在线| 亚洲中文字幕97久久精品少妇| 国产v欧美v日韩v综合精品| 免费一级无码在线网站| 亚洲第一区精品日韩在线播放| 一本一本大道香蕉久在线播放|