999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

logistic回歸參數(shù)遺傳算法估計的可行性研究

2012-12-04 02:59:32陳金甌
中國衛(wèi)生統(tǒng)計 2012年1期
關鍵詞:分類方法模型

韓 芳 陳金甌 柳 青△

醫(yī)學研究中常涉及用多個指標對兩類對象進行預測或判別的問題,logistic回歸是兩分類判別或疾病風險預測的常用模型之一。通常用極大似然法估計logistic回歸的模型參數(shù),隨著計算機功能的日益強大和模型求解方法發(fā)展,有人提出了其他的參數(shù)估計方法。在以前的應用中人們發(fā)現(xiàn)當變量較多而樣本有限時,極大似然法估計存在過擬合現(xiàn)象,模型外推應用時出現(xiàn)較大的泛化誤差。此外當變量較多而樣本較小時,極大似然估計的參數(shù)會出現(xiàn)異常值,例如極大極小的參數(shù)估計值或極大的標準誤〔1-2〕。本文擬通過模擬比較參數(shù)估計的遺傳算法和極大似然法的結(jié)果,從理論上考證極大似然法和遺傳算法的適用條件。

遺傳算法是通過不斷的選擇、交叉、變異的計算程式來得到最優(yōu)解的一種方法,適用范圍很廣,在醫(yī)學領域里已有應用,如特殊模型遺傳程序設計(genetic programming)用于疾病數(shù)據(jù)的分類〔3-5〕;又如疾病相關基因的遺傳算法搜索〔6〕。在醫(yī)學分類問題中,通常用分類效能指標考察模型的優(yōu)劣〔7〕,而通常評價模型參數(shù)估計方法時只考察了模型系數(shù)的統(tǒng)計學意義,沒有考察模型的分類效能。本文主要從分類效能和泛化誤差著手,考察極大似然法和遺傳算法用于估計logistic回歸模型參數(shù)的價值。

數(shù)據(jù)模擬和參數(shù)估計方法

1.數(shù)據(jù)模擬

建立8個自變量的logistic回歸模型,自變量包括分類變量和數(shù)值變量,數(shù)值變量包括呈正態(tài)分布的變量和偏倚分布變量。模型設置分別為標準設置(模型1)、自變量間有相關(模型2)和自變量間有相關并且隨機誤差較大(模型3)。模型表達式如下:

模型1 logit(p)=0.5+0.8x1-1.2x2+1.3x3+1.5x4-0.7x5+1.7x6-1.5x7-0.7x8+e1

模型2 logit(p)=1.5-0.9x1+0.8x3+0.8x2x4-1.2x5-0.6x6-0.6x7+0.8x8x1+e2

模型3 logit(p)=1.5-0.3x1+0.2x3+0.2x2x4-0.4x5-0.2x6-0.2x7+0.2x8x1+e3

其中x1,x4為兩分類變量,x2,x3為有序3分類變量,x8為有序5分類變量,x5,x6為正態(tài)分布數(shù)值變量,x7為偏倚分布數(shù)值變量。e為隨機誤差項,e1服從均數(shù)為0,方差為3的正態(tài)分布;e2和e3服從均數(shù)為0,方差為7的正態(tài)分布。模型2中,x3與x1、x2有相關:m3=1.2x1+0.6x2+e,x3為分類變量,所以由m3轉(zhuǎn)換產(chǎn)生;x6與 x4、x5有相關,x6=0.4x4+0.6x5+e;并且x2與x4,x1與x8之間存在交互作用項。模型3的自變量設置、變量間相關、交互作用項與模型2相同,但模型中各自變量的系數(shù)值減少,與預測變量的關聯(lián)減弱。

根據(jù)模型1、2和3分別模擬一份例數(shù)為1 000的數(shù)據(jù)作為總體,從中抽取200份樣本(包括訓練集100份和驗證集100份),訓練集的樣本量分別為800、200、80和40;驗證集的樣本量不變,均為200。分別根據(jù)訓練集數(shù)據(jù)用極大似然法和遺傳算法兩種參數(shù)估計方法估計模型參數(shù),用樣本數(shù)據(jù)估計的模型參數(shù)分別做訓練集和驗證集數(shù)據(jù)的判別,考察這兩種參數(shù)估計方法建立模型的分類效能,分類效能的指標為靈敏度、特異度和正確度。

2.遺傳算法的參數(shù)設置

本研究中遺傳算法的目的就是要搜索出一組模型參數(shù),使模型的分類效能達到最大。選入logistic回歸和遺傳算法的初始變量均是x1~x8,logistic回歸通過P值是否小于0.05來篩選最終模型的變量,而遺傳算法通過設定系數(shù)來篩選變量,例如a1b1x1項,系數(shù)a采用二進制編碼,取值為1或0,系數(shù)b采用實數(shù)編碼,取值范圍為(-∞,+∞)或者根據(jù)實際意義加以限定[-2,2],當a1=1時表示模型選入x1變量,b1就是x1的系數(shù)值,相反當a1=0時表示模型不選入x1變量,b1無意義。

另外遺傳算法本身運算過程需要設定一些參數(shù),為了得到遺傳算法的最好結(jié)果,通常以不同的參數(shù)試驗,經(jīng)過多次試驗,選擇針對問題的最佳參數(shù)〔8〕。本次分析中設置初始參數(shù):種群大小為20,交叉概率為0.6,變異概率為0.005,最大進化代數(shù)為100,自變量系數(shù)的范圍為[-2,2]。通過程序運行的情況以及結(jié)果的合理性情況調(diào)整程序的參數(shù)。

本程序采用的最終參數(shù)如下:種群大小為100,交叉概率為0.6,變異概率為0.01,自變量系數(shù)的范圍為[-2,2],最大進化代數(shù)為300,目標函數(shù)值超過50代沒有改善則程序停止,表示當前代中的最優(yōu)個體為最終結(jié)果。使用的統(tǒng)計軟件為SAS 8.1、SPSS 13.0和MATLAB 7.0。

結(jié) 果

1.標準參數(shù)設置的模擬結(jié)果

標準參數(shù)設置指自變量獨立性較好,自變量之間不存在相關,并且無交互作用的數(shù)據(jù)結(jié)構。在800、200、80和40四種樣本量下,極大似然法估計的模型分類效能在訓練集和驗證集均高于遺傳算法估計的模型,如表1所示。但在樣本量為40的情況下,兩份樣本的模型參數(shù)極大似然法估計不收斂。觀察四種樣本量情況下的兩種參數(shù)估計方法的效能,發(fā)現(xiàn)隨著樣本量的減小,極大似然法在驗證集中的分類效能逐漸下降,說明極大似然法的泛化誤差隨著樣本量的減小而增大。而隨著樣本量的減小,遺傳算法在驗證集中的分類效能下降不如極大似然法明顯,但遺傳算法在訓練集中的分類效能有一個逐漸增長的趨勢,提示隨著樣本量的減小遺傳算法的過擬合現(xiàn)象越來越明顯。在樣本量為40時,兩種方法在訓練集中的分類效能差異已無統(tǒng)計學意義。

表1 兩種方法不同樣本量下(模型1)在訓練集和驗證集中的分類效能(ˉX±S)

2.存在變量相關和交互作用參數(shù)設置的模擬結(jié)果

當自變量間存在相關,并且有交互作用項時,考察兩種參數(shù)估計方法在不同樣本量下的效能。在樣本量為800和200時,極大似然法估計的模型分類效能在訓練集和驗證集仍然高于遺傳算法估計的模型,如表2所示,但在樣本量為80和40時,極大似然法和遺傳算法估計的模型分類效能差異無統(tǒng)計學意義,說明數(shù)據(jù)結(jié)構比較復雜時極大似然法估計模型參數(shù)的分類效能降低。同樣的,在樣本量為40的情況下,五份樣本的模型參數(shù)極大似然法估計不收斂,說明復雜的自變量間關系影響了極大似然法的參數(shù)估計效能。

另外觀察四種樣本量情況下的兩種參數(shù)估計方法的模型分類效能,發(fā)現(xiàn)和標準設置同樣的趨勢,極大似然法的泛化誤差隨著樣本量的減小而增大;遺傳算法的過擬合隨著樣本量的減小而增大。

表2 兩種方法不同樣本量下(模型2)在訓練集和驗證集中的分類效能(ˉX±S)

3.隨機誤差增大模型模擬結(jié)果

當自變量間關系復雜而隨機誤差增大時,數(shù)據(jù)變異程度增加。在這種數(shù)據(jù)結(jié)構下,自變量對因變量的影響受到干擾比較大,在這種情況評價兩種參數(shù)估計方法的分類效能。在訓練集樣本量為80的情況下,100份訓練集樣本中有64份樣本極大似然法不收斂,訓練集樣本量200時,仍有39份樣本極大似然法不收斂(表3)。提示當數(shù)據(jù)不理想時,極大似然法受樣本量限制比較大,而遺傳算法不受影響。撇開極大似然法不收斂的那些樣本,模型3的兩種方法估計模型參數(shù)的分類效能與模型2相似,故不重復。

表3 極大似然法無法估計參數(shù)的樣本數(shù)

討 論

本文通過模擬研究發(fā)現(xiàn):遺傳算法在數(shù)據(jù)內(nèi)部結(jié)構不復雜的情況下能達到較高的分類效能,如模型1里面遺傳算法的分類效能在0.7~0.8之間,但其分類效能并沒有超越logistic回歸方法。而logistic回歸參數(shù)的極大似然法估計是常規(guī)的方法,已經(jīng)有相當長時間的應用。因此,一般情況下極大似然法仍屬首選參數(shù)估計方法。但是模擬結(jié)果也提示:當樣本量較小,自變量關系復雜,自變量與因變量關系較弱時,模型參數(shù)的極大似然法估計可能不收斂,這時遺傳算法可能成為理想的替代方法。

有文獻報道遺傳算法做logistic回歸模型的參數(shù)估計〔9〕,效果更好,但該文獻為單個自變量的logistic曲線模型。本文模擬結(jié)果顯示遺傳算法還不能替代極大似然法用于logistic回歸參數(shù)估計,僅在小樣本復雜數(shù)據(jù)結(jié)構情況,有一定的價值。

樣本量小或自變量與因變量關聯(lián)較弱的情況在基因突變與疾病關聯(lián)分析中比較常見,這時極大似然法可能無法完成logistic回歸模型的參數(shù)估計,而遺傳算法可能發(fā)揮其優(yōu)勢。此外遺傳算法在模型搜索方面更具有優(yōu)勢,遺傳算法搜索出的模型相對簡單,能從大量的自變量中搜索出對應變量有影響的自變量,簡化模型,因此模擬遺傳算法搜索不同結(jié)構logistic回歸模型及估計參數(shù)的效果,值得進一步探索。

1.馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004,25:544-545.

2.陳彬,李從珠.基于選擇抽樣下的Logistic回歸.北方工業(yè)大學學報,2006,18:86-90.

3.Cornelis J,Biesheuvel,Ivar S.Genetic programming outperformed multivariable logistic regression in diagnosing pulmonary embolism.Journal of Clinical Epidemiology,2004,57:551-560.

4.Ivar S,Maarten K.Genetic programming as a method to develop powerful predictive models for clinical diagnosis.GECCO'05 2005,June,164-166.

5.Milo E,Jeffrey AK.Use of genetic programming to diagnose venous thromboembolism in the emergency department.GenetProgram Evolvable,2008,9:39-51.

6.Li L,Jiang W,Li X.A robust hybrid between genetic algorithm and support vector machine for extracting an optimal feature gene subset.Genomics,2005,85:16-23.

7.Regeniter A,F(xiàn)reidank H,Dickenmann M.Evaluation of proteinuria and GFR to diagnose and classify kidney disease:Systematic review and proof of concept.European Journal of Internal Medicine,2009,20:556-561.

8.Michalewicz Z,Genetic Algorithms+Data Structures=Evolution Programs.Berlin:Germany Springer,1989.

9.蔡煜東.運用遺傳算法擬合 Logistic曲線的研究.生物數(shù)學學報,1995,10:59-63.

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 91久久精品日日躁夜夜躁欧美| 日本道综合一本久久久88| 国产一区二区三区夜色| 亚洲色无码专线精品观看| 伊人成人在线| 香蕉eeww99国产精选播放| 日韩免费视频播播| 美女视频黄又黄又免费高清| 久久精品最新免费国产成人| 国产精品天干天干在线观看| 99久久性生片| 国产精品蜜芽在线观看| 九色视频线上播放| 日韩无码黄色| 在线观看免费人成视频色快速| 99精品福利视频| 免费在线看黄网址| 综合人妻久久一区二区精品 | 亚洲综合精品香蕉久久网| 国产精品亚洲一区二区三区z| 午夜视频日本| 国产在线精彩视频二区| 国产午夜福利在线小视频| 国产精品久久久久久久久| 永久免费av网站可以直接看的 | 亚洲国产成人久久77| 亚洲精品色AV无码看| 18禁黄无遮挡免费动漫网站| 亚洲三级网站| 天堂岛国av无码免费无禁网站| 黄色网址手机国内免费在线观看| 亚洲AV一二三区无码AV蜜桃| 亚洲国产av无码综合原创国产| 亚洲视频欧美不卡| 国产亚洲精品在天天在线麻豆 | 国产福利在线观看精品| 日本草草视频在线观看| 亚洲三级色| 中文字幕无码av专区久久| 国产欧美又粗又猛又爽老| 99视频全部免费| 激情视频综合网| 啪啪国产视频| 国产精品亚洲专区一区| 宅男噜噜噜66国产在线观看| 国产成人无码播放| 97久久免费视频| 国产农村妇女精品一二区| 国产高清自拍视频| 国产乱子伦一区二区=| 亚洲AⅤ无码日韩AV无码网站| 精品三级网站| 国产欧美在线观看精品一区污| 日本AⅤ精品一区二区三区日| 日本国产一区在线观看| 夜夜操国产| 91综合色区亚洲熟妇p| 色综合狠狠操| 99偷拍视频精品一区二区| 999在线免费视频| 2021精品国产自在现线看| 国产精品入口麻豆| 一区二区欧美日韩高清免费| 国产亚洲欧美日本一二三本道| 日本人又色又爽的视频| 国产chinese男男gay视频网| 国产一区二区视频在线| 激情五月婷婷综合网| 日韩精品专区免费无码aⅴ| 欧美人人干| 国产天天射| 青草国产在线视频| 欧美性天天| 思思热精品在线8| 国产乱人激情H在线观看| 永久免费AⅤ无码网站在线观看| 午夜福利在线观看入口| 国产美女自慰在线观看| 国产精品网址你懂的| 在线免费看黄的网站| 毛片视频网址| 欧美在线观看不卡|