999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

逐步判別分析法在基因表達數據分類中的應用

2011-02-10 01:56:44楊,陳
長江大學學報(自科版) 2011年1期
關鍵詞:分類利用

鄒 楊,陳 忠

(長江大學信息與數學學院,湖北荊州434023)

謝俊宇

(洪湖賀龍高級中學,湖北洪湖433200)

利用基因芯片技術測定的基因表達值是一組多變量的高維數據。這些數據可以用于對組織細胞進行分類,也可以用于挖掘對疾病有鑒別意義的特征基因,進而為醫學診斷和治療提供參考。目前,對于此類基因表達數據分類問題有很多研究方法,如線性判別分析法和支持向量機等,線性判別分析比復雜的預測方法效果要好[1]。

在進行判別分類時,不同基因的表達值對于分類結果影響不同。因此,變量 (基因表達值)的選擇是一個決定判別效果的關鍵問題。下面,筆者利用多元統計分析中的逐步判別分析法對基因表達水平數據進行分析。首先,用逐步判別法篩選出了能夠區分2個總體的特征基因。然后,基于這些特征基因的表達值數據,利用Bayes判別法建立判別函數,對未知類型的基因表達值數據進行分類。

1 逐步判別分析原理

1.1 判別函數的建立

逐步判別是一種篩選變量的方法。篩選的過程其實就是作假設檢驗的過程,通過檢驗找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數中僅保留了對分類判別能力顯著的變量。

1.2 判別結果的檢驗

1)總體均值的檢驗 假設2總體Gi~N(μi,∑i)(i=1,2),為檢驗2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構造F 統計量[4]:

式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個總體的樣品個數(i=1,2)。

計算F統計量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設,即對這2個總體討論判別問題是有意義的。

2)錯判率的估計 利用舍一法 (或稱交叉確認法)對錯判率進行估計。

2 實例分析

以2001年北京大學校內數學建模競賽試題 (B題)為實例進行分析。原始數據共60行114列,分別代表60個人和114條基因。其中,有4條基因的表達值完全相同 (分別為原始數據的第37、38、39和40列),這里僅保留其中的一列,故有效檢測基因應為111條(記為向量x1~x111)。

數據中,前20行是20個癌癥病人的基因表達水平的樣本 (記為第0~19組),為分析需要,記其為第1類樣本;其后的20行是20個正常人的基因表達信息樣本,對應于第20~39組,記為第2類樣本;剩余的第40~59組表達值為20個待檢測的樣本 (未知它們是否正常)。假設原問題所提供的2類樣本均來自于正態分布的總體。

2.1 依據特征基因的判別分類

1)特征基因的選取 利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過逐步篩選,最終選出了 32 個 變量, 其序號 為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、

x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區分 2 類樣本的特征基因。

2)判別過程的實現 在建立判別函數之前,要先對2總體協方差矩陣是否相等進行檢驗(H0:∑1=∑2)。其中,∑i表示第i個總體Gi~N(μi,∑i)(i=1,2)的協方差矩陣。

利用SAS中的命令 “pool=test”實現對2總體協方差矩陣是否相等進行檢驗。結果表明,在顯著性水平α=0.10時接受了原假設。可以利用合并協方差陣建立判別函數。

依據篩選出的特征基因構成2個新的總體 (其中每一組表達值僅有32個變量)。利用Bayes判別法建立判別函數,對未分類的表達值 (第40~59組)進行判別分類。利用SAS中判別分析的命令 “proc discrim”實現這一過程。該程序輸出了Bayes判別函數的系數,則隸屬第1(2)類總體的判別函數y1(y 2)分別為:

依據上述判別函數,計算后驗概率,對未知類別的基因表達值數據分類。經計算可知,在未知類別的第40~59組基因表達值中,屬于第1類總體 (癌癥病人)的共有13個,其序號為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個,其序號為 {41,43,44,50,55,56,59}。

2.2 判別結果的檢驗

2個新總體之間的平方距離為385783,其F統計量為22208,相應的p小于0.0001(<0.01)。這說明利用特征基因構造的2個新的總體,其基因的表達值有顯著性差異,討論判別分類問題是有意義的。利用SAS程序中的 “crosslist”命令對判別分類的結果進行交叉驗證 (舍一法),用以估計錯判造成的損失。輸出結果顯示,其錯判率為0。

作為對比,利用所有基因的表達值數據構造判別函數,觀察其對原訓練樣本交叉驗證的錯誤率。結果顯示,其錯誤率為20%。

[1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.

[2]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005:205-211.

[3]賈云青,侯木舟.Bayes判別分析在醫療數據處理中的應用[J].數學理論與實踐,2009,29(2):117-119.

[4]高惠璇.實用統計方法與SAS系統 [M].北京:北京大學出版社,2001:176-178.

[5]何寧,吳黎兵.統計分析系統SAS[M].武漢:武漢大學出版社,2005:261-271.

猜你喜歡
分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用倒推破難點
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
利用一半進行移多補少
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产一在线| 亚洲第一成年免费网站| 国产18在线播放| 成人在线观看不卡| 精品视频第一页| 一级毛片免费不卡在线 | 欧美午夜网| 毛片基地美国正在播放亚洲| 午夜电影在线观看国产1区| 园内精品自拍视频在线播放| 国产在线视频自拍| a毛片基地免费大全| 久久香蕉国产线看观看精品蕉| 亚洲综合色区在线播放2019 | www亚洲天堂| 成人午夜免费观看| 久久婷婷人人澡人人爱91| 亚洲天堂伊人| 91丝袜在线观看| 欧美成人免费一区在线播放| 尤物成AV人片在线观看| AV色爱天堂网| 亚洲熟女偷拍| 五月激激激综合网色播免费| 国产精品免费电影| 五月丁香在线视频| 欧美激情成人网| 精品国产女同疯狂摩擦2| 欧美在线视频不卡第一页| 亚洲天堂网在线视频| 国产午夜福利亚洲第一| 毛片在线区| 波多野结衣无码AV在线| 青青操国产| 国产99精品久久| 国产精品第| 在线国产毛片| 成人第一页| 精品人妻AV区| 亚洲中文字幕无码爆乳| 国产精品私拍在线爆乳| 国产正在播放| 欧美日韩专区| 男人天堂亚洲天堂| 无码国内精品人妻少妇蜜桃视频| 久久大香香蕉国产免费网站| 婷婷99视频精品全部在线观看| 第一区免费在线观看| 国产本道久久一区二区三区| 99久久成人国产精品免费| 欧美亚洲激情| 亚洲国产成人久久77| 色婷婷成人| 777午夜精品电影免费看| 青草精品视频| 伊人91视频| 在线观看的黄网| 久久久噜噜噜| 黄片一区二区三区| 国产三级精品三级在线观看| 欧美精品导航| 99久久精品免费看国产电影| 国产精品永久久久久| 国产区福利小视频在线观看尤物| 亚洲欧美日韩另类在线一| 国产SUV精品一区二区6| 蜜桃视频一区二区| 鲁鲁鲁爽爽爽在线视频观看| 99re这里只有国产中文精品国产精品| 波多野结衣视频一区二区| 97人人模人人爽人人喊小说| 国产精品主播| 免费又爽又刺激高潮网址 | 亚洲成人动漫在线观看| 98超碰在线观看| 亚洲精品国产乱码不卡| 午夜a视频| 久久精品人人做人人爽97| 99re66精品视频在线观看| 国产欧美日韩综合一区在线播放| 中文字幕无线码一区| 国产精品免费p区|