999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進隱馬爾科夫模型的畜禽全基因組關聯分析中的多重檢驗方法

2015-06-15 01:14:26梅步俊王志華
安徽農學通報 2015年10期

梅步俊 王志華

摘 要:為了改進在畜禽全基因組關聯分析中,利用隱馬爾可夫模型(HMM)進行多重檢驗時的過學習問題,提出將人工神經網絡算法(ANN)作為預處理,引入畜禽全基因組關聯分析中,較好地彌補了已有的多重檢驗方法的缺陷,提高了統計推斷性能,其運算速度也顯著提高。

關鍵詞:全基因組關聯分析;隱馬爾科夫模型;人工神經網絡;多重比較;假設檢驗

中圖分類號 S852 文獻標識碼 A 文章編號 1007-7731(2015)10-22-03

Abstract:In order to improve the learning problem of hidden Markov Model(HMM)for multiple testing in whole-genome Association analysis of livestock and poultry,a algorithm of artificial neural network(ANN)as a pretreatment is proposed in multiple testing methods of genome-wide association analysis of livestock and poultry. Results showed that it just well make up for the deficiencies of multiple testing methods based on HMM,and improve the performance of statistical inference,and its speed is also improved significantly.

Key words:Genome-wide association study(GWAS);Hidden Markov Model(HMM);Artificial neural network(ANN):Multiple comparisons; Hypothesis testing

全基因組關聯分析(Genome-Wide Association Studies,GWAS)是基于“常見疾病,常見變異(common disease,common variant)”的假設,利用標記和突變位點在群體水平的連鎖不平衡檢測QTL。這種關聯性的產生是由于當前群體攜帶有源于共同祖先的染色體片段,這些片段包含相同的QTL等位基因或單倍型。一般認為,對于復雜性狀,除了受少數幾個效應較大的基因控制外,還受許多微、中效基因控制。隨著對基因組信息認識水平的的提高和高通量測序技術的發展,GWAS已經變成研究復雜性狀遺傳機理的重要手段。截至2014年7月,僅在人類上就有1 927篇GWAS文章發表,共報道13 418個SNP與各類性狀有顯著性相關。國內外不少研究者對畜禽的重要經濟性狀、遺傳缺陷性疾病、復雜疾病的抗性、品種特征等性狀也開展了GWAS。Zhang等[1]使用澳大利亞996頭婆羅門牛和1 097頭有6次產犢記錄的母牛進行繁殖性狀的遺傳評估。Santana等[2]使用720頭公瘤牛的平均日增重(ADG)和354 147SNP數據進行GWAS,采用混合模型和回歸方法檢測到3號染色體上的6個SNP與ADG顯著相關。顯著性最高的SNP(p=9.49×10-8)解釋了5.62%的表型方差。

大尺度多重檢驗(large scale multiple test)是現代統計學的重要研究領域,廣泛應用在GWAS、DNA芯片分析和腦圖像分析等領域。在這些研究中,常常同時檢測數以萬計甚至百萬假設檢驗。在GWAS中,常常使用Bonferroni矯正多重比較問題,但是由于連鎖不平衡,SNP之間是不獨立的,這與傳統假設檢驗所有假設之間獨立、所有樣本來源于單一分布不同。例如,不同的基因可能在同一通路中,這些基因表現較強的相關性。畜禽群體中,由于個體之間存在親緣關系和共同環境效應,這都會對多重檢驗造成顯著影響。Finner和Roters[3]、Owen[4]研究表明假設檢驗間的相關性顯著影響Ⅰ型錯誤率的期望和方差。Sun和Tony等[5]應用復合決策理論,由隱馬爾科夫模型(HMM)研究假設檢驗間不獨立情況下的多重檢驗問題,構建“局部顯著性指數”(local index of significance,LIS)替代p值,改進了假設檢驗間不獨立情況下的假發現率(false discovery rate,FDR)性能。Wei和Sun等[6]應用類似的方法發展了“匯集局部顯著性指數”(pooled local index of significance,PLIS)控制FDR,該方法具有最小的假陰性率(false negative rate,FNR),比傳統的基于P值的假設檢驗方法有更高的功效。Li和Wei等[7]利用SNP間的LD信息作為先驗信息,建立加權LD圖模型,應用馬爾科夫隨機場模型(Markov random field model,HMRF)控制GWAS中的假發現率。但基于單倍型的方法可能由于自由度太高、單倍型推斷中的錯誤和單倍型包含SNP數的武斷性而損失功效。現有基于HMM的多重檢驗方法存在過學習的問題,訓練出的模型可能存在過擬合情況。本研究將人工神經網絡算法(ANN)和HMM結合,ANN算法具有很強的抗干擾性,也不存在過學習的問題,彌補了HMM的缺陷,提高了多重檢驗的功效。

1 研究背景

1.1 隱馬爾可夫模型 設[θ=θm1=θ1,…,θm]是服從伯努利分布的隨機變量,[θi=0]表明變量[i]來源于零假設,反之來源于非零假設。假設觀察值[x=x1,…,xm]由以下條件概率產生:

1.3 人工神經網絡算法(ANN)人工神經網絡是一種應用類似于大腦神經突觸聯接的結構進行信息處理的數學模型。神經網絡是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每2個節點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式,權重值和激勵函數的不同而不同。鑒于ANN和HMM的互補性,利用ANN的長處來克服HMM的不足,將ANN作為HMM的預處理部分,利用ANN的抗干擾能力改進HMM的過學習,具有預測精度高、耗時少的特點。

2 材料與方法

2.1 第15屆QTL-MAS公共數據集 該公共數據由一個遠交群體構成,使用 LDSO 軟件[9]模擬產生。歷史群體首先模擬了1 000個世代,每個世代1 000個個體,隨后模擬30個世代,每個世代150個個體。基因組共模擬了5條染色體、9 990個 SNP標記,每條染色體長度1M(Morgan),攜帶均勻分布的SNP標記1 998個(相鄰SNP標記間距0.05cM)。最終用于基因組選擇評估的數據由3 220個個體組成,其中包括20頭公畜、200頭母畜(每頭公畜與10頭母畜交配)和3 000個后裔(每頭母畜生產 15 個后裔)。所有個體都模擬了9 990個SNP 標記的基因型,并且沒有基因型缺失或判型錯誤。每頭母畜的15個后裔中,有10個模擬了一個連續性狀的表型值。2 000個有表型值的后裔及其它1 000個沒有表型值(但有模擬的真實育種值)的后裔,分別作為參考群和驗證群。

2.2 模擬數據 全基因組數據模擬需要首先定義基因組的結構。與基因組結構相關的參數包括:染色體長度(Lc)、染色體數(Nc)、總標記數(Nm)、標記位置的分布和基因數或數量性狀基因座(QTL)數(NQTL)。為便于模擬,一般設定不同染色體的長度相同,為1M(Morgan),不同染色體上的標記數目一般也假設相同。

2.3 模擬研究 結合HMM和ANN,利用ANN彌補HMM的不足。HMM訓練模型主要基于最大似然準則(Maximum Likelihood,簡稱ML)和最大共有信息準則(MaximumMutual Information,簡寫為MMI),采用梯度法計算,更新HMM模型中的參數。采用最小均方誤差(MMSE)準則,ANN提高HMM的識別能力,保證H0,H1推斷的正確性。具體步驟:建立3層ANN結構(一個輸入層,一個隱含層,一個輸出層)和隨機初始ANN神經元鏈接權重,由n個輸入節點和n個輸出節點組成。采用類似于交叉驗證策略,將模擬數據真實值作為輸入,訓練鏈接權重。將ANN算法的輸出,輸入到HMM模型中,采用Baum-Welch算法得出對數似然值,應用梯度下降法調整模型參數。測試的誤差評價準則為平均相對誤差:

3 結果與分析

研究采用自編軟件產生模擬數據,結合公共數據集,將ANN和HMM相結合,提出改進PLIS法-ANN-PLIS。通過比較PLIS、BH[11]、ANN-PLIS的預測性能,結果表明,ANN-PLIS較單純使用HMM的PLIS運算速度很快,ANN-PLIS具有很強的魯棒性、記憶能力、非線性映射能力以及強大的自學習能力,運算速度也大大加快,提高了多重比較過程的準確性(表1)。但是ANN也有其缺點:(1)最嚴重的問題是沒能力來解釋自己的推理過程和推理依據;(2)不能向用戶提出必要的詢問,而且當數據不充分的時候,神經網絡就無法進行工作;(3)把一切問題的特征都變為數字,把一切推理都變為數值計算,其結果勢必是丟失信息;(4)理論和學習算法還有待于進一步完善和提高。

致謝:本研究部分靈感及部分計算設備由中國農業大學動物科技學院張勤教授課題組提供。

參考文獻

[1]Zhang,Y.D.,et al.. Genomic selection for female reproduction in Australian tropically adapted beef cattle[J]. Animal Production Science,2014,54(1):16-24.

[2]Santana,M.H.,et al.,Genome-wide association study for feedlot average daily gain in Nellore cattle(Bos indicus)[J]. J Anim Breed Genet,2014,131(3):210-216.

[3]Finner,H.,M. Roters. Multiple hypotheses testing and expected number of type I[J].Ann. Statist.,2002:220-238.

[4]Owen,A..Variance of the number of false discoveries[J].Journal of the Royal Statistical Society 2005,B(67):411-426.

[5]Sun,W.,T. Tony Cai. Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society:Series B(Statistical Methodology),2009,71(2):393-424.

[6]Wei,Z.,et al..Multiple testing in genome-wide association studies via hidden Markov models[J].Bioinformatics,2009,25(21):2802-2808.

[7]Li,H.,Z. Wei,J. Maris. A hidden Markov random field model for genome-wide association studies[J]. Biostatistics,2010,11(1):139-150.

[8]Wenguang,S.,T.T. Cai,Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society Series B,2009,71(2):393-424.

[9]Ytournel,F..Linkage disequilibrium and QTL fine mapping in a selected population[J].Station de Génétique Quantitative et Appliquée,INRA,2008.

[10]Meuwissen,T.,M. Goddard.Accurate Prediction of Genetic Values for Complex Traits by Whole Genome Resequencing[J].Genetics,2010,185:623-631.

[11]Benjamini,Y.,Y. Hochberg.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society. Series B(Methodological),1995,57(1):289-300. (責編:張宏民)

主站蜘蛛池模板: 熟妇无码人妻| 久久精品国产电影| 成年片色大黄全免费网站久久| 色亚洲成人| 亚洲成a人片77777在线播放| 狠狠色成人综合首页| 国产成人综合久久精品下载| 亚洲无码精彩视频在线观看| 2022国产无码在线| 香蕉色综合| 91在线无码精品秘九色APP| 欧美性精品不卡在线观看| 国产精品无码久久久久久| 这里只有精品国产| 毛片免费视频| 99在线视频免费| 国产清纯在线一区二区WWW| 四虎国产精品永久一区| 国产丝袜第一页| 国产不卡网| 天天躁日日躁狠狠躁中文字幕| 54pao国产成人免费视频| 久久精品一卡日本电影| 国产凹凸一区在线观看视频| 看国产一级毛片| 在线观看免费国产| 亚洲精品不卡午夜精品| 情侣午夜国产在线一区无码| 亚洲成AV人手机在线观看网站| 日本免费高清一区| 国产99热| 毛片在线播放a| 国产成人91精品免费网址在线| 毛片在线区| 亚洲精品无码久久久久苍井空| 永久天堂网Av| 啊嗯不日本网站| 国产精品私拍在线爆乳| 天堂在线www网亚洲| av在线无码浏览| AV老司机AV天堂| 国产高清免费午夜在线视频| 精品国产www| 国产精品香蕉在线观看不卡| 黄色免费在线网址| 精品伊人久久久大香线蕉欧美| 欧美午夜小视频| 亚洲成人一区二区三区| 爽爽影院十八禁在线观看| 亚洲,国产,日韩,综合一区| 影音先锋丝袜制服| 成人午夜福利视频| 免费无遮挡AV| 99re经典视频在线| 国产9191精品免费观看| 日韩欧美视频第一区在线观看| 日本国产精品| 天天综合网色| 伊伊人成亚洲综合人网7777| 91精品免费高清在线| 精品三级在线| 日本欧美中文字幕精品亚洲| 欧美无专区| 国产网站一区二区三区| 永久免费av网站可以直接看的| 欧美日韩免费| 日韩欧美在线观看| 亚洲国产欧美国产综合久久| 亚洲av综合网| 中文字幕亚洲无线码一区女同| 91无码人妻精品一区| 四虎国产在线观看| 911亚洲精品| 亚洲第一页在线观看| 91系列在线观看| 欧美亚洲日韩中文| 欧美午夜在线观看| 欧美日韩中文国产va另类| 国产精品三级专区| 国产乱子伦精品视频| 欧美另类一区| 毛片网站在线看|