呂洪超,張瑞杰,姜永帥,段煉,李晉
哈爾濱醫科大學
全基因組數據分析軟件PLINK在統計遺傳學教學中的應用
呂洪超,張瑞杰,姜永帥,段煉,李晉
哈爾濱醫科大學
統計遺傳學是一門理論實踐相結合的課程,是生物信息學專業重要的必須課程。我們在講授理論知識的同時,注重培養學生的實踐操作技能,引入了PLINK等當前國際流行的統計分析軟件。通過指導學生利用PLINK軟件對一套類風濕性關節炎的真實案例的分析,即促進了學生理論聯系實際,又激發了學習的積極主動性,為將來順利開展科研訓練打下基礎。
統計遺傳學;PLINK軟件;關聯分析
人類基因組計劃和人類基因組單體型圖計劃完成以后,隨著基因分型技術的發展與成熟,統計遺傳學方法已成為研究多基因復雜疾病易感性關系和基因定位的主要技術手段。在生物信息學領域,針對現代遺傳學的研究尤其是分子遺傳學研究逐漸成一門新興學科《統計遺傳學》。這是一門綜合運用遺傳學與數學的理論和方法,歸納整合群體遺傳學、遺傳流行病學、數量遺傳學、生態遺傳學和分子遺傳學等分支學科內容,是遺傳學、統計學、信息學高度交叉的學科。目前,經過多年的教學探索,教研室已經形成了比較完善的統計遺傳教學內容和教學手段?,F行的教學內容包含了基因頻率與基因型頻率、遺傳連鎖分析與關聯分析、群體遺傳結構與分化分析、QTL基因定位、單體型分析等內容,闡明了遺傳變異規律及方法論,用于指導復雜疾病的分子分型與基因定位、單體型分析等研究實踐[1]。
統計遺傳學作為一門側重實際應用的學科,實驗教學是統計遺傳學課程教學的重要組成部分,也是統計遺傳學教學成功的重要保證。我們設置了12學時的實驗課,結合當前國際上最流行的統計遺傳學軟件,把理論課中學習到的大部分方法在計算機上得以實現。教學過程中涉及到的相關軟件很多,比如遺傳關聯研究的PLINK[2],單倍體關聯研究的Haploview[3],循證醫學相關的Revman,STATA。相對而言,遺傳關聯研究軟件PLINK應用廣泛,功能強大,在統計遺傳學應用中占據重要的地位,因此,筆者將重點介紹其在本科統計遺傳學教學中的應用。
PLINK是一個免費、開源的全基因組關聯分析工具集合,是由人類遺傳研究中心(CHGR),馬薩諸塞州總醫院(MGH),哈佛大學和麻省理工學院的Broad研究所等機構科研人員所開發。PLINK主要針對基因型/表型數據的分析,近年內容不斷豐富,包含了拷貝數變異(CNVs)分析、Meta分析等等。此外,軟件除了使用命令行分析之外,基于JAVA開發了圖形用戶界面gPLINK,并與單體型可視化分析軟件Haploview建立了關聯,對于后續可視化展示,結果的注釋和存儲都起到了有力的支撐作用。
PLINK功能強大,包含的功能分析模塊眾多,是統計遺傳學領域常用軟件。主要的功能模塊包括:數據處理,質量控制的基本統計,群體分層分析,單位點的基本關聯分析(病例-對照數據),家系數據的傳遞不平衡檢驗,多點連鎖分析,單倍體關聯分析,拷貝數變異分析,Meta分析等等。
《統計遺傳學》是哈爾濱醫科大學校級精品課程,經過教研室教師多年來教學實踐的不斷改進,緊密契合當前學科研究的前沿,形成了完整的內容體系。課程的大部分理論內容都可以通過PLINK軟件分析模塊實現,因此,我們把PLINK軟件作為本課程案例教學主要的分析實現軟件。隨著大數據時代基因分型技術的發展,高通量測序成本的降低,大量真實測序數據的獲取,都為我們開展統計遺傳學實踐教學提供了有力的支撐。我們獲得了威康信托基金會病例對照協會(WTCCC)和北美類風濕性關節炎協會(NARAC)等國際組織機構提供的多套遺傳變異數據,為同學初步利用真實數據開展科研實踐活動提供了鍛煉的機會。結合課堂的理論內容,通過同學對這些案例以討論或者研討的方式,分析問題和解決問題。這種教學方式易于為學生接受,能很好地克服統計遺傳學理論學習中的困難。下面我們以GAW16類風濕性關節炎數據為例,對PLINK軟件在教學過程中的使用作一簡單介紹。
案例:類風濕性關節炎(RA)是是一種慢性炎癥性自身免疫疾病。我們獲取了一套NARAC提供的全基因組測序數據,總樣本數為2062個病例對照數據(868為cases、1194為controls),包含了22條常染色體的531689個SNPs[4]。針對本套數據,我們結合教學理論知識,指導學生完成部分的數據分析工作。現僅截取號染色體的一段數據為例,對關聯分析過程中的一些關鍵內容作一簡單介紹。同時,考慮到本專業課學生已經擁有較好的編程能力,擁有C++,JAVA,R,MATLAB等課程學習經歷,所以PLINK教學實踐采用的是命令行分析教學。
1)數據格式類型
PLINK軟件輸入數據類型主要為Linkage格式純文本文件,包含:“*.ped”文件,數據文件的前六項固定為家系、個體、父親、母親、性別和患病狀況的編碼,此后各項為擬分析的單核苷酸多態性(SNPs)的基因型編碼,各變量之間以空格間隔(見下表1);“*.map”文件,按SNP所屬染色體編碼、SNP名稱、遺傳距離、物理距離的順序排列。
命令語句:plink--file RA(假設RA為文件名,包含RA.ped和RA.map)。
2)數據質量控制
這是對于數據的過濾過程,一般考慮的因素是基因型缺失率,哈迪溫波格平衡,統計結果從中得到滿足條件的數據,命令如下:
plink--file RA--mind 0.05--geno 0.05--maf 0.01--hwe0.001。
上述命令行表示,提取數據中滿足以下條件的SNP數據:個體基因型缺失率小于0.05,位點基因型缺失率小于0.05,位點次等位基因頻率大于0.05,哈迪溫波格平衡檢驗大于0.001。分析結果會產生一個名稱為plink的純文本文件。

表1 RA病例對照部分數據(部分)

表2 PLINK軟件關聯分析結果(部分)
3)基本的關聯分析
病例對照數據的關聯分析對應的遺傳模型有多種,包括等位基因模型,顯性效應模型,隱形效應模型,加性模型等。假如我們研究的位點有C和A兩個等位基因,其中CC表示野生基因型,CA表示雜合型突變基因型,AA表示純合型突變基因型,則相應的等位基因模型:A VS C;隱性模型:AA VS(CA+CC);顯性模型:(CA+ AA)VS CC;加性模型:AA VS CC。比如我們執行等位基因模型分析,命令為:plink--file RA-assoc。
運行將生成結果文件“plink.assoc”,部分結果如表2。
上述結果可以看出rs17806289卡方檢驗的p值為5.87E-10,小于0.001,具有統計學意義,并且優勢比OR=0.43,顯示該位點等位基因A可能是一個保護因素。
當然,如果考慮某一位點SNP等位基因頻數不滿足列聯表檢驗的要求(頻數小于5),可以采用Fisher精確檢驗的方法,選擇PLINK命令參數“--fisher”即可。更進一步,如果考慮分析其他遺傳模型,可以選擇PLINK命令參數“--model”。為鞏固理論知識,加強學生學習的興趣,這兩部分內容均以課堂作業形式交給學生以討論組的形式完成。很好的激發了學生的學習熱情,加強了動手能力。
《統計遺傳學》是一門理論與實踐結合非常緊密的課程,也是一門與當前科學研究前沿緊密結合的課程。針對理論教學中抽象的統計原理,復雜的推導以及繁瑣的運算,我們通過實驗案例教學,一方面,加深學生對課堂學習的印象,能熟練掌握軟件分析工具,增強動手操作能力;另一方面,我們采用真實案例數據,在很大程度上也很好的調動了學生學習的積極性,促使他們主動地查閱相關文獻資料,深化學習的內容。此外,我們鼓勵學生參與教師的科研活動,運用所學統計遺傳學知識解決實際問題。在今后教學中,我們將繼續進行教學方法的創新與改進,引導學生自主的利用所學知識解決實際問題,為將來開展科研訓練打下堅實的基礎。
[1]張明明,張瑞杰,李晉,呂洪超.統計遺傳學精品課建設探索與實踐[J].黑龍江科技信息,2010(24)∶185-185.
[2]Purcell S1,Neale B,Todd-Brown K,et al.PLINK∶a tool set for whole-genome association and population-based linkage analyses[J].Am J Hum Genet.2007 Sep;81(3)∶559-75.
[3]Barrett JC,Fry B,Maller J,Daly MJ.Haploview∶analysis and visualization of LD and haplotype maps[J].Bioinformatics.2005 Jan 15;21(2)∶263-5.
[4]Cupples LA,Beyene J,Bickeb?ller H,et al.Genetic Analysis Workshop 16∶Strategies for genome-wide association study analyses. BMC Proc.2009 Dec 15;3 Suppl 7∶S1.