宋慶峰,張紅星,馬亦龍,周鋼橋
1.廣西醫科大學附屬腫瘤醫院介入治療科,南寧 530021;2.軍事醫學科學院放射與輻射醫學研究所,北京蛋白質組學研究中心,蛋白質組學國家重點實驗室,北京 102206;3.蛋白質藥物國家工程研究中心,北京 102206;4.國家蛋白質科學中心(北京),北京 102206
截止到2012年4月,以單核苷酸多態性(Singlenucleotide polymorphism,SNP)為遺傳標記,采用全基因組關聯研究(Genome wide association studies,GWAS)的策略已在 666種疾病(或性狀)中發現了3869個顯著關聯(P<5.0×10–8)的遺傳易感基因區域[1]。但是,在這些區域內,與復雜疾病最顯著關聯的遺傳變異或致病性遺傳變異都有待進一步確認,其生物學功能也尚待深入闡明。當遺傳易感基因區域內的 SNP位點之間存在較強的連鎖不平衡(Linkage disequilibrium,LD)以及存在遺傳因素和環境因素交互作用時,上述工作變得更加具有挑戰性。后GWAS時代的主要任務之一是對復雜疾病易感區域內的致病性遺傳變異進行精細定位(Fine mapping),即在通過GWAS鑒定到的疾病易感區域內獲取高密度的遺傳變異目錄及其基因型,從中鑒定出易感區域內最顯著關聯或致病性的遺傳變異,并闡明其生物學功能[2]。目前,已出現一些系統性的策略用于復雜疾病的精細定位研究(表1)。
SNP是可遺傳的變異中最常見的一種變異形式,在群體中其次要等位頻率(Minor allele frequency,MAF)大于1%。目前,GWAS采用的商業化SNP分型芯片已經可以同時檢測100萬個甚至更多的SNP位點。但是,這些芯片仍遠未能覆蓋人類基因組中的全部 SNP位點,一些與復雜性狀最顯著關聯的SNP位點可能會被遺漏。因此,獲得易感基因區域內高密度的SNP目錄是進行精細定位的前提之一。可以通過以下兩種方法增加易感基因區域內的 SNP密度,然后再進行遺傳關聯分析,以確定最顯著關聯的SNP位點。
1.1.1 根據參考數據集進行SNP的推斷(Imputation)
由許多國家共同參與的“人類基因組單體型圖計劃”(HapMap計劃)和“千人基因組計劃”(1000 genome project)為人們提供了比較全面的人類基因組DNA序列變異數據。以這些研究計劃產生的SNP數據為參考集,可以通過計算推斷出與已分型 SNP位點相鄰的未分型SNP位點的基因型,從而大大降低遺漏的可能性[3]。用于推斷的代表性軟件有MACH[4]和IMPUTE[4]等,現已得到廣泛應用。例如,Raychaudhuri等[5]以2767個個體的……