馬 磊,賈奇男,張 俊,易青青,賀建峰,張 琪
(昆明理工大學信息工程與自動化學院生物醫學工程研究所,云南昆明650500)
單核苷酸多態性(single nucleotide polymorphism,SNP)是指在染色體基因組水平上單個核苷酸的變異引起DNA序列多態性,它包括單堿基的轉換,顛換、插入及缺失等形式,SNP位點的檢出可以在一定程度上預測個體在自然選擇過程中的演變程度。目前,SNP位點檢測方法主要有單鏈構象多態性分析(single strand conformation polymorphism,SSCP)[1],變性梯度凝膠電泳(denatured gradient gel electrophoresis,DGGE)[2],及其他一些常見方法[3-6]。但是這些方法均具有耗時長,過程繁瑣和技術難度大,費用高等缺點,從而制約了SNP的研究和發展。近年來,出現了一些利用生物信息技術等簡單易行的方法,進行SNP位點篩選分析的研究[7],但仍存在應用范圍較小等問題。
本研究提出了一種基于計算機的SNP位點檢測方法,并以HBV的演化為例,應用所提出的方法,通過特征信息的提取,剔除冗余的非疾病基因或非疾病風險基因,采用基于最優風險與預防模式的數學算法,研究個體被HBV感染的風險性及被感染后疾病的演變程度,結論可為臨床診斷提供參考。
在信息增益的DNA序列中,特征信息選擇的衡量標準是判斷該位置上的特征基因為目標屬性帶來的信息量,信息越多,該特征基因就越重要。對一個特征基因而言,特定位置上它存在和不存在時信息量將發生明顯變化,而前后信息量的差值就是這個特征基因給該位置帶來的信息量,也稱為熵[8]。……