陳小梅
(福建農林大學,福建 福州 350002)
腫瘤微陣列數據的小波模極大值特征提取
陳小梅
(福建農林大學,福建 福州 350002)
本文提出針對腫瘤微陣列數據的小波模極大值特征提取方法。首先求兩類數據的Bhattacharyya距離分布,初步提取特征基因;接著進行小波分解,在頻域上用小波分解高頻系數檢測基因突變點,低頻系數逼近表征原始信號特征;然后通過理論分析和構建SVM分類器,經過多次實驗選取小波基和尺度,提取特征基因。將該算法應用于數據集(1999年Golub所用ALL和AML),從中提取了5個基因,分類測試準確率可達94.12%??梢娫撍惴ň哂休^高的可行性與有效性,能為腫瘤間差異基因研究提供一定參考。
微陣列數據;小波模極大值;SVM
基因芯片進行癌癥診斷極大地提高了數據獲取效率,但基因芯片數據存在高維數、高噪聲、高通量等特點,如何從基因芯片的海量數據中提取有用的生物學信息,是癌癥基因檢測的關鍵。
基因表達水平信號變化極不規則,但其奇異點和不規則的突變部分經常攜帶比較關鍵的信息[1]。小波分析理論可以用于基因芯片數據的處理,小波分解后的系數能表征基因表達相關信息[2,3]。文獻[4]和[5]分別采用小波分解的低頻系數和高頻系數作為特征進行分類,分類效果均可以達到93%左右,低頻系數特征提取結果總體上好于高頻,但沒有闡述提取多少個基因,提取的基因是什么,且分類準確率還有待提高。本文提出一種基于小波模極大值的特征提取算法,可以從經典數據集中提取5個特征基因,分類測試準確率達到94.12%。
小波變換理論最早是20世紀80年代初法國地球物理學家Morlet在分析地球物理信號時,提出來的一種數學工具。它是為克服傅里葉分析時域不能局部化,難以檢測信號發生突變時間(或位置)的不足而提出的一種信號分析手段。一般情況下,在低頻部分(平穩部分)具有較低的時間分辨率和較高的頻率分辨率,而在高頻部分(細節部分)較高的時間分辨率和較低的頻率分辨率,可見小波分析理論適合于探測正常信號中出現的反常現象。而腫瘤微陣列數據突變基因的檢測正屬于這種從正常信號中探測異常現象的問題。
小波變換模極值點突變點檢測原理:模極大值突變點檢測是在不同尺度上先對信號進行光滑,再由光滑后信號的一階和二階導數檢測信號的突變點。
腫瘤基因微陣列數據一個顯著的特點是樣本少,維數高,基因集只有一小部分基因與腫瘤分型有關,可以首先對基因集進行初步的篩選。信噪比是由Golub提出的評價基因對腫瘤分型影響大小的經典準則[6]。但這種準則存在有一定的缺陷,比如當兩種類型腫瘤的分布均值相同時,其信噪比d=0,但可能兩者的分布波動區別較大,此時的基因可能會被剔除,進而影響差異基因的提取。Bhattacharyya距離既體現了基因在兩個類別中均值的差異對樣本分類的貢獻,又體現了方差的不同對不同分類的影響[7]。所以本文采用基因的Bhattacharyya距離來評價基因中蘊含的分類信息,對基因集進行初步提取。
針對一包括兩類腫瘤的微陣列數據矩陣,利用高頻分量中的局部極大值點來初步確定基因可能突變位置,然后綜合考慮訓練樣本的可能突變位置,確定這兩類腫瘤基因的可能突變點。最后根據突變點位置,提取突變點位置的低頻信息作為特征,構建SVM分類器分類測試,具體算法如下:
(1)先根據Bhattacharyya距離及其分布,提取兩類間距離較大的基因,對訓練數據進行初步降維。Bhattacharyya距離公式為
其中B為兩腫瘤基因之間的Bhattacharyya距離,μ1和μ2分別為兩類腫瘤某基因表達水平的均值,σ1和σ2分別為兩類腫瘤某基因表達水平的標準差。
(2)分別對訓練子集的所有樣本的基因表達信號進行小波變換處理。
(3)對小波變換處理得到的高頻成分利用小波模極大值原理進行突變點位置檢測,并將每個樣本的局部模極大值點令為1,否則為0。
(4)分別統計兩類腫瘤訓練集中每個基因可能是突變點出現的次數,求出每個基因可能為突變點的概率。
(5)設定閾值TH,分別將兩類腫瘤中概率大于閾值TH的基因提取出來作為候選特征基因。
(6)取兩類腫瘤所選基因突變點的并集,并選取所選突變點位置對應的基因的小波分解的低頻部分作為特征。
(7)利用訓練集中提取的特征構建SVM分類器,利用測試集測試分類器性能。
其流程圖如下:

圖1 小波變換模極大值特征提取流程圖
為驗證本文設計方法的有效性,文章選用一個含有7129個基因的常用數據集(Golub et al,1999年),該數據集包含38個訓練樣本(27個ALL、11個AML)和34個測試樣本(20個ALL、14個AML)。對原始數據進行缺失值處理、對數處理后,得到一個7129×72的矩陣,作為待處理數據。
3.1 Bhattacharyya距離初步過濾基因
文章首先求出利用Bhattacharyya距離公式,求出AML和ALL各基因之間的Bhattacharyya距離,構建直方圖(如下圖2),選取閾值為0.2,從7129個基因中選取了757個候選特征基因。

圖2 Bhattacharyya距離初步過濾基因直方圖
3.2 小波基函數及尺度選取
本文利用小波變換檢測基因表達信號的奇異性,主要是為了確定信號的奇異點位置,應選擇合適的小波函數和尺度大小。如果選擇的尺度太小,則時間域所選擇的時間間隔較小,受噪聲的干擾較大;如果尺度太大,則信號突變點鄰域的小波變換的模極大值的幅度衰減較快,這使信號的突變點不明顯[8]。由于低層小波分解間斷的時間間隔較短,包含了頻率較高的成分,所以高頻系數有較大的幅值。所以文章選擇1~5層對不同的小波基進行分解分析。
小波基的選擇非常重要,利用不同的小波基函數對信號進行分解,可以突出不同的信號特征。小波基的正則性主要影響小波系數重構的穩定性,通常要求小波基函數具有一定的正則性(光滑性)。樣條小波和Daubechies小波都具有較好的正則性。其中樣條小波是一種非緊致正交的對稱小波,且具有線性相位的特性,但由于非緊致小波會形成無窮長濾波器,如果進行截斷,就會產生一定的截斷誤差。而Daubechies小波是緊致正交基,具有很好的正則性,有利于信號的分解與重構。
腫瘤微陣列數據特征提取問題是奇異點檢測問題。在分析奇異信號時,一般選取消失矩較高階數的小波基,讓信號中平滑部分的高頻系數趨于0,從而保留高頻中的突變部分[9]。小波基的消失矩與Lipschitz指數密切相關,但突變信號的Lipschitz指數一般在0-1之間,因此所選擇的小波基的消失矩也不能太高。所以本文選擇Daubechies構造的具有很好緊致性的小波基db1,db2,db3比較說明。
3.3 實驗結果
經過實驗,選擇小波基函數為'db3',分解層數為4,進而利用提取的特征基因子集,構建線性SVM分類器并進行測試,得到如下表不同閾值TH下的測試結果。

表1 不同TH閾值的測試結果
可見,隨著閾值TH的變化,雖然提取的基因數發生了相應的變化,但是測試的準確率比較文檔,都達到了94%以上。當選擇閾值為1時,該方法所提取的基因只有5個,在GEO中的登錄號分別為KIAA0101 gene、UBL1 Ubiquitinlike protein、RanBP2(Ran-binding protein 2)、Cadherin-15、Phosphatidylinositol-glycan-class C(PIG-C),這時測試的準確率達到94.12%。
本文針對常用數據集所提取的基因沒有出現在文獻[6]所提取的50個基因中,但該文獻在對34個測試樣本進行獨立測試時,其準確率只達到了85.29%(29/34),可見該文獻所提取的基因并沒有完整的分類信息。文獻[10]采用浮動順序搜索算法搜索特征空間生成候選特征子集,最后選擇了5個特征基因構建SVM進行分類,結果也很好,準確率達到了100%,但在該文章中采用的是留一法進行測試,其分類器所具有的泛化能力可能比較不具有說服力。而本文所提取的5個基因,在針對34個測試樣本進行測試時,準確率達94.12%,因為可能存在一些比較特別的樣本??梢娀谛〔O大值特征提取方法具有很好的可行性和有效性,能將其應用于其他腫瘤分類數據中,研究腫瘤基因間的差異基因。
[1]張引紅,吳勝舉.鼾音信號奇異點檢測的小波變換分析方法[J].計算機工程與應用,2008,44(005):232-234.
[2]Liu Y.Feature extraction for DNA microarray data in Proc[C].20thIEEE International Symposium on computer-Based Medical Systems,2007:371-376.
[3]葛哲學,陳仲生.Matlab時頻分析技術及其應用[M].北京:人民郵電出版社,2006.
[4]劉玉杰,劉毅慧.基于小波低頻系數基因芯片數據的特征提取[J].生物信息學,2011,09(3):255-258.
[5]劉玉杰,劉毅慧.基于小波高頻系數基因芯片數據的特征提取[J].生物信息學,2011,09(4):339-343.
[6]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.
[7]李澤,包雷.基于基因表達譜的腫瘤分型和特征基因選取[J].生物物理學報,2002,18(4):413-417.
[8]Li S,Liao C,Kwok J T.Wavelet-based feature extraction for microarray data classification[A].IEEE,2006:5028-5033.
[9]魏寶琴,李白萍.最優小波基的選取原則[J].甘肅科技,2007,23 (010):42-43.
[10]李穎新,劉全金,阮曉鋼.急性白血病的基因表達譜分析與亞型分類特征的鑒別[J].中國生物醫學工程學報,2005,24(02):240-244.
Feature Extraction Base on Wavelet Modulus Maxima for Microarray Data
Chen Xiaomei
(FujianAgriculture and Forestry University,Fuzhou 350002,Fujian)
A new method of microarray data to extract features based on wavelet modulus maxima is proposed in this paper. First of all,the Bhattacharyya distance distributions of two classes are derived,preliminarily extracting feature genes.Then wavelet decomposition is adopted to detect the gene mutation of high frequency coefficient,and to approximate the original signal characterization based on low frequency.Finally the features are extracted by theoretical analysis and SVM classification,which selects the wavelet basis and scale based on multiple experiments.The proposed method is applied on the data set(1999 Golub used in ALL and AML).Five feature genes are extracted,whose classification test accuracy rate can reach 94.12%.It can be seen that the algorithm has high feasibility and effectiveness,and can provide some reference for the study of the differentially expressed genes between tumors.
Microarray data;wavelet modulus maxima;SVM
TP391.4
A
1008-6609(2016)05-0046-03
陳小梅,女,福建漳州人,碩士,助理實驗師,研究方向:模式識別、圖像處理。