摘要本文介紹了幾種常見的基因表達數據預處理方法,并對這些方法進行對比,闡明了各種方法在不同的環境下的應用優勢。
關鍵詞 數據挖掘 預處理方法 基因表達數據
中圖分類號:O17文獻標識碼:A
Pretreatment Method of the Gene Expression Data
WANG Xiuzhu
(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010)
AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment.
Key wordsdata mining; pretreatment methods; gene expression data
隨著人類基因組計劃對24對染色體全部基因測序工作的完成,人類對基因的研究將進入全新的發展階段,而它的重點也將落在對基因表達數據的分析上。面對數以千兆計的基因表達數據記錄,數據挖掘成了首當其沖的、強有力的分析工具。選擇合適的數據挖掘算法,是基因表達數據知識發現的關鍵。一般基因表達數據都會存在諸如數據完整性、數據的冗余性、屬性間的相關性等問題而不能直接滿足挖掘算法的要求。本文首先提出幾種常用的基因表達數據預處理方法,隨后會對這些方法進行論述和比較,以闡明在不同環境下各種預處理方法的應用優勢。
數據預處理是從大量的數據屬性中提取出一些對目標輸出有重要影響的屬性,即降低原始數據的維數,從而達到改善實例數據質量和提高數據挖掘速度的目的。常見的基因表達數據預處理方法有以下幾類。
1 基于粗糙集理論的約簡方法
20世紀80年代初,波蘭的Pawlak針對G.Frege的邊界線區域思想提出了粗糙集理論,粗糙集理論的主要研究內容有知識約簡、離散化問題和不完全知識的補齊等,它在一定程度上很好地解決了傳統數據挖掘中存在的超大數據、不確定性數據、噪音數據、空值和冗余數據等問題。①
粗糙集理論的基本思想是:用數據集的等價關系,這種關系可以是某個屬性,也可以是某幾個屬性的組合,對此數據集進行劃分,從而得到不同的基本類,在這些基本類的基礎上進一步求得最小約簡集,以達到降維的目的。
粗糙集理論的優點是:無需提供額外的先驗信息就可將問題的論域進行劃分,無需相關領域專家的監督就可獨立完成。能有效地去除基因表達數據庫中的冗余數據、噪音數據和空數據,并對數據進行有效的降維。缺點是:只能處理離散型數據。因此,如果基因表達數據庫中的數據是連續型的,則首先要對其進行離散化處理后才能運用粗糙集理論來進行后續處理。
2 基于概念樹的數據濃縮方法
在基因表達數據庫中,許多屬性都是可以進行歸類的,各屬性值依據抽象程度可以構成一個層次結構,這種層次結構通常稱為概念樹。它依據抽象程度將屬性按照一般到特殊的順序排列,并用這種層次結構體現出來。這種方法其實是幾組合并的處理過程,用這種方法從基因表達數據庫中發現規則知識的核心是執行基本的和面向各屬性的歸納。②
基于概念樹的數據濃縮法的基本思想是:(1)用概念樹中的父概念去替代下面同性的、較具體的屬性值。(2)合并知識基表中出現的相同元組,并計算由這些相同元組所構成的宏元組所覆蓋的元組數,如果元組數大于設定的閥值,則用概念樹中更一般的父概念去替代。(3)得到覆蓋面更廣、數量更少的宏元組以達到降維的目的。(4)將最終結果進行歸納并轉換成邏輯規則。
基于概念樹的數據濃縮法是基于監督的方法,它的降維思想主要是根據經驗和需要制定出相應的剪枝閾值,以對噪聲數據進行有效剪除。這種概念泛化處理的手段,能使處理后的基因表達數據庫以不同層次和匯聚密度展現出來,為后續數據挖掘階段能更好地挖掘出不同層次屬性值間的關系做出了鋪墊。
3 主成分分析法
常見的基于統計分析的屬性選取方法有主成分分析、逐步回歸分析、公共因素模型分析等。它們都是旨在用盡可能少的特征去描述高維的原始基因表達數據庫,從而達到降維的目的。其中最有代表性,應用得最廣的就屬主成分分析。③
主成分分析的基本思想是:將多個變量通過線性變換的方式選出較少的重要變量的一種多元統計分析方法,它是在數據信息丟失最少的原則下對高維空間進行降維處理。它設法將原來給定的一組變量X1,X2,,,Xp,通過線性變換,轉換為一組不相關的變量Y1,Y2,,,Yp,在這種變換中,保持原始變量的方差和不變。通常數學上的處理就是將原來p個指標作線性組合,作為新的綜合指標的同時,使得Y1具有最大方差,成為第一主成分,如果第一主成分不足以代表原來p個指標的信息,再考慮選取第二個線性組合Y2作為第二主成分。依此類推,原來的k個變量就可以轉換成q個主成分。
主成分分析法的特點是用盡可能少的、具有代表性的特征變量來描述原本高維的基因表達數據庫,它能依據變量間的相關程度,自動生成權重,在一定程度上避免了人為因素的干擾,確保了評價的客觀性。它的局限性在于評價結果并不能重復使用,每次樣本的增減都會使原來的評價失去意義。
4 遺傳算法
遺傳算法是一種基于生物進化論和分子遺傳學的全局隨機搜索算法,它模擬了生物界“生存競爭,優勝劣汰,適者生存”的機制,用逐次迭代法去搜索尋優,求得問題的最優解。④⑤遺傳算法的基本思想是:將問題的可能解按某種形式進行染色體編碼。在選擇個體適應度評價較優的染色體中隨機選取 N 個進行復制。通過選擇、交叉、變異三個環節產生一群新的更適應環境的染色體,從而形成新的種群。
遺傳算法應用的關鍵是適應度函數的建立和染色體的描述,具體體現在對遺傳算法運行參數的設定上,其中包括對種群的大小、進化終止的最大代數、交叉概率、變異概率的確定等。在實際應用中,通常將它和神經網絡方法綜合使用。
5 結論
綜上所述,在以上的數據預處理方法中,基于粗糙集理論的約簡方法在處理離散型基因表達數據上具有明顯優勢;基于概念樹的數據濃縮方法在有相關領域專家監督的前提下具有優勢;基于統計分析的屬性選取方法由于在對基因表達數據的預處理過程中無需通過人為賦值來確定各個指標的權重,增強了數據處理的客觀性。此外,它是在數據信息丟失最少的前提下進行的。因此,它較其他三種方法在降維的質量上有優勢,遺傳算法在處理基因表達數據上的降維效果也是比較明顯的,但通常要與神經網絡相結合來使用,算法的復雜度相對較高。
基金項目:西南科技大學青年基金項目(項目編號:11zx3118,“西南科技大學科研基金資助成果”)
注釋
①于成.粗糙集在基于神經網絡的入侵檢測系統的探討[J].自動化與儀器儀表,2010.5:129-131.
②劉上力,趙勁強,聶勤務.Web使用挖掘中的數據預處理方法[J].鄭州輕工業學院學報(自然科學版),2010.25(4):71-74.
③顧明,蘇園園.主成分分析法在工作評價中的應用[J].科教導刊,2010(6):159-161.
④張智文.基于遺傳算法的可拓故障診斷新方法[J].信息技術:271-272.
⑤揚凡,米根鎖.BP網絡結合遺傳算法在故障診斷中的應用[J].自動化技術與應用,2006.25(11):4-6.