999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析基因表達數據的預處理方法

2011-12-31 00:00:00王修竹
科教導刊 2011年18期

摘要本文介紹了幾種常見的基因表達數據預處理方法,并對這些方法進行對比,闡明了各種方法在不同的環境下的應用優勢。

關鍵詞 數據挖掘 預處理方法 基因表達數據

中圖分類號:O17文獻標識碼:A

Pretreatment Method of the Gene Expression Data

WANG Xiuzhu

(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010)

AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment.

Key wordsdata mining; pretreatment methods; gene expression data

隨著人類基因組計劃對24對染色體全部基因測序工作的完成,人類對基因的研究將進入全新的發展階段,而它的重點也將落在對基因表達數據的分析上。面對數以千兆計的基因表達數據記錄,數據挖掘成了首當其沖的、強有力的分析工具。選擇合適的數據挖掘算法,是基因表達數據知識發現的關鍵。一般基因表達數據都會存在諸如數據完整性、數據的冗余性、屬性間的相關性等問題而不能直接滿足挖掘算法的要求。本文首先提出幾種常用的基因表達數據預處理方法,隨后會對這些方法進行論述和比較,以闡明在不同環境下各種預處理方法的應用優勢。

數據預處理是從大量的數據屬性中提取出一些對目標輸出有重要影響的屬性,即降低原始數據的維數,從而達到改善實例數據質量和提高數據挖掘速度的目的。常見的基因表達數據預處理方法有以下幾類。

1 基于粗糙集理論的約簡方法

20世紀80年代初,波蘭的Pawlak針對G.Frege的邊界線區域思想提出了粗糙集理論,粗糙集理論的主要研究內容有知識約簡、離散化問題和不完全知識的補齊等,它在一定程度上很好地解決了傳統數據挖掘中存在的超大數據、不確定性數據、噪音數據、空值和冗余數據等問題。①

粗糙集理論的基本思想是:用數據集的等價關系,這種關系可以是某個屬性,也可以是某幾個屬性的組合,對此數據集進行劃分,從而得到不同的基本類,在這些基本類的基礎上進一步求得最小約簡集,以達到降維的目的。

粗糙集理論的優點是:無需提供額外的先驗信息就可將問題的論域進行劃分,無需相關領域專家的監督就可獨立完成。能有效地去除基因表達數據庫中的冗余數據、噪音數據和空數據,并對數據進行有效的降維。缺點是:只能處理離散型數據。因此,如果基因表達數據庫中的數據是連續型的,則首先要對其進行離散化處理后才能運用粗糙集理論來進行后續處理。

2 基于概念樹的數據濃縮方法

在基因表達數據庫中,許多屬性都是可以進行歸類的,各屬性值依據抽象程度可以構成一個層次結構,這種層次結構通常稱為概念樹。它依據抽象程度將屬性按照一般到特殊的順序排列,并用這種層次結構體現出來。這種方法其實是幾組合并的處理過程,用這種方法從基因表達數據庫中發現規則知識的核心是執行基本的和面向各屬性的歸納。②

基于概念樹的數據濃縮法的基本思想是:(1)用概念樹中的父概念去替代下面同性的、較具體的屬性值。(2)合并知識基表中出現的相同元組,并計算由這些相同元組所構成的宏元組所覆蓋的元組數,如果元組數大于設定的閥值,則用概念樹中更一般的父概念去替代。(3)得到覆蓋面更廣、數量更少的宏元組以達到降維的目的。(4)將最終結果進行歸納并轉換成邏輯規則。

基于概念樹的數據濃縮法是基于監督的方法,它的降維思想主要是根據經驗和需要制定出相應的剪枝閾值,以對噪聲數據進行有效剪除。這種概念泛化處理的手段,能使處理后的基因表達數據庫以不同層次和匯聚密度展現出來,為后續數據挖掘階段能更好地挖掘出不同層次屬性值間的關系做出了鋪墊。

3 主成分分析法

常見的基于統計分析的屬性選取方法有主成分分析、逐步回歸分析、公共因素模型分析等。它們都是旨在用盡可能少的特征去描述高維的原始基因表達數據庫,從而達到降維的目的。其中最有代表性,應用得最廣的就屬主成分分析。③

主成分分析的基本思想是:將多個變量通過線性變換的方式選出較少的重要變量的一種多元統計分析方法,它是在數據信息丟失最少的原則下對高維空間進行降維處理。它設法將原來給定的一組變量X1,X2,,,Xp,通過線性變換,轉換為一組不相關的變量Y1,Y2,,,Yp,在這種變換中,保持原始變量的方差和不變。通常數學上的處理就是將原來p個指標作線性組合,作為新的綜合指標的同時,使得Y1具有最大方差,成為第一主成分,如果第一主成分不足以代表原來p個指標的信息,再考慮選取第二個線性組合Y2作為第二主成分。依此類推,原來的k個變量就可以轉換成q個主成分。

主成分分析法的特點是用盡可能少的、具有代表性的特征變量來描述原本高維的基因表達數據庫,它能依據變量間的相關程度,自動生成權重,在一定程度上避免了人為因素的干擾,確保了評價的客觀性。它的局限性在于評價結果并不能重復使用,每次樣本的增減都會使原來的評價失去意義。

4 遺傳算法

遺傳算法是一種基于生物進化論和分子遺傳學的全局隨機搜索算法,它模擬了生物界“生存競爭,優勝劣汰,適者生存”的機制,用逐次迭代法去搜索尋優,求得問題的最優解。④⑤遺傳算法的基本思想是:將問題的可能解按某種形式進行染色體編碼。在選擇個體適應度評價較優的染色體中隨機選取 N 個進行復制。通過選擇、交叉、變異三個環節產生一群新的更適應環境的染色體,從而形成新的種群。

遺傳算法應用的關鍵是適應度函數的建立和染色體的描述,具體體現在對遺傳算法運行參數的設定上,其中包括對種群的大小、進化終止的最大代數、交叉概率、變異概率的確定等。在實際應用中,通常將它和神經網絡方法綜合使用。

5 結論

綜上所述,在以上的數據預處理方法中,基于粗糙集理論的約簡方法在處理離散型基因表達數據上具有明顯優勢;基于概念樹的數據濃縮方法在有相關領域專家監督的前提下具有優勢;基于統計分析的屬性選取方法由于在對基因表達數據的預處理過程中無需通過人為賦值來確定各個指標的權重,增強了數據處理的客觀性。此外,它是在數據信息丟失最少的前提下進行的。因此,它較其他三種方法在降維的質量上有優勢,遺傳算法在處理基因表達數據上的降維效果也是比較明顯的,但通常要與神經網絡相結合來使用,算法的復雜度相對較高。

基金項目:西南科技大學青年基金項目(項目編號:11zx3118,“西南科技大學科研基金資助成果”)

注釋

①于成.粗糙集在基于神經網絡的入侵檢測系統的探討[J].自動化與儀器儀表,2010.5:129-131.

②劉上力,趙勁強,聶勤務.Web使用挖掘中的數據預處理方法[J].鄭州輕工業學院學報(自然科學版),2010.25(4):71-74.

③顧明,蘇園園.主成分分析法在工作評價中的應用[J].科教導刊,2010(6):159-161.

④張智文.基于遺傳算法的可拓故障診斷新方法[J].信息技術:271-272.

⑤揚凡,米根鎖.BP網絡結合遺傳算法在故障診斷中的應用[J].自動化技術與應用,2006.25(11):4-6.

主站蜘蛛池模板: 亚洲综合第一页| 91年精品国产福利线观看久久| 国产va免费精品观看| 国产午夜一级淫片| 久久国产精品77777| 国产视频一二三区| 波多野结衣AV无码久久一区| 亚洲国产综合自在线另类| a级毛片在线免费| 美女扒开下面流白浆在线试听| 久久综合九色综合97网| 亚洲av无码专区久久蜜芽| 试看120秒男女啪啪免费| 2021亚洲精品不卡a| AV色爱天堂网| 1024你懂的国产精品| 东京热av无码电影一区二区| 亚洲精品国产综合99| 国产精品v欧美| 精品无码一区二区三区电影| 国产一区二区色淫影院| 午夜福利在线观看成人| 亚洲综合极品香蕉久久网| 国产美女91呻吟求| 欧美日韩国产在线人| 国产鲁鲁视频在线观看| 亚洲区一区| 亚洲天堂在线视频| 国产麻豆aⅴ精品无码| 超薄丝袜足j国产在线视频| 色视频久久| 日韩毛片基地| 国产黄在线观看| 亚洲天堂成人在线观看| 欧美亚洲国产精品第一页| 欧美一级大片在线观看| 在线观看视频一区二区| 91精品专区国产盗摄| 久久综合色视频| 又大又硬又爽免费视频| 一级全免费视频播放| 欧美a在线| 五月丁香伊人啪啪手机免费观看| 国产本道久久一区二区三区| h网站在线播放| 欧美亚洲激情| 乱系列中文字幕在线视频| 欧美黄色a| 99伊人精品| 伊人婷婷色香五月综合缴缴情| 精品人妻系列无码专区久久| 少妇精品在线| 欧美精品不卡| 亚洲第一成年网| 国产精品亚洲五月天高清| 台湾AV国片精品女同性| 97se亚洲综合在线天天| 美女免费精品高清毛片在线视| 国产丝袜精品| 亚洲精品自在线拍| 亚洲女同一区二区| 青青草91视频| 日韩第九页| 亚洲精品无码抽插日韩| 国产亚洲精品自在线| 久久香蕉欧美精品| 久久精品无码国产一区二区三区| 日韩精品无码不卡无码| 99激情网| 国产亚洲欧美在线人成aaaa| 欧美日韩精品一区二区视频| 久久精品女人天堂aaa| 波多野结衣亚洲一区| 亚洲天堂.com| 国产精品无码在线看| 亚洲bt欧美bt精品| 香蕉久久永久视频| 亚洲人成电影在线播放| a在线亚洲男人的天堂试看| 久久毛片基地| 亚洲av无码久久无遮挡| 国产成人综合日韩精品无码首页|