劉 壯 張 悅
(中國(guó)醫(yī)科大學(xué)《中國(guó)衛(wèi)生統(tǒng)計(jì)》雜志 沈陽(yáng) 110122)
20世紀(jì)80年代末人類基因組計(jì)劃啟動(dòng),基因組學(xué)測(cè)序數(shù)據(jù)迅猛增加,隨之興起生物信息學(xué)這門新的交叉學(xué)科。伴隨生物學(xué)和醫(yī)學(xué)的迅速發(fā)展,特別是人類基因組計(jì)劃的順利推進(jìn),產(chǎn)生海量生物學(xué)數(shù)據(jù),特別是生物分子數(shù)據(jù)積累速度在不斷快速增加[1-2]。由此產(chǎn)生的數(shù)據(jù)具有豐富內(nèi)涵,隱藏著很多生物學(xué)知識(shí)。如何充分利用這些數(shù)據(jù),通過(guò)合理分析和處理揭示其內(nèi)涵,獲得對(duì)人類有意義的信息,為生物學(xué)科研工作者帶來(lái)挑戰(zhàn)。
包含基因組信息獲取、處理、存儲(chǔ)、分配、分析和解釋的所有方面,是基因組學(xué)研究不可分割的一部分;是當(dāng)下自然科學(xué)和技術(shù)科學(xué)領(lǐng)域中“基因組”、“信息結(jié)構(gòu)”和“復(fù)雜性”這3個(gè)重大科學(xué)問(wèn)題的有機(jī)結(jié)合[3-5]。生物信息學(xué)研究是為了揭示基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律,人類在認(rèn)識(shí)自身的基礎(chǔ)上可以豐富和發(fā)展現(xiàn)有的生物學(xué)和信息科學(xué),推動(dòng)學(xué)科群發(fā)展,使其成為自然科學(xué)中多學(xué)科交叉的新領(lǐng)域。
2.2.1 概述 從20世紀(jì)20年代起,統(tǒng)計(jì)學(xué)理論與方法日益廣泛地被生物醫(yī)學(xué)研究工作者所應(yīng)用。隨著流行病學(xué)、基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等學(xué)科迅猛發(fā)展,促使統(tǒng)計(jì)學(xué)與這些學(xué)科的交叉融合,對(duì)醫(yī)學(xué)統(tǒng)計(jì)學(xué)研究人員提出很多實(shí)踐中的新課題。為解決這些新課題,統(tǒng)計(jì)學(xué)家在對(duì)經(jīng)典統(tǒng)計(jì)理論研究和認(rèn)識(shí)的基礎(chǔ)上不斷探索和發(fā)展統(tǒng)計(jì)新理論和新方法。醫(yī)學(xué)統(tǒng)計(jì)學(xué)研究?jī)?nèi)容主要包括3個(gè)方面:統(tǒng)計(jì)設(shè)計(jì)、統(tǒng)計(jì)分析和其他復(fù)雜分析方法。
2.2.2 統(tǒng)計(jì)設(shè)計(jì) 包括對(duì)資料收集、整理和分析全過(guò)程的設(shè)想和安排。在設(shè)計(jì)前,研究者必須明確的重要問(wèn)題包括研究目的、研究總體、研究對(duì)象、研究?jī)?nèi)容、樣本量、干預(yù)措施和研究結(jié)果等。在研究設(shè)計(jì)的構(gòu)思過(guò)程中還應(yīng)注意幾個(gè)關(guān)鍵問(wèn)題,例如抽樣方法、控制偏倚和設(shè)置對(duì)照方法等。
2.2.3 統(tǒng)計(jì)分析 主要包括統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷兩個(gè)部分。統(tǒng)計(jì)描述是指用合適的統(tǒng)計(jì)圖表或統(tǒng)計(jì)方法對(duì)數(shù)據(jù)資料的分布狀態(tài)、數(shù)量特征和隨機(jī)變量之間關(guān)系進(jìn)行估計(jì)和測(cè)定。統(tǒng)計(jì)推斷是指在一定的可信程度下由樣本信息推斷總體特征,包括由樣本統(tǒng)計(jì)指標(biāo)(統(tǒng)計(jì)量)來(lái)推斷總體相應(yīng)指標(biāo)(參數(shù)),即參數(shù)估計(jì);由樣本差異來(lái)推斷總體之間是否可能存在差異,即假設(shè)檢驗(yàn)。
在理論統(tǒng)計(jì)研究方面,涉及各種概率分布研究、分布偏差的有效性推定以及綜合評(píng)價(jià)方法與理論的研究;在應(yīng)用統(tǒng)計(jì)研究方面,涉及綜合評(píng)價(jià)方法及其應(yīng)用、統(tǒng)計(jì)預(yù)測(cè)理論與模型研究、各種多元統(tǒng)計(jì)方法及其應(yīng)用的研究、生存時(shí)間與生存質(zhì)量的研究、計(jì)算機(jī)輔助診斷與治療模型的研究等。對(duì)于這些方面,醫(yī)學(xué)統(tǒng)計(jì)學(xué)都有相應(yīng)統(tǒng)計(jì)分析方法。
生物信息學(xué)中的許多分析方法基本原理都是醫(yī)學(xué)統(tǒng)計(jì)學(xué)方法的應(yīng)用和拓展[6-7]。目前生物信息學(xué)中常見的問(wèn)題有序列相似性分析、基因表達(dá)分析、基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)分析和序列結(jié)構(gòu)與模式識(shí)別分析等,本文將介紹這4類問(wèn)題中統(tǒng)計(jì)方法的應(yīng)用情況。
3.2.1 概述 在分子生物學(xué)研究中,對(duì)于待研究的堿基序列或由此翻譯得到的氨基酸序列,往往需要在數(shù)據(jù)庫(kù)搜索到具有一定相似性的同源序列,以推測(cè)該未知序列可能屬于哪個(gè)基因家族,具有哪些生物學(xué)功能。序列比較結(jié)果一般要經(jīng)過(guò)統(tǒng)計(jì)學(xué)檢驗(yàn)才能判斷是否具有顯著意義[8]。
3.2.2 Monte Carlo仿真法 將序列中的符號(hào)隨機(jī)改變后再在同樣條件下計(jì)算新的配準(zhǔn)得分,重復(fù)約100次后計(jì)算樣本配準(zhǔn)得分的均值和標(biāo)準(zhǔn)差,常被用來(lái)判斷一對(duì)序列配準(zhǔn)得分值的統(tǒng)計(jì)顯著性。在隨機(jī)序列配準(zhǔn)積分符合正態(tài)分布的假設(shè)下,結(jié)果顯著性由配準(zhǔn)得分高于均值多少個(gè)標(biāo)準(zhǔn)差的數(shù)目(Z值)決定。當(dāng)Z值為3.1、4.3和5.2SD單位時(shí),配準(zhǔn)積分的隨機(jī)出現(xiàn)概率分別是10-3、10-5和10-7。通常認(rèn)為當(dāng)Z值>5SD時(shí),兩個(gè)被比較的序列在進(jìn)化上相關(guān);當(dāng)Z值在3~5SD之間時(shí),如果兩者在其他方面有相類似的證據(jù)可表明兩者同源;當(dāng)Z值<3SD時(shí),表示兩者不同源。
3.2.3 Karlin-Altschul公式 由于各得分隨機(jī)變量是在大量分值數(shù)據(jù)中的最大值(最優(yōu)配準(zhǔn)),正態(tài)性假設(shè)不盡合理,因此Karlin和Altschul提出計(jì)算BLAST得分顯著性的Karlin-Altschul公式。Vingron和Watterman將此公式推廣為適用于計(jì)算局部配準(zhǔn)得分統(tǒng)計(jì)顯著性的公式,將序列長(zhǎng)度作為其一個(gè)參數(shù)。對(duì)兩個(gè)序列a、b,BLAST發(fā)現(xiàn)的高分區(qū)匹配域稱為HSPs(high scoring pairs)ai…ai+k與bj…bj+k。最佳HSP得分H(a,b)超過(guò)閾值t的概率為:
P(H(a,b)>t)≈1-e-rnmpt
(1)
式中r和p可以通過(guò)解一個(gè)方程或直接計(jì)算得到,m、n分別是兩個(gè)序列的長(zhǎng)度。式(1)反映HSPs得分高于閾值t的數(shù)目近似為Poisson分布。
3.2.4 非重疊局部亞優(yōu)化配準(zhǔn)(Non-overlapping Local Suboptimal Alignment,NOLSA) 那些使局部Smith-Waterman配準(zhǔn)的期望分值隨著被比較序列的長(zhǎng)度而呈對(duì)數(shù)關(guān)系增長(zhǎng)的罰分稱為強(qiáng)gap罰分。在強(qiáng)gap罰分的情況下,Karlin-Altschul公式近似適用于局部配準(zhǔn)分析。Waterman和Eggert提出NOLSA算法,其中任何一對(duì)已經(jīng)在一種配準(zhǔn)中使用過(guò)的殘疾不再在接下去的較小得分的配準(zhǔn)中使用。此算法在每次進(jìn)行新的次優(yōu)配準(zhǔn)時(shí)不必重新計(jì)算整個(gè)動(dòng)態(tài)規(guī)劃矩陣,只需重做上一次配準(zhǔn)的一個(gè)領(lǐng)域,得到的次優(yōu)配準(zhǔn)間的依賴性較低。最優(yōu)NOLSA是Smith-Waterman配準(zhǔn)。記ω(t)表示分支不小于閾值t的NOLSAs數(shù)目,可以用Waterman-Eggert算法計(jì)算NOLSAs,直到第1個(gè)NOLSA分值 P(ω(t)>t)≈1-e-rnmpt (2) 3.3.1 概述 隨著生命科學(xué)進(jìn)入后基因組時(shí)代,基因芯片技術(shù)所面臨的挑戰(zhàn)早已不再是基因表達(dá)芯片本身,而是在于發(fā)展實(shí)驗(yàn)設(shè)計(jì)方法以對(duì)基因表達(dá)進(jìn)行時(shí)空全面探索[9]。數(shù)據(jù)分析與挖掘?qū)ζ鋪?lái)說(shuō)是最大挑戰(zhàn)?;蛐酒磉_(dá)實(shí)驗(yàn)產(chǎn)生海量數(shù)據(jù),隱藏著豐富信息,通過(guò)數(shù)據(jù)統(tǒng)計(jì)或可視化方法可以發(fā)現(xiàn)新的知識(shí)。聚類分析是目前運(yùn)用最多的一種表達(dá)數(shù)據(jù)分析方法。一塊基因芯片上往往載有成千上萬(wàn)個(gè)基因,一次實(shí)驗(yàn)可同時(shí)檢測(cè)這些基因的表達(dá)情況。應(yīng)用同一種芯片在不同條件下(如不同時(shí)間、細(xì)胞等)進(jìn)行基因表達(dá)實(shí)驗(yàn),搜集表達(dá)數(shù)據(jù),將原始數(shù)據(jù)放在一起,生成一個(gè)數(shù)據(jù)表格。表格每一行代表一個(gè)基因,每一列代表在不同實(shí)驗(yàn)條件下得到的基因表達(dá)強(qiáng)度。表格中每一行數(shù)據(jù)可作為一個(gè)向量,聚類分析是將這些向量按照相似程度進(jìn)行歸類。 3.3.2 分層聚類分析[10-11]在分層聚類情況下,數(shù)據(jù)被看作是一種二元樹結(jié)構(gòu),在最高層上所有數(shù)據(jù)同屬于一個(gè)類。其原理與樹的分叉結(jié)構(gòu)相似,類被一分為二,相似的類被保留在同一個(gè)子類中,不相似的類則被分開。在進(jìn)行聚類分析時(shí),從類的每個(gè)元素出發(fā)將類的集合分為只含有兩個(gè)類的一組二元類對(duì)合集。每個(gè)時(shí)間中一個(gè)類對(duì)被合二為一,這樣類的數(shù)目就減少一個(gè),連續(xù)向后進(jìn)行此過(guò)程,最終得到樹圖的數(shù)據(jù)分層結(jié)構(gòu)。 3.3.3 K-Means聚類[12]在數(shù)據(jù)劃分上不考慮類的分層結(jié)構(gòu)問(wèn)題。將R矩陣的P列數(shù)組聚為K個(gè)類,具體方法如下:(1)隨機(jī)將R1,R2,…,RP分配到K個(gè)類中。(2)計(jì)算K個(gè)類的重心Y1,Y2,…,YK。(3)按照由1到P的順序計(jì)算R1,R2,…,RP到重心Y1,Y2,…,YK間的距離,Ri將分配到距離最近的類中。(4)如果Ri被分配到一個(gè)新的類中,則重新計(jì)算兩個(gè)受影響的類的重心。(5)重復(fù)步驟(3),直到不再有新的類劃分出現(xiàn)。 3.4.1 概述 基因芯片表達(dá)數(shù)據(jù)不僅可用于分析基因表達(dá)的時(shí)空規(guī)律、研究基因功能,還可用于分析基因間的相互關(guān)系和基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。單一基因表達(dá)結(jié)果受其他基因影響,而這個(gè)基因同時(shí)能影響其他基因表達(dá),這種相互影響、制約的關(guān)系構(gòu)成復(fù)雜基因表達(dá)調(diào)控網(wǎng)絡(luò)?;蛘{(diào)控網(wǎng)絡(luò)的研究意義在于通過(guò)建立基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)統(tǒng)計(jì)模型,對(duì)某個(gè)物種或組織的全部基因的表達(dá)關(guān)系進(jìn)行整體分析和研究,分析基因間相互作用。 3.4.2 布爾網(wǎng)絡(luò)模型 一種以有向圖為基礎(chǔ)的離散系統(tǒng),是基因調(diào)控分析中最簡(jiǎn)單的一種模型。在此模型中每個(gè)基因只有兩種狀態(tài),“開”表明基因轉(zhuǎn)錄表達(dá),形成基因產(chǎn)物;“關(guān)”則表明基因未轉(zhuǎn)錄?;蜷g的相互關(guān)系可表示為: (3) 即如果基因A表達(dá),而且基因B不表達(dá),則基因C表達(dá),其網(wǎng)絡(luò)圖,見圖1。在布爾網(wǎng)絡(luò)模型中各個(gè)基因狀態(tài)的集合是整個(gè)系統(tǒng)的狀態(tài),當(dāng)系統(tǒng)從一個(gè)狀態(tài)轉(zhuǎn)換為另一個(gè)狀態(tài)時(shí),各基因下一時(shí)刻的狀態(tài)由其連接輸入機(jī)器布爾規(guī)則確定。布爾規(guī)則用“真值表”的形式表示,當(dāng)基因A和基因B處于不同狀態(tài)時(shí),基因C的狀態(tài)隨之發(fā)生變化,見表1。 圖1 布爾網(wǎng)絡(luò)模型 表1 基因C真值 3.4.3 線性組合模型 一種連續(xù)網(wǎng)絡(luò)模型,在此模型中假設(shè)基因之間的相互作用是線性的,一個(gè)基因的表達(dá)值是若干個(gè)其他基因表達(dá)值的加權(quán)和。線性組合模型可表示為: Xi(t+△t)=∑WijXj(t) (4) 其中Xi(t+△t)是基因i在t+△t時(shí)刻的表達(dá)水平,Xj(t)是基因j在t時(shí)刻的表達(dá)水平,為Wij代表基因j的表達(dá)水平對(duì)基因i的影響。在這種基因相互關(guān)系表達(dá)形式中還可以增加其他數(shù)據(jù)項(xiàng),以模擬基因調(diào)控的真實(shí)情況。 結(jié)構(gòu)復(fù)雜的蛋白質(zhì)實(shí)際上是由一些相同或不同的結(jié)構(gòu)域締結(jié)而成,每一結(jié)構(gòu)域承擔(dān)一定功能,各結(jié)構(gòu)域協(xié)同作用體現(xiàn)了蛋白質(zhì)總的生物學(xué)功能。測(cè)定大量的蛋白質(zhì)結(jié)構(gòu)可簡(jiǎn)化為對(duì)數(shù)量、殘基數(shù)目較少的結(jié)構(gòu)域結(jié)構(gòu)測(cè)定,了解它們?nèi)绾谓M裝成完整的蛋白質(zhì),需要發(fā)展新的檢索結(jié)構(gòu)域的模式匹配方法。頻率表法最先用于核酸序列特殊信號(hào)的模式識(shí)別,隨后逐漸應(yīng)用于蛋白質(zhì)結(jié)構(gòu)域的模式匹配分析中。由于蛋白質(zhì)的結(jié)構(gòu)域通常由幾十個(gè)或幾百個(gè)殘基組成,屬于同一類結(jié)構(gòu)域的序列的類似性可能很小。結(jié)構(gòu)域保守區(qū)決定了結(jié)構(gòu)域的同源,因此其存在確定了結(jié)構(gòu)域的存在,可以用結(jié)構(gòu)域的保守順序直接分析蛋白質(zhì)與蛋白質(zhì)超家族的類似性,增加檢測(cè)敏感性。 作為連接生命科學(xué)和信息科學(xué)的新興學(xué)科,生物信息學(xué)發(fā)展前景廣闊。而統(tǒng)計(jì)學(xué)作為生物信息學(xué)分析的重要工具,可以探查和提取數(shù)據(jù)之間的因果關(guān)系,揭示數(shù)據(jù)內(nèi)涵,從而獲得更多有價(jià)值的信息。本文通過(guò)介紹序列相似性分析、基因表達(dá)分析、基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)分析和序列結(jié)構(gòu)與模式識(shí)別分析中統(tǒng)計(jì)學(xué)方法的應(yīng)用,為科研人員學(xué)習(xí)系統(tǒng)的生物分析技術(shù)提供理論依據(jù)。3.3 基因表達(dá)
3.4 基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)



3.5 序列結(jié)構(gòu)與模式識(shí)別
4 結(jié)語(yǔ)