汪偉
首都醫科大學 醫學實驗與測試中心,北京 100069
隨著分子生物學計算的發展,基因表達譜已經廣泛應用在疾病診斷和治療中[1-3]。伴隨基因芯片種類的不斷出新,數字化測序也逐漸得到廣泛應用,隨之而來的是分析技術的改進與更新[4-6],在眾多的分析技術中,最具有權威的是統計學分析。
Visual Foxpro(VFP),同VB、DELPHI一樣都是程序開發工具,VFP由于自帶免費的DBF格式的數據庫,在國內曾經是非常流行的開發語言,現在許多單位的MIS系統都是用VFP開發的。VFP主要用在小規模企業單位的MIS系統開發,當然也有用于工控軟件、多媒體軟件的開發中。在基因表達譜數據處理中既需要對數據計算又需要對數據管理,VFP是非常勝任這項工作的。
方差分析(Analysis of Variance,ANOVA),又稱“變異數分析”或“F檢驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。單因素方差分析,是用來對完全隨機設計的多個樣本均數間的比較分析,其統計意義是推斷各樣本所代表的總體均數是否相等。重復測量數據是指同一受試對象的同一觀察指標在不同時間點上進行多次測量所得的資料,常用來分析觀察指標在不同時間點上的變化特點。重復測量設計可以將由于個體差異導致的變異予以消減或移除[7]。在重復測量設計中,一個處理內的被試跟另一個處理內的被試是完全相同的,因此,可以消減這個被試間差異導致的變異。其計算公式如下。
總變異離均差平方和:

受試對象間變異離均差平方和:

其中,Ti為第i個受試對象的全部觀察值之和。
受試對象內變異離均差平方和:

其中,Si為第i個受試對象的全部觀察值的平方和。
重復測量變異離均差平方和:

其中,Tj為第j個組內所有受試對象的觀察值之和。

統計量F:

v為各離均差平方和對應的自由度。
本軟件由以下幾個模塊組成:數據轉換、數據計算、輸出、數據字典等。其結構框架,見圖1。

圖1 軟件實現構架圖
數據轉換模塊負責將基因芯片原始數據轉換成兩類數據庫文件:一是探針以及對應的基因說明文件,該文件作為數據字典保存在數據字典數據庫中;二是探針對應的基因表達值,本模塊具有將同一研究中的多個表達譜芯片數據合并成一個數據庫文件,以便后續的計算。同時,常用的統計用表也作為數據字典中的數據庫文件。
數據計算模塊則完成單因素重復測量方差分析的計算,所用計算公式在上節中已有詳述,本軟件構架還方便添加其他統計模塊。
數據結果匯總模塊主要功能是將統計結果數據庫文件轉換成EXCEL文件格式,可以依據使用者要求輸出全部結果或具有統計意義的部分。
軟件開發完成后,使用首都醫科大學附屬醫院的一組腫瘤治療效果的micoRNA芯片表達譜數據進行檢驗,芯片探針為850個。該組數據共分0、2、4、8等4個時間點,共15個病人,在這4個時間點重復采樣。對于該組數據,F值>2.83的miRNA具有統計學差異,軟件計算結果得到37個miRNA,占總體比例4.35%。其F值分布比例,見圖2。

圖2 F值分布比例圖
對于重復測量數據,由于不同時間點的測量值之間是相關的、非獨立的,所以進行方差分析時,還特別要求需滿足球對稱條件[7]。鑒于球對稱條件的檢驗和F值校正計算比較困難,并且大規模矩陣運算不適合用數據庫語言實現,因此本軟件沒有設計此項檢驗。由于一般情況下,只有接近F的臨界值時,才需要進行球對稱條件檢驗并進行誤差校正。我們將F臨界值前后分別乘以1.05和0.95,并以此區間內的miRNA作為需要進行球對稱檢驗。結果統計表明,需要進行此項檢驗的miRNA數量僅占整體數量的5%,這部分基因如果有必要進一步篩選,則可以使用SPSS統計軟件,人工進行甄別。
數據庫語言比較其他編程語言,具有編程簡單、且非常適合基因表達數據分析處理,因為基因表達譜數據既要計算同時還需要一定的數據管理。本研究開發的軟件適合時間序列的表達譜數據篩選,作為表達譜大規模數據挖掘使用工具,具有高效、節省人工的優點。
[1]魏晶,張晨晨,張國良,等.高通量測序技術分析肺結核患者PBMC基因表達譜差異[J].中國免疫學雜志,2013,(6):639-643.
[2]謝瑩瑩,徐旸.多發性骨髓瘤細胞中SWI/SNF核心亞單位SNF5調控的基因表達譜分析[J].南方醫科大學學報,2013,(5):667-671.
[3]孟爽爽,張艷亮,段勇.基因表達譜在腫瘤防治研究及臨床應用中的進展[J].國際檢驗醫學雜志,2013,(7):829-831.
[4]任叢林.基于壓縮感知算法的基因表達數據分類的研究[D].北京:北京交通大學,2012.
[5]徐洪來,肖敏,楊超.肝、腎移植受者外周血基因表達差異分析[J].南方醫科大學學報,2013,(2):166-171.
[6]李凌波,張靜,陳丹.基于SVM和平均影響值的人腫瘤信息基因提取[J].生物信息學,2013,(1):72-78.
[7]王立芹,楊俊英,唐龍妹,等.單因素重復測量設計的方差分析及SAS與SPSS的實現[J].華北煤炭醫學院學報,2005,(1):17-19.
[8]陸慧娟.基于基因表達數據的腫瘤分類算法研究[D].北京:中國礦業大學,2012.