馬慶波,向 華,劉 偉,王世鑫
(1.重慶醫科大學檢驗系,臨床檢驗診斷學省部共建教育部重點實驗室,重慶 400016;2.天津市東麗區東麗醫院,天津 300300)
基于貝葉斯-神經網絡篩選矽肺早期標志物及建立診斷模型
馬慶波1,向 華1,劉 偉1,王世鑫2
(1.重慶醫科大學檢驗系,臨床檢驗診斷學省部共建教育部重點實驗室,重慶 400016;2.天津市東麗區東麗醫院,天津 300300)
應用液體芯片-飛行時間質譜技術檢測了79例早期矽肺組和25例非暴露正常對照組的血清蛋白質。以貝葉斯判別法的最小錯誤率為目標函數,借助遺傳算法全局優化搜索能力,篩選出能代表早期矽肺病人分類特征的最小最優差異蛋白質譜峰子集。用選定的差異蛋白質譜峰子集建立早期矽肺的神經網絡診斷模型,該模型的特異性為96%,敏感性為96.25%,準確率為96.15%。其中,1 777 u蛋白質譜峰經過二級質譜鑒定其氨基酸序列為補體C3的1個片段C3f(complement C3f),該片段在矽肺暴露人群中異常低,具有潛在的診斷意義。
液體芯片-飛行時間質譜(MALDI-TOF-MS);矽肺;貝葉斯;神經網絡;標志物
矽肺是吸入二氧化硅粉塵顆粒所致的以肺間質纖維化為主的全身性疾病。早期健康監護是矽肺防治的關鍵環節,但目前尚無有效的早期健康監護指標。液體芯片-飛行時間質譜(MALDI-TOF MS)技術是一種蛋白質鑒定技術,基本過程是取患者或健康對照的臨床樣品,如血清、尿液、腦脊髓液等,通過磁珠分離,去除樣品中的高豐度蛋白和其他雜質,同時富集低豐度目標蛋白。向分離得到的樣品中加入基質混合后,進行飛行時間質譜分析,得到所有蛋白的質譜圖,隨后選擇軟件內嵌的統計算法進行統計學分析,獲得矽肺組的差異表達蛋白質,用于預測未知樣品的歸屬(患者或無疾病)。最后對篩選出差異表達的多肽/蛋白進行序列鑒定,探討矽肺的發病機制,探索發現血清早期診斷(篩檢)的生物標志物。對于復雜的模式識別,軟件內嵌的統計算法參數的調節能力有限,不一定能滿足診斷需求。
Bonissone[1]總結過經驗:樣品數N與特征數n之比應足夠大,通常N是n的5~10倍。本工作基于140個初始蛋白質譜峰特征空間構建貝葉斯分類器,以最小錯分率為準則,啟用遺傳算法全局搜索最優解對原始特征空間進行篩選,構造出一個精簡的特征空間。用篩選后的特征蛋白質譜峰建立早期矽肺的神經網絡診斷模型,并對模型的性能做5倍交叉驗證。
選用美國 Invitrogen公司的Dynabeads RPC18磁珠對矽塵暴露人群(79例)和非暴露正常對照組(25例)研究對象的血清蛋白質進行分離提取,bruker ultra Flex TOF/TOF采集信號,參數設置為:線性陽離子模式,第一離子源25 kV,第二離子源23.45 kV,檢測范圍800~10 000 u。使用flexAnalysis軟件設置信噪比大于5的蛋白質譜峰,顯示每個樣本的總峰數、信噪比、峰強度和峰面積。將信號分組,矽塵暴露人群(n=79,包括無塵肺0期、無塵肺0+期和I期矽肺)作為受試組,健康人群(n=25)作為對照組,然后導入到分析軟件(bruker Clinprotools 2.2)進行數據分析,組間比較采用 T檢驗分析,篩選出140個有統計學意義的(P<0.05)。
判別分析是判斷樣品應歸于哪一個總體,并對待判樣品做出正確的歸類,首先要已知總體及待判樣品的特征變量(差異蛋白質譜峰),從而對總體及待判樣品事物的特性進行變量指標的描述,進而判別待判樣品的歸屬。由此可知,特征變量是判別分析中的一個重要問題,變量選擇是否恰當是判別效果優劣的關鍵。
貝葉斯(Bayes)判別思想是根據先驗概率求出后驗概率,并依據后驗概率分布做出統計推斷。將樣本類別記為ωi,則先驗概率為P(ωi),樣本X的類條件概率密度函數為P(x/ωi)。對于待測樣本,貝葉斯公式可以計算出該樣本屬于各類的概率,叫做后驗概率,根據后驗概率作為識別樣本的依據。
以后驗概率為判決函數:fi(x)=P(ωi/x)

對于本研究的二分類問題,i值取1和2,即選擇P(ω1/x)和P(ω2/x)中較大值所對應的類作為決策結果。
按照已知P(ωi)條件下的決策規則進行決策,固定的特征變量組合(固定的差異蛋白峰組合)會有固定的錯誤分類率,而不能反映把整個特征空間劃分成某種類型空間的總的最小錯誤分類率。
遺傳算法是模擬生物在自然界環境中遺傳進化過程的一種自適應全局優化概率搜索算法。本工作將不同差異蛋白質譜峰的相對表達值的組合定義為遺傳算法的個體,每個個體是問題的一個解,稱為“染色體”。大量的個體則形成了初始種群,種群中的這些染色體在后續迭代中不斷進化,稱為遺傳。在每一代中用“適值”來測量染色體的好壞,生成的下一代染色體稱為后代。后代是由前一代染色體通過交叉或者變異運算形成的。在新一代形成過程中,根據適應度的大小選擇部分后代,淘汰部分后代。采用貝葉斯分類器的錯誤識別率為適應度函數尋求不同類型空間的總的最小錯誤分類率,然后不斷淘汰錯誤分類率高的差異蛋白質譜峰組合模式,逐漸選擇在分類中表現優異的差異蛋白質譜峰組合模式。
本研究采用美國 MathWorks公司的MATLAB軟件編程,實現矽肺早期診斷標志物的篩選,示于圖 1,調用了 MathWorks公司的Bayes分類器和英國設菲爾德大學開發的遺傳算法工具箱。差異峰的FDR值選取為0.05,這也就等價于控制fdr不能超過5%。一個較大規模的遺傳算法初始總群帶來更大范圍的搜索空間,防止過早的收斂。但是大群體增加了對于Bayes分類器評價的計算量。在本工作中,初始種群選取100,即100組7個不同蛋白峰的組合。以貝葉斯分類器作為遺傳算法的評價函數對醫學模型進行評價時,不僅僅要考慮到識別的正確率,更要關注特異性和敏感性,所以本工作貝葉斯分類器評價函數的輸出,1為敏感性、*為特異性。預期的誤差精度定義為0.01,交叉概率為0.8,變異概率為0.2,最大迭代次數為100。運用遺傳算法按上述參數尋求高敏感性和高特異性的7個蛋白峰的組合。遺傳算法循環100次后,算法達到了最大迭代次數,篩選出7個差異蛋白質譜峰,分別是3 317.26、5 081.66、8 671.21、1 777.41、8 761.39、5 130.84、901.47 u。

圖1 特征篩選方法的總體構架Fig.1 Flowchart of biomarker selection
建立3層BP神經網絡,輸入向量為x=(x1,x2,…,xn);隱層輸出向量為ho=(ho1,ho2,…,hop),輸出層向量為yo=(yo1,yo2,…,yoq),期望輸出向量為d=(d1,d2,…,dq)。


網絡學習的目的是通過調整網絡中的連接權重,使實際輸出與期望輸出的誤差最小。實現模型的具體步驟如下:用初步篩選的差異蛋白質譜峰作為神經網絡模型的輸入樣本;取總樣本的3/4為訓練樣本集、1/4為盲法測試樣本集,輸入層神經元數為7,輸出層神經元數為1;輸出值分別用0代表健康對照組,1代表矽塵暴露組;隱層層數及神經元數沒有一個定量的標準,可以根據訓練效果調整這些參數[2]。本研究使用Matlab軟件在初始權值和閾值固定的條件下編程,自動形成不同隱層神經元數的組合模式完成訓練[3]。其他訓練參數采用默認函數。
根據均方根誤差確定最佳隱藏層神經元數。

式中,yt為預測值,^yt為期望值,n為預測個數。神經網絡隱藏層神經元數目為4時,MSE值最小(0.003 86),示于圖2。

圖2 基于不同隱藏神經元數的神經網絡均方根誤差Fig.2 MSEaccording to the different combination of neurons
訓練樣本的不同順序會對網絡訓練產生影響,訓練出的網絡隨機性大、泛化能力差,為了驗證診斷模型的泛化能力,可以采用交叉驗證(cross validation)的方法。交叉驗證是驗證分類器性能的一種統計分析方法,基本思想是把樣本分組,一部分作為訓練集,另一部分作為測試集。首先用訓練集對網絡進行訓練,再用測試集來檢驗訓練得到的模型,以此作為評價網絡的性能指標。交叉驗證方法包括hold-out method、K-fold cross validation和leave-one-out cross validation。本工作采用 K-fold cross validation方法進行驗證,該方法將原始數據分成5組(一般是均分),每個子集數據分別做一次驗證集,其余的5-1組子集數據作為訓練集,這樣會得到5個模型,用這5個模型最終驗證集的平均分類準確率作為此5-fold-CV下分類器的性能指標。選用同樣的神經網絡模型和參數,共進行5次計算。也就是將原始104例樣本循環驗證一遍,從而驗證模型的可靠性。5次平均敏感性和特異性分別為96.25%和96%,預測結果列于表1。

表1 診斷模型的5倍驗證結果比較Table 1 Comparison of 5-fold cross validation results
本研究應用磁珠分選和MALDI-TOF以及ClinPro Tools軟件得到了矽肺組的差異蛋白質表達譜,借助貝葉斯判別法并整合遺傳算法篩選出了 7種差異蛋白特征子集。其中,m/z1 777.56的蛋白質譜峰在矽肺暴露人群中異常低表達,示于圖3。進一步的二級質譜鑒定其氨基酸序列,結果為補體C3的一個片段-C3f(complement C3f)[4],示于圖 4。

圖3 各期人群m/z1 777.56血清蛋白差異峰質譜圖Fig.3 Averagem/z1 777.56 spectrum profiles obtain from early silicosis patients and controls in range of 0.8—10 ku
已有研究證明,補體是一種重要的內源性免疫防御系統調節物,補體的C3分解片段(C3a,C3f,iC3b)在心肌梗死、阿爾茨海默病、鼻咽癌、乳腺癌、HCC和系統性硬化癥等疾病中都有異常表達[5-10]。C3f能夠提高血管內皮細胞的通透性,其核心分子 HWESAS還具有生長激素樣作用[11]。而且 C3f能夠提高皮膚成纖維細胞TGF-β1的合成和分泌[12]。成纖維細胞是矽肺發病中的效應細胞之一,由此可以推測,C3f在矽肺的發病過程中可能是通過影響成纖維細胞中的細胞因子 TGF-β表達水平而發揮其作用的。
由此可見,運用貝葉斯分類器結合遺傳算法篩選出早期矽肺的代表特征所建立的神經網絡診斷模型具有較高的敏感性和特異性[13],為早期矽塵暴露人群的診斷提供了新的檢測方法[14-15]。在應用基質輔助激光解析電離飛行時間質譜技術發現矽肺早期血清標志物的研究中,針對高維蛋白質質譜數據,運用遺傳算法作為特征空間搜索策略,利用貝葉斯分類器作為特征蛋白峰組合的評價函數,獲得了一種從MALDI質譜數據篩選差異蛋白的方法。在塵暴露人群和正常對照人群數據上進行驗證實驗,以此選擇出的最優特征蛋白峰子集,建立矽塵暴露人群神經網絡診斷模型,取得了較好的分類性能。

圖4 m/z1 777 Mascot搜索結果Fig.4 Mascot result ofm/z1 777
[1]BONISSONE P P,HENRION M,KANAL L N,et al.Uncertainty in artificial intelligence 6[M].Elsevier Science Pub Co,1991.
[2]鄧 偉.BP神經網絡構建與優化的研究及其在醫學統計中的應用[D].上海:復旦大學,2002.
[3]劉耦耕,賀素良.BP神經網絡結構參數的計算機自動確定[J].計算機工程與應用,2004,40(13):72-74.
[4]ROTHER K,TILL G O,H?NSCH G M.The complement system[M].Springer Verlag,1998.
[5]HORTIN G L.The MALDI-TOF mass spectrometric view of the plasma proteome and peptidome[J].Clinical Chemistry,2006,52(7):1 223-1 237.
[6]CHANGJ,CHEN L C,WEI S Y,et al.Increase diagnostic efficacy by combined use of fingerprint markers in mass spectrometry-plasma peptidomes from nasopharyngeal cancer patients for example[J].Clinical biochemistry,2006,39(12):1 144-1 151.
[7]L EE I N,CHEN C H,SHEU J C,et al.Identification of complement C3a as a candidate biomarker in human chronic hepatitis C and HCV-related hepatocellular carcinoma using a proteomics approach[J].Proteomics,2006,6(9):2 865-2 873.
[8]LI J,ORLANDI R,WHITE C N,et al.Independent validation of candidate breast cancer serum biomarkers identified by mass spectrometry[J].Clinical Chemistry,2005,51(12):2 229-2 235.
[9]SELL E H,LAMERZJ,BUERGER K,et al.Identification of novel biomarker candidates by differential peptidomics analysis of cerebrospinal fluid in alzheimers disease[J].Combinatorial Chemistry& High Throughput Screening,2005,8(8):801-806.
[10]MARSHALL J,KUPCHAK P,ZHU W,et al.Processing of serum proteins underlies the mass spectral fingerprinting ofmyocardial infarction[J].Journal of Proteome Research,2003,2(4):361-372.
[11]XIANG Y,MATSUI T,MATSUO K,et al.Comprehensive investigation of disease-specific short peptides in sera from patients with systemic sclerosis:Complement C3f-des-arginine,detected predominantly in systemic sclerosis sera,enhances proliferation of vascular endothelial cells[J].Arthritis Care&Research,2007,56(6):2 018-2 030.
[12]向 陽,加藤智啟.補體片段 C3f,DRC3f對皮膚成纖維細胞合成和分泌轉化生長因子-β1的調節作用[J].湖北民族學院學報:醫學版,2007,24(1):10-13.
[13]HU Y,ZHANG S,YU J,et al.SELDI-TOFMS:the proteomics and bioinformatics approaches in the diagnosis of breast cancer[J].The Breast,2005,14(4):250-255.
[14]KIM K J,CHO S B.Prediction of colon cancer using an evolutionary neural network[J].Neurocomputing,2004,61:361-379.
[15]HUANG C J,LIAO W C.Application of probabilistic neural networks to the class prediction of leukemia and embryonal tumor of central nervous system[J].Neural Processing Letters,2004,19(3):211-226.
Serum Biomarkers Selection and Diagnostic Prediction of Early Silicosis Patients Using Bayesian Network and Neural Network
MA Qing-bo1,XIANG Hua1,LIU Wei1,WAN G Shi-xin2
(1.Key L aboratory of Medical Diagnostics of Ministry of Education,Faculty of L aboratory Medicine,Chongqing Medical University,Chongqing400016,China;2.The Dongli Hospital ofTianjin,Tianjin300300,China)
Sera of 79 workers exposed to silica and 25 healthy controls were determined by matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS).Based on the minimum error Bayes decision theory,serum biomarkers of early silicosis patients were selected by making use of the global optimal ability of the genetic algorithm.Mass spectrometric peaks of 22 proteins were selected and used by artificial neural network(ANN)to establish a diagnostic model.A blinded test shows the ratios of correctness,sensitivity and specificity are 96.15%,96.25%and 96%,respectively.Search results of tandem mass spectra against a protein database show that the 1 777 u mass spectrometric peak is identified as C3f,which is a fragment of complement C3.The 1 777 u mass spectrometric peak is significantly decreased in silicosis patients.The results indicate that C3f may be the potential biomarkers for the diagnosis of early stage of silicosis.
book=51,ebook=50
matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS)silicosis;Bayes;artificial neural network;biomarker
R 135.2;TP 183
A
1004-2997(2011)01-0050-05
2010-03-25;
2010-06-17
國家自然科學基金面上項目(30771788)和天津市衛生局科技基金項目(06KG10)資助
馬慶波(1974~),男(回族),陜西人,碩士研究生,從事生物醫學信息的計算機處理研究。E-mail:mmqqbb@tom.com
向 華(1963~),男(漢族),重慶人,副教授,檢驗儀器學專業。E-mail:xianghuacq@163.com