摘 要:根據不同特征對分型準確率的影響,使用Logistic回歸分析進行特征選擇及優選實驗研究,并采用神經網絡和支持向量機方法對常見的周圍型肺癌進行分型比較。通過實驗,說明了神經網絡和支持向量機在肺癌分型的應用方法,比較了兩種模式識別方法在肺癌分型中的運用情況,驗證了支持向量機在小樣本情況下比神經網絡具有更強的泛化能力。
關鍵詞:肺癌分型; 支持向量機; 神經網絡; Logistic回歸
中圖分類號:TP391 文獻標識碼:A
文章編號:1004-373X(2010)10-0083-03
Comparision of Lung Cancer Grouping Based on Pattern Recognition
LIU Lu1,2, MA Jun-lei1, LI Yun3, DONG Yong-qing4, LIU Wan-yu2
(1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. HIT-INSA Sino-French United Biomedicine Image Research Centre,Harbin Institute of Technology, Harbin 150001, China;
3. Beijing Filiale of China Combined Network Communication Ltd., Beijing 100052, China;
4. Changbai Wireless KTLA of Jilin Province, Changbai 134400, China)
Abstract: Taking account ofthe influence of different features on the grouping accuracy, the charactesistic selection and optimal experiment were performed by adopting the logistic regression analysis method, and the grouping comparison of the common peripheral lung cancer was carried out by methods of neural network and support vector machine. During the experiments, the application of both the neural network and the support vector Machine methods was adopted, and also the two methods in the application of lung cancer grouping were compared. The experimental results prove that under condition of small sample, the support vector machine method has a stronger generalizability than the neural network method.
Keywords: lung cancer grouping; support vector machine; neural network; Logistic regression
0 引 言
近年來,隨著計算機軟、硬件基礎的提升以及人工智能技術的發展,統計方法和模式識別方法在醫學研究領域得到了廣泛的應用。分類是模式識別方法的一個重要方面,目的是找出描述并區分數據類或概念的模型,以便能夠用該模型預測類別未知的對象所屬的類[1]。用于醫學研究領域的分類方法主要包括統計方法,如Logistic回歸分析以及模式識別方法如支持向量機方法、神經網絡方法等。
周圍型肺癌常見病癥分為3種:腺癌、鱗癌、小細胞癌。本文主要采用統計方法和模式識別的理論對周圍型肺癌的3種病癥的一些臨床表現進行分析和分類判別。實現了特征的優選以及基于不同模式識別分類器的周圍型肺癌診斷方法,并比較和分析幾種分類器在肺癌分型中的特點。
1對象和方法
1.1 對象
選擇哈爾濱醫科大學附屬腫瘤醫院2006年12月~2007年12月期間的周圍型肺癌101例,其中男66例,女35例;鱗癌42例,腺癌52例,小細胞癌7例。
納入本次研究標準:
(1) 病理學或細胞學診斷的肺癌患者(鱗癌、腺癌、小細胞癌)。
(2) 均有醫院統一詳盡的臨床診斷資料。
1.2 判別分析
在所選的101例周圍型肺癌中選擇臨床上有特征性的客觀指標共10個,對其按SPSS 11.5軟件包進行處理,并將101例患者逐一進行量化[2]:性別(男1,女2),年齡(<50歲=0,≥50歲=1),咳嗽(無0,有1),血痰(無0,有1),胸痛(無0,有1),位置(左側=1,右側=2),轉移(無0,有1),腫物大小(≤3 cm=1,>3 cm=2),吸煙與否(無=0,有=1),T分期(T1=1,T2=2),組織學分型(鱗癌=1,腺癌=2,小細胞癌=3)。
判別分析是對若干個指標的觀測結果判定其應屬于哪一類的統計學方法,其在醫學領域有著廣泛的應用。
Bayes判別:當對各類別的比例分布情況有一定先驗信息,就可以利用這些先驗信息得到相關類別的判別系數。它的基本思想是認為所有P個類別都是空間中互斥的子域,每個觀測都是空間中的一點。它在考慮先驗概率的前提下利用Bayes公式,按照一定的準則構造一個判別函數,分別計算該樣品落入各個子域的概率,所有概率中最大的一類就被認為是該樣品所屬類別[3]。
Bayes公式:
P(BkA)=P(ABk)P(A)=P(Bk)P(ABk)∑ni=1P(Bi)P(ABi)
判別函數的形式為:
Y=a1X1+a2X2+…+anXn
式中:Y為判別指標;X1,X2,…,Xn為反映研究對象特征的變量,a1,a2,…,an為各變量系數,也稱判別系數。
判別函數效果的驗證方法:
(1) 自身驗證
即將訓練樣本依次帶入判別函數,來評測錯判情況是否嚴重。
(2) 交叉驗證
在建立判別函數時依次去掉1例,然后用建立起來的判別函數對該列進行判別。
肺癌的臨床診斷病理分型判別模式結果如下:
Y1(鱗癌)=-29.961+8.260X1+9.580X2+5.489X3+2.650X4+1.138X5+3.205X6+3.975X7+7.864X8+4.434X9+1.361X10;
Y2(腺癌)=-28.684+9.490X1+9.079X2+4.739X3+2.534X4+2.352X5+3.470X6+3.827X7+6.819X8+3.539X9+1.458X10;
Y3(小細胞癌)=-28.955+8.281X1+10.248X2+4.464X3+3.074X4+1.330X5+2.293X6+5.803X7+6.989X8+3.875X9+1.442X10
經Bayes判別分析后得出了肺癌各病理類型的判別函數。自我驗證的準確率為57.4%,對鱗癌的驗證準確率最高(59.5%),腺癌和小細胞癌分別為55.8%,57.1%。說明函數對肺癌分型診斷具有一定作用。由結果顯示函數實際效能不是很理想,這與該研究中的樣本數較少有關,待進一步擴大樣本數,收集詳盡的臨床相關資料以校正、完善該模型,進一步提高診斷的準確率。
診斷病理分型判別模式驗證結果如表1所示,自身驗證結果:正確率為57.4%;交叉驗證結果為52.5%。
由于該次研究采集的小細胞癌數量較少,用于模式識別分類的小細胞癌樣本數量不足,故在后續的分類方法中只對腺癌和鱗癌進行分型對比,來比較和分析幾種分類器在肺癌分型中的特點。
1.3 特征優選與分類
Logistic回歸屬于概率型非線性回歸,它是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法。Logistic回歸用途極為廣泛,幾乎已形成了醫學中最常用的分析方法,將以上10個客觀指標的不同病理類型的特征差異采用卡方檢驗,對其進行單因素指標分析,P<0.05為有統計學意義,P<0.01為有顯著統計學意義。為保證模型的穩定,將利用單因素假設檢驗找出的P<0.05的自變量(性別、咳嗽、血痰、胸痛、吸煙、大小)代入回歸方程,并進行Logistic回歸分析[4]。
利用所建立的Logistic回歸模型對所有樣本進行診斷測試如表2所示,診斷的腺癌正確率為76.9%(40/52),鱗癌的正確率為69%(29/42),總的正確率為73.4%(69/94)。用SPSS 11.5軟件進行Logistic回歸分析得到腺、鱗癌之間差異性最大的4個特征,分別為性別(P=0.001)、胸痛(P=0.028)、吸煙(P=0.043)、大小(P=0.046)。以此作為模式識別分類的樣本特征。
表2 Logistic回歸模型對樣本的測試結果
ObservedPredicted
ResultsPercentage
1.002.00Correct
Results
1.00291369.0
2.00124076.9
Overall Percentage73.4
人工神經網絡(ANN)是現代生物學研究人腦組織所取得的成果基礎上提出來的,用大量簡單的神經元廣泛連接組成的復雜網絡來模擬人類大腦神經網絡結構和行為,能夠模擬人腦的結構以及記憶和處理信息的方式,具有自學習、自適應的特點能夠任意逼近非線性函數,廣泛應用于模式識別和分類等領域[5]。ANN模型拓撲結構分3層:輸入層、隱含層和輸出層,輸入層包含4個神經元,分別對應由卡方檢驗進行單因素指標分析P<0.05的差異性顯著的四項臨床指標(性別,胸痛,腫塊大小,吸煙);隱含層神經元數目根據經驗定位3;輸出層包含1個神經元,對應診斷結果(腺癌0、鱗癌1)。利用Matlab 7.0軟件編程實現ANN的訓練與測試[6],隨即選取腺、鱗癌各10例樣本作為測試樣本,其余74例作為訓練樣本,使用有動量的梯度下降法進行神經網絡訓練,最大訓練次數為300,學習率為0.05,動量因子為0.9。經過測試得到的正確率為13/20(65%)。
支持向量機是有Vapnik提出的一種新興的模式識別分類方法[7-8],它最常用于解決兩類模式識別問題[9]。支持向量機方法是一種基于結構風險最小化原理,針對小樣本、以統計學習理論為基礎的一種優秀學習算法。即使是由有限訓練樣本得到的解,在求解問題時仍能得到較小的誤差。從線性可分模式的情況看,它的主要思想就是建立一個超平面作為決策面,該決策面不但能夠將所有訓練樣本正確分類,而且使訓練樣本中離分類面最近的點到分類面距離最大。圖1給出了線性可分模式下二維輸入空間中最優超平面的幾何結構。其中實心點和空心點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。此時,H1,H2上的點距分類線H的距離均為1/‖w‖,分類間隔[10]為2/‖w‖。
圖1 二維輸入空間中最優超平面的幾何結構圖
在此使用libsvm軟件包對腺、鱗癌的樣本進行訓練和測試,測試樣本各選10例,其余的74例都作為訓練樣本。樣本為所選的經Logistic回歸分析得出差異性最大的性別、胸痛、腫塊大小和吸煙與否4項作為訓練的特征。在此設定腺癌為-1,鱗癌為1,即輸出向量為[-1,1],核函數為徑向基核函數,RBF=0.5,迭代次數41,共找到支持向量61個,測試正確率為14/20即70%,正確率要高于神經網絡的測試結果。
2 結 語
神經網絡是基于風險最小化為網絡優化目標,是在樣本無窮大時的漸進理論,支持向量機是基于結構風險最小化原理。針對小樣本,以統計學理論基礎的學習算法,由于兩者在理論基礎和優化目標以及學習算法方面的不同,導致兩者的逼近能力、泛化能力以及適用范圍存在差異。
通過利用神經網絡和支持向量機對腺、鱗癌分型的診斷研究表明:
(1) 神經網絡和支持向量機方法都能實現對腺、鱗癌的分型,并得到較高的診斷正確率;
(2) 在小樣本情況下,支持向量機比神經網絡具有更強的泛化能力,更適用于腺、鱗癌的診斷。
參考文獻
[1]邊肇棋,張學工.模式識別[M].北京:清華大學出版社,2000.
[2]胡南均.109例肺癌的病理與臨床及CT相關性分析[D].吉林:吉林大學,2008.
[3]王樂三.SPSS在醫學科研中的應用[M].北京:化學工業出版社,2007.
[4]陳廣,陳景武.Logistic回歸分析的判別預測功能及其應用[J].數理醫藥學雜志,2007,20(3):280-281.
[5]陳永鋒.基于仿生模式識別的孤立性肺結節診斷研究[D].重慶:重慶大學,2007.
[6]董長虹.Matlab神經網絡與應用[M].2版.北京:國防工業出版社,2007.
[7]WANG L P. Support vector machine:theory and application[M]. New York: Springer Verlag, 2005: 1-66.
[8]劉露,劉宛予,楚春雨,等.胸部CT圖像中孤立性肺結節良惡性快速分類[J].光學精密工程,2009,17(8):2062-2068.
[9]LIU Lu, LIU Wan-yu, SUN Xiao-ming. Automated detection of pulmonary nodules in CT images with support vector machines[C]//Proceedings of SPIEthe International Society for Optical Engineering Fifth International Symposium on Instrumentation Science and Technology. Shenyang: ISIST, 2008,7133: 26-30.
[10]CRISTIANINI Nello,SHAWE-TAYOR John.支持向量機導論[M].北京:電子工業出版社,2004.