摘 要:乳腺癌是女性發(fā)病率較高的惡性腫瘤之一,20世紀(jì)以來乳腺癌的發(fā)病率在世界各地均有上升的趨勢,但其病因目前尚未完全明確,所以對乳腺細(xì)胞的檢測顯得尤為重要。本文通過偏最小二乘回歸的方法,利用SIMCA-P 13.0軟件對乳腺細(xì)胞進行建模和預(yù)測,能夠較好的驗證一個乳腺細(xì)胞是否有癌變的情況。
關(guān)鍵詞:偏最小二乘法;多元分析;乳腺癌;預(yù)測
DOI:10.16640/j.cnki.37-1222/t.2016.17.260
1 引言
乳腺癌是發(fā)生在乳腺腺上皮組織的惡性腫瘤,女性乳腺是由皮膚、纖維組織、乳腺腺體和脂肪組成的乳腺并不是維持人體生命活動的重要器官,原位乳腺癌并不致命;但由于乳腺癌細(xì)胞喪失了正常細(xì)胞的特性,細(xì)胞之間連接松散,容易脫落。早期乳腺癌往往不具備典型的癥狀和體征,不易引起重視,常通過體檢或乳腺癌篩查發(fā)現(xiàn)。80%的乳腺癌患者以乳腺腫塊首診。患者常無意中發(fā)現(xiàn)乳腺腫塊,多為單發(fā),質(zhì)硬,邊緣不規(guī)則,表面欠光滑。大多數(shù)乳腺癌為無痛性腫塊,僅少數(shù)伴有不同程度的隱痛或刺痛[1]。因此對于乳腺細(xì)胞的檢查是發(fā)現(xiàn)乳腺癌細(xì)胞存在以及預(yù)防乳腺癌細(xì)胞擴散的一種重要手段。本文選取了良性與惡性乳腺細(xì)胞的測量值,利用偏最小二乘法對一半的數(shù)據(jù)進行建模,對另一半的數(shù)據(jù)進行預(yù)測檢驗,并選擇了一個合適的閾值來判斷其結(jié)果為良性或是惡性細(xì)胞。
2 偏最小二乘回歸
偏最小二乘回歸算法。偏最小二乘回歸偏最小二乘回歸(Partial Least-Squares Regression,PLS回歸)是一種先進的多元分析方法[2],其計算步驟如下:
(1)對自變量和因變量進行標(biāo)準(zhǔn)化處理:
(2)提取主成分,逐步回歸。記是的第一個成分,,是的第一個軸,它是一個單位向量。記是的第一個成分,,是的第一個軸,它是一個單位向量。要使得 與的相關(guān)程度到最大,則根據(jù)主成分分析,應(yīng)有:,。另一方面,由于回歸建模的需求,又要求對有最大的解釋能力,根據(jù)典型相關(guān)分析,即要求和的協(xié)方差達到最大值,從而轉(zhuǎn)為求解下列優(yōu)化問題,即:
由文獻[2],即求矩陣的最大特征值所對應(yīng)的特征向量,然后求成分和殘差矩陣:,。其中,
。同理可求矩陣的最大特征值所對應(yīng)的特征向量,如此計算下去,如果X的秩是A,則最終得到:。
3 實驗驗證
3.1 數(shù)據(jù)集介紹
本次實驗的數(shù)據(jù)集來自Wisconsin Diagnostic Breast Cancer (WDBC) [4]。該數(shù)據(jù)有569例細(xì)胞活檢案例,每個案例有32個屬性,其中包含有病人的編號和癌癥診斷結(jié)果,其他30個屬性是真實測量值。在癌癥診斷屬性中,“B”代表良性,“M”代表惡性,其他的30個屬性是由細(xì)胞核的10個特征的均值、標(biāo)準(zhǔn)差、最大值構(gòu)成。
3.2 數(shù)據(jù)處理
本次實驗將良性規(guī)定為值0,將惡性規(guī)定為值1作為因變量,十個特征屬性作為自變量,選擇一半的數(shù)據(jù)(284個樣本)作為模型的建立,剩余一半(285個樣本)用來驗證,并且對數(shù)據(jù)分為兩組,良性組和惡性組,將處理好的數(shù)據(jù)導(dǎo)入到SIMCA-P 13中,設(shè)置好后,點擊完成。
對數(shù)據(jù)進行主成分分析,得到三個主成分。R2X代表的是從X變量中提取的主成分對X的累計解釋能力,R2Y代表的是從Y變量中提取的主成分對Y的累計解釋能力,Q2代表交叉有效性。我們以這3個主成分,繪制它的橢圓圖,可以看出所建模型使良性組和惡性組有較好的區(qū)分。另外樣本中有許多異常點,我們需要將它們?nèi)コ俅芜M行模型的擬合。經(jīng)過多次異常點去除后,得到的點均在橢圓中。此時,R2X=0.744,R2Y=0.757,Q2=0.75。得到標(biāo)準(zhǔn)化的回歸方程為:
在VIP圖中可以看出細(xì)胞凹點、周長、半徑、面積和凹度對解釋是否癌變有著重要的作用。在數(shù)據(jù)處理完成后則可查看預(yù)測結(jié)果。在這里我們以0.5為閾值,若預(yù)測值大于0.5,則為惡性細(xì)胞,若預(yù)測值小于0.5,則為良性細(xì)胞。從而計算出在357個良性細(xì)胞中,預(yù)測出有339個良性;在212個惡性細(xì)胞中,預(yù)測出194個惡性細(xì)胞,則預(yù)測的正確率達到93.67%,能夠較好的預(yù)測出細(xì)胞是否癌變。
4 結(jié)果分析
本文利用偏最小二乘法,對多變量的乳腺細(xì)胞進行了回歸建模,較好的預(yù)測出了細(xì)胞是否癌變。從實驗數(shù)據(jù)中可以看出,細(xì)胞的半徑、質(zhì)地、凹點以及周長和面積等與細(xì)胞是否癌變呈正相關(guān),而分形維數(shù)呈負(fù)相關(guān);有數(shù)可看出,凹點、周長、半徑、面積和凹度對預(yù)測值的貢獻度最大,而細(xì)胞的對稱性、光滑度和分形維數(shù)對預(yù)測值的貢獻度相對較小,我們在進行回歸變量的選擇時,有時可以舍棄貢獻度較小的自變量。但有關(guān)指標(biāo)分析的結(jié)論基本還是定性的,只能說這些自變量的作用更大一些,并且VIP方法還有一些局限性,當(dāng)自變量的貢獻度非常大時,不能說這幾個自變量就是最好的變量選擇,有時還要考慮變量之間的相關(guān)性來取舍[5]。在閾值的選擇中,我們選擇了一個較為中間的值,說服力不算太強,需要再進行多次的實驗和擬
(下轉(zhuǎn)第281頁)(上接第297頁)
合進行改進。
參考文獻:
[1]互動百科.乳腺癌. http://www.baike.com/wiki/乳腺癌. [EB/OL].2016,05(28).
[2]王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006.
[3]薛艷.偏最小二乘法在顧客滿意度評價中的運用.合作經(jīng)濟與科技[J].2006(07):28-29.
[4]http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic).
[5]周強,歐陽一鳴,胡學(xué)鋼,王浩.數(shù)據(jù)挖掘中應(yīng)用偏最小二乘法發(fā)現(xiàn)異常值[J].微電子學(xué)與計算,2005,22(01):25-27.
作者簡介:朱雨晨(1994-),女,湖北十堰人,本科。