999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于系統聚類和SVM 模型的乳腺癌診斷研究

2020-03-24 03:49:20樊重俊朱人杰熊紅林
智能計算機與應用 2020年11期
關鍵詞:乳腺癌分類特征

余 瑩,樊重俊,朱人杰,2,熊紅林,3

(1 上海理工大學 管理學院,上海 200093;2 同濟大學附屬東方醫院,上海 200120;3 萬達信息股份有限公司,上海 201112)

0 引言

近年來乳腺癌的多發以及所帶來的嚴重后果已經在全球范圍內引起了廣泛關注,乳腺癌是影響成年女性的主要慢性疾病之一。全球范圍內每年都有約1 000 萬的女性被診斷出罹患乳腺癌,并且超過50 萬女性死于乳腺癌[1]。隨著現代經濟的發展和醫療技術的進步,有大量的資源和現代技術可以應用于乳腺癌的篩查、診斷和控制工作。對于醫生來說,要從大量的癌癥病例當中詳細了解每一個癌癥患者的特征是十分困難的。因此,數據分析方法可以成為醫生做出癌癥診斷決策時的重要助手[2]。

早在1999 年,Pena-Reyes 和Sipper[3]提出了一種模糊遺傳算法診斷乳腺癌。其研究結果表明,數據挖掘技術已成功應用于癌癥預測中,傳統的乳腺癌診斷已轉化為數據分析領域的分類問題。現有的乳腺癌數據集被分為良性和惡性兩類,通過歷史腫瘤數據訓練得到合適的分類器,來預測新的腫瘤數據。但隨著描述腫瘤特征數據的增加,分類器的計算時間也急劇增加,在這種情況下,乳腺癌診斷的基本要求不僅是準確性,還包括時間復雜度。考慮到時間效率,如何從龐大的數據集中挖掘和提取必要的信息、過濾特征成為一個新的問題。

Akay(2009)[4]提出了一種基于SVM 與特征選擇相結合的方法來進行乳腺癌診斷。通過使用F分數[5]來計算特征價值,選擇原始腫瘤特征的最佳子集進行SVM 訓練。

Akay(2009)[4]提出了一種基于SVM 與特征選擇相結合的方法來進行乳腺癌診斷,通過使用F 分數[5]來計算特征價值。進而為了找到最佳的參數設置組合,使診斷準確率達到最高,進行了耗時較長的網格搜索,選擇原始腫瘤特征的最佳子集進行SVM 訓練。Prasad、Biswas 和Jain(2010)[6]嘗試了啟發式算法和SVM 的組合,以找出用于SVM 訓練的最佳特征子集。但是,這些方法的共同缺陷是,僅僅使用分類精確率作為評估不同特征選擇方法的標準,而忽視了對不同子集進行詳盡訓練,以獲得具有最佳診斷精確率的最優子集所消耗的大量模型訓練時間。

因此,本文提出了基于系統聚類和支持向量機的組合模型。系統聚類算法作為一種無監督學習算法提取腫瘤特征,以識別腫瘤數據的隱藏模式,只在原始特征空間上進行聚類,不僅可以以更加緊湊的方式保留所有單個特征信息,而且避免了在不同子集上進行迭代訓練,以節約模型訓練時間。基于特征選擇的結果,應用從屬函數計算這些隱藏模式與每個腫瘤之間的相似性,并將其作為新的特征對原始腫瘤數據進行特征重建,最后應用SVM 算法對重建后的數據集進行分類。

1 研究方法

1.1 基于系統聚類的特征選擇方法

系統聚類,也稱層次聚類,是統計學方法中的一種聚類算法,其原理簡單。首先,將所有樣本本身歸為一類,類與類之間的距離就是它們所包含的樣本之間的距離;然后找出距離最近的兩個類將它們合并為一個類,重新計算新生成的類與舊類之間的距離;不斷重復以上步驟直到所有樣本歸為一類[7]。本文采用歐式距離計算距離矩陣,并采用離差平方和法判斷類與類之間的距離。基于方差分析的思想是:如果分類正確,則分類結果應該滿足,同類樣本之間離差平方和較小,而異類樣本之間離差平方和較大。

特征選擇過程也可描述為數據轉換過程,是將特征數據轉化為定量的數據結構,以方便訓練模型的過程。特征選擇在具有高維特征空間的大規模數據中起著重要的作用。當訓練數據為高維數據時,這個過程可以用來消除不必要的訓練信息,在保持訓練精度的同時,縮短總體訓練時間[8]。特征選擇的原則是,在不影響后續分類分布結果,不降低準確率及提取的特征子集應為穩定且適應度強的集合基礎上,提取盡可能小的特征子集。在統計學中,特征選擇的統計模型一般使用數學統計模型建立,以數學方程式的形式表示變量之間的函數關系。通過計算模型的殘差平方和大小,評價模型的擬合程度。在對原始數據進行系統聚類后,需要對聚類結果進行相似性度量,從而決定最佳類的個數,相似性度量的方法如式(1)、式(2)[9]所示:

其中,davg是同一類sk中每個成員i到質心μk的平均距離;dmin表示任意兩類質心之間的最小距離;表示成員i的第j個輸入元素;表示質心μk的第j個輸入元素;N是數據點的總數;F是輸入向量的維數。

最佳聚類數K*,通過使用如下方法求出最小有效率θ來獲得,如式(3)所示[9]:

其中,θ是評估聚類數有效率的量值。θ求得最小值的過程,也是每個成員與其簇質心的平均距離davg不斷減小,而任意兩個簇質心之間的最小距離dmin不斷增加的過程。即在通過有效率θ求解最佳聚類數K*的過程中,也滿足了類內距離小、異類間距離大的條件。

當K的取值接近特征數目時,則無法找出隱藏模式;當K取值較小時,才會較明顯地顯示出隱藏模式。

1.2 特征重建

進行特征選擇后,需在原始數據集的基礎上進行特征重建。此時,未測試數據與之前步驟中選擇出的新特征之間的相似程度,在新數據集的特征重建中扮演著重要的角色。因此,計算原始數據與各新特征之間相似性的從屬函數極為重要。從屬函數計算如式(4)、式(5)所示[9]:

其中,c是新模式的指標,是原輸入i的第j個特征,是通過系統聚類得出的類Sc的中心μc的第j個特征,Km和Kb分別是通過系統聚類得出的良惡性隱藏模式的數目。

通過ρic,可刻畫腫瘤i 和腫瘤模式Sc之間的相似度程度,ρic的大小反映了二者的相似度,數值越大,相似度越高。將通過系統聚類提取的新模式作為腫瘤新的抽象特征,并通過從屬函數計算所有原始腫瘤數據與腫瘤模式Sc之間相似程度,將其組成新數據,完成特征重建。

1.3 支持向量機分類

基于前兩步的操作,數據的特征維度已經減小,并且具有新特征的數據集已經重建,可以應用傳統的機器學習算法。由于支持向量機算法(SVM)自身的優勢,對于線性可分的二分類問題,可通過找到一個最優分界面將兩類分開;對于線性不可分的二分類問題,可利用核函數實現在高維特征空間分類。支持向量機算法在小樣本、非線性及高維模式應用中具有優勢,故本文選擇支持向量機算法進行分類[11]:

其中,x是訓練向量;y是與訓練向量相關的標簽;α是分類器超平面的參數向量;K·() 為核函數;L是由懲罰參數決定的錯誤分類數量。

2 實驗及結果

2.1 乳腺癌數據描述

本文使用的數據來自加州大學爾灣分校的威斯康星州診斷性乳腺癌(WDBC)數據集。該數據集包含每個細胞核10 個類別的32 個特征,其分別是:半徑、紋理值、周長、面積、光滑度、緊密度、凹度、凹點、對稱性、分形維數。對于每個類別,分別測量3 個指標:平均值、標準誤差和最大值,包括樣本的名稱和類別一共32 維,共包含569 條數據,見表1。

2.2 H-SVM 算法

使用H-SVM 算法對乳腺癌數據進行診斷。為了對特征進行降維,分別在良性數據集和惡性數據集上使用特征選擇方法提取腫瘤數據的隱藏模式,在判斷最佳聚類數時,應用式(1)、(2)、(3)得到K*,在特征選擇的基礎上,利用式(4)、(5)進行特征重建,最后應用SVM 算法進行分類。整個算法流程[10]如圖1 所示。

表1 WDBC 數據集分布描述Tab.1 Summary of WDBC data attributes

圖1 H-SVM 算法流程Fig.1 H-SVM algorithm flow

2.2.1 數據預處理

數據預處理過程主要包括二個方面,一是分離良性數據集與惡性數據集;二是數據標準化。

(1)良惡性數據集分離。由于在進行腫瘤隱藏模式識別時,良性腫瘤與惡性腫瘤的隱藏模式是分別存在的,而原數據集中良性腫瘤數據與惡性腫瘤數據則混合在一起。原數據中第二維為數據分類的標識,在進行數據集分離時只需按照B(良性腫瘤數據集)或M(惡性腫瘤數據集)篩選分離即可。

(2)數據標準化。在進行系統聚類分析前,需對數據集中標簽屬性進行歸一化處理,以消除量綱對相似度的影響。即消除對聚類過程中相似矩陣計算的影響,從而獲得一個更優的聚類結果。歸一化公式如式(7):

其中,i為數據集的第i個屬性;j為數據集的第j條記錄;xij為數據集某屬性原始記錄;和分別為數據集里第i個屬性中的最大值和最小值。

2.2.2 特征選擇

首先,分別對良性腫瘤數據集與惡性腫瘤數據集進行系統聚類。圖2 為聚類結果譜系圖(其中(a)為良性腫瘤數據聚類譜系圖,(b)為惡性腫瘤聚類譜系圖)。由圖可見,系統聚類在良惡性腫瘤數據集上有很好的聚類效果,能夠比較清晰地體現出類別的層次,即乳腺癌腫瘤數據的隱藏模式明顯,各隱藏模式之間差距較大。

圖2 腫瘤數據系統聚類圖Fig.2 Hierarchical graph

進行特征選擇時,利用式(1)、(2)分別求得良惡性腫瘤數據對應的有效率,其中聚類數K的取值范圍為(2,30)。聚類產生的每一類,代表一個腫瘤的隱藏模式;每一個類的類中心,代表該隱藏模式的類中心。利用式(3)求得每個簇的θ值,如圖3 所示。從圖3 中可以看出,在取值范圍內,有效率θ有一個最小值。即當良性腫瘤類別數Kb=10 時,θb求得最小值;當惡性腫瘤類別數KM=5 時,θm求得最小值。根據本文算法,以最緊湊的模式保留原始特征得到良、惡性腫瘤的最佳隱藏模式數分別為10 種和5 種。如圖5 所示。

圖3 腫瘤模式K 值的確定Fig.3 Determine K for tumors

2.3 分類結果

分類算法結果的正確性用準確率來衡量,準確率越高說明分類的效果越好。本文H-SVM 算法在WDBC 數據集上應用的準確率為96.5%。其計算公式為式(8)所示:

其中,TP是真正數;TN是真負數;FP是假正數;FN是假負數。

就準確率而言,本文提出的H-SVM 算法與僅使用SVM 算法進行分類比較,保證了高的預測精度;另一方面,H-SVM 算法是通過將原始數據進行特征選擇以減少特征空間的維度,然后特征重建轉換為新的數據集。從計算時間的角度來看,所提出的方法通過減少輸入特征的數量,顯著減少了訓練時間。表2 中將計算時間與傳統的SVM 算法進行了比較,顯示了選擇和提取特征的重要性。

表2 結果比較Tab.2 Result comparison

3 結束語

本文提出了一種基于系統聚類的特征選擇與支持向量機的組合模型(H-SVM)分類方法,并將實驗結果與SVM 算法進行了比較。在特征選擇階段,使用系統聚類來識別乳腺癌的隱藏模式,將數據集與隱藏模式之間的相似性作為新腫瘤特征數據集,以此判斷待測腫瘤數據是否為惡性腫瘤。該算法通過特征提取和選擇對原始腫瘤數據集進行降維,在不減少樣本數量的前提下,將其重建為更加緊湊的新數據集。實驗結果表明,本文提出的算法與僅使用SVM 算法比較,不僅在精確率上由原來的95.3%提高到97.5%,而且也明顯降低了模型的訓練時間,由15.8913s 減少到0.208 8 s。

本文使用H-SVM 對WDBC 數據集進行診斷的精確率為97.5%,說明分類算法還存在優化空間。探索在不增加模型訓練時間的前提下,進一步提高分類精確率將作為下一步的研究方向。

猜你喜歡
乳腺癌分類特征
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
如何表達“特征”
乳腺癌是吃出來的嗎
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
教你一招:數的分類
主站蜘蛛池模板: 国产亚洲高清视频| 亚洲成在线观看| 亚洲欧美一区二区三区麻豆| 国产成人啪视频一区二区三区 | 91精品亚洲| 亚洲精品va| 国产精品久久久精品三级| 亚洲黄色视频在线观看一区| 亚洲欧美自拍视频| 无码'专区第一页| 中文纯内无码H| 农村乱人伦一区二区| AV在线天堂进入| 91亚洲视频下载| 性色一区| 亚洲最新网址| 99在线小视频| 亚洲aⅴ天堂| 成人一级黄色毛片| 看国产一级毛片| 波多野一区| 国产色婷婷视频在线观看| 欧美三级视频网站| 黄色免费在线网址| 日韩毛片视频| 国内精自视频品线一二区| 国产午夜人做人免费视频中文 | 中文天堂在线视频| 无码区日韩专区免费系列| 亚洲自拍另类| 欧美日韩精品在线播放| 91小视频在线观看| 亚洲综合极品香蕉久久网| 亚洲日韩每日更新| 国产精品主播| 人妻出轨无码中文一区二区| 一级一级一片免费| 国产乱人乱偷精品视频a人人澡| 99re在线观看视频| 国产成人精品一区二区免费看京| 亚洲一区二区三区麻豆| 国产精品漂亮美女在线观看| 午夜精品久久久久久久无码软件| 国产成人综合亚洲欧美在| 久久情精品国产品免费| 在线观看欧美精品二区| 亚洲V日韩V无码一区二区| 国产精品成人一区二区| 很黄的网站在线观看| 91午夜福利在线观看精品| 青青青国产免费线在| 国产白浆在线| 欧美特黄一级大黄录像| 国产一级毛片在线| 91外围女在线观看| 国产91在线免费视频| 国产人成乱码视频免费观看| 亚洲精品无码日韩国产不卡| 一区二区三区在线不卡免费| 色婷婷国产精品视频| 欧美午夜性视频| 人妻一区二区三区无码精品一区| 免费在线观看av| аⅴ资源中文在线天堂| 天天综合天天综合| 久久精品最新免费国产成人| 999精品色在线观看| 国产精品开放后亚洲| 欧美精品1区| 99国产精品免费观看视频| 日韩欧美网址| 漂亮人妻被中出中文字幕久久| 高清色本在线www| 久久公开视频| 日本高清有码人妻| 国产精品视频导航| 中文字幕免费播放| 久久久亚洲国产美女国产盗摄| 亚洲三级片在线看| 毛片手机在线看| 91亚洲视频下载| 久久久精品无码一区二区三区|