999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析和支持向量機的卵巢癌預測

2021-09-06 07:02:58劉永超王衛兵徐倩郭艷宏吳超
哈爾濱理工大學學報 2021年3期
關鍵詞:分類方法

劉永超 王衛兵 徐倩 郭艷宏 吳超

摘 要:卵巢癌是我國女性發病率較高的癌癥之一,并且有逐年增加的趨勢。基因芯片被廣泛用于癌癥早期檢測,癌癥的早發現可以確保生存率增加超過97%。本文針對基因芯片的質譜數據,提出了一種基于主成分分析(PCA)和支持向量機(SVM)的卵巢癌預測方法。重點進行了模型設計和仿真對比實驗。實驗結果表明:本文方法在預測精度上達到了89.1%,而只消耗4.791s的CPU時間,是一個較好的平衡點。

關鍵詞:

主成分分析;支持向量機;卵巢癌預測;基因芯片

DOI:10.15938/j.jhust.2021.03.014

中圖分類號: TP391.4

文獻標志碼: A

文章編號: 1007-2683(2021)03-0099-04

A Cancer Prediction Method Based on Principal Component Analysis

and Support Vector Machine

LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2

(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;

2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:

3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)

Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.

Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip

0 引 言

癌癥是人類生命和健康的主要威脅之一,是世界上最致命的疾病[1]。在我國,癌癥患者逐年增加。在ACS的《2018年全球癌癥統計數據》報告中指出:癌癥發病率和死亡率我國均居全球第一!2018年在全球新增癌癥患者1810萬人,我國占21%;全球死于癌癥的人數是960萬人,我國占23.9%。卵巢癌是我國女性發病率較高的癌癥之一,并且有逐年增加的趨勢,雖然可以通過降低風險因素來預防,但仍高發。癌癥的診斷是一項極其艱巨而復雜的任務,但早期發現癌癥可以確保生存率增加超過97%[2]。可見,卵巢癌早期發現對我國女性健康尤為重要。

基因芯片是利用核酸互補雜交原理按二維結構將大量探針分子固定于支持物上,與標記的樣品分子進行雜交反應,通過對雜交信號的監測分析獲取樣品分子的數量和序列信息[3]。目前,廣泛應用基因芯片檢測各種癌癥,但其產生的微陣列數據具有:樣本小、數據量大、維度高等特點,很容易導致預測癌癥存在與否的分類失敗。所以,在預測前必須對數據進行特征提取,這是提高分類質量和降低分類算法的計算復雜性的重要步驟。

目前有很多機器學習的方法用于各種癌癥分類。文[4]采用一個無監督的基因過濾算法以降低用于分型計算的數據噪聲,首先提出了一個概率模型對樣本中的分類結構進行建模,然后基于聚類的結果采用相對熵的方法獲得對分類貢獻大的基因作為特征基因,最后根據選出的特征基因做聚類來進行癌癥分類。文[5]提出了一項關于前列腺癌疾病的調查研究,并使用神經模糊分類系統進行模式識別,以便盡早進行治療計劃。文[6]通過基于內核的學習和特征選擇提出了完整的癌癥診斷過程。使用SVM-RFE用于預過濾基因。文[7]提出了對數回歸的方法來預測和分類癌癥。文[8]提出了使用貝葉斯網絡方法來預測和分類癌癥。文[9]首先使用基因的分類信息指數來選取分類特征基因,去除無關基因進行數據的預處理,然后用支持向量機來進行癌癥的分類預測。文[10]提出了一種基于SVM模型診斷卵巢癌,使用模糊粗糙集理論進行特征選擇,使用SVM來處理復雜真實的數據,進行快速學習,此方法具有良好的分類性能。本文提出一種基于PCA和SVM的卵巢癌預測方法,使用PCA進行卵巢癌微陣列數據樣本的特征提取,使用適合小樣本分類的SVM作為區分卵巢癌患者和非卵巢癌患者的分類器。

1 預測模型

假設總共有n個卵巢癌患者的微陣列數據記錄,每個記錄包含p個特征屬性。根據每個患者的特征數據,通過分類實現預測患者是病態還是正常。本文提出的方法如圖1所示,其中,PCA可以在保證一定的信息利用率的基礎上提取簡化特征屬性的維數;SVM用于分類及預測。對卵巢癌患者的微陣列數據而言,一個數據包含上萬個或幾萬個特征屬性,可見使用PCA對這樣的數據進行降維處理是有必要的。從模型的數據流上說,PCA輸出的數據作為SVM的輸入數據,看似串行,實這則并行。對單個數據而言,PCA和SVM的工作是串行級的;對整體數據而言,PCA和SVM的工作是同步的,并行級的,SVM處理上一個數據的同時PCA可以降維下一個數據,這樣可以提高模型的預測效率。

1.1 數據預處理

首先,處理缺失值和屬性的冗余值。歷史數據可能存在一些遺漏或冗余的屬性值,這可能會影響分類的準確性和計算速度。

其次,數據標準化,消除其尺寸差異的影響。根據原始樣本中存在n個具有p個屬性的數據,構造n×p的變量矩陣,每個列在矩陣中標準化,獲得歸一化值zij,其計算方法為

zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)

j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)

sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)

1.2 主成分分析

屬性中的太多變量將增加大量的計算負載。PCA可以刪除相關變量,并創建一些彼此無關的新變量。更重要的是,原始信息能最大限度地被這些新變量保留。PCA的實現過程描述如下:

計算標準化變量矩陣Z的協方差矩陣C,即

C=ZZTn-1(4)

計算協方差矩陣C的特征方程|C-λIp|=0,得到特征值λj和相應的特征向量αj,其中j=1,2,…,p。

根據式(5)確定主成分k的數值,確保信息利用率高于95%。

∑kj=1λj∑nj=1λj≥95%(5)

特征值按從大到小排列,取前k個最大特征值對應的特征向量,得到一個k行p列的特征向量矩陣V。

根據式(6)計算得到n行k列的矩陣X,這個矩陣X就是降維后的變量矩陣,包含k個主要成分的數據。

X=(VZT)T=ZVT(6)

1.3 支持向量機

SVM是一種判別分類器,由分類超平面所定義。也就是說,使用標記的訓練樣本訓練模型,然后通過輸出最佳超平面來實現測試樣本分類。SVM描述如下:

卵巢癌預測問題為非線性問題,所以SVM的目標函數f(x)表示為

f(x)=wT·φ(x)+b(7)

其中:x為輸入;w為權向量;b為偏置向量。把輸入數據映射到高維數據空間。

利用極大化間隔的求解思想,最終得到分類決策函數為

f(x)=∑ni=1αiyiK(xi,x)+b(8)

其中:K(xi,x)為核函數,表示映射到的高維特征空間的兩個點的內積<φ(xi)·φ(x)>。這里選擇學習能力強且誤差小的Gauss徑向基(RBF)核函數為

K(xi,x)=exp(-‖xi-x‖22σ2)(9)

其中,σ為核函數系數,具有高的靈活性。

2 仿真實驗與分析

2.1 數據集

本文所有仿真實驗使用同一個數據集,是來自于AICR的卵巢癌微陣列質譜數據集,樣本共有253個,包括卵巢癌患者陽性(病態)和陰性(健康),且每個樣本的屬性有15000之多。在這253個卵巢癌數據樣本中隨機選其中的170個為訓練集,剩余的83個為測試集,卵巢癌微陣列質譜數據如表1所示。

2.2 仿真實驗設計

設計3個仿真實驗來證明本文提出的基于PCA和SVM的癌癥預測方法的有效性,即主成分k值確定、預測精度和算法效率。

仿真實驗中的計算使用安裝了Libsvm-3.21工具包的MATLAB R2010b軟件完成。模型中的SVM參數隨機選擇,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的時候用經驗值或試湊法調節。

仿真實驗都是在實驗室的PC機上完成。PC機的OS為Win7 Sp1,硬件運行環境為:處理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;內存(RAM):8.00GB;磁盤驅動器:ATA WDC WD5000LPVX-0;顯示適配器:NVIDIA GeForce GT 635M。

2.3 結果與分析

原始數據集總共有15000個屬性。通過本文1.2節計算協方差矩陣特征方程的特征值和特征向量的方法進行了主成分分析,經過分析,數據的特征值大大減少,290個屬性可以保證100%的信息利用率(通過計算貢獻率可以近似獲得)。在這個實驗中,我們相信95%的信息利用率可以確保結果的正確性,即最少由98個數據屬性表示。然后,根據式(5)計算主成分k值。信息利用率選擇如圖2所示。 在圖2中,屬性個數被表示為橫軸,屬性個數對應的信息利用率被表示為縱軸。

在數據集上,應用所提出的方法進行預測實驗,并與數據集上的KNN和ESOM等典型分類方法在預測精度上進行了比較,如圖3所示??梢钥闯?,預測精度上最高是本文所提出的方法,預測精度為89.1%,高于KNN的71.7%和ESOM的62.5%。

通過消耗的CPU時間來比較本文方法、KNN和ESOM的效率,CPU時間對比如圖4所示。由于本文中使用的數據集擁有大量的屬性值,因此需要花費很長時間來訓練和預測分類結果。在這3種方法中,KNN是最耗時的,所需的CPU時間高達1225.433s。由于本文方法和ESOM都對數據集進行了降維處理,所以消耗的CPU時間較少。本文方法應用了主成分分析,效率得到了極大的提高,只消耗4.791s的CPU時間。

3 結 論

根據微陣列質譜數據的特點,本文提出一種基于主成分分析(PCA)和支持向量機(SVM)的卵巢

癌預測方法。使用PCA在預測前對數據進行特征提取,來提高分類質量和降低分類算法的計算復雜性。使用SVM作為區分卵巢癌陽性和陰性的分類器,其更適合小樣本分類。仿真實驗結果表明:本文方法在預測精度上達到了89.1%,而只消耗4.791s的CPU時間,是一個較好的平衡點,但仍需要在其他卵巢癌數據集上進行驗證。同時,本文方法也可以應用在其他高維數據分類的領域。

參 考 文 獻:

[1] SIEGEL R L, MILLER K D,FEDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.

[2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.

[3] 沈銳, 謝楊, 李磊, 等. 基因芯片技術在于癌癥診斷研究發展[J]. 世界最新醫學信息文摘, 2017,17(33):124.

SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.

[4] 李澤, 包雷, 黃英武, 等. 基于基因表達譜的腫瘤分型和特征基因選取[J]. 生物物理學報, 2002, 33(4): 413.

LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.

[5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.

[6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.

[7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.

[8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.

[9] 李穎新, 阮曉鋼. 基于基因表達譜的腫瘤亞型識別與分類特征基因選取研究[J]. 電子學報, 2005, 33(4): 651.

LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.

[10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.

(編輯:王 萍)

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 色综合天天娱乐综合网| 亚洲va欧美va国产综合下载| 亚洲欧美激情另类| 亚洲bt欧美bt精品| 国产一级无码不卡视频| 在线观看亚洲成人| 国产女人18毛片水真多1| 毛片大全免费观看| 激情在线网| 又大又硬又爽免费视频| 中国一级毛片免费观看| 一级毛片免费播放视频| 中文无码日韩精品| 亚洲第一视频网| 色综合久久88色综合天天提莫| 国内精品小视频福利网址| 国产成人精品高清在线| 久久精品中文字幕免费| 亚洲乱码视频| 国产精品久线在线观看| 91外围女在线观看| 五月天福利视频| 91无码人妻精品一区二区蜜桃| 五月激激激综合网色播免费| 国产香蕉一区二区在线网站| 国产欧美专区在线观看| 中文字幕人成人乱码亚洲电影| 国产乱人伦偷精品视频AAA| 91久久国产成人免费观看| 国产综合亚洲欧洲区精品无码| 亚洲国产日韩视频观看| 欧美午夜在线播放| 激情综合图区| 久久永久精品免费视频| 人妻丝袜无码视频| 成人午夜精品一级毛片| 播五月综合| 亚洲欧美另类日本| 日韩视频精品在线| 精品一区二区三区无码视频无码| 国产大全韩国亚洲一区二区三区| 亚洲h视频在线| 国产精品一区二区在线播放| 国产亚洲精久久久久久无码AV| 香蕉在线视频网站| 日韩精品一区二区三区中文无码| 永久免费精品视频| 在线播放国产一区| 国产在线视频欧美亚综合| 亚洲国产成人久久77| 免费高清毛片| 一级全黄毛片| 3344在线观看无码| 国产视频入口| 中文字幕亚洲综久久2021| 欧美日韩免费观看| 亚洲国产精品无码AV| 免费无遮挡AV| 2020精品极品国产色在线观看 | 欧美一道本| 亚洲欧美日本国产综合在线 | 国产香蕉在线| 老熟妇喷水一区二区三区| 国产aⅴ无码专区亚洲av综合网| 不卡无码h在线观看| 免费国产小视频在线观看| www.精品视频| 国产无人区一区二区三区| 极品国产一区二区三区| av尤物免费在线观看| 日韩a级片视频| 女同国产精品一区二区| 色综合天天娱乐综合网| 日本中文字幕久久网站| 毛片大全免费观看| 欧美日韩动态图| 亚洲无码熟妇人妻AV在线| 久久特级毛片| 99久久精品国产综合婷婷| 亚瑟天堂久久一区二区影院| 国产精品浪潮Av| 国产亚洲欧美另类一区二区|