


摘? 要:利用機器學習輔助提高醫生診斷效率是常用的方法。用機器學習方法進行乳腺癌檢測,常由于乳腺癌數據的不平衡而出現問題。為了解決這一問題,研究在多層感知機的基礎上嵌入監督對比學習進行乳腺癌檢測,該方式通過數據增廣,彌補不平衡數據的影響,同時利用同一類特征距離拉近,反之拉遠的性質,增強特征表示效果,提高診斷準確率。實驗結果證明,與現有的算法相比在準確率等方面優于其他算法,這證明了該算法的有效性。
關鍵詞:監督對比學習;乳腺癌檢測;多層感知機;不平衡數據
中圖分類號:TP181? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0079-05
Breast Cancer Detection Algorithm Based on Supervised Contrastive Learning
LI Xin
(Taiyuan Normal University, Jinzhong? 030619, China)
Abstract: Using Machine learning is a common method to assist doctors with improving the diagnosis efficiency. The use of machine learning methods for breast cancer detection often causes problems due to the imbalance of breast cancer data. In order to solve this problem, supervised contrastive learning is embedded on the basis of multi-layer perceptron for breast cancer detection. This method makes up for the influence of unbalanced data through data augmentation, and makes use of the nature of the distance narrowing of features of the same class, and the nature of the distance stretching on the contrary, to enhance the feature representation effect and improve the diagnostic accuracy. The experimental results show that compared with the existing algorithms, the algorithm is superior to other algorithms in terms of accuracy and other aspects, which proves the effectiveness of the algorithm.
Keywords: supervised contrastive learning; breast cancer detection; multi-layer perceptron; unbalanced data
0? 引? 言
乳腺癌作為三大癌癥之一,雖然近年的新增病例有所穩定,但其發病率及死亡率仍在女性中占據很高比例[1],所以要居安思危[2],繼續努力提高該疾病的檢測效率,時刻避免該疾病隱匿。乳腺癌數據中患病人數占比小,這種數據的不平衡給傳統的分類方法[2],比如樸素貝葉斯分類器、KNN、多層感知器(MLP)[3]、決策樹法、SVM帶來了挑戰,主要原因是傳統分類方法在不平衡數據中常伴有噪音影響和結果偏向于多數類,導致少數類準確率不高。因此,本文引入監督對比學習,利用其優勢數據增強,來填補少數類數據數量不足的影響,同時利用其損失函數將同一類數據特征距離拉近,不同類數據特征距離遠離,提高不平衡數據樣本分類效果。
監督對比學習利用數據的監督信號[4],能夠為數據學習到一個良好的嵌入表示,同時改善了對噪聲標簽敏感。2020年Khosla在NeurIPS上提出了監督對比學習方法(Supervised contrastive Learning)[5],使同一類的嵌入表示更加接近,不同類的嵌入表示更加遠離。該方法的優勢主要有三方面:
(1)監督對比損失函數(Supcon)將正樣本擴展為同類樣本及其增強樣本,避免了潛在的錯誤否定,以此來正確區分數據類別;
(2)該損失函數為數據集提供了一致的top-1精度提升,抵抗力也有所增強;
(3)該損失函數比交叉熵損失函數對超參數的范圍更不敏感。綜合以上性質,將監督對比學習嵌入在多層感知機中,提出一種基于監督對比學習的乳腺癌檢測算法,用來輔助多層感知機進行不平衡乳腺癌數據的分類。
實驗結果表明,本文提出的基于監督對比學習的乳腺癌檢測算法在準確率、F1值、精確率、召回率上均比SVM、KNN、樸素貝葉斯等分類算法有所提高,能有效地解決乳腺癌數據不平衡分類問題,從而證明該算法可以更好地幫助醫生進行檢測。
1? 相關工作
1.1? 乳腺癌檢測方法
乳腺癌檢測工作,是一個典型的數據分類問題,因此本文對傳統的分類算法如樸素貝葉斯分類器、KNN、決策樹法、SVM、MLP五種法進行了總結和分析。
首先分析樸素貝葉斯分類器,樸素貝葉斯分類器優勢在于分類穩定,但對數據缺失不敏感,屬性相關性大時效果欠佳,除此外還需要知道先驗概率;對于KNN算法,該算法模型優勢在于簡單易理解,無須訓練集、準確性高、適合多標簽問題,但面臨數據多維不平衡時其準確率會受到影響大幅下降,且可解釋性差;然后是決策樹,決策樹是一種基本的分類方法,優勢在于能夠處理數值類和類別類的特征,但是它不是很穩定,對于數據的噪音非常敏感;其次是SVM,SVM是一種有小樣本學習方法,沒有傳統的歸納演繹過程,抓住關鍵、刪除所謂冗余部分,高效且簡單,大大簡化了常用的分類問題,而且具有較好的“魯棒”性,但不可避免的問題是該算法針對大規模的數據使無法實施,且難以進行多分類的;最后分析多層感知器(Multi-layer perceptron, MLP)[3],MLP是基礎的人工神經網絡,是前向結構、十分簡單,主要優勢在于不僅可以對線性不可分數據進行識別,而且高效快速的在原始數據集中提取學習數據中的高級特征,能快速解決復雜分類問題。
雖然以上傳統方法都能對乳腺癌數據進行合理的分類,但乳腺癌數據中患病數目占總數據較小,是不平衡的數據,用傳統的分類方法對乳腺癌數據集進行分類準確率偏低。基于已上傳統分類模型,選擇一種簡單且高效準確的分類方法——MLP,提出在MLP中嵌入監督對比學習,彌補MLP受不平衡數據的影響,旨在達到更高的分類效果和準確率。
1.2? 監督對比學習
對比學習(Contrastive Learning)[4]是針對無監督學習[6]提出的一種的方法,廣泛應用于自我監督學習中[7],而后發展為自監督學習的對比,最后發展出帶標簽的有監督學習,他們是利用標簽信息來進行對比學習。此外,對比學習也以監督的方式使用,成為監督對比學習,監督對比學習增加了對比學習中對于正樣本選擇的范圍,更有利于分類效果。
監督對比學習[8]中的監督對比損失函數(Supcon)[9]是一種新的損失函數,它使對比學習能夠應用于監督環境,通過利用標記數據,鼓勵將來自同一類的規范化嵌入拉得更近,而將來自不同類的嵌入拉得更遠,該方法增強了正樣本選擇,使正樣本更加多樣化,同時仍然包含語義等相關信息。主要作用有以下幾點:
(1)首先Supcon可以在下游訓練中使用,還通過標簽信息在特征學習中發揮積極作用,提高分類效果;
(2)Supcon簡單易于實現,訓練穩定,對一些數據集和體系結構的精確度達到了一定的提升;
(3)對超參數變化具有魯棒性。
本文中考慮的監督對比損失,將來自同一類別的所有樣本作為正的樣本集與來自同一個數據集中剩余樣本的負的樣本集進行對比學習。此外它的功能還有很多,例如在自然語言處理中,監督對比學習幫助在輔助任務上進行預訓練大型語言模型;在圖片的學習中,也有自我監督學習的應用。Supcon可以通過最大化數據與其增廣數據的相似性同時最小化與其他數據的相似性來學習數據的特征表示。將其應用在疾病等領域的應用是十分可取的、有效的。
2? 模型方法
在本文中,目標是學習到對乳腺癌數據分類有效的特征表示。因此,提出了一種基于監督對比學習的乳腺癌檢測算法。該算法將監督對比學習嵌入在多層感知機中,不僅能獲得更好的嵌入式特征表示,同時也彌補原MLP針對不平衡數據的分類問題。如圖1所示,展示了基于監督對比學習的多層感知機模型(Supcon-MLP)。在Supcon-MLP模型中,包含數據增廣、編碼器、激活層和輸出層。通過加入了一種新的監督對比損失(Supcon),最大化數據與其增廣數據的相似性同時最小化與其他數據的相似性來學習數據的特征表示。
Supcon-MLP模型主要包含三個步驟:
(1)數據增強,對一個樣本的數據的特征做隨機的增廣,產生兩個數據xi,xj;
(2)這兩個數據送到多層感知中機進行編碼,并進行投影操作,最后產生兩個特征向量z,嵌入表示zi,zj;
(3)利用監督對比損失函數Supcon計算損失,利用交叉熵損失進行分類。
接下來具體介紹關于該模型的三個組成部分。
2.1? 數據增強
數據量規模小會導致難以發現隱藏的內容,數據規模越大,質量就越高,模型的泛化能力就越高。因此解決此類樣本數量不均衡、數據規模小的問題,常通過數據增強的方式有效提高,使模型擁有較好的泛化能力。
采用簡單的數據增強的方式對數據進行增強,通過在特征中隨機選取百分之十的特征做掩碼操作[10],實現特征的增強。在增強中,需選取相對能維持正確的類標簽的特征,進行增強操作。如果特征發生了巨大的變化,將影響類標簽可有效性。
2.2? 基于MLP的模型結構
多層感知器(MLP)是一種簡單、基礎的神經網絡。MLP結構中包含有輸入層、隱藏層、輸出層,含有一層隱藏層是最簡單的多層感知機。此外,在MLP中各層之間是全連接,流程為:輸入層→隱藏層→輸出層,最終完成對輸入的向量轉化。具體內容有:
(1)輸入層→隱藏層:前一層的輸出會作為當前層的輸入。計算方式為:權重乘以輸入加偏置的值。設輸入為x1,只在第一個轉換的公式為:
F(x1)=w1x1+b1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
(2)隱藏層→輸出層:就是一個多類別的LR邏輯回歸,設輸入為x2,只在第二個的轉換的公式為:
F(x2)=w2+b2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
(3)將輸入層、一層隱藏層和輸出層結合起來的最簡單多層感知機的公式為:
F(x)=g(w2(w1x1+b1)+b2? ? ? ? ? ? ? ? ? ? ? ? (3)
此外在多層感知機中,激活函數能將線性的數據轉變為非線性的數據,最終將輸出值控制在(0~1)之間。最常用的激活函數是Sigmoid函數和Relu函數,在本文中選擇Relu函數。Dropout的功能是為了避免過度擬合。
2.3? 損失函數
損失函數由監督對比損失和交叉熵損失兩部分組成如式(4)所示,兩者相關聯系如圖2所示,損失函數曲線圖如圖3所示。
lossfinal=lossCE+αlossSup? ? ? ? ? ? ? ? ? ? ? ? ? (4)
α表示平衡這兩個損失的超參數。
監督對比損失函數的優勢增加更多的負面因素的例子,提高了區分信號和噪聲的能力。這一特性對于通過監督對比學習的表示學習非常重要,負樣本的數量的增加,表現的性能也會提高。監督對比損失最為關鍵的方面是擁有執行積極信息挖掘的內在潛力。來自強勢的正/負的梯度貢獻是很大的,而對于一些簡單的正/負的梯度貢獻是很小的。此外,對于強勢的正數,其影響隨著負數的增加而增加。方程的該性質,將它推廣到所有正數。監督對比損失函數公式為:
(5)
其中,I表示所有的樣本,P(i)是指與i同一類的樣本,A(i)表示的是與i不同類的樣本集,τ表示溫度參數,Zi, Zj, Za為特征表示結果。
交叉熵用于計算兩個分類概率的分布差異值,特征值通過篩選后進入softmax,對輸出的結果進行計算處理,使其分類的正負概率值和為1,再通過交叉熵損失函數計算損失。交叉熵的值越小,模型預測效果就越好。交叉熵損失函數公式為:
(6)
3? 實驗結果及分析
3.1? 數據集
驗證提出的方法在乳腺癌檢測分類任務上的優越性,對此不平衡乳腺癌數據分類的數據集進行了實驗,如圖4所示,為實驗中的部分數據。
數據集使用的分別是威斯康辛大學威斯康辛診斷乳腺癌數據庫(Wisconsin Diagnostic Breast Cancer, WDBC)和在UCI公開數據庫中獲取的真實乳腺癌疾病診斷數據集(WHG)。如表1所示。
WDBC數據集中不平衡比為1.68,WHC數據集中不平衡比為1.9。其中WDBC數據集中的每個病例數據都包含10個特征數據和一個類別標簽,類別標簽為良性和惡性。其中WHC數據集中每個病例數據都包含9個特征數據和一個類別標簽,類別標簽為良性和惡性。對于此兩組數據集,每組數據集使用每個類70%的樣本進行訓練,20%用于驗證,其余10%用于測試。
3.2? 實驗設置
在本文提出的Supcon-MLP模型中,采用Adam優化算法對所有模型進行訓練,學習率lr設置為10-2,失活率dropout設置為0.5,超參數α為1,dropout設置為0.5,迭代次數epoch設置為500次,這樣的參數設置能使模型達到理想性能。此外,所有實驗都是在一臺Intel(R) Core(TM) i5-10200H CPU上進行的,在Pytorch和Python 3.6中實現。
3.3? 評價指標
本實驗采用了四個評價指標,分別為準確率(Accuracy)、F1、精確率(Precision) 和召回率(Recall)[11]。Acc通過計算正確分類的樣本數占據全部樣本數的比值計算,Acc代表了算法分類的準確程度。Acc計算公式為:
(7)
單獨計算每一類的F1值,然后對其進行非加權平均計算得出最終F1值。F1值是針對不平衡數據分類的關鍵指標,能更好反映出不平衡數據分類模型的好壞。F1計算公式為:
(8)
Pre值指的是被預測為正類的數據中所有真正類所占的比重。Pre計算公式為:
(9)
Rec值指的是真正類數據中被預測正確的數據所占比例。Rec計算公式為:
(10)
3.4? 實驗對比模型
為了證明提出模型的有效性,在乳腺癌數據集上分別使用決策樹法、樸素貝葉斯分類器、SVM、KNN、MLP進行對比分類。
3.5? 實驗結果
3.5.1? 與其他模型的比較結果
評估本文所提出的算法在不平衡數據分類問題中的有效性,在上述兩個數據集上將其與其他五個分類器算法進行了比較,如表2所示,分析得出,與其他分類模型相比,該模型的結果優于其他所有分類模型。例如,與沒有嵌入對比學習的多層感知機相比,在數據集WDBC上的Acc值和F1值分別提高了3.2%和9.9%,數據的提升證明所提出算法的有效性。
3.5.2? 監督對比損失函數對數據的影響
如表3所示,通過改變平衡這監督對比損失和交叉熵損失函數的超參數,用準確率、F1、精確率、召回率四個指標檢驗該模型的分類性能。實驗結果表明,當α為1時,即監督損失函數和交叉熵損失比值為1時,各項指標都會達到最高,分類性能同步達到最高。
4? 結? 論
乳腺癌檢測主要針對不平衡數據,機器學習的方法對不平衡數據的檢測常伴隨有少數類精確率不高和噪聲影響較大的問題。針對此問題,提出了一種基于監督對比學習的乳腺癌檢測算法,利用監督對比學習的優勢,將同一類樣本中的特征數據盡可能靠近,非同類樣本的特征數據盡量遠離,來區分不同類別的數據。監督對比學習的加入能最大限度地挖掘正負樣本信息,多層感知機同時對數據特征有著高效的提取和學習,所以能大幅度地提升乳腺癌的檢測。實驗結果表明,提出的基于監督對比學習的乳腺癌檢測算法是十分有效的,在之后的研究中,希望將該算法模型擴展到更多的應用領域。
參考文獻:
[1] BRAY F,FERLAY J,SOERJOMATARAM I,et al.Global Cancer Statistics 2018:Globocan Estimates of incidence and Mortality Worldwide for 36 Cancers in 185 Countries [J].CA Cancer J Clin,2018,68(6):394-424.
[2] HASTIE T,TIBSHIRANI R,FRIEDMAN J.The Elements of Statistical Learning [M].Springer Series in Statistics.Berlin:Springer,2009.
[3] ISA I S,SAAD Z,OMAR S,et al.Suitable MLP Network Activation Functions for Breast Cancer and Thyroid Disease Detection [C]//2010 Second International Conference on Computational Intelligence,Modelling and Simulation.Bali:IEEE,2010:39-44.
[4] CHEN T,KORNBLITH S,NOROUZI M,et al.A Simple Framework for Contrastive Learning of Visual Representations [J/OL].arXiv:2002.05709 [cs.LG].[2022-08-03].https://arxiv.org/abs/2002.05709v2.
[5] TIAN Y L,SUN C,POOLE B,et al.What makes for good views for Contrastive Learning? [J/OL].arXiv:2005.10243 [cs.CV].[2022-08-06].https://arxiv.org/abs/2005.10243.
[6] HE K,FAN H,WU Y,et al.Momentum Contrast for Unsupervised Visual Representation Learning [J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:9726-9735.
[7] HU X M,ZHANG C W,XU Y S,et al.SelfORE:Self-Supervised Relational Feature Learning for Open Relation Extraction [J/OL].arXiv:2004.02438 [cs.CL].[2022-08-09].https://arxiv.org/abs/2004.02438.
[8] KHOSLA P,TETERWAK P,WANG C,et al.Supervised Contrastive Learning [J/OL].arXiv:2004.11362 [cs.LG].[2022-08-07].https://arxiv.org/abs/2004.11362.
[9] YANG S,WANG S D,WANG Y Q,et al.MB-Supcon:Microbiome-based Predictive Models via Supervised Contrastive Learning [J].Journal of Molecular Biology,2022,434(15):167693.
[10] WANG J,YANG C C,YAN L H,et al.Speech Enhancement Algorithm of Binary Mask Estimation Based on a Priori SNR Constraints [C]//2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).Honolulu:IEEE,2018:937-943.
[11] 王成,劉亞峰,王新成,等.分類器的分類性能評價指標 [J].電子設計工程,2011,19(8):13-15+21.
作者簡介:栗鑫(1995—),男,漢族,山西長治人,碩士研究生在讀,研究方向:機器學習。
收稿日期:2022-10-23