王勇 吳慕云



摘要:使用粒子群算法優化支持向量機的懲罰因子和核參數,提高分類的精度。粒子群算法收斂速度快,但是容易陷入局部最優。引入鯨魚算法的包圍運動和螺旋運動機制,形成參數自適應的混合粒子群優化算法,提升了算法的精度。在對數據進行預處理之后,80%的數據用于模型的訓練,剩余20%用于模型的測試。每次實驗分別按照比例隨機生成的訓練集和測試集進行20次預測,計算平均正確率。實驗表明,自適應混合粒子群算法優化精度高于標準粒子群算法和鯨魚算法。
關鍵詞:乳腺癌;支持向量機;自適應;粒子群優化算法
中圖分類號:TP391.4? ???????文獻標識碼:A???????? 文章編號:1672-4437(2024)02-0067-04
0引言
目前診斷乳腺癌的方法有觸診、乳腺彩超、磁共振以及乳腺穿刺等方法。隨著數據科學和人工智能技術的發展,人工神經網絡、支持向量機等機器學習方法被應用于乳腺癌的診斷與篩查。以BP網絡為代表的人工神經網絡具有很強的非線性擬合能力,但是網絡結構以及權值、閾值的選取仍缺乏系統理論的指導[1]。相比之下,處理分類問題,支持向量機具有一定的優勢。在使用支持向量機的過程中,懲罰因子和核參數等直接影響支持向量機的分類精度。粒子群算法、煙花算法等群體智能算法被應用于支持向量機參數的優化[2]。群體智能算法采用個體在空間中按照一定規律運動,通過個體之間的相互協作在可行域內搜索全局最優解。該方法適用于復雜的最優化問題,但是容易陷入局部最優。因此,設計計算方便、高精度的算法優化支持向量機的參數,對提高乳腺癌診斷的正確率具有重要意義。
1 數據的預處理
使用美國威斯康辛大學醫院William Wolberg醫生創建的乳腺癌診斷數據集[3]。由乳腺腫塊的細針穿刺(FNA)的數字圖像計算出細胞核的形態特征,以進一步判斷腫瘤是良性或者惡性。采集患者乳腺細胞核半徑、紋理、周長、面積、平滑度、緊湊度、凹度、凹點、對稱性和分型維數這10個特征,并分別計算出這10個特征的平均值、標準差和最大值,由此構成30個特征向量。數據共569個樣本,形成了維度為569×30的特征集。所有樣本被分為兩類:M表示惡性,B表示良性。為了便于后續處理,對每個特征向量 按照式(1)進行數據歸一化處理, 、 分別為第 個特征量的最大值、最小值。
(1)
2 支持向量機
支持向量機分類效果好、應用范圍廣泛。在二分類中存在 個樣本 構成的數據集,其中 。樣本中 是 維的特征向量, 代表分類的類別。在支持向量機訓練的過程中,在 維空間中求解一個超平面 ,將兩類不同的樣本分類隔開。 是權重向量決定超平面的方向。 是類別 中任意一點到超平面的垂直距離。因此對超平面的求解轉化為一個二次規劃問題[2]:
(2)
其中, 是松弛因子, 是懲罰因子。若空間中的超平面無法將訓練樣本完全隔開,在目標函數中引入懲罰函數 控制訓練誤差對目標函數的懲罰量。 取值過小,模型復雜度低,容易欠擬合。反之,模型復雜,結構風險大,容易過擬合。
數據在原始空間中不是線性可分的情況下,可將其通過核函數映射到高維空間中求解。在分類問題中常用的核函數有高斯核:
(3)
其中, 是高斯核函數的核參數, 取值越小,模型的分類越精細,模型容易過擬合。 取值越大越會造成訓練不充分,模型欠擬合。因此,懲罰因子 和核參數 直接決定支持向量機的性能,必須通過高效、精確的優化算法確定其值。
3 自適應混合粒子群算法優化支持向量機
粒子群算法(Particle Swarm Optimization,? PSO)的計算相對簡單,收斂速度快,因此應用廣泛。基于粒子群算法搜索支持向量機的懲罰因子 和核參數 的最優組合。首先在可行域內,初始化一個 的呈均勻分布的矩陣 作為初始種群,粒子 為該粒子所處的位置,代表一組待優化參數的潛在最優解。以測試集上分類的正確率作為適應度函數評價每個粒子所處位置的優劣。第 次迭代運算中第 個粒子運動過程中經歷的最優位置為 ,種群的全局最優位置為 。尋優過程中,每個粒子根據個體最優值和種群最優值更新第 次迭代運算中自身的位置 和速度? [4]:
(4)
(5)
為慣性權重,用于平衡粒子在空間中的全局搜索能力和局部搜索能力。在更新速度的過程中, 、 為加速度因子, 是個體最優位置所占權重, 是全局最優位置所占權重。 、 是分布于 區間的隨機數。在優化過程的中后期,粒子會逐步聚集,粒子種群容易陷入局部最優。為了克服這一不足,在尋優過程的初期,注重粒子在可行域內的全局搜索能力,隨著迭代次數的增加,強調粒子的局部搜索能力。因此,在 次迭代運算中, 的取值按照公式(6)隨著迭代次數的增加逐步減小,其中 是初始慣性權重, 為終止慣性權重。
(6)
尋優過程中,粒子個體最優位置所占比重逐步減小,而全局最優位置所占比重隨著迭代次數逐步增加。采用雙曲正切函數按照公式(7)在 區間內調節第 次迭代運算 、 的值,參數 用于限定雙曲正切函數的范圍[5]。
(7)
(8)
為了降低粒子迅速聚集而陷入局部最優的概率,引入鯨魚優化算法(Whale Optimization Algorithm,WOA)中的包圍運動機制和螺旋運動機制[6]。多種運動機制并存,提升了可行域內的尋優精度。如圖1所示,初始化粒子群參數之后,根據式(4)、式(5)更新粒子的速度和位置。當第 次迭代運算中,第 個粒子所處位置 的適應度值 小于第 次運算的適應度值 時,則切換到鯨魚算法的尋優策略。按照式(9)所示, 為 之間的隨機數, 時,使用包圍運動的策略,根據種群最優位置 更新位置得到 ;而 時,基于螺旋包圍運動更新位置得到 。如果所使用優化策略得到的位置都不能優于前一次的結果 ,則選擇最優解 作為最終的結果。
(9)
其中, , 為 之間的隨機數, , , 。
4 實驗分析
為了驗證自適應混合粒子群算法優化高斯核支持向量機懲罰因子 和核參數 的精度。采用威斯康辛乳腺癌數據集80%的樣本作為訓練集,剩余20%的樣本作為測試集。選取默認參數rbf內核支持向量機、標準粒子群算法、鯨魚優化算法[7]以及自適應混合粒子群算法分別優化的支持向量機作為測試算法。每次實驗中,分別按照比例隨機生成訓練集和測試集進行20次訓練和測試。20次測試結果的平均正確率為 ,每20次測量結果的標準差為 。各優化算法的適應度值 。
標準粒子群算法、鯨魚優化算法和自適應混合粒子群算法粒子的種群規模 ,最大迭代次數 , , 。標準粒子群算法的慣性權重 , , 。自適應混合粒子群算法初始慣性權重 ,終止慣性權重為 ,加速度因子的 , , 。20次迭代運算中,標準粒子群算法在尋優的過程中,粒子迅速向個體最優值和全局最優值運動,容易陷入局部最優(如圖2所示)。而自適應混合粒子群算法有效地平衡了個體極值和全局極值的信息,并采用多種尋優策略共同作用,提升了優化的精度。不同算法的訓練正確率和測試正確率以及20次測試結果的標準差如表1所示。針對20次不同的測試樣本,標準粒子群算法的平均訓練正確率為1.00000,而平均測試正確率僅為0.95965,存在過擬合的情況,但是依舊高于默認參數的支持向量機。自適應混合粒子算法的測試結果的平均值正確率為0.97719,標準差為0.01490,表現出了較強的泛化能力。如圖3所示,自適應混合粒子群算法的測試正確率顯著優于標準粒子群算法和鯨魚算法。
5 結語
目前,乳腺癌仍然是威脅女性健康的主要疾病之一。將數據科學與機器學習技術相結合,對提高乳腺癌診斷的準確率具有重要意義。對于乳腺癌數據集此類多維度特征向量的二分類問題,支持向量機具有一定的優勢。在對支持向量機懲罰因子 和核參數 的優化過程中,在標準粒子群算法中引入參數自適應機制和包圍運動、螺旋運動的搜索機制,有效地降低了粒子過快聚集而陷入局部最優的概率,提高了粒子群算法的精度。
—
參考文獻:
[1]許美賢,鄭琰,李炎舉,等.基于PSO-BP神經網絡與PSO-SVM的抗乳腺癌藥物性質預測[J].南京信息工程大學學報(自然科學版),2023,15(1):51-65.
[2]王謙.改進煙花算法及其在特征選擇和SVM參數聯合優化中的應用[D].南京:南京信息工程大學,2020.
[3]WOLBERG W, MANGA SARIAN O, STREET N, et al. Breast Cancer Wisconsin (Diagnostic)[DB/OL]. (1995-10-31) [2023-11-23].https://archive.ics.uci.edu/ dataset/17/dataset/17/breast+cancer+wisconsin+diagnostic
[4]李俊,李濟順,HAL G,等.混沌區間多目標粒子群優化算法及其應用[J].機械科學與技術,2022,41(7):1031-1038.
[5]路復宇,童寧寧,馮為可,等.自適應雜交退火粒子群優化算法[J].系統工程與電子技術,2022,44(11):3470-3476.
[6]李安東,劉升.混合策略改進鯨魚優化算法[J].計算機應用研究,2022,39(5):1415-1421.
[7]劉一格,趙振宙,馬遠卓,等.基于鯨魚優化算法的串列風力機主動尾流控制策略[J].中國電機工程學報, 2024,44(9):3702-3710.