999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

APSO_LightGBM模型在高血壓風險預測中的應用

2021-08-24 08:04:16胡逾航
湖北工業大學學報 2021年4期
關鍵詞:高血壓特征優化

鄭 列,胡逾航

(湖北工業大學理學院, 湖北 武漢 430068)

我國心血管疾病患者絕大多數也是高血壓患者[1]。高血壓早期可能無癥狀,容易被患者所忽視,因此其早期排查與及時干預有著重要意義。譚恒[2]使用決策樹算法對高血壓發病風險進行預測;Pei[3]構建了基于支持向量機的高血壓預測模型,討論了環境因素和遺傳因素對患原發性高血壓的影響,并使用Laplace核函數對模型進行改進;趙書穎[4]探討了中醫癥候和高血壓之間的聯系;Ren[5]使用雙向長期短期記憶模型(BiLSTM)捕獲電子病歷中的文本信息,探討高血壓疾病對腎臟疾病的影響。龔軍等[6]使用logistic、隨機森林、神經網絡等多種算法構建高血壓風險分類模型,發現XGBoost模型的診斷精度最高。支持向量機和神經網絡在處理非線性問題上都有其獨特優勢,然而支持向量機算法會隨著數據規模的增大而計算變得低效。神經網絡在建立模型時需要大量的參數,其輸出結果通常難以解釋,更適合對非結構化數據進行建模。本文使用LightGBM集成算法構建高血壓風險預測模型。為了進一步提升模型性能,利用自適應粒子群算法對LightGBM算法進行優化,以精準定位高血壓的致病因素,輔助醫療人員通過早期干預降低其發病率。

1 APSO_LightGBM模型

1.1 LightGBM模型

1.1.1梯度提升決策樹梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是一種以回歸樹為基學習器的集成算法。同時,它也是一個加法模型,即所有基學習器的線性組合作為其最終的結果。該算法可以用于解決回歸問題與分類問題,其思想是在每次迭代中通過擬合負梯度作為殘差的近似值來學習一個基學習器。GBDT的主要計算成本在于學習決策樹。由于決策樹在計算分割節點的信息增益時會對每個特征遍歷所有數據點,隨著樣本量與特征維度的增大,其計算代價也會成比例上升。

1.1.2LightGBM算法LightGBM是一種基于GBDT的算法,由微軟團隊于2017年提出[7]。為了解決GBDT在計算復雜度上的問題,可以從兩個角度進行改進——減少特征數和減少訓練樣本數。基于這個思想,LightGBM提出了單邊梯度采樣(GOSS)和互斥特征捆綁(EFB)兩種策略,在保證模型精度的同時,提升了模型的計算速度。

GOSS算法保留所有梯度較大的樣本,并對剩下梯度樣本進行隨機采樣,這樣可以在不改變數據分布的同時,使得訓練誤差大的樣本得到更大的關注。在GBDT算法中,信息增益通常是通過分裂后的方差來度量的,假設O為單棵決策樹一個固定節點內的數據集,此節點處特征j在分割點d的信息增益定義為:

(1)

(2)

EFB算法的思想是將很多互斥特征捆綁成少量的稠密特征?;コ馓卣髦傅氖遣煌瑫r取非零值的特征。高維數據通常具有稀疏的特點,并且在稀疏特征空間中,許多特征是互斥的,通過EFB算法可以減少很多針對特征取值為0的多余運算。

1.2 APSO_LightGBM模型

1.2.1自適應粒子群優化算法粒子群優化算法(Adaptive Partical Swarm Optimization, APSO)是一種生物啟發式算法,它被通常認為是群集智能算法的一種,其思想是通過模擬鳥群捕食的行為——即模擬其集體協作的方式——尋找最優解[8]。在搜尋食物的過程中,食物附近的鳥會向其他的鳥傳遞位置信息,使得整個鳥群都能聚集到食物附近。該算法中,鳥被抽象為沒有質量的粒子,且僅具有速度和位置兩個屬性。

PSO算法先隨機地初始化一群粒子,即事先給定這群粒子的初始速度與初始位置,并定義適應度函數。粒子在搜索空間中運動受到其自身過去最佳位置的影響以及整個群體過去最佳位置的影響,在兩個最佳位置的引導下,種群逐漸收斂,慢慢靠近最優解。粒子i在n維空間中的速度和位置:

(3)

式中:k表示當前迭代次數;c1和c2稱為學習因子,是兩個正數;r1與r2是[0,1]范圍內生成的兩個隨機數;vij表示粒子i在維度j上的速度;xij表示粒子i在維度j上的位置。粒子i到達過的最佳位置表示為pi=(pi1,pi2,…,pin)T,整個群體所有粒子達到的最佳位置表示為pg=(pg1,pg2,…,pgn)T。

PSO算法參數少并且操作簡單,是目前較為實用的優化算法之一,但是其存在收斂速度慢且容易陷入局部極值等缺點。針對上述問題,Shi[9]引入了慣性權重的概念,將之作為一個平衡因子。當慣性權重的值較大時,粒子有更好的全局搜索能力;其值較小時,粒子有更好的局部搜索能力。慣性權重因子記為ω,速度

(4)

為了進一步提升PSO的性能,本文提出一種自適應粒子群優化算法,自適應主要體現在尋找合適的慣性權重因子,改進策略如下。

1)先對第t次迭代的所有粒子求其適應值。若適應度函數期望取得最大值,就將所有粒子適應值按大小降序排序;若適應度函數期望取得最小值,就將粒子按適應值升序排序。隨后將所有粒子分成兩半,并計算每一部分的平均值,分別記為favg1,favg2。

2)將每一個粒子適應值與favg1、favg2進行比較。若優于favg1,則認為粒子已趨近全局最優,此時慣性權重ω取0.2;若次于favg2,則認為該粒子仍離全局最優值較遠,此時慣性權重ω取0.9,利于其進行全局搜索;若在兩者之間,則ω在[0.4,0.6]之間隨機取值。

1.3 APSO_LightGBM模型

LightGBM算法超參數較多,選取不同的超參數會直接影響最后的模型預測結果。目前常見的超參數優化方法包括網格搜索法與隨機搜索法。

網格搜索是目前最普遍的超參數優化算法,通過對各種需要優化的超參數組合空間進行暴力搜索來尋找使得目標函數達到最佳的那組超參數。然而,網格搜索法并不適用于連續參數空間,并且隨著超參數的增多,其搜索空間大小會呈指數型增長,相當耗費時間。

與網格搜索相比,隨機搜索并未嘗試所有參數值,而是通過對搜索范圍的隨機取樣選取超參數,因此隨機搜索一般會比網格搜索要快一些,但是它高度依賴初始值。Bergstra[10]在實驗中證明了參數優化時隨機搜索比網格搜索更有效。

APSO_LightGBM可以很好地解決上述問題,其偽代碼如圖1所示。其中M為種群數量,K為迭代次數,c1與c2為學習因子,需要優化的參數個數為N。

圖 1 APSO_LightGBM偽代碼

2 實證分析

為了驗證APSO_LightGBM在高血壓風險預測上的性能,使用美年大健康有限公司2018年公開的體檢數據集進行研究。數據集提供收縮壓、舒張壓的值作為高血壓患病的評估標準。對數據進行統計,共計有47749條數據,2800個變量,每個變量代表一個體檢項目。

2.1 數據預處理

首先對數據進行初步篩選,將缺失值達到95%的特征刪除,并且刪除僅有單一值的特征。完成初步篩選后,特征數從2800減到了378。

因為數據中存在著較多的文本特征,而文本特征與數值類特征需要進行不同的處理,因此需要先對特征進行分離,分離的過程如圖2所示。對于數值型特征,先進行異常值處理,超過上四分位1.5倍IQR距離的樣本點為異常值,對其進行刪除,并將缺失值用均值填充;對于文本類特征,短文本提取關鍵字并直接進行編碼,長文本使用Doc2Vec方法進行處理,并設置其向量維度為5,缺失值使用null字符進行填充。最后對數據進行整理,預處理之后的數據一共包含38191條數據,790個特征。

圖 2 特征分離流程

2.2 特征選擇

在機器學習中,訓練數據的維度并不是越高越好,高維度必然伴隨著高計算復雜度,且并不是所有的特征都與預測結果相關,一些不相關的變量會對模型預測效果起到負面影響[11],適當的特征選擇會提高模型的效率與精度。采用了遞歸特征消除(RFE)[12]與交叉驗證結合的方式(RFECV)進行特征選擇。遞歸特征消除的思想是使用一個基模型來進行多輪訓練,每輪訓練后,移除特征重要性較低的一部分特征,再基于新的特征集進行下一輪訓練。由于每一輪去除的特征中可能保留部分有效信息,所以模型在特征選擇后的數據集上的表現可能會差于原數據集。對收縮壓與舒張壓建立預測模型,并分別對兩個模型進行特征選擇,選擇使得得分最高的一些特征。表1為各預測模型對應的特征數。

表1 各預測模型對應的特征數

2.3 超參數優化

LightGBM有較多的超參數,不同的超參數對模型起到不同的作用。本文選取LightGBM模型的6項主要參數。對于傳統尋參方法存在的缺陷,本文提出自適應粒子群優化算法尋找其最佳參數。

根據粒子群優化算法的特點以及數據集的大小,設置初始種群數為100,每個個體包含6個參數,參數在所給范圍內隨機生成;設置進化次數為50,以均方誤差作為適應度函數,設置學習因子c1與c2的值為1.5。優化過程如圖3所示。可以發現,相比原始的PSO優化算法,APSO算法收斂得更快,并且表現出更好的全局搜索能力。

(a)收縮壓模型參數優化過程

(b)舒張壓模型參數優化過程圖 3 粒子群優化算法尋找超參數

2.4 實驗結果及分析

采用python語言對數據進行分析,以收縮壓、舒張壓為預測指標分別建立對應的預測模型。

2.4.1驗證RFECV合理性體檢數據是一個高維數據。為了降低其維度,使用RFECV進行特征選擇。為了驗證該算法的有效性,實驗使用經過RFECV算法選擇后的特征進行模型訓練,并將其與原始特征訓練的模型進行對比。模型均使用默認超參數,并以5折交叉驗證的方式進行訓練。兩者在時間與精度上的對比如表2所示,表格中的平均均方誤差指的是兩個模型均方誤差的平均值,運行時間指的是兩個模型訓練的總時間。實驗分析可得,使用RFECV降維后,模型在時間效率上提高了31.8%,而在評估指標上只下降了0.37%,所以使用RFECV方法進行特征選擇是合理的。

表2 RFECV特征選擇前后性能對比

2.4.2驗證APSO算法的優越性由于特征選擇后可以大大降低計算成本,且對模型的精度不會有太大的影響,所以超參數的優化實驗都是基于RFECV選擇后的特征。為了驗證自適應粒子群優化算法的優越性,實驗同時使用網格搜索與隨機搜索兩種傳統方式對超參數進行優化,最后將三者的結果進行對比。由于網格搜索會消耗大量的時間成本,所以本次對比實驗只選用了收縮壓預測模型,實驗中優化的參數空間如表3所示。

表3 參數空間

將APSO_LightGBM與網格搜索、隨機搜索以及LightGBM的默認參數進行對比,不同的優化方法選擇相同范圍的參數空間,并使用運行時間與均方誤差MSE作為評估指標。由于APSO算法設置了種群大小為100,50次的進化,即相當于5000次迭代,故將隨機搜索的迭代次數也設置為5000以方便對比。實驗結果如表4所示,表中網格搜索的運行時間為其搜索完待選參數空間所需的時間,隨機搜索的運行時間為其迭代5000輪的時間,APSO的運行時間為其精度不再變化后的時間,即完成收斂所需的時間。參數列表的順序為learning_rate、feature_fraction、bagging_fraction、bagging_freq、num_leaves和min_data_in_leaf。

從表4中的數據看出,網格搜索雖然有精度上的提升,但是會花費大量的時間成本;隨機搜索的運行時間相比網格搜索大大減少了,而且在精度上也比網格搜索略好一些;自適應粒子群優化算法相比網格搜索與隨機搜索,在精度上有顯著的提升,而且運行時間遠遠小于網格搜索與隨機搜索,所以使用自適應粒子群優化算法尋找超參數是有效的。

2.4.3驗證APSO_LightGBM算法的有效性為了驗證APSO_LightGBM模型對高血壓風險預測的有效性,選擇線性回歸、決策樹、支持向量機以及LightGBM與其進行對比分析。采用MAE(平均絕對誤差)、MSE(均方誤差)和R-squared(決定系數)作為模型的評價指標,其中MAE與MSE兩個評價指標用于評估真實值與預測值之間的差異,數值越小代表預測越準確,R-squared用于評估模型的解釋度,數值越大,說明模型解釋性越強。實驗結果如表5所示,其中的數值為兩個預測模型對應指標的平均值。可以發現APSO_LightGBM的預測精度優于其他模型,并且在解釋性上也得到了增強。

表5 算法對比

3 結果與分析

通過驗證,APSO_LightGBM算法性能最優。圖4給出了基于該算法的兩個預測模型最相關的15項文本特征。結果顯示,收縮壓、舒張壓與心率、是否具有病史、肝功能、甲狀腺、子宮以及前列腺等的健康程度呈高度相關。有研究表明,高血壓與血清甲狀腺激素有著密切的關系[13];對前列腺增生實施藥物或者手術干預能在一定程度上降低血壓[14];子宮內膜異??赡軐е禄几哐獕旱娘L險增高[15]。從本文研究結果可以看出,模型得到的重要性特征與醫學結果大部分契合。因此心率不齊、甲狀腺功能低下、子宮或是前列腺異常、肝膽疾病的患者或曾有類似病史的人群通過早期檢測這些強重要性特征,可以實現高血壓的精準預防。

(a)收縮壓

(b)舒張壓圖 4 收縮壓與舒張壓模型特征重要性排名

4 結論

本文提出一種基于集成算法LightGBM的高血壓風險預測模型,并根據體檢數據指標冗余的問題,引入RFECV算法進行特征選擇,實驗表明其在降低維度的同時保證了模型的精度。此外,為了提升模型的性能,引入自適應粒子群優化算法尋找最優超參數。結果表明,改進的模型相比傳統的超參數優化算法性能有很大的提升,并且比常用的線性回歸、決策樹和SVM方法有更好的預測精度。APSO_LightGBM模型結合了自適應粒子群算法的全局搜索能力和LightGBM算法的高效性與廣泛性,除了本文的應用場景外,該模型還可以應用于其他疾病的預測問題。但在實驗過程中,模型的運行時間比較長,降低自適應粒子群優化算法的計算復雜度有待進一步研究。接下來的工也會考慮優化LightGBM算法的損失函數,進一步提升模型精度。

猜你喜歡
高血壓特征優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
全國高血壓日
西部醫學(2021年10期)2021-10-28 08:25:50
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何把高血壓“吃”回去?
基層中醫藥(2018年4期)2018-08-29 01:25:58
高血壓,并非一降了之
基層中醫藥(2018年6期)2018-08-29 01:20:14
抓住特征巧觀察
主站蜘蛛池模板: 久久久久九九精品影院| 欧美激情一区二区三区成人| 91精品国产综合久久不国产大片| 国产99视频精品免费观看9e| 免费一级成人毛片| 国产成人成人一区二区| 五月婷婷中文字幕| 2021天堂在线亚洲精品专区| 亚洲日韩高清在线亚洲专区| 国产精品偷伦视频免费观看国产| 性欧美在线| 亚洲男人天堂2018| 91精品久久久久久无码人妻| 白浆免费视频国产精品视频| 欧美精品aⅴ在线视频| 亚洲香蕉伊综合在人在线| 亚洲欧美在线综合图区| 国产成人在线无码免费视频| 欧美激情二区三区| 1级黄色毛片| 国产女人在线观看| 国产精品片在线观看手机版| 9966国产精品视频| 中国精品久久| 午夜色综合| 在线亚洲天堂| 成色7777精品在线| 国产不卡网| 欧美天堂在线| 国产成人亚洲精品蜜芽影院| 在线观看欧美精品二区| 四虎永久在线| 东京热一区二区三区无码视频| 中文字幕在线播放不卡| 超级碰免费视频91| 欧美一级高清视频在线播放| 99久久亚洲综合精品TS| 国产精品专区第一页在线观看| 另类重口100页在线播放| av在线手机播放| 国产精品国产主播在线观看| 91在线一9|永久视频在线| 精品国产一区二区三区在线观看| 午夜福利网址| 在线看片中文字幕| 国产特级毛片| 国产成人精品18| 国产在线精品美女观看| 91免费国产高清观看| 国产对白刺激真实精品91| 午夜不卡福利| 日韩大片免费观看视频播放| 国产青榴视频在线观看网站| 国产精品免费久久久久影院无码| 91成人试看福利体验区| 97视频免费在线观看| 欧美日韩在线成人| 青草视频免费在线观看| 爆操波多野结衣| 午夜精品久久久久久久无码软件 | 国产本道久久一区二区三区| 精品国产污污免费网站| 制服丝袜在线视频香蕉| 一本大道视频精品人妻| 免费全部高H视频无码无遮掩| 国产高清不卡| 国产成人1024精品| 欧美激情伊人| 97国产精品视频自在拍| 蜜桃视频一区二区| 国产免费网址| 久久久精品国产SM调教网站| 精品夜恋影院亚洲欧洲| 91在线精品麻豆欧美在线| 国产午夜不卡| 久久99国产综合精品女同| 国内视频精品| 亚洲无码久久久久| 国产精鲁鲁网在线视频| 日本爱爱精品一区二区| a天堂视频| 亚洲精品天堂在线观看|