基于集成學(xué)習(xí)的肺癌存活性預(yù)測(cè)分析

2022-01-04 15:05:02李秀芹李琳張慢麗

軟件工程 2022年1期

李秀芹李琳張慢麗

摘? 要：在我國(guó)，惡性腫瘤死亡率最高的就是肺癌。為了提高肺癌存活性預(yù)測(cè)的準(zhǔn)確性，本研究以隨機(jī)森林（Random Forest）、LightGBM（Light Gradient Boosting Machine）和CatBoost（Categorical Boosting）三種算法為基模型，通過(guò)線性回歸集成融合構(gòu)建RF-LGC肺癌存活性預(yù)測(cè)模型，運(yùn)用分層十折交叉驗(yàn)證方法進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示，RF-LGC組合模型的預(yù)測(cè)精度達(dá)到了98.0242%，比單一的基模型提高了0.2%;敏感性達(dá)到了89.3957%，比單一的基模型提高了3%;特異性達(dá)到了78.4848%，比單一的基模型提高了1%。因此，該集成融合模型是一種精確、方便的肺癌存活性預(yù)測(cè)模型。

關(guān)鍵詞：集成學(xué)習(xí);隨機(jī)森林;十折交叉驗(yàn)證;癌癥預(yù)后

中圖分類號(hào)：TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：2096-1472（2022）-01-41-06

Abstract： In China， lung cancer has the highest mortality rates among all of the malignant tumors. In order to improve the accuracy of lung cancer survival prediction， this paper proposes to use linear regression integration and fusion to build a lung cancer survival prediction model RF-LGC， which is based on three algorithms — Random Forest， LightGBM （Light Gradient Boosting Machine） and CatBoost （Categorical Boosting）. Simulation experiments are carried out by using the hierarchical ten-fold cross-validation method. Experimental results show that the prediction accuracy of the RF-LGC combined model reaches 98.0242%， which is 0.2% higher than that of a single-based model; the sensitivity has reached 89.3957%， which is 3% higher than the single-based model; the specificity has reached 78.4848%， which is 1% higher than the single-based model. Therefore， the integrated fusion model is an accurate and convenient lung cancer survival prediction model.

Keywords： ensemble learning; random forest; ten-fold cross validation; cancer prognosis

1? ?引言（Introduction）

2021年最新的癌癥死亡率調(diào)查顯示，男性和女性前十大癌癥死亡率中肺癌均占第一位，約為22%。另外，在確診五年后，肺癌的生存率只有15%，因此生存分析在醫(yī)學(xué)研究中是最常見的課題之一。為了預(yù)測(cè)癌癥的存活性，一些相關(guān)變量被用來(lái)表明考慮因素，如死亡或疾病的復(fù)發(fā)是否已經(jīng)在特定的時(shí)間內(nèi)發(fā)生[1]。預(yù)測(cè)模型必須估計(jì)病人在診斷后是否能存活一段特定的時(shí)間[2]。癌癥存活性預(yù)測(cè)是一項(xiàng)非常重要的工作，疾病預(yù)后準(zhǔn)確性越高，醫(yī)療方面的決策就會(huì)越精準(zhǔn)，進(jìn)而也會(huì)提高治療效果和效率。所以，提高癌癥存活性預(yù)測(cè)的準(zhǔn)確性非常重要。

醫(yī)院大部分使用統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行回顧性分析，但對(duì)癌癥預(yù)后的研究很少。現(xiàn)今機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展使得前瞻性的疾病預(yù)測(cè)成為可能，一些大數(shù)據(jù)算法在醫(yī)療領(lǐng)域有了很好的應(yīng)用，如隨機(jī)森林[3-4]、人工神經(jīng)網(wǎng)絡(luò)[5-6]和支持向量機(jī)[7-8]等。王月等人利用最大最小爬山算法預(yù)測(cè)了五年后肺癌患者的生存情況[9];王宇燕等人運(yùn)用遺傳算法改進(jìn)隨機(jī)森林，構(gòu)建GA-RF模型預(yù)測(cè)直腸癌的存活性[1];譚鈺潔等人利用LASSO回歸分析來(lái)建立Ⅳ期乳腺癌的生存預(yù)測(cè)模型[10];殷子博基于決策樹算法構(gòu)建癌癥合成基因組的預(yù)后相關(guān)模型[11]。

機(jī)器學(xué)習(xí)在醫(yī)療大數(shù)據(jù)研究方向上通常都是基于單一預(yù)測(cè)模型算法進(jìn)行優(yōu)化改進(jìn)的，運(yùn)行時(shí)間較長(zhǎng)，泛化性差，很難達(dá)到理想的預(yù)測(cè)精度。本文運(yùn)用集成融合思想，將好而不同的集成算法進(jìn)行組合，融合單一基模型的優(yōu)點(diǎn)，通過(guò)混合模型來(lái)彌補(bǔ)單一預(yù)測(cè)模型的驅(qū)動(dòng)性不足。基于此，本研究以隨機(jī)森林、LightGBM和CatBoost三種算法為基模型，提出構(gòu)建集成學(xué)習(xí)融合RF-LGC模型來(lái)預(yù)測(cè)肺癌患者的存活性。

2? 肺癌預(yù)測(cè)模型RF-LGC的構(gòu)建（Construction of lung cancer prediction model RF-LGC）

2.1? ?數(shù)據(jù)來(lái)源及變量選擇

本實(shí)驗(yàn)所使用的數(shù)據(jù)是來(lái)自美國(guó)SEER（The Surveillance，Epidemiology，and End Results）數(shù)據(jù)庫(kù)中的肺癌數(shù)據(jù)，它收錄了美國(guó)各個(gè)州幾十年來(lái)的癌癥病例相關(guān)信息，并且被認(rèn)為是全世界相關(guān)癌癥機(jī)構(gòu)的質(zhì)量標(biāo)準(zhǔn)[12]。每個(gè)文件有149 個(gè)屬性，每個(gè)屬性記錄都與特定的癌癥發(fā)病率有關(guān)。本實(shí)驗(yàn)在了解肺癌的相關(guān)資料，進(jìn)行SEER數(shù)據(jù)庫(kù)的初始預(yù)處理和數(shù)據(jù)清洗后，在數(shù)據(jù)集中選取了23 個(gè)屬性，如表1所示。

對(duì)于肺癌存活性預(yù)測(cè)，以五年后生存情況作為評(píng)價(jià)指標(biāo)，選擇患者術(shù)后生存情況為結(jié)果變量，即若患者生存狀況為“survive”則記錄為1，生存狀況為“dead”記錄為0。

2.2? ? 隨機(jī)森林模型分析

隨機(jī)森林屬于Bagging算法，它通過(guò)Bootstrap（自助法）進(jìn)行重采樣，具有模型隨機(jī)性強(qiáng)、不易過(guò)擬合、抗噪性強(qiáng)等優(yōu)點(diǎn)。此外，它呈樹形結(jié)構(gòu)，模型可解釋度高，能夠執(zhí)行回歸和分類任務(wù)[13]，同時(shí)它也是一種數(shù)據(jù)降維手段。該算法可定義如下：

（1）預(yù)設(shè)模型的超參數(shù)，設(shè)置決策樹的個(gè)數(shù)、樹的節(jié)點(diǎn)層數(shù)。

（2）對(duì)訓(xùn)練集隨機(jī)采樣生成決策樹，然后進(jìn)行訓(xùn)練，在決策樹選擇特征時(shí)，應(yīng)選擇基尼指數(shù)增益值最大的特征，作為該節(jié)點(diǎn)分裂條件，如式（1）所示：

（3）輸入測(cè)試樣本到每個(gè)樹中，再將每個(gè)樹的結(jié)構(gòu)進(jìn)行整合。對(duì)于分類問(wèn)題，按多棵樹分類器投票決定最終分類結(jié)果;對(duì)于回歸問(wèn)題，由多棵樹預(yù)測(cè)值的均值決定最終預(yù)測(cè)結(jié)果。

2.3? ?LightGBM模型分析

LightGBM屬于Boosting算法，是一種提升算法模型，它是一個(gè)實(shí)現(xiàn)GBDT（Gradient Boosting Decision Tree）算法的框架。GBDT屬于決策樹的加法模型，如式（2）所示：

其中，表示決策樹的參數(shù)，表示決策樹;是決策樹的個(gè)數(shù)，依據(jù)算法地向前分布，第步可以表示為式（3）：

設(shè)是第個(gè)樣本的真實(shí)值，是其預(yù)測(cè)值，則損失函數(shù)可以表示為式（4）：

利用式（5）損失函數(shù)極小化得到參數(shù)：

通過(guò)多次迭代，回歸樹更新得到最終模型。LightGBM通過(guò)部分樣本計(jì)算信息增益，降低了每次拆分增益的成本;并且內(nèi)置特征降維技術(shù)，降低內(nèi)存使用，處理困難樣本能力強(qiáng);使用葉子節(jié)點(diǎn)直方圖進(jìn)一步加速計(jì)算;LightGBM支持高效并行，降低并行學(xué)習(xí)的通信成本。

2.4? ?CatBoost模型分析

CatBoost是一種基于對(duì)稱決策樹為基學(xué)習(xí)器，實(shí)現(xiàn)參數(shù)較少、支持類別型變量和高準(zhǔn)確性的機(jī)器學(xué)習(xí)框架，使用了組合類別特征，豐富了特征維度;采用排序提升的方法對(duì)抗訓(xùn)練集中的噪聲點(diǎn)，從而避免梯度估計(jì)的偏差，它將樣本的二進(jìn)制特征存儲(chǔ)在向量中，葉子節(jié)點(diǎn)中的值存儲(chǔ)在的向量中[14]。對(duì)于樣本，建立二進(jìn)制向量，如式（6）所示：

其中，是樣本上的特征的值，是二進(jìn)制特征的數(shù)目。構(gòu)建向量是以數(shù)據(jù)并行方式，使得速度高達(dá)三倍。

2.5? ?RF-LGC肺癌存活性預(yù)測(cè)模型的構(gòu)建

本文引入了集成學(xué)習(xí)法，集成學(xué)習(xí)不是一個(gè)特定的模型，而是一種思想，它結(jié)合了一組簡(jiǎn)單的基本模型的優(yōu)點(diǎn)，從而構(gòu)建一個(gè)相對(duì)更強(qiáng)大的模型。Bagging算法和Boosting算法是集成算法的兩大類，兩者存在異質(zhì)性，好而不同的算法融合集成起來(lái)會(huì)有更好的預(yù)測(cè)效果。Bagging算法的代表隨機(jī)森林簡(jiǎn)單穩(wěn)定，具有高維運(yùn)行數(shù)據(jù)的能力，抗噪性強(qiáng)，不易過(guò)擬合，但并不具備處理困難樣本的能力。Boosting算法的代表LightGBM是一種新型提升算法，可以并行計(jì)算優(yōu)化，但它屬于迭代算法，使得模型偏差比較低，對(duì)噪點(diǎn)較為敏感。CatBoost算法具有魯棒性，可以處理類別型、數(shù)值型特征，但對(duì)于類別型特征的處理需要大量的內(nèi)存和時(shí)間。本文綜合三者優(yōu)缺點(diǎn)，使彼此相輔相成，另外使用stacking的結(jié)合策略構(gòu)建RF-LGC模型，充分發(fā)揮每一個(gè)學(xué)習(xí)器的優(yōu)點(diǎn)，防止過(guò)擬合，而且不用過(guò)多地調(diào)參數(shù)，能夠有效預(yù)測(cè)肺癌存活性。

本文融合構(gòu)建的RF-LGC肺癌存活性預(yù)測(cè)模型如圖1所示，過(guò)程采用分層十折交叉驗(yàn)證，進(jìn)行stacking的結(jié)合策略。

（1）基于訓(xùn)練集訓(xùn)練模型。將90%的訓(xùn)練集分別輸入隨機(jī)森林、LightGBM和CatBoost三個(gè)基模型中，在訓(xùn)練模型LightGBM模型構(gòu)建過(guò)程中，目標(biāo)函數(shù)采用的是binary，評(píng)價(jià)函數(shù)采用的是AUC，目的是可以根據(jù)需要對(duì)評(píng)價(jià)函數(shù)作調(diào)整，設(shè)定一個(gè)或者多個(gè)評(píng)價(jià)函數(shù);CatBoost中eval_metrics參數(shù)設(shè)定為AUC;隨機(jī)森林模型采用Random Forest Classifier類構(gòu)造函數(shù)，并運(yùn)用Predict_proba（X）預(yù)測(cè)函數(shù)，同樣也采用AUC來(lái)計(jì)算訓(xùn)練后的模型某一指定指標(biāo)在每一輪迭代中的表現(xiàn)，得到訓(xùn)練集學(xué)習(xí)結(jié)果預(yù)測(cè)矩陣。

（2）將剩余10%的測(cè)試集，利用分層十折交叉驗(yàn)證，先基于三個(gè)基模型訓(xùn)練出的模型進(jìn)行測(cè)試，得到測(cè)試預(yù)測(cè)結(jié)果矩陣。

（3）同樣采用分層十折交叉驗(yàn)證，將步驟（1）訓(xùn)練集預(yù)測(cè)結(jié)果作為新的訓(xùn)練集樣本輸入線性回歸模型進(jìn)行訓(xùn)練，得到最終的訓(xùn)練集預(yù)測(cè)結(jié)果;將步驟（2）測(cè)試集預(yù)測(cè)結(jié)果作為新的測(cè)試集樣本輸入線性回歸模型進(jìn)行測(cè)試，得到最終預(yù)測(cè)結(jié)果。

基于本文的線性回歸模型，調(diào)用了LinearRegression包，采用最小二乘法線性回歸，通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配，我們可以通過(guò)殘差之和最小化實(shí)現(xiàn)最佳擬合，也就是說(shuō)模型預(yù)測(cè)的值與訓(xùn)練集的數(shù)據(jù)最接近，如式（7）所示：

最終，在實(shí)現(xiàn)最佳擬合過(guò)程中，利用AUC值來(lái)證明模型的可靠性，實(shí)驗(yàn)結(jié)果如表2所示，集成融合模型達(dá)到AUC最高，具有可行性。

3? 存活性預(yù)測(cè)實(shí)驗(yàn)分析（Experimental analysis of survival prediction）

3.1? ?分類性能評(píng)價(jià)標(biāo)準(zhǔn)

評(píng)估一個(gè)預(yù)測(cè)模型，需要用合適的衡量手段，對(duì)于本文所研究的醫(yī)療診斷預(yù)測(cè)領(lǐng)域，選用的指標(biāo)為敏感性[15]、特異性[16]和準(zhǔn)確性[17]，另外使用了分層十折交叉驗(yàn)證[18]進(jìn)行模型準(zhǔn)確性測(cè)試。其中，敏感性評(píng)價(jià)患者被查出患病的可能性，如式（8）所示;特異性是對(duì)陰性者被正確排除患病可能性的評(píng)價(jià)，如式（9）所示;而準(zhǔn)確性是由特異性和敏感性一起決定的，從整體角度來(lái)判斷預(yù)測(cè)是否準(zhǔn)確。

其中，TP代表真正類[19]，F(xiàn)P代表假正類，TN代表真負(fù)類，F(xiàn)N代表假負(fù)類。以上三個(gè)評(píng)價(jià)指標(biāo)都是越大越好。分層十折交叉驗(yàn)證是估計(jì)分類方法精度的一種方法，目的是測(cè)試所采用分類方法的泛化能力[20]，解決數(shù)據(jù)不平衡性。分層十折交叉驗(yàn)證是把全部數(shù)據(jù)集分成基本一致的十個(gè)子集，然后對(duì)模型進(jìn)行十次訓(xùn)練、測(cè)試。每次使用九個(gè)不同的子集來(lái)訓(xùn)練模型，剩下的一個(gè)作為測(cè)試集。之后將十次計(jì)算的正確率取均值作為本方法的估計(jì)精度值。分層十折交叉驗(yàn)證的正確率公式如式（10）所示：

其中，是第折計(jì)算得到的正確率。通過(guò)分層十折交叉驗(yàn)證計(jì)算得到的正確率，可以知道模型在整體上的性能情況，另外通過(guò)計(jì)算其平均值和標(biāo)準(zhǔn)差，比較不同模型的穩(wěn)定性。

3.2? ?實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)為了驗(yàn)證提出的集成模型具有更好的存活性預(yù)測(cè)性能，將集成融合RF-LGC模型分別與單一的隨機(jī)森林、LightGBM和CatBoost模型進(jìn)行對(duì)比。表3是對(duì)肺癌數(shù)據(jù)分類的實(shí)驗(yàn)結(jié)果，包括四種模型在肺癌數(shù)據(jù)集上進(jìn)行分層十折交叉驗(yàn)證運(yùn)算得到的各項(xiàng)指標(biāo)、標(biāo)準(zhǔn)差和均值。

從表3中可以看到，隨機(jī)森林、LightGBM、CatBoost和集成模型RF-LGC這四種模型敏感性的均值分別是0.863338、0.872936、0.898075、0.893957，特異性的均值分別是0.774608、0.790723、0.780762、0.784848，準(zhǔn)確性的均值分別是0.978158、0.979854、0.980033、0.980242，可以看出這三個(gè)指標(biāo)在模型中的均值屬集成模型RF-LGC最高，次之是CatBoost;四種模型的敏感性標(biāo)準(zhǔn)差分別是0.020570、0.020015、0.025285、0.023157，特異性標(biāo)準(zhǔn)差分別是0.024972、0.017865、0.024759、0.017315，準(zhǔn)確性標(biāo)準(zhǔn)差分別是0.002559、0.002003、0.002390、0.001904，可以看出這三個(gè)指標(biāo)在模型中的標(biāo)準(zhǔn)差屬集成模型RF-LGC最低，次之是CatBoost。

為了更直觀地展示集成模型RF-LGC的優(yōu)越性，我們以圖形的方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行展示。圖2以折線圖來(lái)展示這四種模型在分層十折交叉驗(yàn)證中的敏感性值，圖3和圖4分別是特異性和準(zhǔn)確性折線圖。從圖2中可以看出，由于正類樣本在驗(yàn)證中分布不均，敏感性的值變化較大，CatBoost和集成模型RF-LGC優(yōu)劣難分，二者在整體上都要優(yōu)于LightGBM，次之是隨機(jī)森林。從圖3中可以看出，集成RF-LGC模型的波動(dòng)與LightGBM、CatBoost大致相似，LightGBM的特異性優(yōu)于RF-LGC模型，RF-LGC模型的特異性優(yōu)于CatBoost。隨機(jī)森林波動(dòng)過(guò)大，其穩(wěn)定性相對(duì)于其三個(gè)模型較差。從圖4中可以看出，在準(zhǔn)確性上可以排序?yàn)椋杭赡Ｐ蚏F-LGC優(yōu)于CatBoost，CatBoost優(yōu)于LightGBM，LightGBM優(yōu)于隨機(jī)森林。從以上分析結(jié)果可以看出，本研究所提出的集成模型得到的三個(gè)指標(biāo)的均值都大于各個(gè)基模型，而標(biāo)準(zhǔn)差也都更小，證明了該模型的泛化能力更強(qiáng)。

本研究所構(gòu)建的集成融合模型不僅準(zhǔn)確性最高，而且表現(xiàn)出了更好的穩(wěn)定性和泛化性，敏感性和特異性均值分別達(dá)到了0.893957和0.784848，這兩者也共同為準(zhǔn)確性提供了較高的均值，達(dá)到了0.980242，因此本研究提出的模型能夠達(dá)到較好的預(yù)測(cè)結(jié)果，能夠有效地協(xié)助醫(yī)療領(lǐng)域做出相應(yīng)的決策。

4? ?結(jié)論（Conclusion）

本文提出了一種肺癌存活性預(yù)測(cè)的集成融合模型。該模型基于集成學(xué)習(xí)兩大類不同的機(jī)器學(xué)習(xí)技術(shù)，充分發(fā)揮各個(gè)模型的優(yōu)點(diǎn)，能夠捕獲數(shù)據(jù)中的復(fù)雜模式，高效而簡(jiǎn)潔，再利用線性回歸來(lái)融合構(gòu)建模型，增強(qiáng)了各個(gè)基模型的穩(wěn)定性。本文使用了真實(shí)的肺癌數(shù)據(jù)，且結(jié)果表明所提出的集成模型能夠達(dá)到理想的預(yù)測(cè)精度，穩(wěn)定性和泛化能力都較強(qiáng)，因此能夠推廣到醫(yī)療領(lǐng)域?yàn)榘┌Y病人預(yù)后預(yù)測(cè)提供決策，以彌補(bǔ)傳統(tǒng)經(jīng)驗(yàn)預(yù)測(cè)帶來(lái)的不足，降低醫(yī)療成本，對(duì)癌癥的治療和預(yù)測(cè)都具有很大的現(xiàn)實(shí)意義。

參考文獻(xiàn)（References）

[1] 王宇燕，王杜娟，王延章，等.改進(jìn)隨機(jī)森林的集成分類方法預(yù)測(cè)結(jié)直腸癌存活性[J].管理科學(xué)，2017，30（1）：95-106.

[2] 郭占芳，張紅武，楊如意，等.益氣復(fù)脈對(duì)中晚期肺癌患者免疫功能和生存質(zhì)量的影響[J].中國(guó)現(xiàn)代醫(yī)學(xué)雜志，2017，27（6）：88-92.

[3] CHEN H， LIN Z， WU H G， et al. Diagnosis of colorectal cancer by near-infrared optical fiber spectroscopy and random forest[J]. Spectrochimica Acta Part A： Molecular and Biomolecular Spectroscopy， 2015， 135A：185-191.

[4] AZAR A T， ELSHAZLY H I， HASSANIEN A E， et al. A random forest classifier for lymph diseases[J]. Computer Methods and Programs in Biomedicine， 2014， 113（2）：465-473.

[5] DEVI M A， RAVI S， VAISHNAVI J， et al. Classification of cervical cancer using artificial neural networks[J]. Procedia Computer Science， 2016， 89：465-472.

[6] LIN D， ATHANASIOS V V， TANG Y， et al. Neural networks for computer-aided diagnosis in medicine： A review[J]. Neurocomputing， 2016， 216（5）：700-708.

[7] 趙巒嘯，劉金水，姚云霞，等.基于隨機(jī)森林算法的陸相沉積烴源巖定量地震刻畫：以東海盆地長(zhǎng)江坳陷為例[J].地球物理學(xué)報(bào)，2021，64（2）：700-715.

[8] AZAR A T， EI-SAID S A. Performance analysis of support vector machines classifiers in breast cancer mammography recongnition[J]. Neural Computing and Applications， 2014， 24（5）：1163-1177.

[9] 王月，趙茂先.基于最大最小爬山算法的肺癌預(yù)后模型[J].山東科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，39（2）：105-110.

[10] 譚鈺潔，何子凡，余運(yùn)芳，等.首診Ⅳ期乳腺癌生存預(yù)測(cè)模型建立并驗(yàn)證：一項(xiàng)基于機(jī)器算法的研究[J].嶺南現(xiàn)代臨床外科，2020，20（3）：273-279.

[11] 殷子博.基于決策樹算法的癌癥合成致死基因組合的預(yù)測(cè)及預(yù)后分析[D].南京：南京郵電大學(xué)，2020.

[12] DELEN D， WALKER G， KADAM A. Predicting breast cancer survivability： A comparison of three data mining methods[J]. Artificial Intelligence in Medicine， 2005， 34（2）：113-127.

[13] 邱少明，楊雯升，杜秀麗，等.優(yōu)化隨機(jī)森林模型的網(wǎng)絡(luò)故障預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件，2021，38（2）：103-109，170.

[14] 蘇慶，林華智，黃劍鋒，等.結(jié)合CNN和Catboost算法的惡意安卓應(yīng)用檢測(cè)模型[J].計(jì)算機(jī)工程與應(yīng)用，2021，57（15）：140-146.

[15] 陳志君，朱振闖，孫仕軍，等.Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數(shù)[J].農(nóng)業(yè)工程學(xué)報(bào)，2021，37（5）：95-104.

[16] 扈文秀，蘇振興，楊櫟.基于隨機(jī)森林方法的投資者概念關(guān)注對(duì)概念指數(shù)收益預(yù)測(cè)及交易策略的研究[J].預(yù)測(cè)，2021，40（1）：60-66.

[17] 李昆明，厲文婕.基于利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行Stacking模型融合算法的電力非節(jié)假日負(fù)荷預(yù)測(cè)研究[J].軟件，2019，40（9）：176-181.

[18] 吳彤，李勇，葛瑩，等.利用Stacking集成學(xué)習(xí)估算柑橘葉片氮含量[J].農(nóng)業(yè)工程學(xué)報(bào)，2021，37（13）：163-171.

[19] MOLINA-MAYO C， HERNNDEZ-BORGES J， BORGES-MIQUEL T M， et al. Determination of pesticides in wine using micellar electrokinetic chromatography with UV detection and sample stacking[J]. Journal of Chromatography A， 2007， 1150（1/2）：348-355.

[20] 耿琪深，王豐華，金霄.基于Gammatone濾波器倒譜系數(shù)與鯨魚算法優(yōu)化隨機(jī)森林的干式變壓器機(jī)械故障聲音診斷[J].電力自動(dòng)化設(shè)備，2020，40（8）：191-196，224.

作者簡(jiǎn)介：

李秀芹（1967-），女，博士，教授.研究領(lǐng)域：計(jì)算機(jī)網(wǎng)絡(luò)，數(shù)據(jù)庫(kù)與信息處理.

李? ?琳（1995-），女，碩士生.研究領(lǐng)域：數(shù)據(jù)挖掘.

張慢麗（1994-），女，碩士生.研究領(lǐng)域：數(shù)據(jù)挖掘.

軟件工程2022年1期

軟件工程的其它文章: 基于物聯(lián)網(wǎng)的冷鏈運(yùn)輸管理信息系統(tǒng)設(shè)計(jì); 基于改進(jìn)CNN-LSTM的網(wǎng)絡(luò)入侵檢測(cè)模型研究; 一種簡(jiǎn)化門控結(jié)構(gòu)的增強(qiáng)序列文本語(yǔ)義匹配模型研究; 基于支持向量機(jī)的水質(zhì)評(píng)估模型研究; 基于改進(jìn)遺傳算法的閾值圖像分割方法; 基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站決策算法