鄒瓊,吳曦,張楊,萬毅,陳長生*
1.710032 陜西省西安市,空軍軍醫(yī)大學軍事預防醫(yī)學系軍隊衛(wèi)生統(tǒng)計學教研室 特殊作業(yè)環(huán)境危害評估與防治教育部重點實驗室
2.712046 陜西省咸陽市,陜西中醫(yī)藥大學公共衛(wèi)生學院
3.710032 陜西省西安市,空軍軍醫(yī)大學衛(wèi)勤訓練基地
糖尿病是最常見的人類疾病,已成為世界范圍內(nèi)重要的公共衛(wèi)生問題[1]。糖尿病腎病(DN)是2 型糖尿病(T2DM)常見的慢性微血管并發(fā)癥,也是世界范圍內(nèi)終末期腎病(ESRD)的主要原因。印度、中國及其他發(fā)展中國家受糖尿病影響的人數(shù)正在迅速增長,給患者和衛(wèi)生保健系統(tǒng)造成了世界性的負擔[2]。因此,實現(xiàn)DN 的早期診斷和治療,有助于預防或延緩其發(fā)生、發(fā)展,從而提高患者的預期壽命[3]。
為了更好地控制疾病的進程,診斷出更易患DN 的患者至關重要[3]。近年來,隨著數(shù)據(jù)挖掘的發(fā)展,機器學習在糖尿病研究中發(fā)揮著越來越重要的作用[4]。其中K 近鄰(KNN)、支持向量機(SVM)和反向傳播神經(jīng)網(wǎng)絡(BPNN)模型是常見的數(shù)據(jù)挖掘模型。與SVM 等傳統(tǒng)的機器學習算法相比,BP 神經(jīng)網(wǎng)絡具有良好的非線性映射能力、自適應性、容錯性等優(yōu)點[5],但在實際應用中也存在一定缺陷,如易陷入局部極小值、結果存在隨機性、網(wǎng)絡收斂速度慢等[6]。因此,有必要改進標準的BP 神經(jīng)網(wǎng)絡算法。麻雀搜索算法(SSA)是XUE 等[7]受麻雀覓食和反捕食行為啟發(fā)而提出的一種仿生智能優(yōu)化算法,因其具有良好的靈活性和全局尋優(yōu)能力,研究者們將其與BP 神經(jīng)網(wǎng)絡相結合以彌補其缺點,但目前多應用于電力工業(yè)、自動化技術等領域[8-9]。因此本研究將探索SSA 優(yōu)化的BP(SSA-BP)神經(jīng)網(wǎng)絡應用于DN 的診斷預測中,以期提升模型預測的準確率,或可為DN 的早期篩查和診斷治療提供理論依據(jù)/臨床參考。
數(shù)據(jù)來源于KHODADADI 等[10]公開的伊朗133例糖尿病患者的并發(fā)癥數(shù)據(jù)(https://data.mendeley.com/datasets/k62fdsnwkg/1)。數(shù)據(jù)集由133 例糖尿病患者(1型和2 型)的24 項信息組成:性別、年齡、BMI、糖尿病類型、糖尿病持續(xù)時間、空腹血糖(FBG)、糖化血紅蛋白(HbA1c)、低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、三酰甘油(TG)、治療類型、他汀類藥物類型、他汀類藥物劑量、神經(jīng)病變、腎病、視網(wǎng)膜病變、周圍血管疾病、心血管疾病、足部潰瘍、黎明效應、收縮壓(SBP),舒張壓(DBP)、累積阿托伐他汀當量,實際低密度脂蛋白膽固醇。依據(jù)既往文獻[10-12],提取了13 個可能與DN 患者相關的風險因素,變量賦值見表1。

表1 變量賦值說明Table 1 The description of variable assignment
剔除9 例1 型糖尿病患者,本研究納入的有效樣本量為124 例T2DM 患者,其中73 例患有DN。對年齡、糖尿病持續(xù)時間和BMI 連續(xù)變量離散化并編碼。以是否患DN 為因變量,分別用8∶2 和7∶3 的比例劃分訓練集和測試集。
將單因素分析(表2)中P<0.05 的變量納入LASSO回歸中進一步篩選并確定最終納入模型的變量,在訓練集上分別使用Logistic 回歸(LR)、KNN、SVM、BP 神經(jīng)網(wǎng)絡和SSA-BP 神經(jīng)網(wǎng)絡建立DN 預測模型,并在測試集上進行驗證。

表2 2 型糖尿病腎病患者相關危險因素的單因素分析Table 2 Univariate analysis of risk factors associated with type 2 diabetic nephropathy
1.4.1 LASSO 回歸是TIBSHIRANI[13]提出的一種著名的稀疏回歸方法。作為一種變量選擇方法,LASSO 回歸需要一個懲罰項來約束系數(shù)的大小,并最終將結構風險降至最低,防止“過擬合”發(fā)生[14]。篩選的方法主要包括lambda.min 和lambda.1se。因λ 到達一定值之后,繼續(xù)增加自變量個數(shù)并不能很顯著地提高模型性能,而lambda.1se(距離均方誤差一個標準誤時的λ 值)可給出一個具備優(yōu)良性能且自變量個數(shù)最少的模型[15]。
1.4.2 KNN 算法是一種監(jiān)督機器學習算法,可用于解決回歸和分類問題[16]。KNN 分類是最基本、最簡單的分類方法之一,在對數(shù)據(jù)分布知之甚少或一無所知的情況下,該方法是分類研究的首選方法之一。其不需要考慮模型構建的細節(jié),且模型中唯一可調(diào)整的參數(shù)是K[17]。其易于理解和實現(xiàn),但主要缺點是隨著使用中數(shù)據(jù)的大小增長,速度會明顯變慢[16]。
1.4.3 CORTES 等[18]于1995 年提出了SVM 模型。SVM 的常見的核函數(shù)種類有:線性、多項式、高斯和Sigmoid 核函數(shù)。優(yōu)點是泛化錯誤低,可獲得準確和穩(wěn)健的結果,適用于非結構化和半結構化數(shù)據(jù)集(如圖像和文本)。缺點是當用于大型學習任務時,對內(nèi)存和時間要求較高[19]。此外,對參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感,變量的權重在最終模型中難以解釋[20]。
1.4.4 BP 神經(jīng)網(wǎng)絡是根據(jù)誤差反向傳播算法訓練的多層前饋網(wǎng)絡,是應用較廣泛的神經(jīng)網(wǎng)絡模型之一。SSA在一定程度上改進了對優(yōu)化搜索空間的探索和利用,有效地避免了局部最優(yōu)問題[7]。在覓食過程中,麻雀被分為發(fā)現(xiàn)者、加入者和預警者。假設d 維空間中有N只麻雀,每只麻雀的位置為X=[x1,x2,…,xD],適應度值f=f(x1,x2,…,xD)[7]。該算法主要分為3 部分,通過3 個公式來進行更新[21]。首先,發(fā)現(xiàn)者的位置更新如公式(1):
式中t 表示當前迭代次數(shù),j=1,2,…,d,Xti,j表示迭代t 時第i 個麻雀的第j 維的值。itermax是最大迭代次數(shù)(常數(shù)),α是一個隨機數(shù)(α ∈(0,1])。R2(R2∈[0,1])和ST(ST ∈[0.5,1.0])分別表示預警值和安全值。Q 是服從正態(tài)分布的隨機數(shù)。L表示一個1×d 維的矩陣,其內(nèi)部每個元素都為1。
其次,加入者的位置更新如公式(2):
XP是發(fā)現(xiàn)者占據(jù)的最優(yōu)位置。Xworst表示當前全局最差位置。A+=AT(AAT)-1,A 表示 1 × d 的矩陣,其中每個元素隨機分配1或-1,A的轉置是AT。當i > n/2時,表明第i 個適應度值較差的加入者最有可能處于饑餓狀態(tài)。預警者一般占總種群的10%~20%,這些麻雀的初始位置是在種群中隨機生成的,其位置更新如公式(3):
式(3)中Xbest為當前全局最優(yōu)位置,代表種群中心的位置,并且在它周圍是安全的。β 是服從均值為0方差為1 的正態(tài)分布的隨機數(shù),作為步長控制參數(shù)。K(K ∈[-1,1])是一個隨機數(shù),表示麻雀移動的方向,也是一個步長控制參數(shù)。fi是當前麻雀的適應度值,fg和fw分別是當前全局最佳和最差適應度值,ε是常數(shù)[21]。圖1 是算法的流程圖。
采用SPSS 26.0 軟件進行統(tǒng)計學分析,以P<0.05 為差異有統(tǒng)計學意義。計數(shù)資料采用[例(%)]描述,兩組比較采用χ2檢驗。符合正態(tài)分布的計量資料以(±s)表示,兩組間比較采用兩獨立樣本t 檢驗。非正態(tài)分布的計量資料用M(QR)表示,兩組間比較采用Mann-Whitney 檢驗。采用R 4.2.2 軟件中的glmnet、kknn、e1071 程序包在訓練集上建立LASSO 回歸、KNN和SVM 模型。采用caret 程序包的dummyVars 函數(shù)對多分類變量進行啞變量處理。采用MATLAB 2022a 軟件構建BP 神經(jīng)網(wǎng)絡和麻雀搜索SSA-BP 的神經(jīng)網(wǎng)絡模型。最后在測試集上評價性能,由混淆矩陣計算出的準確度、精確度、靈敏度和特異度來判斷各模型的優(yōu)劣。
124 例研究對象中73 例(58.9%)被診斷為DN。
無DN 和患DN 患者的性別、治療類型、他汀類藥物類型比較,差異無統(tǒng)計學意義(P>0.05);無DN和患DN 患者的年齡、BMI、糖尿病持續(xù)時間、FBG、HbA1c、LDL、HDL、TG、SBP、DBP 比較,差異有統(tǒng)計學意義(P<0.05),見表2。
基于訓練集,以是否發(fā)生DN 為因變量,以單因素分析中有統(tǒng)計學意義的10 個變量為自變量進行LASSO回歸分析。多分類變量在納入模型前先進行啞變量化(10個自變量變?yōu)?3 個候選變量)。選擇10 倍交叉驗證下lambda.1se(lambda.1se=0.068 191 87)為模型最優(yōu)值(圖2),訓練集∶測試集=8∶2 時結果顯示,年齡、糖尿病持續(xù)時間、HbA1c、LDL 和SBP 是與DN 發(fā)生相關的5 個變量,訓練集∶測試集=7∶3 時結果顯示,年齡、BMI、糖尿病持續(xù)時間、LDL、HDL、SBP 和DBP 是與DN 發(fā)生相關的7 個變量。

圖2 LASSO 回歸變量篩選Figure 2 LASSO regression screening for variables
以是否發(fā)生DN 為因變量(賦值:否=0,是=1),以LASSO 回歸篩選出的變量為自變量進行LR 分析。多分類變量進行啞變量處理,因某些分類算法(如SVM、LR 和神經(jīng)網(wǎng)絡)在未縮放的數(shù)據(jù)上表現(xiàn)不佳[22],所以計量資料采用標準化公式歸一化處理成(0,1)區(qū)間的變量,進而建立LR 模型。訓練集∶測試集=8∶2 時,結果顯示糖尿病持續(xù) 時 間(OR=6.615,95%CI=1.263~42.533)、LDL(OR=3.647,95%CI=1.493~10.511)、SBP(OR=4.884,95%CI=1.863~17.332)是DN 的危險因素(P<0.05)。LR 模型表達式為Logit(P)=1.861+1.889×糖尿病持續(xù)時間+1.294×LDL+1.586×SBP(R2=0.767)。訓練集∶測試集=7∶3 時,糖尿病持續(xù)時間(OR=6.786,95% CI=1.154~54.104)、LDL(OR=5.834,95%CI=2.128~21.033)是DN 的危險因素(P<0.05),表達式為Logit(P)=-16.041+1.915×糖尿病持續(xù)時間+1.764×LDL(R2=0.739)。
以是否發(fā)生DN 為因變量(賦值:否=0,是=1)在訓練集上建立KNN 模型。利用Caret 包中train()函數(shù)的網(wǎng)格搜索法尋找K 的最佳參數(shù),K 的初始取值范圍為[2,15]。分別在訓練集∶測試集=8∶2 和7∶3 時,十折交叉驗證正確率最高時得到的最優(yōu)K 值分別為14和9。
以是否患DN 為因變量(賦值:否=0,是=1),LASSO 回歸篩選的變量為自變量(如表1)建立徑向基核函數(shù)支持向量機模型(kernel="radial")。利用R 軟件中的tune.svm()函數(shù)的網(wǎng)格搜索法來尋找最優(yōu)參數(shù),C 與γ 的初始取值范圍分別為[0.001,0.01,0.1,1,5,10,100,1 000]和[0.1,0.5,1,2,3,4]。在訓練集∶測試集=8∶2 和7∶3 時,十折交叉驗證錯誤率最低時的選出的最佳參數(shù)分別為C=10、γ=0.1 和C=1、γ=0.1。
考慮到訓練時間和模型復雜度,本研究建立3 層BP 神經(jīng)網(wǎng)絡模型。將樣本值進行歸一化處理,這有助于提高網(wǎng)絡的訓練速度。在訓練集∶測試集=8∶2 時,輸入層節(jié)點數(shù)(n)為5,輸出層節(jié)點數(shù)(m)為2。基于常用的經(jīng)驗公式[23]:[h=+a,a ∈(1,10)],根號7 為2.6,再加上a,則隱藏層節(jié)點范圍[3.6,12.6],則取[3,12]。同理在訓練集:測試集=7∶3時,n 為7,m 為2,隱藏層節(jié)點范圍則為[4,13]。經(jīng)多次試驗,在訓練集:測試集=8∶2 和7∶3 時,最佳隱藏層節(jié)點數(shù)分別為8 和12 時擬合效果最好,因此網(wǎng)絡拓撲結構分別設為5-8-2 和7-12-2。隱藏層及輸出層的激勵函數(shù)采用雙曲正切S 型函數(shù)及線性求和函數(shù):tansig(n)=2/(1+e-2n)-1;purelin(n)=n,訓練次數(shù)1 000 次,網(wǎng)絡訓練速率為0.01,訓練目標最小誤差為0.000 1,Levenberg-Marquardt 法為訓練算法,用梯度下降法更新權重。
參數(shù)初始化:SSA 的進化代數(shù)為50,種群規(guī)模為30,安全值ST 為0.6;發(fā)現(xiàn)者比例PD 為0.7,意識到有危險的麻雀的比重SD 為0.2;適應度函數(shù)設計為訓練集與測試集整體準確率的平均值,適應度函數(shù)值越大,表明模型訓練越準確,隨后計算個體適應度;更新發(fā)現(xiàn)者、加入者和預警者的位置;查看位置更新之后的個體適應度,并與當前最優(yōu)適應度值進行比較,達到最終止條件則選擇全局最優(yōu)解;否則,再次進行迭代;將模型輸出的最優(yōu)解作為神經(jīng)網(wǎng)絡的權值和閾值,代入BP 神經(jīng)網(wǎng)絡進行訓練,利用誤差反向傳播調(diào)節(jié)參數(shù),當達到最大迭代次數(shù)(1 000)或目標誤差(0.000 1)的時,訓練停止;將SSA 優(yōu)化后的BP 神經(jīng)網(wǎng)絡模型用于預測是否患DN。用均方誤差(MSE)表示模型性能,訓練集:測試集=8∶2 和7∶3 時,最終模型分別在迭代20 和5次處達到最優(yōu)。模型進化/適應度曲線表明模型在不斷優(yōu)化,最終達到最佳的適應度值(圖3)。

圖3 SSA-BP 神經(jīng)網(wǎng)絡模型的進化曲線Figure 3 Evolutionary curves of SSA-BP neural network model
基于測試集驗證上述模型的預測性能,各模型訓練集與測試集的結果見表3。在訓練集∶測試集=8∶2 時,KNN 模型和SVM 模型達到了同樣的性能,其在訓練集上優(yōu)于LR 模型,但在測試集上卻不如LR 模型。BP 模型在測試集上的準確率,靈敏度,F(xiàn)1-score 和受試者工作特征曲線下面積(AUC)優(yōu)于LR 模型,KNN 模型和SVM 模型,整體上SSA-BP 模型在訓練集和測試集上的性能優(yōu)于BP、LR、KNN、SVM 模型。

表3 機器學習模型在不同樣本拆分比例下預測DN 的準確率、精確率、靈敏度、特異度、F1-score 和AUCTable 3 Accuracy,precision,sensitivity,specificity,F(xiàn)1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios
在訓練集∶測試集=7∶3 時,LR 模型和KNN 模型在測試集上結果相同,但在訓練集上KNN 模型性能優(yōu)于LR 模型。LR、KNN、SVM 模型在測試集上具有相同的準確率,但SVM 模型的精確率,特異度和AUC 高于LR 模型和KNN 模型。不管在訓練集還是測試集上,LR、KNN、SVM 模型的效能優(yōu)于BP 網(wǎng)絡神經(jīng)網(wǎng)絡。SSA-BP 網(wǎng)絡神經(jīng)模型提高了BP 神經(jīng)網(wǎng)絡模型的性能,使得測試集上BP 神經(jīng)網(wǎng)絡模型的準確率從72.22%提升到了91.67%。
對比2 個劃分比例下的模型性能,發(fā)現(xiàn)LR、KNN、SVM 模型在訓練集∶測試集=7∶3 時預測性能較高,而BP 和SSA-BP 則在訓練集∶測試集=8∶2 時預測性能更高。這可能是BP 神經(jīng)網(wǎng)絡模型在處理大樣本數(shù)據(jù)時有優(yōu)勢,用于訓練的樣本越多,模型訓練越好(圖4)。

圖4 BP 神經(jīng)網(wǎng)絡優(yōu)化前后的預測值和真實值誤差對比圖Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization
目前,DN 仍然是21 世紀全球醫(yī)療保健的重大臨床挑戰(zhàn)和負擔。一項回顧性研究(含220 例中國T2DM患者)表明,年齡、糖尿病持續(xù)時間和SBP 與DN 發(fā)病風險獨立相關[24],另一項回顧性調(diào)查(含11 771 例T2DM 患者)顯示,較小年齡、高BMI 和更嚴重高血壓是增加DN 發(fā)病率的獨立危險因素[25],這與本研究結果一致。LASSO 回歸結果顯示,年齡和DN 發(fā)病呈負相關,說明年齡40~<60 歲者較年齡<40 歲者更不易患DN,可能因為2 型糖尿病在年輕人中更為常見,患有2 型糖尿病的年輕人表現(xiàn)出典型的一系列危險因素,如不良的生活習慣和環(huán)境因素導致的肥胖、胰島素抵抗、高血壓和血脂異常,這些也是DN 的風險因素[26]。而與本研究結果不同的是,國際糖尿病聯(lián)盟數(shù)據(jù)顯示糖尿病患病率隨年齡增長而增加,年齡范圍在65~79 歲人群的患病率為19.9%(1.112 億),達到最高[27],而RAVINDRAN 等[28]發(fā)現(xiàn)年齡與DN 之間沒有相關性。
高珍秀[29]證實了HbA1c、SBP 和脈壓的變異性是DN 發(fā)生發(fā)展的關鍵影響因子。今日研究小組發(fā)現(xiàn)與DN 等微血管并發(fā)癥發(fā)生風險增加相關的因素是高水平HbA1c[30]。有研究表明HbA1c升高是腎小球濾過率快速下降的危險因素[31]。英國前瞻性糖尿病研究[32]表明長期血糖控制不佳是糖尿病發(fā)生微血管并發(fā)癥或進一步惡化主要危險因素,并且該風險隨著HbA1c水平的升高呈指數(shù)增加。本研究結果顯示HbA1c與DN 正相關,這與前述研究結果一致。既往表明改善血糖控制對DN 的發(fā)生和進展具有有益的作用[33],然而,SHIKATA 等[34]的研究表明,強化血糖控制對日本DN 患者并沒有顯示出治療優(yōu)勢。強化血糖控制對腎病的益處目前還存在爭議[35]。
GALL 等[36]對26 名患者(1 名女性)平均隨訪5.2 年,結果表明SBP(并非DBP)升高會加速T2DM 患者DN的進展。SHI 等[37]開展的一項橫斷面研究(4 219 例患者)結果顯示,SBP 是DN 的危險因素。有研究單因素Logistic 分析顯示總膽固醇(TC)、TG、LDL 對腎功能進展有影響[38]。今日研究小組的研究表明高血壓和血脂異常與DN 發(fā)生風險增加相關[30]。本研究LASSO 回歸結果顯示SBP、LDL 與DN 正相關,LR 模型結果顯示SBP 和LDL 是DN 的危險因素,與既往研究一致。
研究表明DN 隨時間的推移而發(fā)展,發(fā)病高峰出現(xiàn)在患糖尿病10~20 年后,發(fā)病率為20%~40%[39]。一項來自巴基斯坦隨訪12 年的研究表明糖尿病持續(xù)時間越長,DN 的發(fā)病率越高[40]。JIANG 等[41]以302 例T2D 患者為研究對象開發(fā)了一個DN 預測模型,發(fā)現(xiàn)典型的T2DM 患者DN 的病程通常超過10 年。SHI 等[37]的研究表明糖尿病病程>10 年的T2DM 患者患DN 的風險較高,其次是病程為5~10 年的患者。本研究LR 模型結果顯示糖尿病持續(xù)時間是DN 的危險因素,LASSO回歸結果顯示,糖尿病持續(xù)時間和DN 正相關,糖尿病持續(xù)時間≥10 年的患者DN 的發(fā)病風險較高,與既往研究結果一致。
本研究分別采用LR、KNN、SVM、BP 神經(jīng)網(wǎng)絡、SSA-BP 神經(jīng)網(wǎng)絡建立DN 診斷模型,總體上SSA-BP神經(jīng)網(wǎng)絡模型性能最佳。傳統(tǒng)LR 分析適用范圍廣,應用靈活。對于特定的問題,其性能相當于甚至優(yōu)于一些相對復雜的機器學習算法[42]。LYNAM 等[43]在判別糖尿病患者類型(1 型/2 型)時,LR 模型的性能與更復雜的方法(如神經(jīng)網(wǎng)絡、KNN 模型、隨機森林、SVM模型)一樣好。于大海等[44]在評估肝硬化上消化道出血患者的預后時發(fā)現(xiàn)LR 模型的準確率(81.5%)高于決策樹(75.1%),本研究與之相同,當訓練集∶測試集=8∶2 時,在測試集上LR 模型的準確率(83.33%)高于KNN 和SVM,且本研究LR 模型性能優(yōu)于于大海等研究,可能原因為本研究樣本量雖小但數(shù)據(jù)代表性強于后者。在對妊娠期糖尿病的早期預測研究中,機器學習模型的整體性能與LR 模型相似[45]。DAGHISTANI等[46]基于風險因素預測糖尿病時,隨機森林算法的精確率、靈敏度分別為0.883 和0.880,預測性能高于LR算法(0.692 和0.703)。本研究LR 算法精確率和靈敏度分別為91.67%、78.57%,優(yōu)于上述研究的LR 模型。有研究表明,一般對于平衡和不平衡數(shù)據(jù),SVM 模型和LR 模型具有相同的性能,而對于高度不平衡的數(shù)據(jù)集,SVM 模型可能會更好[47]。但與本研究結果不一致,訓練集∶測試集=8∶2 時,測試集上LR 模型的整體預測性能優(yōu)于SVM 模型。KNN 被稱為惰性算法,因為沒有明顯的訓練階段,即使有也非常小[48]。訓練集∶測試集=8∶2 時KNN 模型的測試集準確率只達到79.17%,可能是KNN 模型在訓練過程中學習到的東西并不多,效率較低[49]。本研究及既往研究表明,機器學習算法與回歸模型的性能結果不一致。分析可能的原因有:LR 模型適用于變量與結果之間具有線性關系的簡單數(shù)據(jù),而應用于非線性關系的數(shù)據(jù)性能較差;許多類型的機器學習模型和LR 模型可能適合不同的數(shù)據(jù)集,并在不同的數(shù)據(jù)集中表現(xiàn)不同[45];同時還有樣本量的原因。
近年BP 神經(jīng)網(wǎng)絡的應用越來越廣泛。汪可可等[49]基于BP 神經(jīng)網(wǎng)絡建立急性腦梗死患者自發(fā)性出血性轉化的風險預測模型,效果較好。田娟等[50]應用BP 神經(jīng)網(wǎng)絡構建兒童甲狀腺疾病預測模型,結果模型準確度達到91.43%,誤差較小,相比之下本研究BP 神經(jīng)網(wǎng)絡僅達到了87.50%的準確率,但靈敏度較高(92.31%)。然而為克服BP 神經(jīng)網(wǎng)絡全局搜索能力低下等缺陷,許多研究者對其進行了組合優(yōu)化研究,并達到了較好的效果。黃仕鑫等[51]使用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡,建立預測T2DM 性周圍神經(jīng)病變的模型,準確率分別達到了98.9%、99.5%,性能優(yōu)于本研究建立的SSA-BP 模型。杭昕璇等[52]利用BP 網(wǎng)絡、SSA-BP 網(wǎng)絡對麥冬藥液糖析出過程建立回歸預測模型,發(fā)現(xiàn)后者預測精度更高更穩(wěn)定。韋哲等[53]利用思維進化算法優(yōu)化的BP 神經(jīng)網(wǎng)絡判斷T2DM 患者所處的并發(fā)癥階段,預測誤差更低。本研究中SSA-BP 神經(jīng)網(wǎng)絡模型在各評估參數(shù)上具有明顯優(yōu)勢,預測誤差更小,優(yōu)化算法提高了BP 神經(jīng)網(wǎng)絡的泛化性。
RODRIGUEZ-ROMERO 等[54]預測T2DM DN 時(10 251 例)結果顯示,RF 模型和LR 模型性能最好,準確率均為84.0%,MANIRUZZAMAN 等[12]利用主成分分析進行特征提取,采用線性判別分析、SVM、LR、KNN、樸素貝葉斯和神經(jīng)網(wǎng)絡技術建立DN預測模型(133例),結果高斯核函數(shù)(RBF)SVW 分類準確率最高(88.7%)。DAVID 等[55]基于410 個實例的數(shù)據(jù)集建立糖尿病腎臟病(DKD)預測模型,結果KNN 和隨機樹分類器的性能最好(準確率93.658 5%)。本研究構建的SSA-BP 神經(jīng)網(wǎng)絡模型性能優(yōu)于既往研究,可能因為樣本量較小而達到了較好的性能。
神經(jīng)網(wǎng)絡在醫(yī)學中應用廣泛,針對其他糖尿病并發(fā)癥或慢病,神經(jīng)網(wǎng)絡均可找到適合的網(wǎng)絡結構來進行學習,有較好的拓展性。SSA-BP 神經(jīng)網(wǎng)絡模型無需對輸入數(shù)據(jù)的統(tǒng)計模型做任何先驗假設,為基于神經(jīng)網(wǎng)絡的T2DM DN 的準確預測提供了算法支持和理論依據(jù)。本研究的局限是數(shù)據(jù)樣本量較少,未來可基于大樣本數(shù)據(jù)進行進一步的探索;此外,未進行外部驗證,有研究建議模型最好利用外部數(shù)據(jù)集和領域專家來檢查模型的合理性,像支持向量機或神經(jīng)網(wǎng)絡等“黑盒模型”,可解釋性差,只能通過外部驗證或借助可解釋機器學習模型[17],未來將繼續(xù)探索其在外部數(shù)據(jù)集上的性能。
作者貢獻:鄒瓊、張楊進行數(shù)據(jù)的下載及整理;鄒瓊、吳曦、陳長生進行文章的構思與設計、論文的修訂;鄒瓊、吳曦、張楊、萬毅、陳長生進行研究的實施與可行性分析;鄒瓊、吳曦、張楊、萬毅進行結果的分析與解釋并撰寫論文。
本文無利益沖突。