范雙龍 趙志強 余紅梅 王 蕾 鄭楚楚 黃雪倩 陽楨寰 邢 蒙 呂 慶 羅艷虹△
【提 要】 目的 基于概率校準,預測彌漫性大B細胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者兩年內的死亡風險,為醫生決策和臨床治療提供參考。方法 使用Cox回歸篩選DLBCL患者兩年內死亡的影響因素。選擇logistic回歸(logistic regression,logit)、隨機森林(random forest,RF)、支持向量機(support vector machines,SVM)、前饋神經網絡(feedforward neural network,FNN)構建風險預測模型。同時,使用三種概率校準方法對上述模型進行校準:platt scaling(Platt)、isotonic regression(IsoReg)、shape-restricted polynomial regression(RPR)。使用ROC曲線下的面積(AUC)評價模型的區分性能,使用Hosmer-Lemeshow(H-L)goodness-of-fit test、expected calibration error(ECE)、maximum calibration error(MCE)評價模型的校準性能。結果 logit和FNN能夠提供準確的概率估計,校準后其預測性能無提升;RF和SVM的預測概率與真實概率的差異具有統計學意義。除SVM-IsoReg外,三種概率校準方法都能對有偏預測進行良好的校準,且RPR校準效果最好。結論 logit和FNN具有良好的校準性能,而RF和SVM校準性能較差,概率校準能夠有效降低它們的預測誤差。基于概率校準所構建的風險預測模型達到預期效果。
彌漫性大B細胞淋巴瘤是一種常見的惡性淋巴瘤,由于其在臨床表現和預后方面具有很強的異質性,目前仍是一個巨大的臨床挑戰[1-2]。盡管有超過50%的病例經過標準治療可以達到持續緩解,但是仍有近三分之一的患者出現耐藥或復發,使得生存率大大降低[3-4]。準確的風險估計是實現精準醫療的關鍵,這能夠幫助臨床醫生做出最佳決策,使患者盡早地開始合適的治療,減少無效藥物的使用,并最終改善個體患者的臨床結局[5-7]。因此,有必要為DLBCL患者提供準確的死亡風險預測。
區分度和校準度是評價一個臨床預測模型不可或缺的兩個尺度[8]。區分度是指將會發生某一結局的患者與不會發生該結局的患者區分開的能力。校準度衡量的是在不同風險分層的患者中,模型的預測概率與真實概率的吻合程度。雖然本文的目的是為DLBCL患者提供準確的風險估計,但是當一個模型區分度較差時,無需進一步評價其預測概率的準確性[8]。因此,本文選擇logit、RF、SVM、FNN,四個常用且在以往報道中具有良好分類性能的分類器構建預測模型。既往研究表明:一個具有良好區分度的模型,仍然可能提供有偏的概率估計,例如RF和SVM[9-12]。幸運地是,這些有偏的預測值可以通過概率校準方法進行校準。概率校準是指尋找一個校準函數,將初始預測映射為更加精確的后驗概率[9]。
Platt是一種參數化校準方法,其通過使用sigmoid函數修正有偏的預測值。但是當模型的輸出不是“S”型的情況下,此方法校準效果較差[10,12]。IsoReg試圖找到一個保序(非遞減)函數對有偏的預測值進行校準,由于其約束簡單,適用性較強。然而,有研究表明在訓練樣本較少的情況下,此方法校準效果較差[12]。相比于Platt和IsoReg,RPR是一種更為靈活和具有普遍適應性的方法,其不受特定分類器及樣本量的約束[13]。本文同時引入以上三種校準方法,探討在不同分類器下的校準性能。本研究旨在為DLBCL患者提供準確的死亡風險估計,為醫生決策和臨床治療提供參考。
1.數據來源
本研究所使用的數據來源于某醫院2010-2017年確診的406例DLBCL患者,其中兩年內死亡人數為116人。通過電子病歷記錄,共搜集了17個特征,具體特征及分組見表1。

表1 406例DLBCL患者特征及分組
2.方法
(1)概率校準
概率校準是指將分類器的初始概率估計或得分映射為更加精確的預測,即尋找校準函數f,使其滿足下述目標:
f(s)=P{y=1|s(x)=s}
其中,s是樣本x的初始概率估計或得分,P為該樣本屬于類別1的真實概率。
①Platt
Platt是一種參數化方法,其通過sigmoid函數,將分類器的原始輸出映射為更加精確的后驗概率[10]:

②IsoReg
IsoReg是一種非參數方法,其試圖找到某個保序(非遞減)函數滿足下述的目標[14]:
其中,yi=[y1,y2,y3,…,yN]是樣本按照初始得分排序后所對應的標簽序列,如果樣本屬于正類,則對應標簽為1,否則為0。
pair adjacent violators(PAV)算法可以用來估計保序函數[15]。在使用該算法時,首先從標簽序列的首個元素開始觀察,一旦出現亂序元素,則停止觀察,從該亂序元素開始逐個吸收下一個元素組成一個序列,直到此序列所有元素的平均值小于或等于下一個待吸收的元素,并以平均值取代此序列中的所有元素。上述過程遞歸執行,直到f1≤f2≤…≤fN。最終,可以在初始得分區間上獲得一個分段常數解。當預測一個新樣本x時,只需找到其得分s(x)所在區間,該區間對應的分段常數即為該樣本校準后的概率。
③RPR
RPR通過多項式回歸校準初始概率,其校準函數具有以下形式[13]:
通過以下優化問題進行求解:
(1)
(2)
(3)
通過約束(1),所有校準后的概率都保證落在[0,1]區間。約束(2)來源于多項式的導數,能夠保證校準函數在整個得分區間的單調性。在約束(3)中,通過a的l1-范數,防止多項式過擬合。
(2)評估及度量
隨機抽取五分之四的樣本作為訓練集,剩余樣本作為測試集。為了盡可能保證數據分布的一致性,每次劃分均采用分層抽樣。為防止校準函數過擬合,將分類器在交叉驗證中的驗證集上得分的合集來訓練校準函數。首先訓練上述分類器及三種校準函數,然后在測試集上進行評價。為減少因數據劃分而帶來的變異,上述劃分與評估重復300次。最終評價依據300次結果的中位數。
模型評價基于區分度和校準度。雖然我們的目的是提供準確的風險估計,但是當一個模型區分度較差時,無需進一步評價其校準性能。因此,我們使用AUC評價模型的區分性能,使用H-L檢驗、ECE、MCE評價模型的校準性能。
H-L檢驗用來評估預測概率與真實概率的差異是否由抽樣誤差造成[16]。ECE和MCE是與可靠性圖(reliability diagram)相關的兩個度量[17]。在計算這些指標時,預測值被由小到大排序,然后分成大小相似的k個區間。對于每個區間,預測概率為該區間中所有預測值的均數,真實(觀測)概率為該區間中陽性樣本所占比例。ECE和MCE分別測量這些區間上平均預測誤差和最大預測誤差:
MCE=max(|pi-oi|),i=1,2,…,k
其中,pi和oi分別為第i個區間的預測概率與觀測概率。ECE和MCE越小,則預測值的校準誤差越小。
(3)參數及實現

logit、RF、SVM在R 3.6中分別使用 “glm”、“randomForest”、“e1071”包實現。FNN和RPR在Python 3.6中分別使用Keras和CVXPY實現[23-24]。
1.Cox回歸結果
本研究中,與結局呈單變量關系(P<0.1)的特征被納入到多變量Cox回歸中,結果如表2所示。性別、疾病分期、IPI、KPS及是否使用利妥昔單抗是DLBCL患者兩年內死亡的獨立影響因素(P<0.05),將被用作風險模型的預測因子。

表2 多變量Cox回歸結果
2.各模型校準前后性能比較
表3給出了各模型校準前后的性能。“-Platt”、“-IsoReg”、“-RPR”分別代表對應模型使用三種概率校準方法校準的結果。主要特點總結如下:

表3 各模型校準前后的性能
四個分類器的AUC均大于0.75,可以認為具有較好的區分性能。其中,FNN的AUC最大,為0.813,SVM最小,為0.792。
logit和FNN具有良好的校準性能,預測概率與真實概率的差異不具有統計學意義(P>0.05)。對于它們而言,無論使用何種校準方法,校準誤差都無顯著改善,特別是在logit-IsoReg和FNN-IsoReg中。
RF和SVM校準性能較差,預測概率與真實概率的差異具有統計顯著性(P<0.05)。對于RF,三種校準方法都能改善模型的校準性能。其中,RF-IsoReg的ECE最小,RF-RPR的MCE最小,分別為8.871和26.550。對于SVM,Platt和RPR能實現良好的校準,而IsoReg不能。其中,SVM-RPR具有最小的校準誤差,ECE和MCE分別為10.893和26.300。
在所有模型中,RF-IsoReg具有最小的ECE,為8.871;FNN和FNN-RPR具有最小的MCE,為23.500。
本文使用logit、RF、SVM、FNN四種分類器構建DLBCL患者死亡風險預測模型,同時使用三種概率校準方法進行校準。
雖然四個分類器在區分性能上是十分相似的,但是校準性能差異較大。根據H-L檢驗可知,logit和FNN可以產生準確的概率估計,而RF和SVM的預測概率與真實概率具有顯著差異。該結果與某些研究一致。對于RF,由于很難在所有樹上獲得相同的預測結果,概率估計往往會被推離0和1[9,11-12]。對于SVM,預測值將被推離0和1,同時發生“S”型扭曲[10,12]。盡管決策值的大小可以作為預測信心的一種度量,但是這些值往往沒有經過良好的校準。
當預測值發生“S”型扭曲時,Platt是一種有效的校準方法。在我們的研究中,Platt對RF和SVM都實現了良好的校準。因為僅要求校準函數是非遞減的,因此IsoReg是一種通用的校準方法。然而,在我們的研究中,SVM經過IsoReg校準后,校準性能并沒有顯著改善。這可能是因為樣本量較少而發生了過擬合。Niculescu-Mizil的研究表明,IsoReg不適用于較小的數據集,特別是在樣本量小于1000時[12]。相比于Platt和IsoReg,RPR是一種更為靈活和強大的校準方法。不同于Platt,由于對初始預測值的分布沒有要求,RPR適用于各種分類器。與IsoReg相比,RPR在整個得分區間上是連續的。另外,RPR嚴格滿足校準函數的單調性要求,并且可以通過某些優化工具方便地求解,例如CVXPY。理論上,隨著多項式次數的增加,RPR可以擬合具有任意復雜度的校準函數。在我們的研究中,RPR對SVM的校準效果最好。無論是ECE還是MCE,SVM-RPR均小于SVM-Platt和SVM-IsoReg。對于RF,雖然RF-IsoReg的ECE小于RF-RPR,但是如果同時考慮校準性能分布,可以認為RPR校準效果最好。
嚴格單調的校準函數不會改變ROC。因為經過概率校準,根據預測值排序后的樣本的順序不會發生改變。本文中,對于以sigmoid函數進行校準的Platt,各模型校準后的AUC與校準前均一致。對于IsoReg和RPR,由于它們在整個得分區間上僅是非遞減的,所以某些初始預測值相近的樣本在校準后可能會獲得相同的概率預測值,而樣本的“排序”也可能會受這部分樣本的影響而發生改變。因此,各模型經上述兩種方法校準后的AUC與校準前相比均有降低。與RPR相比,IsoReg降低程度較大,這或許是因為其校準函數為不連續的分段常數所致。RF和SVM經RPR校準后AUC略有降低,與其所帶來的校準性能的提升相比,這或許是可以接受的。
本文選取logit、RF、SVM、FNN構建DLBCL患者死亡風險預測模型,同時使用三種概率校準方法對概率估計進行校準。logit和FNN以及經過校準的RF和SVM能夠提供準確的風險預測,達到了預期效果。其中,RF-IsoReg具有最小的ECE,FNN和FNN-RPR具有最小的MCE。羅艷虹等使用WSVM和WRF構建先天性心臟病概率預測模型并分別使用Platt和IsoReg進行校準。結果顯示,校準后的模型預測性能更優[25]。呂奕等對AdaBoost和SVM進行概率校準后,構建腸癌轉移預測的集成模型。與直接將分類器進行集成相比,引入概率校準后的模型性能進一步提高[26]。
本研究存在不足:首先,AUC及MCE仍有較大提升空間,下一步可以收集更多相關特征,探討這些新特征加入模型后是否會帶來性能的提升。其次,本文所構建的模型基于某家醫院提供的數據,對于模型的泛化性能如何,需要進行外部驗證。