南通大學公共衛生學院流行病與衛生統計學系(226019)
賈玉龍 周 潔 陳 穎 沈 毅△
【提 要】 目的 本研究擬從模型的校準度、鑒別力和臨床效益三個方面,采用4個指標說明模型評價的指標體系。方法 采用logistic建模策略,通過Hosmer-Lemeshow擬合優度檢驗計算擬合直線的截距A和斜率B以考察模型的校準度,計算受試者工作特征曲線下面積C評價模型的鑒別力,繪制決策曲線D并比較相同概率閾值下的凈收益(net benefit)衡量預測模型的臨床效益。以某醫院肝癌外科手術患者隨訪三年的隊列為例,計算并比較兩個預測模型(MELD和UKELD)的“ABCD”指標。結果 通過計算兩模型的“ABCD”指標,從校準度、鑒別力和臨床效益三個方面對模型進行比較,綜合評價表明MELD模型較優。結論 由“ABCD”構成的臨床模型評價體系可以更好地評估預測模型的準確性和嚴密性,且其評價結果更具有說服力。

對臨床模型的評價一般包括校準度、鑒別力和臨床效益三個方面。其中,校準度反映了模型預測值和真實值之間的擬合程度,可用擬合直線的截距和斜率進行衡量;鑒別力反映了模型對真陽性和真陰性的判斷能力,可通過ROC曲線計算AUC值進行評價,AUC也被稱為一致性統計量(concordance statistics,C-statistics),即“C”統計量;臨床效益則更關注模型能否從陽性患者中鑒別出更多的真陽性,可運用決策曲線(decision curve)計算模型的凈收益。由于擬合直線的截距一般用A表示,斜率用B表示,AUC用C表示,決策分析用D表示,EWSteyerberg提出用“ABCD”準則描述上述進行模型評價的四個指標[5]。下面我們對該準則逐一解釋。
1.模型的校準度
臨床結局大部分為二分類變量。如生與死、好與差、有效與無效等,以結局事件發生與否為因變量,預測模型得分為自變量構建logistic回歸模型(建模時可對年齡、性別進行調整),計算每個個體結局事件的預測概率,并按照預測概率的順序對數據重新分組(建議分為5~10組),進行Hosmer-Lemeshow擬合優度檢驗,考察預測結果和實際狀況的吻合程度[6-7]。以各組的實際發生率為因變量(Y),預期發生率為自變量(X)繪制散點圖,并擬合回歸直線[8]。如果實際值和期望值完全一致,該擬合線的斜率為1,截距為0,設為參考線;所擬合的直線與參考線越接近,說明該預測模型的校準度越高[9]。
2.模型的鑒別力
模型的鑒別力體現在正確區分陽性和陰性結局,C統計量是描述廣義線性模型鑒別能力的重要指標之一。對于二分類變量,以1-特異度(假陽性率)為橫坐標,靈敏度(真陽性率)為縱坐標繪制ROC曲線,其曲線下面積AUC即為C值。C值越接近1表明鑒別能力越高[10]。
3.模型的臨床效益
模型的臨床效益是基于從陽性患者中鑒別出更多的真陽性,這樣既可避免醫療資源不必要的消耗,又可減少過度治療對假陽性患者的傷害[11]。用一種簡單易懂的數學模型即可量化預測模型的凈收益(net benefit,NB)為:
[真陽性數 -假陽性數×pt/(1-pt)]/樣本數
其中,pt代表概率閾值,而pt/(1-pt)作為權重系數,定義假陽性決策對于真陽性決策的相對權重。以pt為橫坐標,凈收益為縱坐標,所作決策曲線可反映不同pt時模型的臨床效益;還可把幾條決策曲線放入同一坐標,通過相同pt下各決策曲線的縱坐標大小即可直觀地比較預測模型的臨床效益優劣。其中pt可以結合臨床實際取值[4,8,12]。若認為假陽性所造成的傷害相對有限,可將pt設置為較低數值;反之則可設置為較高值,以免過度治療所造成的危害。顯而易見,決策曲線圖中,存在兩條參考線,一條反映無任何治療下的凈收益,另一條則是所有患者均接受治療的凈收益。
1. 數據來源
本數據來源于某醫院肝癌外科手術的隊列研究,入組196例肝癌手術患者,隨訪時間3年,以患者死亡為觀察終點,基線信息如表1。
收集患者入診時的年齡、性別等基線信息以及血清鈉(Na)、總膽紅素(TBIL)、肌酐(Cr)和國際標準化比值(INR)等實驗室指標。通過疾病預防控制中心或電話隨訪收集患者的生存信息。

表1 基線信息
2.模型公式
目前對肝癌患者的死亡預測主要來源于終末期肝病模型,本研究選擇其中較為經典的MELD體系。該體系包括MELD、iMELD、uMELD等若干個模型。其中,MELD模型[13]最先用于預測肝硬化患者的短期生存率,后衍生為終末期肝病患者死亡風險的評估模型,其具有納入指標少易獲得、預測準確易推廣的特點,是目前臨床最為常用的肝癌預測模型之一。此外,我們還選擇了一個UKELD[14]模型,該模型比MELD模型多一個指標:血清鈉,所以預測結果也有所不同[15]。本研究通過比較MELD模型和UKELD模型的預測結果,以說明如何用“ABCD”準則進行模型評價。
MELD模型和UKELD模型的評分公式如下:
(1)MELD=11.2×ln(INR)+9.6×ln[Cr(mg/dL)]+3.8×ln[TBIL(mg/dL)]+6.4
(2)UKELD=5×[1.5×ln(INR)+0.3×ln[Cr(μmol/L)]+0.6×ln[TBIL(μmol/L)]-13×ln[Na(mmol/L)]+70]
3. 統計學分析

1. 基線信息(見表1)
本研究共納入196例肝癌手術患者,年齡(54.38±9.89)歲,男性152人,女性44人,隨訪3年后生存組104人,死亡組92人,病死率46.94%。兩組間性別、INR、Cr及模型得分之間差異均有統計學意義。
2.校準度評價指標A和B

3. 鑒別力指標C值(見圖3)
圖3為MELD模型和UKELD模型ROC曲線的組合,其中MELD的C值(0.713)大于UKELD(0.665),說明MELD的鑒別力優于UKELD。

圖1 MELD模型校準圖

圖2 UKELD模型校準圖

圖3 ROC曲線圖
4. 臨床效益指標D值(見圖4)
圖4中有兩條參考線,一條是無任何治療下的參考線(斜率為0的長虛線),其凈收益為0;另一條是所有患者均接受治療的參考線(切線斜率為負值的長虛線),凈收益隨著pt的增加而減小,在pt=46.90%時凈收益降為0;實線代表MELD模型,短虛線代表UKELD模型。兩曲線在一定的pt下,凈收益均高于兩條參考線,表明具有一定的臨床應用價值。同時,MELD決策曲線基本均在UKELD之上,表明MELD模型的凈收益高于UKELD模型,臨床效益更好。

圖4 決策曲線圖
5.模型指標匯總比較
表2羅列兩模型的“ABCD”指標,通過對比表明MELD模型的校準度、鑒別力和臨床效益都優于UKELD模型,說明MELD模型對肝癌手術患者3年后生存狀況的預測效果更好。

表2 模型指標匯總比較
本研究主要探討了如何綜合運用“ABCD”準則來評估預測模型的效能并做出最優選擇,為有效評估預測模型整體效能提供了一個框架。對兩模型比較的結果表明,四項評價指標均反映出MELD模型效能優于UKELD模型。MELD不僅擬合直線更貼合參考線,而且其AUC更大,凈收益也在一定閾值概率之內大于UKELD模型。
校準度是反映預測模型預測效能的最佳特征之一,也就是模型預測概率與實際發生概率的一致程度。通常我們將logistic回歸和Hosmer-Lemeshow擬合優度檢驗相結合,以評價模型的一致性。但是,良好的校準度并不表示模型能將患者和非患者完美的鑒別開來,而ROC曲線一直作為預測模型鑒別力及人群篩檢研究的可視化評價指標而被推崇,根據其AUC可簡單直觀地評價預測模型的鑒別能力,以彌補校準度的不足。然而,僅考慮鑒別力和一致性尚不能真正反映一個模型對臨床決策的貢獻。假陽性和假陰性的優先篩檢問題以及針對鑒別結果的后續臨床決策效益評價,更是判斷臨床模型優劣的關鍵所在;同時,即便AUC較大,如果沒有一個合理的pt,該模型也沒有任何臨床意義[17]。所以,決策曲線和凈收益更直觀地表達了預測模型的實際臨床效益。根據不同pt下的凈收益大小,可做出患者后續是否采取及采取何種臨床診療措施的最大凈收益決策,但pt的確定是運用決策曲線評價臨床效益的一個難點[10],可依據臨床實踐經驗或從meta分析及高質量的同質人群隊列研究中得到。本文pt=51.30%選自Cucchetti的一篇研究人群同為肝癌手術患者的三年病死率報道[18]。
本研究是一個生存隊列,但logistic回歸僅考慮二分類結局,無法利用生存時間所提供的信息。目前對生存資料也提出一些比較新穎的模型評價方法及指標,如“C統計量”的變體[7]等。但考慮到模型評價的方法學體系,以及軟件實現的便利性,故本文仍以logistic回歸建模和計算相關評價指標。
當然,該模型評價體系既適合現存預測模型的評估,也適合對于新建模型的評價和驗證。“ABCD”四個評價指標取長補短,相得益彰,彌補了傳統的僅用AUC進行模型評價的缺陷,為預測模型的選擇、應用及嚴密謹慎的臨床決策提供了可靠的依據。