武珊珊,孔媛媛
首都醫科大學附屬北京友誼醫院,國家消化系統疾病臨床醫學研究中心,臨床流行病學與循證醫學中心,北京 100050
我國慢性乙型肝炎患病率高,并發癥重。在我國肝硬化和肝癌患者中,由乙型肝炎引起的比例分別為60%和80%[1]。最新全國體檢數據顯示我國農村21~49歲男性人群HBsAg陽性率為6%[2]。據此推算,全國約有2500萬人為慢性乙型肝炎患者;按照每年1.6%~4%的發病率計算,每年約有40萬~100萬患者可發展為代償性肝硬化。抗病毒治療可以降低乙型肝炎相關并發癥的發生率和病死率,但即使經過有效的抗病毒治療仍有部分患者會出現疾病進展,包括門靜脈高壓相關并發癥和肝癌,并導致死亡[3-5]。因此,實現臨床終點事件的精準預測并加強干預是降低病死率的關鍵措施。
目前國內外已有較多預測慢性乙型肝炎患者臨床終點事件的風險預測模型,但被臨床廣泛應用的模型較為少見。很多預測模型在開發過程中存在一定的方法學缺陷,導致模型的精確性和外推性不高,多數預測模型長期處于“多數被建立,少數被驗證,極少被應用”的情況[6-7]。為此,本文基于對目前已發表的慢乙型肝炎臨床終點事件預測模型的總結,從方法學角度闡述預測模型構建的要點,以期為精準預測慢性乙型肝炎患者臨床終點事件的模型研究提供參考。
臨床預測模型又稱臨床預測規則,是指利用醫學征兆、癥狀或其他臨床發現預測特定疾病或結局發生的概率,包括診斷模型和預后模型。預測模型類研究一般可以分為兩類:診斷類預測模型和預后類預測模型[8-9]。診斷類預測模型是估計現在時間點某一個體發生特定疾病的風險或者概率,通常建立在橫斷面研究的基礎上;預后類預測模型則是利用個體現在時刻的特征指標(如實驗室檢查指標、癥狀或體征等)去預測未來發生特定事件的風險或概率,通常建立在隊列研究的基礎上,尤其是前瞻性隊列提供的結論更為可靠。兩類預測模型的研究框架詳見圖1。
按照研究目的預測模型類研究又可分為模型開發研究、模型驗證研究和開發驗證同時進行的研究[8],其中模型驗證又可分為內部驗證和外部驗證,取決于與模型開發使用的數據集是否相同。若使用相同的數據集去驗證模型,則為內部驗證;若使用與模型開發不同的數據集去驗證模型,則稱為外部驗證。外部驗證一般優于內部驗證。
慢性乙型肝炎臨床終點事件預測模型屬于預后類預測模型。目前國內外關于慢性乙型肝炎患者的預后模型主要以肝細胞癌(HCC)為結局,少數以復合終點即肝臟相關事件(liver related events, LRE)及肝纖維化逆轉為結局[10-23]。本文共納入了14個慢性乙型肝炎患者臨床終點事件預測模型的文獻,各預測模型構建的基本特征詳見表1。所有預測模型的建立均采用隊列研究,其中13個(92%)模型基于亞洲人群構建,只有PAGE-B[16]模型是基于多個歐洲國家的高加索人種所構建。各模型的構建人群樣本量范圍為212~23 851,中位數為1035,結局事件發生中位數為56,其中CAMD模型構建人群樣本量超過2萬,結局事件發生數目最多(596例HCC)。
各模型構建人群的關鍵特征,如是否接受抗病毒治療與肝硬化狀態差異性較大。在研究對象是否接受抗病毒治療方面:GAG-HCC[10]、NGM-HCC[11]及REACH-B[13]模型是基于未進行抗病毒治療的慢性乙型肝炎患者,mREACH-B[15]、PAGE-B[16]、mPAGE-B[18]、CAMD[19]、AASL-HCC[20]、REAL-B[21]等模型是基于抗病毒治療的慢性乙型肝炎患者,CU-HCC[12]、LSM-HCC[14]及RWS-HCC[17]模型則同時包含了接受抗病毒治療和未抗病毒治療的慢性乙型肝炎患者,抗病毒治療患者的比例為15%~36%。在研究對象肝硬化比例方面:REACH-B[13]模型是唯一針對非肝硬化患者構建的預測模型,Wu等[22]基于代償期肝硬化的慢性乙型肝炎患者構建了LRE的2年風險預測模型,其余模型的構建人群則同時包含了肝硬化和非肝硬化的慢性乙型肝炎患者,肝硬化患者的比例為15%~47%。因而在模型應用時需要充分考慮到目標人群的基本關鍵特征,選擇外推性較好、預測結果較準的模型進行臨床應用。
關于各模型中慢性乙型肝炎患者臨床終點事件的風險預測因素,大致可以分為3類。(1)傳統流行病學危險因素:包括年齡、性別、HCC家族史、飲酒、糖尿病合并癥、肝硬化;(2)臨床檢測指標:包括ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標;(3)遺傳易感性檢測指標:包括核心啟動子突變等指標。本研究納入模型所采用預測因素的類別情況,1個(7%)模型僅納入傳統流行病學危險因素,2個(14%)模型僅納入臨床檢測指標,10個(71%)模型在傳統流行病學危險因素基礎上增加了PLT、HBV DNA或Alb等臨床檢測指標,1個(7%)模型綜合了傳統流行病學危險因素、臨床檢測指標及遺傳易感性指標。在預測因素測量時間點的選擇上,大部分(86%)模型均選擇了納入基線或抗病毒治療開始時的各臨床檢測指標,僅有2個(14%)模型考慮了某些臨床檢測的動態變化。
在模型構建的方法學層面,大部分(12/14,86%)模型采用了Cox比例風險回歸來構建預測模型,少數(2/14, 14%)采用了logistic 回歸的方法,未見其他統計學方法的使用。所有模型都采用AUC或C-index指標進行了模型區分度的評價,但近半數(6/14,43%)模型未進行校準度的評價和報告。14個模型中,5個模型只在內部樣本中進行了交叉驗證,模型預測效果的外推性尚未進行評價,從而限制了模型在臨床的應用和推廣。此外,12個基于Cox比例風險回歸構建的預測模型中,50%的模型(如CU-HCC[12]、GAG-HCC[10]、LSM-HCC[14]等)未報道各預測因素的系數及基礎無病生存率,2個基于logistic回歸構建的預測模型也未報告截距項和/或各預測因素的系數,從而使這些模型的臨床應用受到了一定的限制,也無法基于其他外部隊列對這些模型的校準度進行外部驗證。由此可見規范預測模型的產生過程及報告方法,不僅有助于提升預測模型本身的質量,也能為后續預測模型的臨床應用及廣泛驗證提供可能。
預測模型構建基本可以分為5個步驟,依次是確定研究問題、選擇研究設計、模型開發和評估、模型內部驗證和外部驗證以及模型結果的展示和報告。
3.1 確定研究問題 確定預測模型的研究問題要從臨床實踐出發,從而確保構建出的模型能夠真正為臨床科學決策提供幫助。
3.2 選擇研究設計 需要明確預測因素與結局事件的采集時間點是否相同,即需明確是診斷類預測模型還是預后類預測模型,這關系到采用的研究設計類型即橫斷面研究還是隊列研究。
3.3 模型開發和評估 該部分是構建預測模型的關鍵,所涉及內容主要為統計分析,包括統計模型的選擇、預測變量的轉換和篩選、模型區分度與校準度的評估三部分內容。目前構建預測模型所采用的統計方法以logistic回歸和Cox比例風險回歸為主,前者未考慮到結局事件發生的時間,無法利用失訪研究對象的數據進行分析,統計效能較Cox比例風險回歸低;但當研究對象的隨訪時間較為統一,隊列中失訪率較低時二者的結果很接近。因此目前logistic回歸多用在診斷類預測模型,Cox比例風險回歸多用在預后類預測模型研究中。當然考慮到縱向資料的多次隨訪、各預測指標的動態變化、競爭風險的發生等方面,其他更為復雜的統計模型的應用也越來越廣泛,如聯合模型、時依協變量Cox比例風險模型、競爭風險模型等。

表1 慢性乙型肝炎/肝硬化患者臨床終點事件預測模型構建及驗證情況
預測變量的篩選是預測模型準確性的關鍵,貫穿于整個預測模型的建立過程。理論上來講預測變量越多模型的準確性往往越高,但通常也意味著模型更為復雜,應用性更差,且容易導致模型過度擬合。因此考慮到臨床應用的便捷性,通常會選擇盡量少的且具備科學性、可操作性、實用性和成本效果比的預測指標。變量篩選的統計方法有很多種,如基于P值的方法、基于信息準則的方法、最優子集法、機器學習、LASSO等懲罰類變量篩選方法等,具體可根據相應研究問題來選擇合適的變量篩選方法,但一定要注意不能只依賴于統計層面的篩選,基于既往研究、臨床經驗、生物學合理性等認為可能有影響的變量也應考慮納入。
模型的評估包括診斷/預測效能評價,如區分度、校準度以及靈敏度和特異度、陽性/陰性預測值、陽性/陰性似然比等;模型統計學評價,如模型的決定系數R2、反映模型的擬合優度指標AIC/BIC等[24];衛生經濟學評價,如分類改善指標(NRI)、綜合判別改善指數(IDI)、成本-效果分析等[25]。有學者提出模型性能評價的“ABCD原則”[8],即模型截距(Alpha Calibration-in-the-large);校準曲線斜率(Beta Calibration slope); C統計量(C-statistics);決策曲線分析(Decision-curve analysis)。
3.4 模型內部驗證和外部驗證 模型驗證是預測模型構建不可或缺的步驟,即對模型的區分度和校準度等進行考察的過程。一個良好的預測模型必定經過了嚴格的內部驗證及外部驗證。內部驗證是基于模型開發數據集進行的驗證,通常作為模型開發的一部分,其目的是檢驗模型開發過程的可重復性。需要注意的是,內部驗證是針對整個建模過程中的所有步驟,包括模型選擇、變量轉換和篩選等,而不是僅針對最終模型進行驗證。內部驗證的常見方法包括隨機拆分驗證、交叉驗證、重抽樣驗證及“內部-外部”交叉驗證等。外部驗證則是基于與模型開發不同的數據集進行的驗證,更關注模型的外推性。根據外部驗證數據來源的不同,外部驗證可以分為時段驗證、空間驗證、時空驗證和領域驗證等幾類。
3.5 模型結果的展示和報告 預測模型本質上是預測變量的各種數學公式的組合,為方便臨床應用,通常會將不同的預測變量賦予不同的分值,采用評分表或打分卡的形式對應相應的風險。類似的,諸如列線圖或EXCEL工具、網頁工具或者手機App等電子方式也可進行展示和應用。在預測模型的報告方面,《個體預后與診斷的多因素預測模型報告規范》(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis, TRIPOD清單)從標題和摘要、介紹、方法、結果、討論以及其他七個方面,提出了22個條目,并一一進行了充分的說明和舉例,以規范報告內容,提高研究質量[26]。研究者在開展相關研究及撰寫研究報告時應注意參考。
當今醫學從經驗醫學發展到循證醫學,數據和證據的價值得到前所未有的重視。隨著精準醫學和大數據時代的到來,如何實現對乙型肝炎臨床終點事件,尤其是抗病毒治療后終點事件的精準預測成為亟待解決的科學問題。后續臨床終點事件預測模型的構建應充分考慮到抗病毒治療后各種臨床生化指標的變化,諸如ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標在抗病毒治療后的變化情況,從而可對抗病毒治療后人群肝癌或失代償等終點事件的發生進行精準預測。
近年來,隨著肝穿病理量化評價技術如qFibrosis、機器學習等人工智能技術在臨床研究中的應用以及新的病理評價標準如“北京標準”[27]的提出,對肝纖維化逆轉的預測也將逐漸受到重視。同時,D’Amico等[28]學者提出的針對代償期肝硬化患者臨床終點事件細分為有序的1~6級分類標準也為實現肝硬化患者臨床終點事件的精準預測提供了依據。
此外,應該規范預測模型構建的方法學過程,包括統計分析模型的選擇、預測變量的篩選及模型區分度與校準度的評估,盡量減少模型構建過程中的偏倚風險,并規范預測模型類研究的報告,這對于提高模型的預測性能和臨床應用也至關重要。目前已有學者制定了預測模型的偏倚風險評價工具PROBAST (Prediction model Risk Of Bias ASsessment Tool)[29]和報告規范清單TRIPOD[26]。隨著預測模型構建的方法學規范化,臨床終點評價標準的精細化,以及人工智能技術在臨床研究的深入應用,相信一定會有助于加速實現慢性乙型肝炎臨床終點事件精準預測的目標。