鄧興宇,楊楠,薛宇廷,張華,賈珂珂
(北京大學第三醫院a.檢驗科, b.輸血科, c.臨床流行病學研究中心,北京100191)
子癇前期(preeclampsia, PE)被定義為妊娠20周后出現高血壓、蛋白尿或其他器官損害,是導致孕產婦和圍產兒發病乃至死亡的重要原因[1],發生率約在2%~8%[2]。其基本病理生理改變表現為全身性的小血管痙攣和血管內皮損傷導致的多臟器和系統損害[3]。
目前PE發病機制仍未闡述清楚,可能與子宮動脈重塑障礙、氧化應激反應、母體炎癥反應失調及免疫平衡失調等多因素有關[4]。臨床上唯一有效的治療方法是終止妊娠,常見措施是對患者進行對癥治療和嚴密監控以改善預后。早期識別和干預能有效降低不良妊娠結局的發生,本研究根據PE的臨床表現與發病機制,選擇可能具有預測價值的常規實驗室指標,檢測其在妊娠6~10周的水平,結合一般資料、PE危險因素,采用Logistic回歸模型和極端梯度提升(XGBoost)模型預測PE風險,為臨床診斷PE提供思路。
1.1研究對象 回顧性研究。納入2015年1月至2020年8月于北京大學第三醫院婦產科就診的中國籍孕婦共2 338例,作為PE組。PE組包括子癇、PE、慢性高血壓伴發PE患者,入組標準參照《妊娠期高血壓疾病診治指南(2020)》[1]。同時選擇2018年8月至2020年8月于北京大學第三醫院婦產科就診且正常分娩、單胎活產的中國籍孕婦9 413例作為對照(CON)組。
根據納入和排除標準,最終納入8 538例,其中CON組7 613例,PE組925例,見圖1。

圖1 研究對象分組
1.2預測指標 從電子病歷中獲取患者的一般資料,如入院年齡、孕周、病史、孕產史及血壓(1 mmHg=0.133 kPa);PE發病危險因素,包括糖尿病、血栓類疾病、SLE、抗磷脂綜合征(APS)、腎病、輔助生殖技術、阻塞性睡眠呼吸暫停、孕前身體質量指數(BMI)>30 kg/m2、年齡>35歲、多次懷孕、初產婦以及既往子癇或PE史,共12個因素;常規實驗室指標,包括清蛋白(Alb)、丙氨酸氨基轉移酶(ALT)、天冬氨酸氨基轉移酶(AST)、補體C1q、鈣(Ca)、肌酐(Cr)、C反應蛋白(CRP)、高密度脂蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C)、脂蛋白(a)[Lp(a)]、載脂蛋白A1(ApoA1)、總蛋白(TP)、三酰甘油(TG)、總膽固醇(TC)、總膽汁酸(TBA)、尿酸(UA)、尿素(Urea)、磷(P)、淋巴細胞絕對值(Lym)、中性粒細胞絕對值(Neu)、血小板計數(Plt)、Neu/Lym比值、Plt/Lym比值、凝血酶原活動度(PTA)、活化部分凝血活酶時間(APTT)、纖維蛋白原(Fib)、凝血酶時間(TT),共27項指標。
1.3統計學分析 用SPSS 24.0、R3.6.1軟件進行數據分析。采用K-S正態分布檢測數據正態性,非正態分布的計量資料用中位數(25分位數,75分位數)描述。偏態分布計量資料的組間比較采用Mann-WhitneyU檢驗。計數資料用例數(百分比)描述,其組間比較采用卡方檢驗。以P<0.05為差異有統計學意義。資料缺失值<30%,用中位數替代。
1.3.1Logistic回歸模型 對所有實驗室指標和危險因素進行單因素二元Logistic回歸分析,篩選出P<0.05的變量并進行多因素二元Logistic回歸分析,建立模型,以約登指數最大值為截斷點,風險程度用OR值(95%置信區間,95%CI)表示,并作ROC曲線,計算ROC曲線下面積(AUCROC)。
1.3.2XGBoost模型 采用XGBoost建立模型,并與Logistic回歸模型進行比對。XGBoost是一種基于梯度Boosting的集成機器學習算法,原理是通過弱分類器的迭代計算實現準確的分類效果,最大特點在于加入正則項,控制模型的復雜度,防止模型過擬合,近年來廣泛應用于醫學領域[5]。本研究使用R語言(3.6.1版本)軟件包XGBoost(1.1.1.1版本),隨機將數據按照2∶8比例劃分成測試集和訓練集,訓練集用于擬合預測模型,測試集用于評價模型效果。將訓練集納入XGBoost反復訓練得到最佳參數(max_depth=100, eta=0.4,nthread=-1, objective=binary: logistic, nrounds=1 000),建立模型。使用測試集測試,制作ROC曲線,計算AUCROC、敏感性、特異性。利用XGBoost中 “plot.importance” 對預測模型特征進行重要性排序,判斷每個特征變量對XGBoost模型的貢獻程度,為臨床判斷PE發病風險提供參考依據。
2.1一般資料比較 見表1。兩組孕婦的孕周差異無統計學意義(P>0.05),年齡、孕前BMI、血壓差異均有統計學意義(P均<0.05)。PE組孕前BMI和血壓均高于CON組。兩組孕婦是否患血栓性疾病、阻塞性睡眠呼吸暫停以及受孕方式差異均無統計學意義(P均>0.05),是否有糖尿病、SLE、APS、腎病、子癇或PE史以及是否為初產婦的比例差異均有統計學意義(P均<0.05)。PE組患血栓性疾病的比例低于CON組,其余比例均高于CON組。

表1 PE組和CON組的一般資料
2.2妊娠6~10周的常規實驗室指標比較 見表2。27個常規實驗室指標中,兩組除Plt/Lym的水平差異無統計學意義(P>0.05)外,其他指標水平差異均有統計學意義(P均<0.05)。

表2 妊娠6~10周的常規實驗室指標
2.3Logistic回歸分析 納入所有變量進行單因素二元Logistic回歸分析,篩選出33個指標(P<0.05)。對8項危險因素分析,將其納入多因素二元Logistic回歸分析,采用逐步向后法,以P<0.05為標準,去除無意義變量,篩選出7項指標,建立基于危險因素的Logistic回歸模型,見表3。

表3 PE危險因素的單因素和多因素Logistic回歸分析結果
對8項危險因素和25項實驗室指標進行分析,以同樣的方法,篩選出20個指標,建立基于危險因素和常規實驗室指標的Logistic回歸模型。見表4。

表4 PE實驗室指標及危險因素的單因素和多因素Logistic回歸分析結果
2.4Logistic回歸模型 僅對12項PE危險因素分析,根據上述方法,最終納入模型的共7項,作ROC曲線分析,最大約登指數為0.163時,模型敏感性=34.8%,特異性=81.5%,AUCROC=0.621,95%CI為0.601~0.640,見圖2。
對12項PE危險因素和27項實驗室指標分析,最終納入模型的共20項(6項危險因素+14項實驗室指標),作ROC曲線分析,最大約登指數為0.402時,模型敏感性=64.2%,特異性=76.0%,AUCROC=0.752,95%CI為0.735~0.769,見圖2。

圖2 危險因素和實驗室指標ROC曲線(Logistic模型)
2.5XGBoost模型 應用XGBoost算法,最大約登指數為0.553時,模型敏感性=73.0%,特異性=82.3%,AUCROC=0.867,95%CI為0.839~0.896,見圖3。納入XGBoost模型的所有指標中,重要程度排在前20位的指標見圖4。

圖3 危險因素和實驗室指標ROC曲線(XGBoost模型)

圖4 各變量重要性特征
PE發病與螺旋動脈重塑障礙、胎盤供血供氧不足、血管痙攣有關[6],故任何影響胎盤建立、損傷血管內皮功能的因素都可能是其危險因素。本研究中患SLE、腎病、BMI>30 kg/m2、年齡>35歲、是初產婦、有既往子癇史是PE的獨立危險因素,與眾多研究相符[7]。本研究中PE組無人患血栓性疾病,可能是因為具有血栓疾病傾向的孕婦在孕早期持續服用抗凝藥物,有效預防了異常血流狀態和血栓形成,降低PE發生風險。
PE患者由于胎盤建立不良,母胎界面發生氧化應激反應,多種具有血管活性的細胞因子分泌至胎盤絨毛間隙,損傷血管內皮功能,導致妊娠晚期母體高血壓、蛋白尿、凝血功能和肝腎功能等器官系統異常[8]。
胎盤建立過程產生大量細胞碎片和凋亡細胞,激活補體系統進行清除,激活過度或不足都會影響胎盤建立[9-10]。C1q是補體活化經典途徑的啟動因子,有研究表明PE 患者血清 C1q 水平顯著低于正常妊娠組[11],本研究關注妊娠6~10周水平,PE組高于CON組,提示PE患者發病前,因孕早期胎盤建立異常,過度激活補體系統,致C1q在早期升高,20周后隨病情進展,補體過度消耗,水平降低。
目前也提出PE發病可能與母體炎癥反應失調相關[7],本研究中PE組CRP、Neu和Lym水平顯著高于CON組,這種改變可能源于炎癥反應。
本研究中兩組凝血指標及Plt水平均有統計學差異,但僅PTA、Fib與Plt有助于預測PE發病風險。PE患者由于血管痙攣和血管內皮損傷表現為病理性高凝狀態,易形成血栓[12],隨疾病進展,凝血激活誘導血小板活化、聚集、消耗,使Plt不斷降低,可用于PE發病預測[13]。妊娠早期時PE組患者病情還未進展,血小板可能處于活化階段,可解釋PE組水平高于CON組。
肝腎功能指標中,本研究將Alb、AST、TBA、TP、Cr、P納入預測模型中。PE導致的血管痙攣、血栓形成可使肝臟腎臟缺血缺氧,致肝損傷、腎小球病變[14-15],妊娠早期PE還未進展時,孕婦臟器血管可能已發生細微改變,肝功能受到影響,表現為肝酶升高,蛋白質合成、物質代謝異常。而腎小球內皮細胞潛在病變,機械屏障、電荷屏障受損,各分子通透性增加,造成PE患者各腎功能指標異常及出現蛋白尿癥狀[16]。大量清蛋白及液體滲出后,常合并低清蛋白血癥[17]。但肝臟代償功能強,故在早期,機體可能代償性產生Alb,使之高于CON組。
眾多研究表明PE患者脂代謝異常,血管動脈粥樣硬化可能性增大,同時可引起氧化應激,損傷血管內皮從而加重疾病[18-19]。本研究中,HDL-C、Lp(a)、LDL-C被納入模型,且除前兩者外,其余脂類指標PE組均高于CON組,與之相符。而HDL參與膽固醇的逆向轉運, 作為血管保護因子具有抗動脈粥樣硬化作用,PE組低于CON組,與既往研究相符[18]。
本研究基于患者的一般資料、PE發病危險因素、6~10周常規實驗室指標,采用傳統Logistic回歸和機器學習XGBoost算法構建預測模型。僅納入危險因素建立Logistic回歸模型,AUCROC為0.621(95%CI:0.601~0.640);納入危險因素和實驗室指標建立Logistic模型,AUCROC為0.752(95%CI:0.735~0.769);建立XGBoost模型,AUCROC為0.867(95%CI:0.839~0.896)。本研究中XGboost模型早期預測PE發病的能力最優。
由此可見,僅對危險因素建立的回歸模型準確性不高,有局限性,但聯合常規實驗室指標建立回歸模型后,提高了預測的準確性。XGBoost算法近年來受到廣泛關注,不同研究問題、研究設計和數據,XGBoost和Logistic回歸模型的優劣不盡相同。研究表明,XGBoost算法能夠極大地提升模型的預測性能,具有較好的臨床應用前景[20],在本研究中XGBoost即有更好的預測性能。用XGBoost再對變量重要性進行分析,識別對XGBoost模型貢獻較高的變量,如排在前3位的TG、Lp(a)、C1q,為未來預測PE提供參考。
曾有研究選擇平均動脈壓、子宮動脈搏動指數和血清胎盤生長因子作為生物標志物進行PE預測[21-22],雖然準確度、特異性比較高,但采集成本高,操作不易,本研究采用的實驗室檢測指標包含在常規產前檢查中,方便獲得,簡單快速,同時為患者減少額外花費,降低預測成本。但不足也在于此,建立的模型缺少PE的特異性指標,模型的特異性不高。PE組樣本量相較于CON組而言較小,可能會對模型造成一定的影響。后續研究將在此方面改進。
綜上,單獨使用臨床危險因素預測PE的效能不高,危險因素結合常規實驗室指標預測妊娠早期PE發病風險的效果更優;XGBoost模型相較于Logistic回歸模型,AUCROC、特異性、敏感性都有較大的提升;TG、Lp(a)、C1q是早期預測PE發病的重要變量,為臨床對PE的早期篩查提供了一定方向。