楊毅,叢慧文,王廉源,楊麗萍,包綺晗,王浩樺,李承圣,周立雯,丁子琛,石福艷*,王素珍*
腦卒中又稱中風,是全球第二位主要死亡原因,也是導致殘疾的主要因素之一[1]。雖然在過去20年中,全球腦卒中死亡率的年齡標準化率有所下降,但每年腦卒中患者的絕對人數、與腦卒中相關的死亡人數以及全球腦卒中總負擔均不斷增加[2-4]。近年來,我國人群慢性病發病率呈上升趨勢,腦卒中作為常見慢性病之一,因其高死亡率、高致殘率及預后較差等特點將給社會帶來極重的經濟負擔和疾病負擔。然而,腦卒中又是一種可以有效預防和控制的疾病。相關研究表明,腦卒中死亡率大幅度下降的原因主要為危險因素的下降[5-6]。因此,探討腦卒中的危險因素,進而有針對性地采取干預措施是降低腦卒中疾病負擔的關鍵措施之一。
健康體檢縱向數據累積了大量的健康信息,為慢性病的有效防控研究提供了重要平臺。許多學者采用Logistic回歸、Cox回歸模型等方法對體檢人群的相關健康信息進行了深入挖掘,對體檢個體健康信息與健康結果之間的關聯性進行了深入分析[7-8]。然而,健康體檢縱向數據由于缺失數據多、樣本量小等諸多問題,導致健康體檢數據利用率低、重要的健康相關信息未能得到充分挖掘,進而對健康體檢信息的有效利用、常見慢性病的有效防控等工作帶來一定困難。
近年來,為了研究縱向指標的動態變化與生存結局指標之間的關聯,有研究者引入聯合模型(joint model)處理技術[9-10],該方法可分析縱向變量動態變化軌跡對生存結局的影響,可減少模型中參數估計的偏差,為深入挖掘縱向隨訪數據信息提供了新的研究思路。相關研究表明,貝葉斯聯合模型具有對數據分布要求低、小樣本數據處理結果穩健、可同時分析多個縱向檢測變量與生存結局的關系等優點[11-12]。
鑒于此,本研究采用貝葉斯多變量聯合模型方法,基于健康體檢人群數據,探討分析影響健康體檢人群腦卒中發病的主要影響因素,進而為腦卒中的有效防控提供科學依據,也可為其他慢性病危險因素探討研究提供新的方法和思路。
1.1 一般資料 本研究使用空軍軍醫大學西京醫院健康醫學中心2008—2015年的體檢數據,其中包括個人基本信息(姓名、性別、出生日期、年齡、婚姻狀況、文化程度),基本體格檢查指標〔身高、體質量、體質指數(body mass index,BMI)、血壓、血脂四項〕等。隨訪情況:工作單位集體定期到院體檢,體檢間隔時間為1年,以首次發生腦卒中為結局事件,發生結局事件立即停止隨訪;若未發生,到2015年體檢信息收集完成后結束隨訪。
納入標準:(1)體檢人群年齡≥20周歲;(2)常住地為陜西省;(3)個人基本信息完整。排除標準:(1)隨訪時間<3年;(2)進入隨訪隊列前已臨床確診糖尿病、心血管疾病、肝臟疾病及腎臟疾病等;(3)進入隨訪隊列前已臨床確診腦卒中;(4)隨訪過程中相關診斷記錄缺失。
依據隨訪過程中是否發生腦卒中將體檢人群分為腦卒中組和非腦卒中組。本研究已通過濰坊醫學院醫學倫理委員會審批(濰醫倫理研2018第145號),研究對象的信息收集完全基于其自愿和知情同意的前提下進行。
1.2 診斷標準 急性缺血性腦卒中的診斷標準為[13-14]:(1)急性起病;(2)局灶神經功能缺損(一側面部或肢體無力或麻木,語言障礙等),少數為全面神經功能缺損;(3)影像學檢查出現責任病灶或癥狀/體征持續24 h以上;(4)排除非血管性病因;(5)顱腦CT/MRI排除腦出血。根據國際臨床診斷標準[14],采用CT/MRI對其余類型腦卒中進行診斷。糖尿病、心腦血管疾病、肝臟疾病等混雜疾病的診斷均以國際臨床診斷標準為準[15-16]。
1.3 觀察指標及樣本量確定原則 本研究納入的縱向觀察變量包括總膽固醇(total cholesterol,TC)、三酰甘油(triglyceride,TG)、低密度脂蛋白膽固醇(low-density lipoprotein,LDL-C)、高密度脂蛋白膽固醇(high-density lipoprotein,HDL-C)、體質指數(body mass index,BMI)和收縮壓(systolic pressure,SBP)。以研究人群第一次記錄的體檢數據作為基線,對此后每年的體檢數據進行記錄與整合,從而形成整體縱向數據。根據上述納入、排除標準,共篩選得到234例研究對象,其中70例在隨訪期間發生腦卒中,運用10 EPV(Events Per Variable)原則[17]對樣本含量進行驗證,滿足最小樣本含量要求。
1.4 研究方法 貝葉斯多變量聯合模型(Bayesian Multivariate Joint Models)[18-21]包括縱向子模型與生存子模型,縱向子模型的選擇包括廣義線性模型、線性混合效應模型、比例優勢累積logit模型等,生存子模型通常選擇Cox回歸模型。線性混合效應模型既保留了傳統線性模型中的正態性假定條件,又對獨立性和方差齊性不做要求,進而將協變量的固定效應和隨機效應同時分析,分析結果更加可靠;Cox回歸模型在生存分析研究中已被廣泛接受,且作為半參數模型,不對事件時間的分布做出任何假設,分析過程更加簡便靈活[22]。因此,本研究選用線性混合效應模型作為縱向子模型,Cox回歸模型作為生存子模型。
1.4.1 縱向子模型 假設有k=(1,……,k)個縱向結局,令Yik(t)為個體i在時間tij上第k個縱向結局的值,此時多縱向數據的線性混合效應模型為:。其中,βk是第 k 種縱向測量結局的固定效應,bik是第k種縱向測量結局的個體隨機效應,分別是固定效應與隨機效應的設計矩陣,εik(t)表示隨機誤差。
1.4.2 生存子模型 本研究以Cox回歸模型構建生存子模型,即:。其中,λi(t)表示t時刻發生結局事件的風險,λ0(t)表示未指定分布的基線風險函數,X2i是生存過程中的基線協變量,γ為相應的回歸系數,W2i(t)表示多縱向過程與生存過程的關聯項。
在構建貝葉斯多變量聯合模型的過程中,本研究以觀測時間為時依協變量,以TC、TG、HDL-C、LDL-C、BMI、SBP為因變量構建縱向子模型;以生存時間和結局事件為因變量構建橫向子模型。兩個子模型通過共享相同的隨機效應鏈接。
1.4.3 貝葉斯參數估計 在貝葉斯方法下,采用無信息先驗簡化模型的分析過程,使用馬爾可夫蒙特卡羅(MCMC)算法對模型的參數進行估計。假設縱向過程和結局事件發生相互獨立,且每個個體相互獨立,經過MCMC迭代,在給定隨機效應的情況下推導出模型參數的后驗分布,為:p(yi│bi,θ)= ∏lp(yil│bi,θ)。其中θ表示全參數向量,p(·)表示概率密度函數,從而進行貝葉斯統計推斷。
1.5 統計學方法 采用Excel 2019整理腦卒中發病數據集,SPSS 22.0統計軟件對基線數據進行初步分析。基線數據中,符合正態分布的計量資料以(±s)表示;腦卒中組與非腦卒中組的組間比較采用獨立樣本t檢驗;采用多因素Cox回歸模型分析基線情況對腦卒中結局事件的影響。采用貝葉斯多變量聯合模型將縱向變化過程對腦卒中結局事件的影響進行分析,通過R 4.1.1軟件的JMbayes包實現,迭代次數設定為3 000次,預熱500次。本研究的統計學分析均為雙側檢驗,以P<0.05為差異有統計學意義。
2.1 研究對象基線情況 本研究共納入234例研究對象,總計1 581條縱向隨訪記錄,研究對象納入流程圖見圖1。234例研究對象基線平均年齡為(49.6±9.5)歲,中位年齡為50.5歲;隨訪時間為3~7年,平均隨訪時間為(6.4±1.2)年。隨訪過程中共70例(29.9%)研究對象發生腦卒中,歸入腦卒中組,其余為非腦卒中組,進行研究分析。兩組患者基線TC、TG、LDL-C、HDL-C、BMI、SBP比較,差異均無統計學意義(P>0.05),見表1。

圖1 234例研究對象納入流程圖Figure 1 The flowchart for inclusion of 234 subjects
表1 非腦卒中組與腦卒中組基線觀察指標比較(±s)Table 1 Comparison of baseline observation variables between stroke and non-stroke groups

表1 非腦卒中組與腦卒中組基線觀察指標比較(±s)Table 1 Comparison of baseline observation variables between stroke and non-stroke groups
注:TC=總膽固醇,TG=三酰甘油,LDL-C=低密度脂蛋白膽固醇,HDL-C=高密度脂蛋白膽固醇,BMI=體質指數,SBP=收縮壓;1 mm Hg=0.133 kPa
組別 例數 TC(mmol/L) TG(mmol/L) LDL-C(mmol/L) HDL-C(mmol/L) BMI(kg/m2) SBP(mm Hg)非腦卒中組 164 4.5±0.9 1.9±1.1 1.6±0.6 2.8±0.7 24.2±1.8 124±15腦卒中組 70 4.4±0.9 2.1±1.6 1.6±0.8 2.6±0.9 24.4±3.1 126±20 t值 0.352 -0.834 -0.037 1.619 -0.417 -1.037 P值 0.725 0.405 0.970 0.107 0.667 0.247
2.2 研究對象體檢指標動態變化軌跡情況 分別對腦卒中組與非腦卒中組的TC、TG、LDL-C、HDL-C、BMI和SBP縱向軌跡變化情況進行了分析,由圖2可知,腦卒中組和非腦卒中組研究對象的TC、TG、LDL-C等指標的變化軌跡不同,其中腦卒中組研究對象的TC、TG、LDL-C和HDL-C指標的變化幅度較大,而非腦卒中組研究對象的TC、TG、LDL-C和HDL-C變化軌跡趨于平穩狀態。

圖2 兩組觀察指標的縱向變化軌跡圖Figure 2 Longitudinal trajectory of the observation indexes in different groups
2.3 基線觀察指標對腦卒中發病的影響情況分析 以腦卒中發生情況為因變量,以基線分析變量為自變量(賦值見表2),進行多因素Cox回歸模型分析,結果顯示,基線TC、TG、LDL-C、HDL-C、BMI、SBP對腦卒中發病均無影響(P>0.05),見表3。

表2 基線觀察指標對腦卒中發病影響的多因素Cox回歸模型賦值情況Table 2 Assignment of multifactorial Cox proportional risk models for the effect of baseline observables on stroke onset

表3 基線觀察指標對腦卒中發病影響的多因素Cox回歸模型Table 3 Multivariate Cox proportional hazards model of the effect of baseline observation indexes on the incidence of stroke
2.4 貝葉斯多變量聯合模型的縱向觀察指標對腦卒中發病的影響 本研究以TC、TG、LDL-C、HDL-C、BMI和SBP為縱向監測變量,構建貝葉斯多變量聯合模型的縱向子模型,以腦卒中是否發生為結局變量,構建腦卒中發病風險貝葉斯多變量聯合模型的生存子模型,分析TC、TG、LDL-C等體檢指標的縱向變化軌跡對腦卒中發病的影響,結果顯示,TG和LDL-C對腦卒中發病有影響(P<0.05)。TG每縱向升高1 mmol/L,腦卒中發病風險升高1.863倍;LDL-C每縱向升高1 mmol/L,腦卒中發病風險升高1.347倍(P<0.05),見表4。

表4 貝葉斯多變量聯合模型的縱向觀察指標對腦卒中發病的影響Table 4 Results of the Bayesian multivariate joint model of the effect of longitudinal observation indexes on stroke incidence
腦卒中具有發病隱匿、潛伏期長、發病后不能自愈或很難治愈等特點,是目前影響人類健康的主要公共衛生問題之一[23-24]。近年來,隨著健康體檢的逐步規范化及人們對健康體檢的重視,健康體檢項目逐步增多,采集的健康體檢信息也逐年增加,健康體檢數據對常見慢性病的有效防控帶來了諸多便利。本研究采用貝葉斯多變量聯合模型,基于健康體檢數據,對體檢人群的腦卒中發病風險因素進行了深入探討研究,以期為腦卒中的有效防控提供借鑒。
本研究中獨立樣本t檢驗和多因素Cox回歸模型結果顯示:所有縱向觀測變量的基線情況比較無差異,且其對腦卒中發病均無影響(P>0.05),兩組研究對象的TC、TG、LDL-C等基線觀察指標分布均衡。這與國內外研究不完全一致。HAGBERG等[25]認為,高BMI可能會增加心肺負擔,通過影響腦部血液流動,致使腦卒中發病概率升高;PETERS等[26]發現,女性腦卒中的發病率隨TC水平的增加而增加。本研究中傳統多因素Cox回歸模型結果并未得出影響腦卒中發病的危險因素,造成上述結果的原因可能是傳統多因素Cox回歸模型只考慮了研究對象的基線情況,靜態模型并未考慮縱向指標的動態變化,因此可能產生一定的差異。而貝葉斯多變量聯合模型可以將縱向觀測指標的動態變化過程和結局事件關聯起來,更加完整地考慮了生存過程,提高結果估計的精確性。
TC、TG、LDL-C等指標的縱向變化軌跡圖分析結果顯示:相較于非腦卒中組,腦卒中組的TC、TG等體檢指標的變化幅度較大,其動態軌跡變化可能影響腦卒中的發病率。為進一步深入探討分析TC、TG等指標的縱向動態變化軌跡對腦卒中發病的影響,本研究采用貝葉斯多變量聯合模型進行分析,分析結果顯示:TG和LDL-C的動態變化軌跡影響腦卒中發病(P<0.05),TG和LDL-C的縱向變化與腦卒中的發病率呈正相關。該研究結果與國內外部分研究結論相似。大量研究表明,不良的脂質縱向軌跡變化會增加心腦血管疾病的風險[27-30],其中TG作為心血管疾病的危險因素,已廣泛被醫學界接受,高TG水平會引起冠心病、動脈粥樣硬化,導致腦部血流量減少,增加腦卒中的發病風險。李志強[31]通過分析2008—2016年人群隊列研究發現,腦卒中的發病風險會隨著TG水平的降低而降低。LEE等[32]進行的一項前瞻性隊列研究發現,高TG水平的成年人,其腦卒中發病的概率更高。LDL-C是一種運載膽固醇進入外周組織細胞的脂蛋白顆粒,當其過量時,其攜帶的膽固醇會在動脈壁上累積,進而引發動脈硬化。GU等[33]通過納入6項共計267 500例研究對象的隊列研究發現,LDL-C水平升高容易引發大動脈硬化,同時隨著LDL-C水平升高,腦卒中的發病率也會增加。另外,前期相關研究表明,TC、HDL-C等也是影響腦卒中發病的危險因素[32,34],但本研究中并未發現TC、HDL-C的動態變化對腦卒中發病的影響,可能是因為高TC、低HDL-C水平與多數心腦血管疾病發病的相關度較高,本研究在設計前期為排除其他疾病對腦卒中發病的影響,將基線患有心腦血管疾病的患者排除,從而未能發現TC、HDL-C與腦卒中發病的相關性。
本研究也存在一定的局限性:如本研究納入的變量較少,且為一些常見的血脂、血糖等指標,缺乏腦卒中發病的特異性因素,后期在條件允許的情況下,可進一步增加研究變量,以深入探討分析影響腦卒中發病的影響因素。另外,貝葉斯多變量聯合模型的擬合過程中僅考慮了無信息先驗的情況,未來的研究可以考慮納入外部有信息先驗進而提升貝葉斯聯合模型的估計精度。
綜上所述,TG和LDL-C的縱向增長是影響體檢人群腦卒中發病的關鍵危險因素。本研究結果提示,健康體檢人群除了應進行定期體檢,注意體檢指標是否異常外,還應密切關注體檢對象體檢指標的動態變化軌跡,特別對于那些動態軌跡變化較大的指標,應提高警惕,并及時進行有針對性的干預及治療,進而降低人群發病的風險。此外,由本研究結果可知,貝葉斯聯合模型可用于健康體檢人群腦卒中等常見慢性病的危險因素的探討研究。
作者貢獻:楊毅負責選題、清洗保留研究數據、模型構建、計算機代碼和支持算法的實現、原稿寫作;叢慧文和王廉源負責模型構建、計算機代碼和支持算法的實現;楊麗萍負責調查開展、提供研究數據;包綺晗負責數據可視化展示;王浩樺和李承圣負責驗證研究結果;周立雯和丁子琛負責清洗和整合研究數據;通信作者石福艷和王素珍對選題進行指導,對文章涉及觀點及立論依據進行審閱和修訂;所有作者確認了論文的最終稿。
本文無利益沖突。