鄭 瑞, 石苗苗, 蒲新明
(1新疆醫科大學公共衛生學院, 烏魯木齊 830017; 2新疆維吾爾自治區第二濟困醫院(新疆維吾爾自治區第五人民醫院), 烏魯木齊 830013)
心血管疾病(Cardiovascular disease,CVD)是全球人群死亡的首位死因,血脂異常作為心血管疾病的主要危險因素之一,控制血脂水平可有效降低心血管疾病的患病風險[1]。流行病學調查結果顯示,我國成年人總體血脂異常率約為40%,其中高膽固醇血癥率約為28%,高甘油三脂血癥率約為15%[2]。血脂異常隨著年齡的增長而逐漸增多,男性多于女性。同時,血脂異常也與肥胖、高血壓等慢性病密切相關,這些風險因素可能相互影響,進一步加重血脂異常的風險[3]。因此,通過健康體檢篩查,預防和控制血脂異常已成為公共衛生中的重要問題[4]。隨著生物數學、統計學、大數據科學的發展,越來越多的研究人員嘗試將數學模型應用于疾病的描述[5-7]。本研究通過分析2016-2020年烏魯木齊新市區年齡≥18歲以上全民健康體檢人群的血脂異常檢出率與年齡、性別、吸煙狀況、飲酒頻次、文化程度及體質指數的相關性,采用ARIMA(Autoregressive intergrated moving average)乘積季節模型對新市區血脂異常月檢出率進行預測,從而為血脂異常的防治提供一定的數據支持。
1.1 資料來源從烏魯木齊市衛生健康委員會獲取2016-2020年新市區年齡≥18歲全民健康體檢人群血脂異常的相關數據及報表。
1.2 血脂異常診斷標準以血脂異常防治指南制訂聯合委員會《中國成人血脂異常防治指南》(2016修訂版)為依據,總膽固醇(TC)≥6.2 mmol/L;甘油三脂(TG)≥2.3 mmol/L;高密度脂蛋白膽固醇(HDL-C)<1.0 mmol/L;低密度脂蛋白膽固醇(LDL-C)≥4.1 mmol/L,存在以上情形之一為血脂異常。
1.3 吸煙及飲酒分組標準吸煙者[8]:每天至少吸煙1支且持續1年以上,或者1年累積吸煙>18包者;已戒煙者[8]:目前不吸煙且持續在半年以上,但曾經經常或每天吸煙。飲酒頻次[9]:不論是白酒、啤酒、葡萄酒或者黃酒等,只要平均每周一次即定義為偶爾飲酒;每周大于3次即定義為經常飲酒;逢年過節飲酒一次者定義為不飲酒。
1.4 ARIMA模型的構建(1)時間序列的增項DF單位根檢驗(Augmented dickey-fuller test,ADF)檢驗,確保序列的穩定性;畫出烏魯木齊市新市區血脂異常檢出率序列圖并判斷其穩定性;若不穩定,對原始數據差分。(2)選定一個(或幾個)合理的模型(即選定可能的p值和q值):做出序列的自相關(Autocorrelation function,ACF)和偏自相關(Partial autocorrelation function PACF)圖。(3)通過比較赤池信息量準則(Akaike information criterion,AIC)值和貝葉斯信息準則(Bayesian information criterion,BIC)來得到最合理的模型,AIC值和BIC值越小來得到最合理的模型。(4)從統計假設和預測準確性等角度評估模型:模型合適,模型的殘差應該滿足均值為0的正態分布,并且對于任意的滯后階數,模型的殘差都應該滿足正態分布。(5)預測:如果殘差不滿足正態性假設或零自相關系數假設,需要調整模型、增加參數或改變差分次數。選定模型后,短期預測血脂異常檢出率(包含預測點和95%的置信區間)。
1.5 統計學分析采用SPSS25.0和R4.0軟件處理數據。不符合正態分布的計量資料以M(P25,P75)表示,計數資料以例(%)表示,采用χ2檢驗,以P<0.05為差異具有統計學意義。
2.1 基本情況2016-2020年新市區參加全民健康體檢者共有89 196人,2016-2020年依次為:16 269人、14 342人、15 031人、20 488人和23 034人。其中,女性多于男性,男女性別比依次為:1∶1.22、1∶1.25、1∶1.16、1∶1.15、1∶1.10。2016-2020年健康體檢人群的平均年齡為:50(36,62)歲、49(36,62)歲、52(35,64)歲、53(38,66)歲、53(38,66)歲。
2.2 血脂異常檢出率及單因素分析年齡、性別(除2016年)、吸煙情況(除2019年)、飲酒頻次(除2019年)、文化程度和體質指數是烏魯木齊市新市區健康體檢人群血脂異常的影響因素(P均<0.05)。在18~69歲年齡區間,血脂異常檢出率隨著年齡的增大而升高;除2016年外,男性的血脂異常檢出率高于女性;有吸煙史者的血脂異常檢出率較不吸煙者高;每天飲酒者的血脂異常檢出率較高;文化程度大專及以上者的血脂異常檢出率較低;超重和肥胖者的血脂異常檢出率升高,見表1。

表1 2016-2020年烏魯木齊市新市區體檢人群血脂異常檢出情況/例(%)
2.3 ARIMA時間序列模型
2.3.1 2016-2020年血脂異常檢出率時序圖及平穩性檢驗 本研究采用月度檢出率構建ARIMA模型。圖1繪制2016年1月-2019年12月的烏魯木齊市新市區全民健康體檢人群的血脂異常檢出率時序圖。使用ADF檢驗原始序列的平穩性,結果顯示血脂異常檢出率的時間序列為非平穩序列(P>0.05)。季節效應分解圖(圖2)表明新市區的血脂異常檢出率具有季節性趨勢,故需對原始序列進行一階季節差分來消除季節性影響。

圖1 2016年1月-2019年12月新市區全民健康體檢人群的血脂異常檢出率時序圖

圖2 2016年1月-2019年12月血脂異常檢出率季節效應分解
2.3.2 模型的識別與參數確定 原始的數據進行一階差分和一階季節差分處理之后,數據達到平穩序列,故模型中d=1,D=1。圖3展示了平穩時間序列ACF和PACF圖,兩圖均為1階截尾。考慮到模型階數過高將造成過擬合,因此,參數取值范圍為0~2,對p和q由低到高階進行擬合嘗試,設置臨界值,排除AIC大于-57的模型,最終列舉9個模型的AIC、BIC值(表2)。通過最小信息量準則,比較AIC值和BIC值越小來得到最合理的模型,確定最優模型為ARIMA (1,1,1) (0,1,1)12,其中AIC=-59.255 71,BIC=-53.034 31。

圖3 平穩序列的自相關圖和偏自相關圖

表2 模型的AIC、BIC比較
2.3.3 模型診斷 對模型殘差進行白噪聲檢驗,經楊-博克斯檢驗(Ljung-Box) Q檢驗,結果顯示P=0.485(P>0.05),可認為該殘差序列為白噪聲,模型基本滿足要求。
2.3.4 模型預測 采用ARIMA(1,1,1)(0,1,1)12模型對烏魯木齊市新市區2020年的血脂異常檢出率進行預測,見圖4。各個月份真實值和預測值情況如表3所示,模型預測2020年1-12月份的平均絕對百分比誤差(MAPE)為72.25%,具有較大的誤差,由于2020年2-4月和8月未能進行全民健康體檢,除外上述月份,模型的MAPE為15.84%,擬合值和真實值總體趨勢一致,其余各月份的實際檢出率均在95%的置信區間。此時模型處于較高精度,表明該模型能短期預測血脂異常的檢出情況。

圖4 ARIMA(1,1,1)(0,1,1)12模型擬合和預測

表3 ARIMA(1,1,1)(0,1,1)12模型預測新市區2020年1-12月血脂異常檢出情況
本研究中,新市區2016-2020年全民健康體檢人群血脂異常檢出率隨年齡增長逐漸增高,這與衡陽市、安徽省14個縣(區)、宜興市、天津市某區、哈密市、新源縣對居民健康體檢的結果一致[10-15],可能由于隨著年齡增長,運動量減少,身體素質降低所致。本研究中,有吸煙史者的血脂異常檢出率較不吸煙者高,吸煙不僅使膽固醇、甘油三酯水平升高,還可以增加交感神經輸出量,使血管受到破壞,加速了血小板的凝聚能力,增加高血壓和血脂異常的患病率[16]。每天飲酒者的血脂異常檢出率較高,這與孫惠昕等[17]對1990年與2019年我國歸因于飲酒的疾病負擔的分析結果一致,飲酒成為了僅次于飲食習慣和吸煙的第三大危險行為因素。本研究中,文化程度大專及以上者的血脂異常檢出率較低,與張港澳等[18]的研究結果一致,可能由于文化程度越高,健康管理意識越強,較為注重身體鍛煉及營養飲食。超重和肥胖者的血脂異常檢出率升高,與孫鋒等[19]的研究結果一致。隨著體質指數的增加,體內的激素水平和血糖水平不穩定,導致血脂水平異常。
在公共衛生領域,利用時間序列模型預測某種疾病在未來時間的發展趨勢,能夠更好地做好疾病的預防,尤其是季節性時間序列ARIMA模型,此模型考慮疾病的季節性、周期性、隨機性等可能影響序列平穩性的因素,同時借助模型的參數進行量化表達,多適用在傳染病預測。曹新西等[20]基于1990-2017年全球疾病負擔高發慢性病患病率和疾病負擔數據也對我國高發的慢性疾病建立了時間序列模型,很好地反映了疾病變化趨勢和特點,有助于社區衛生服務機構更好地控制與加強慢性病的監督和管理工作。本研究針對血脂異常檢出率建立ARIMA(1,1,1)(0,1,1)12模型,此模型擬合值與2020年的數據波動有較大的關聯,在排除2-4月和8月的疫情影響后,烏魯木齊市新市區2020年其他月份的血脂異常檢出率真實值與預測值走勢一致,且實際檢出率均在95%的置信區間,說明擬合的模型能短期預測血脂異常的檢出情況,可以為疾病預防措施的改進和實施提供一定的參考依據。
本次研究存在一定的局限性:在人群的選擇上,僅研究烏魯木齊市的一個區,人群的范圍較小,只能作為小范圍地區的參考,不能代表整個烏魯木齊市體檢人群的健康水平,將在今后的研究中擴大研究范圍或者使用外部數據檢測模型的精度。