王雅文 沈忠周 嚴寶湖 楊銀



[摘要] 目的 探討應用GM(1,1)灰色預測模型和GM-Markov模型在全國肺結核發病率預測中的可行性,為制定措施加快降低結核病發病率提供參考。方法 收集2007—2017年全國肺結核數據,建立模型擬合2007—2016年數據并預測2017年全國肺結核發病率,評價兩個模型的擬合及預測效果。 結果 擬建立的GM(1,1)模型為x(1)(k+1)= -1 960.635 9e(-0.0441k) +2 049.185 9;GM(1,1)模型與GM-Markov模型的擬合平均相對誤差分別為2.08%和1.11%;預測2017年全國肺結核發病率相對誤差分別為6.06%和3.40%。GM-Markov模型的擬合和預測效果優于GM(1,1)模型。 結論 GM-Markov模型較GM(1,1)灰色預測模型更適用于預測我國肺結核發病率。可借助該模型預判我國肺結核流行趨勢 ,指導相關衛生資源分配。
[關鍵詞] 肺結核;GM(1,1);Markov;預測
[中圖分類號] R19 [文獻標識碼] A [文章編號] 1672-5654(2019)02(c)-0176-04
Application of Grey Markov Model in Predicting the Incidence of Tuberculosis in China
WANG Ya-wen1, SHEN Zhong-zhou1, YAN Bao-hu1, YANG Yin2
1.School of Public Health, Peking Union Medical College, Beijing, 100730 China; 2.Department of Pathogenic Biology, Institute of Basic Medical Sciences, Chinese Academy of Medical Sciences, Peking Union Medical College, Beijing, 100005 China
[Abstract] Objective To explore the feasibility of applying GM(1,1) gray prediction model and GM-Markov model in the prediction of tuberculosis incidence rate in China, and provide reference for formulating measures to accelerate the reduction of tuberculosis incidence. Methods The national tuberculosis data from 2007 to 2017 were collected, the model was fitted to the data of 2007 to 2016 and the incidence of tuberculosis in 2017 was predicted. The fitting and prediction effects of the two models were evaluated. Results The proposed GM(1,1) model was x(1)(k+1)=-1 960.635 9e(-0.0441k)+2 049.185 9; the average of the GM(1,1) model was compared with the GM-Markov model errors were 2.08% and 1.11%, respectively; the relative errors of the national tuberculosis incidence in 2017 were predicted to be 6.06% and 3.40%, respectively. The fitting and prediction effects of the GM-Markov model were better than the GM(1,1) model. Conclusion The GM-Markov model is more suitable for predicting the incidence of tuberculosis in China than the GM (1,1) gray prediction model. This model can be used to predict the trend of tuberculosis in China and to guide the allocation of relevant health resources.
[Key words] Tuberculosis; GM (1,1); Markov; Prediction
結核病是世界傳染病中致死率較高的一種慢性傳染病,同時結核病也是艾滋病感染者死亡及因抗生素耐藥所致死亡的主要原因[1]。2017年全球有160萬人死于結核病,中國是全球30個結核病高負擔國家之一,在2017年結核病發病人數達83.5萬[2]。結合桿菌可累及人體全身各個器官,主要侵犯肺部,稱肺結核。我國是結核病高發病國家,政府先后出臺了《結核病防治管理辦法》《“十三五”全國結核病防治規劃》等一系列結核病管理規范文件,并取得了一定的成效。由于我國幅員遼闊,人口眾多,即使較低的發病率也意味著龐大的發病人數,因此對結核病發病數進行有效的預測,為疾病管理部門制定策略提供依據,將有助于加速降低我國結核病發病率。
在時間序列分析中,灰色模型預測常用于呈指數變化的年度數據預測[3-5]。灰色模型即該模型可對灰色系統內的時間序列進行處理,建立灰色模型,從而發現并運用其內在的發展規律,預測未來的發展趨。一階單變量微分方程(GM(1,1))模型是灰色系統中應用較廣泛的預測模型,該模型可識別并擬合原始數據的變化趨勢并預測[6]。不同于灰色模型無法擬合原始序列的波動,Markov鏈模型能較好地識別并擬合系列中波動,提高預測的準確度[7]。
該研究將運用GM(1,1)模型及GM-Markov模型擬合并預測全國2007—2017年肺結核發病率,比較模型效果并為制訂干預措施提供參考。
1? 資料與方法
1.1? 資料來源
2007—2017年全國肺結核發病人數資料收集自國家衛生計生委疾病預防控制局和國家統計局公布的年度全國法定傳染病監測報告,基于上述數據建立我國肺結核年發病率(/10萬)數據庫,用于GM(1,1) 模型及Markov聯合模型的建立。
1.2? 研究方法
1.2.1 研究數據? 以2007—2016年共計十年的全國肺結核發病率數據作為研究年建立GM(1,1)模型,預測2017年全國肺結核發病率并與真實值相比較計算模型的預測誤差。將GM(1,1) 模型對2007—2016年擬合值與實際值相比,計算相對值并以此建立Markov模型。以GM(1,1)-Markov 模型預測2017全國肺結核發病率,計算其預測誤差并與GM(1,1)模型比較。
1.2.2 GM(1,1)模型的建立過程? ①對原始序列x(0)進行一階累加生成累加序列x(1);②對序列x(1)求均值,得到相鄰均值生成序列y(1);③根據累加序列建立一階線性微分方程,該模型即GM(1,1)模型:dx(1)/dt+ax(1)=u,其中,a為發展系數,u為灰色作用量;④累減還原求解,得原始序列估計值序列x(1)(k+1)=[x(1)(0)-u/a]e(-ak)+u/a,其中,k=1,2,…n.
1.2.3 GM(1,1)-Markov聯合模型建立? ①計算相對值:將實際值與GM(1,1)模型對建模各年肺結核發病率擬合值相比計算相對值;②狀態劃分并計算狀態轉移頻數矩陣:根據經驗將相對值劃分為若干狀態,初始值從狀態i轉移至狀態j的個數記作fij,則由此構成的狀態轉移頻數矩陣見公式(1);③計算狀態轉移概率矩陣:根據狀態轉移頻數矩陣計算一步Pij(1)、二步Pij(2)及三步Pij(3)轉移概率矩陣;④預測:根據距離2017年最近的三個年肺結核發病率的初始狀態,計算其轉移至2017年各狀態的概率;⑤模型修正:根據Markov模型預測的2017年肺結核發病率所在狀態區間,修正GM(1,1)模型的預測結果。
1.2.4 擬合效果檢驗? 符合率:即預測值與實際值的相符程度,用回代年的預測值與實際值之比的百分數表示。
后驗差比值C,C=Se/Sx, Se表示殘差序列標準差,Sx表示原始序列的標準差。C值是反映預測值與實際值之差的集中程度,其值越小,表示預測值與實際值之差越集中。
小誤差概率P,P是滿足殘差與殘差均值之差小于0.6475Sx的個數占總數的比。其值越大,表示差值越接近0.64775Sx,即模型擬合精度越高。P值與C值綜合判斷模型擬合精度標準見表1。
相對誤差檢驗,通常情況下平均相對誤差差小于5%較優,小于20%尚可接受。
1.3? 統計方法
運用Excel 2016建立2007~2017年全國肺結核發病率數據庫,使用R 3.4.3軟件編程建立GM(1,1)灰色預測模型并預測。
2? 結果
2.1? 建立GM(1,1)模型
2007年至2017年全國肺結核發病率呈逐年下降趨勢,運用R軟件編程建立GM(1,1)模型,得出全國肺結核發病率模型發展系數a為0.0441,灰色作用量u為90.3691,預測模型為x(1)(k+1)=-1960.6359e(-0.0441k)+2049.1859。運用該模型擬合2007—2016間全國肺結核發病率數據,并計算相對值。見表2。
2.2? GM-Markov模型建立
計算2007—2016年全國肺結核發病率實際值與GM(1,1)模型擬合值之比得相對值,根據經驗將全部相對值平均劃分為高估、較準確和低估3個狀態,即E1:[0.959 2,0.980 0],E2:[0.980 0,1.010 0],E3:[1.010 0,1.046 6]。根據此劃分依據確定各年相對值所在狀態見表2。基于此得出一步轉移頻數矩陣fij和一步轉移概率矩陣Pij(1)。
利用三步轉移概率矩陣計算2017年全國肺結核發病率所處狀態區間。選擇距離2017年最近的三個年份,即2016年、2015年和2014年,依次通過一步、二步、三步轉移至2017年。在各轉移步數所對應的轉移矩陣中,取其起始狀態所對應的行向量,組成新的概率矩陣,并對該矩陣的列向量求和,其中總和最大者即Markov模型預測2017年全國肺結核發病率所處狀態區間。見表3。
由表3可見,合計中以狀態E3的概率最大,因此可以推測2017年全國肺結核發病率處于E3狀態,即[1.0100,1.0466]。GM(1,1)模型預測2017年全國肺結核發病率為56.86/10萬,因此GM(1,1)-Markov的預測值為56.86×(1.0100+1.0466)/2=58.47/10萬。
2.3? 模型比較
2017年全國肺結核發病率為60.53/10萬人,比較GM(1,1)模型與聯合模型的擬合及預測效果可知,GM(1,1)模型的擬合及預測效果均較GM(1,1)-Markov差。見表4,圖1。
3? 討論
預測模型的應用不僅有助于合理有效地預測疾病的發生發展趨勢并指導提前實施干預,還可用于對已經采取的干預措施進行效果評價。該研究比較了GM(1,1)模型和GM-Markov模型對我國肺結核發病率的擬合及預測效果,二者的擬合平均相對誤差分別為2.08%和1.11%,預測相對誤差分別為6.06%和3.40%,精度較高。由結果可知GM-Markov模型更適用于肺結核發病率數據建模及預測,可以被考慮作為潛在的政策制定輔助工具。
GM-Markov模型已經較為廣泛地應用于時間序列預測[8-9]。在肺結核發病率預測方面,牛成虎[10]等學者利用灰色GM(1,1)模型擬合我國1997—2006年間肺結核發病率并預測其變化趨勢,其平均相對誤差為0.013%,較本次研究結果好。李娜等[11]運用ARIMA模型預測四川省結核病發病率結果顯示模型的預測誤差為10.00%。模型預測性能的高低與數據本身的特點有關,本研究中初始時間序列近似指數變化,但是存在明顯的波動,猜想這可能是導致GM(1,1)模型預測精度下降的原因之一。此外,建模所用的樣本量、模型預測的長度等都會影響到模型的擬合及預測效果。有文獻顯示,灰色預測模型建模數據8~10個即可,該文利用10年的數據建立模型并進行短期預測,結果較為可靠[6]。利用聯合模型彌補GM(1,1)模型無法處理波動信息的特點,提高了模型的準確度。在現有研究中多數研究結果顯示聯合模型的性能高于基本模型,這也提示研究者在建立模型時應充分考慮各模型的適用條件及優缺點,取長補短提高模型適用性。
調查資料顯示,我國過去十年間,肺結核患者人均住院費用顯著增長[12]。根據已有文獻,我國結核病流行具有明顯特點:結核病患病率下降緩慢;患病區域地域性明顯;結核病耐藥性高;規則服藥率低;結核與艾滋相互影響[13-14]。防控結核病應當從衛生部門和個人兩方面著手。首先,衛生部門對外應開展健康教育活動,充分考慮易于接受的宣教模式,避免大面積撒網式教育。有研究發現重體力勞動者、中學生群體為結核病的易感群體,這提示可以采取有針對性的宣傳[15]。另一方面,提高衛生服務資源可及性及配置合理性[16]。我國第五次結核病流行病學抽樣調查結果顯示,西部地區結核病發病率增長較快,而對結核病的相關知識知曉率較低[17]。分析可能與當地監測數據質量提升而帶來高發病率有關,也可能是由于缺乏良好的醫療條件而未能及時防范感染導致疾病的發病率升高。西部地區醫療條件較東部地區落后,其各種疾病的發病和死亡也大多高于東部地區。我國近年來也在持續發展西部地區醫療衛生資源,由此導致的東西差異將會隨著時間推移而慢慢變小。其次,就個人而言,應積極主動了解結核病傳播的途徑及如何有效預防。農村家庭是結核病患者的高發地點,一旦感染了結核病,應及時就醫并做好隔離工作[18]。實際上農村地區結核病傳染源對自身認知較少,加之不了解結核病的傳播途徑,往往加速了結核桿菌的傳播。基于此,衛生部門可依據模型預測結果合理計劃衛生資源配置,還可通過模型預測不同地區發病率變化趨勢,促進資源合理分配[19]。
該次研究尚存在兩點不足。首先,研究所用的我國肺結核發病率數據是通過監測得到的數據,由于存在患者患病不前往醫院接受治療等情況,監測所得發病率數據可能與實際發生的數據略有不同。該次研究僅為肺結核發病率預測模型選擇提供參考,利用更準確的數據建立模型并預測才能使其預測準確性更高。其次,該次研究僅比較了兩種模型擬合和預測性能,結果顯示聯合模型的預測能力更高,但是未利用該模型預測2018年及之后的全國肺結核發病率變化情況,因此更完善的研究有待被提出。最后,該次研究僅比較了兩個簡單的數學模型在我國肺結核發病率預測方面的應用,目前新興的神經網絡及人工智能等均可被嘗試用于傳染病發病預測。該次研究僅為納入的兩個模型比較,更多、更完善的比較體系尚有待研究。
[參考文獻]
[1]? Lytras T,Kalkouni O. The global tuberculosis epidemic: turning political will into concrete action[J].J Thorac Dis,2018,10(Suppl 26):S3149-S3152.
[2]? 趙一菊,王聲湧.科學推進結核病防控策略? 實現“十三五”結核病防治規劃[J].中華疾病控制雜志,2017(5):431-433.
[3]? Pai TY, Lin KL, Shie JL, et al. Predicting the co-melting temperatures of municipal solid waste incinerator fly ash and sewage sludge ash using grey model and neural network[J].Waste Manag Res,2011,29(3):284-293.
[4]? Shen X, Ou L, Chen X, et al. The application of the grey disaster model to forecast epidemic peaks of typhoid? and paratyphoid fever in China[J].PLoS One,2013,8(4):e60601.
[5]? 王紅霞,李志榮,薛剛,等.基于灰色預測模型的青島市衛生技術人員需求預測分析[J].中國衛生產業,2017(3):3-4.
[6]? Wang YW, Shen ZZ, Jiang Y. Comparison of ARIMA and GM(1,1) models for prediction of hepatitis B in China[J].PLoS One,2018,13(9):e201987.
[7]? 劉世安,李曉松,蘇茜,等.MARKOV模型對具有波動性特征傳染病發病趨勢短期預測的初步探討[J].現代預防醫學,2010(10):1815-1817.
[8]? 時冬青.基于灰色GM(1,1)-馬爾科夫鏈模型的職業衛生預測研究[D].天津:天津工業大學,2017.
[9]? 高蔚.基于Markov理論的改進灰色GM(1,1)預測模型研究[J].計算機工程與科學,2011(2):159-163.
[10]? 牛成虎,梅光輝,石敏,等.我國肺結核發病率的發展動向及預測研究[J].現代生物醫學進展,2009(3):561-564.
[11]? 李娜,殷菲,李曉松.時間序列分析在結核病發病預測應用中的初步探討[J].現代預防醫學,2010(8):1426-1428.
[12]? 曾瑜,楊曉妍,周海龍,等.中國人群結核病疾病負擔的系統評價[J].中國循證醫學雜志,2018(6):570-579.
[13]? 陳沛學.基于結核病的流行趨勢與防控對策的分析[J].中國衛生產業,2018(15):189-190.
[14]? 張國欽,鐘達.耐藥肺結核發生和流行的危險因素[J].中國慢性病預防與控制,2017(7):557-560.
[15]? 高然,梁錦峰,陸泉,等.2004-2015年中國大陸地區肺結核流行特征分析[J].現代預防醫學,2018(14):2501-2504.
[16]? 龔潔莎,趙大仁.基于灰色GM(1,1)模型的我國肺結核發病率的預測分析[J].中國衛生產業,2018(15):175-176.
[17]? 靳圓圓,姚雪梅,王微,等.新疆涂陽結核病的流行特征及地區聚集性分析[J].新疆醫科大學學報,2016(2):239-242.
[18]? Moonan Patrick K, Nair Sreenivas A, Agarwal Reshu, et al. Tuberculosis preventive treatment: the next chapter of tuberculosis elimination in India[J].BMJ Global Health, 2018,3(5):e1135.
[19]? 王雅文,沈忠周,馬帥,等.GM(1,1)模型在孕產婦死亡率預測中的應用[J].中華疾病控制雜志,2018(7):755-757.