胡雪蕓,何宗宜,苗 靜
疾病數據的時空聚集分析及可視化
胡雪蕓1,何宗宜1,苗 靜2
( 1.武漢大學資源與環境科學學院,湖北武漢430079; 2.武漢市測繪研究院,湖北武漢430022)
近年來,GIS應用在公共衛生健康及空間流行疾病領域發展迅速,并為其提供準確有效的分析及制圖可視化工具。GIS可支持疾病制圖、定點分析、人口地理描述、空間統計分析和建模[1],而疾病具有空間聚集分布現象,且聚集現象意味其已經在一定區域內建立了較為有效的傳播途徑,可作為疾病由局部散發性疫情向大規模暴發流行轉變的重要預警信號[2]。因此,充分利用疾病的時間與空間信息,將GIS時空聚集分析及可視化技術應用于空間流行疾病領域,就可以對疫情實時監控并進行預測,以直觀的方式在疾病監測、資源分配等方面為衛生行政部門提供科學參考。
因有效的抗結核疫苗的全面普及,中國結核病發病率有所下降,但是在發展中國家,結核病仍然是公眾健康的主要危險之一,在我國也是主要傳染病之一[3]。因此本文以全國省級肺結核發病數據為研究對象,使用GIS的可視化技術,基于空間聚集分析,對疾病的空間聚集情況進行探尋與分析,并依據時間序列對疾病進行分析預測,最后,以時空掃描統計方法對疾病發生的時間、空間結合分析,所得結果表明該時空聚集分析方法可靠,可為公共衛生決策提供參考建議。
疾病聚集研究是為了尋找空間或時空上的疾病發生風險明顯高的地區,有助于疾病預警及資源合理分配。本文研究疾病時空聚集的方法如圖1所示,對疾病數據依次進行空間聚集分析、時間序列預測分析及時空掃描分析,對疾病的發病情況進行深入的研究。

圖1 疾病數據時空聚集分析方法
1.空間聚集分析
空間聚集分析主要包括全局自相關分析、局部自相關分析及熱點分析。其中,全局自相關分析采用Moran's I指數;當Moran'I指數為0時,說明無聚集;當Moran'I指數大于0時,則正空間自相關;反之,空間負自相關。Moran'I的統計檢驗P值由蒙特·卡羅隨機試驗得到。當區域數據具有空間自相關性后,可進行局部自相關性檢驗,它通過對每個區域進行Moran'I指數統計,探測局部的聚集情況,通常采用局部空間關聯指標( LISA)[4],可探索局部自相關性,或通過Moran散點圖發現異常值。熱點分析是對每個要素計算Getis-Ord Gi*統計[5],Gi*統計是局部聚集的指標,代表分布地區的“中心”,通過對比局部自相關估計與全局平均水平,在空間上發現熱點。
2.時間序列預測ARIMA模型
為了研究事物的動態演變規律,按某種(相等或不相等)時間間隔對客觀事物進行實時觀察,所得觀察結果X1、X2、…、Xi被稱作時間序列,其數學本質是隨機過程的一次具體實現[6]。時間序列時域分析基本模型主要有指數平滑方法及ARIMA模型,而在醫學范疇內ARIMA模型應用廣泛[7-8]。ARIMA自回歸綜合移動平均模型也稱box-jenkins模型,基本思想是將預測對象隨時間推移而形成的數據視為一組依賴于時間t的隨機變量[9],然后用數學模型來描述變量序列,其建模過程如圖2所示。

圖2 ARIMA模型建模過程
3.時空掃描統計
時空掃描統計是時空事件聚類分析方法中的一種,它是由Kulldorff在空間掃描統計基礎上擴展得到的[10],旨在探索時空范圍的聚集性與比較隨機分布模式,是否顯著增加,并確定聚集性最可能異常的時空事件集合[11]。時空掃描統計方法在流行病時空聚集研究領域應用廣泛[12-13],能夠對流行病發病的時間、地點及其規模的大小進行深入分析,從而實現流行病爆發的早期識別[14]。其基本思想是首先采用一個以空間距離定義半徑、時間長度定義高度的圓柱體作為二維掃描窗口,掃描每一個時空事件,然后在每個窗口根據泊松分布,以人口數與總發病數計算理論發病數,通過窗口內外理論與實際發病人數構造統計量對數似然比( LLR),用LLR來描述掃描窗口內發病數的異常程度。最后,基于蒙特卡羅模擬法生成的隨機數據集,以相同方法計算LLR值,對窗口進行顯著性檢驗。
疾病制圖在空間流行病領域中發揮很大的作用,可以發現疾病的潛在危險區域,協助病因學研究,分析疾病地理分布情況,合理分配醫療資源,對疾病擴散起一定的預防作用。在疾病制圖及空間聚集分析時,考慮到區域人口總量的變異性,及區域發病率比患病人數更能準確地反映疾病真實的空間分布[15],使用發病率指標作為試驗數據。發病率是一段時間之間出現的新患病人數與總人口數的百分比,計算方法為

本文研究以全國省級肺結核發病數據為研究對象,考慮到空間的連續性及數據獲取情況,文中暫不考慮海南、香港、澳門、臺灣的發病情況,因此下文中分析過程將不包括上述地區。整理數據,得出各省2005—2012年平均肺結核發病率數據,對該數據進行可視化分析,得出整體上各地區不同的發病情況,如圖3所示。

圖3 全國2005—2012各省年平均肺結核發病率統計圖
考慮到分級圖受省級邊界的限制,發病率統計圖不夠連續光滑,使用插值方法生成發病率地形圖,如圖4所示。地學統計克里金插值法不同于其他確定性插值方法,它考慮空間變異性,并可將隨機因素及相關因素考慮進來,這樣疾病制圖的效果更準確[16]。

圖4 全國2005—2012各省年平均肺結核發病率克里金插值圖
結合分析圖3、圖4,可初步判斷新疆、貴州廣西的兩部分區域為高發病率區域,北京天津及沿海區域為低發病率區域。
1.空間聚集分析
ArcGIS“空間統計”工具箱中的工具可以對空間分布的顯著特征進行匯總,識別具有統計顯著性的空間聚類(熱點/冷點)或空間異常值,評估聚類或離散的總體模式并建立空間關系模型。本文將使用該工具箱工具進行一系列空間聚集分析。
( 1)空間自相關分析
Globe Moran's I指數代表了全局發病率的空間自相關性及分布模式,Z得分和P值都是統計顯著性的度量,用于逐要素判斷是否拒絕零假設。若Moran's I指數大于0,且P<0.05,Z>1.96,說明研究區域具有空間相關性,其分布是聚集型分布。選取2005—2012年肺結核發病率數據進行全局空間自相關分析,部分結果見表1,表明全國發病率數據呈聚集型分布,并非隨機分布。

表1 全國2005—2011年發病率的全局空間自相關分析
( 2)聚類和異常值分析
Anselin Local Moran's I統計量可識別具有統計顯著性的熱點、冷點和空間異常值,選取2005—2012年肺結核發病率數據進行聚類和異常值分析,部分結果如圖5所示,HH代表高值聚集類,LL代表低值聚集類,HL代表高值要素而四周圍繞的是低值要素,LH代表低值要素而四周圍繞的是高值要素。由圖5可知,2005年和2007年,貴州、廣西、重慶為高發病率聚集區,北京、天津等為低發病率聚集區; 2009年高發病率聚集區發生變化,新增新疆、西藏地區,廣西、重慶地區不明顯,低發病率聚集區增加江蘇及上海; 2011年新疆、西藏和貴州為高發病率聚集區,低發病率聚集區大致不變。總體上,隨著時間變化,高發病率聚集區發生改變,結合原發病率數據,新疆地區發病率高,西藏地區2009年和2011年發病率驟升,因此與新疆地區形成新高發病率聚集區;廣西、重慶2007年后發病率隨時間大致呈下降趨勢。
( 3)熱點分析
熱點分析用于識別具有統計顯著性的高值(熱點)和低值(冷點)的空間聚類,以Z得分進行制圖。由圖6可知,隨著時間變化,熱點區域有所改變,其分析結果與聚類分析大體一致,2005年與2007年,新疆、貴州、廣西等區域為熱點區域,北京、天津、上海等為冷點區域,隨著時間變化,2009年與2011年新增西藏為熱點區域,冷點區域基本一致。
2.時間序列分析
全國發病率如圖5( a)所示,全國年發病率在2005年達到最高值,之后呈遞減趨勢。以發病率熱點省份新疆和貴州為例,2005—2012年以月份為時間間隔,序列圖如圖7所示,可知發病率具有年周期性。新疆月發病率在2007年1月份達到最高值,年內大致呈下降趨勢,偶見年底反彈;貴州月發病率在2008年1月份達到最高值,年內大致呈下降趨勢。新疆和貴州年內發病率趨勢大體一致,可知年初為高發病率時期,推測冬季初春為高發病時段。
在已有大量時間屬性的數據下,可對貴州時間序列進行預測。選擇時間序列ARIMA模型,經過參數調試,選用參數模型ARIMA( 1,0,0) ( 1,0,0),所得Q統計量值為0.473>0.05,說明殘差彼此獨立,且殘差基本符合零均值正態分布,因此殘差通過白噪聲檢驗,說明該模型比較合理。得出預測圖如圖8所示,所得預測結果見表2,其中UCL為高值置信區,LCL為低值置信區,預測值均在置信區,預測值可靠。

圖5 2005—2011年全國肺結核發病率聚類及異常值分析

圖6 2005—2011年全國肺結核發病率的熱點分析

圖7 發病率時間序列圖

圖8 貴州2013年月發病率預測圖

表2 貴州2013年部分月發病率預測
3.時空掃描統計
使用軟件SaTScan v9.3.1,對2005—2012年全國省份年肺結核患病數據進行回顧性時空掃描分析,結果見表3,肺結核發病在時間和空間上存在明顯的聚集性。最可能聚集區域為新疆、貴州、廣西、重慶等組成的區域范圍,其LLR值高于其他聚集區域,聚集時間為2005—2008年。另外發現,黑龍江在2005—2008年構成次聚集區域,表明在該時間段內發病異常增多,呈聚集性分布。同時,內蒙古2005年發病呈聚集型分布,表明2005年為疾病高發時段。由時空掃描分析得出時空上最可能聚集區域,如圖9所示。

圖9 2005—2012年全國肺結核發病時空聚集情況

表3 2005—2012年全國肺結核病例時空掃描分析結果
疾病制圖作為疾病數據的可視化方法之一,能夠在空間上反映疾病的分布情況,并將統計分析結果更加直觀地表達出來。本文以全國省級肺結核患病數據為源數據,使用全局空間自相關、局部自相關分析、時間序列預測分析及時空掃描分析方法,對全國肺結核疾病的時空聚集情況進行分析及可視化。試驗結果為全局疾病呈聚集分布,空間上確定高發病率區及低發病率區,時間上確定高發病時間段,結合時間與空間,尋找時空上高發病聚集區,分析結果具有一定的參考價值。本文時空聚集分析方法適用于分析疾病在時空上的聚集情況,分析結果可使相關醫療部門人員更深刻地認識疾病的發病情況,有利于發現重點防治區,加強對高發病區域的監測與預警,防止疾病暴發,并協助有所側重地合理分配醫療資源,為疾病控制決策提供科學的參考依據。
[1] JACQUEZ G M.Spatial Analysis in Epidemiology: Nascent Science or a Failure of GIS?[J].Journal of Geographical Systems,2000,2( 1) : 91-97.
[2] 張人杰,葛尓佳,張雙鳳,等.高致病性H5N1禽流感全球分布地理信息系統時空分析[J].中國公共衛生,2014,30( 1) : 26-29.
[3] 張俊輝,李曉松,葉運莉.我國肺結核病危險因素的Meta分析[J].現代預防醫學,2010,37 ( 2) : 207-209.
[4] ANSELIN L.Local Indicators of Spatial Association—LISA[J].Geographical Analysis,1995,27( 2) : 93-115.
[5] GETIS A,ORD J K.The Analysis of Spatial Association by Use of Distance Statistics[J].Geographical Analysis,1992,24( 3) : 189-206.
[6] 王彤.醫學統計學與SPSS軟件應用[M].北京:北京大學醫學出版社,2008: 307.
[7] 楊召,葉中輝,趙磊,等.ARIMA-BPNN組合預測模型在流感發病率預測中的應用[J].中國衛生統計,2014,31( 1) : 16-18.
[8] 王濤,苑新海,朱宗龍.ARIMA時間序列在乙肝發病預測中的應用[J].中國衛生統計,2014,31( 4) : 646-647.
[9] 丁亞興,張之倫,朱向軍.自回歸綜合移動平均模型對天津市甲型肝炎發病預測[J].疾病監測,2008,23 ( 5) : 326-328.
[10]KULLDORFF M,ATHAS W F,FEURER E J,et al.Evaluating Cluster Alarms: a Space-time Scan Statistic and Brain Cancer in Los Alamos,New Mexico[J].American Journal of Public Health,1998,88 ( 9) : 1377-1380.
[11]唐建波,鄧敏,劉啟亮.時空事件聚類分析方法研究[J].地理信息世界,2013,20 ( 1) : 38-45.
[12]ONOZUKA D,HAGIHARA A.Geographic Prediction of Tuberculosis Clusters in Fukuoka,Japan,Using the Space-time Scan Statistic[J].BMC Infectious Diseases,2007,7( 1) : 1-9.
[13]王強,高金彬,許靜,等.運用時空掃描統計量分析江蘇省高郵市釘螺時空分布中[J].中國寄生蟲學與寄生蟲病雜志,2014,32( 2) : 110-115.
[14]肖輝,肖革新.時空掃描統計量在細菌性痢疾監測數據分析中的應用[J].中國食品衛生雜志,2014,26 ( 1) : 83-87.
[15]ROBINSON T,STEVENSON M,STEVENS K B,et al.Spatial Analysis in Epidemiology[M].New York: Oxford University Press,2008: 35.
[16] ZHONG S,XUE Y,CAO C,et al.Explore Disease Mapping of Hepatitis B Using Geostatistical Analysis Techniques[C]∥Computational Science-ICCS 2005.Berlin: Springer Berlin Heidelberg,2005: 464-471.
[17]郭云開,王楊.路域植被覆蓋度時空變化遙感定量反演[J].測繪通報,2013( 5) : 23-27.
[18]張健欽,邙曉宇,徐志潔,等.基于GIS的居民出行調查數據時空查詢分析研究[J].測繪通報,2013( 4) : 21-24.
Space-time Clustering Analysis and Visualization Based on the Data of Tuberculosis
HU Xueyun,HE Zongyi,MIAO Jing
GIS應用在疾病領域方面發展迅速,為其提供可靠的空間統計分析方法,其疾病制圖實現了疾病數據的可視化。本文以肺結核數據為例,進行了空間聚集分析、時間序列分析及時空掃描統計分析,分析疾病的時空聚集狀態,尋找高發病率區域,分析結果可為醫療衛生部門在疾病監測預警、資源分配等方面提供科學參考。
發病率;可視化;時空聚集;時間序列;肺結核
胡雪蕓( 1991—),女,碩士生,研究方向為數據挖掘與時空分析。E-mail: blufan@ 163.com
P208
B
0494-0911( 2015) 11-0106-06
胡雪蕓,何宗宜,苗靜.疾病數據的時空聚集分析及可視化[J].測繪通報,2015( 11) : 106-111.
10.13474/j.cnki.11-2246.2015.0358
2014-12-11;
2015-05-06