李 原
(山西財經大學 統計學院,太原 030006)
上世紀80年代以來,我國人口流動規模越來越大。“六普”數據顯示,2010年中國大陸流動人口已超2.6億人,占總人口的16%以上,國家統計局調查數據顯示,2015年流動人口達2.92億。大規模的人口流動直接影響區域人口規模結構和經濟格局,進而影響全國經濟發展的結構變遷、產業升級和人口城鎮化進程,有關人口流動的研究在我國變得越來越重要。
圍繞我國人口流動模式問題,國內很多學者進行了相關探討,相關文獻的定量研究方法可分為三類:人口遷移指標的描述統計分析法、多元回歸模型分析法及空間計量分析法。已有研究大都基于普查數據采用經典統計方法分析我國人口流動問題。經典統計視未知參數為固定常數,基于大樣本對總體進行推斷,估計結果高度依賴樣本信息,遇到有偏樣本則會導致參數估計結果有偏,特別是對于人口流動空間數據而言,其同時具有小樣本和自相關的特性,基于大樣本推斷總體的傳統統計模型由于自身的局限受到更多挑戰。
而貝葉斯層次時空模型是貝葉斯層次模型和時空交互模型的結合,貝葉斯層次模型可在一定程度上克服小樣本缺陷,時空交互模型同時考慮空間相關和隨機效應,貝葉斯層次時空模型為時空數據統計分析提供了全新的思路和方法,應用該模型進行人口流動分析,能解決經典統計難以解決的問題,同時能克服以往人口流動分析對時間和空間交互作用的忽略。
實際上,貝葉斯層次時空分析法近年在國際上受到廣泛的重視,特別是在生態學、疾病傳播等方面的理論和方法探索越來越多,目前國內也出現了相關的應用,但該方法在人口流動特征分析中的應用還未見。本文首次應用貝葉斯層次時空模型,對我國2009—2014年間省際人口流入的時空演化特征進行分析。
貝葉斯層次時空模型是貝葉斯層次模型和時空交互模型的結合,貝葉斯層次模型主要包括三個子模型:

θj為參數,φ是超參數,P(φ)是超先驗。P(θj,φ|yi)是參數和超參數的后驗分布,參數和超參數的后驗分布可通過似然函數、先驗分布和超先驗分布的乘積獲得:

后驗分布的計算涉及高維聯合概率密度函數估計,目前主要采用馬爾科夫鏈-蒙特卡洛法實現。為保證模型收斂性,可采用兩條MCMC鏈,收斂性通過Gelman-Rubin統計參數估計,其值越接近于1收斂性越好。
空間自相關性是空間數據的一大特點,不滿足獨立同分布特征,樣本數據有限時難以達到大樣本抽樣。而貝葉斯層次時空模型是貝葉斯層次模型與時空交互模型的結合,可以克服上述缺陷,該模型通過充分利用先驗信息,考慮時空交互項,同時考慮了數據的空間自相關性和隨機不確定性,以概率分布的形式描述時空特征,相應的三個子模型為:

yit是時空觀測樣本值,θit是時空因變量,s(i)和α(t)分別代表穩態空間相對風險和總體變化趨勢,Ωit(i,t)為時空交互項,該項常用的表達形式為,代表研究時段內各研究子區域的局部變化趨勢,bi度量從總體變化趨勢中分解出的局部變化程度,若bi>0,說明其局部變化強度強于總體變化強度,bi<0說明其局部變化強度弱于總體變化強度,t*=t-tm表示相對于研究期內中間時點tm的時間跨度。εit是隨機噪聲。
計算所有參數后驗分布后,可根據各區域時空因變量的空間相對風險s(i)的高低將其分為熱點、溫點和冷點區。該分類方法基于Richardson等(2004)提出的原則:若地區空間相對風險大于1的后驗概率大于0.8,則屬于熱點區,若小于0.2則屬于冷點區,界于0.2和0.8之間為溫點區。與此類似,根據各區域觀測值局部變化趨勢bi可將其分為強變化、穩定態和弱變化三種局部趨勢狀態。若局部趨勢參數bi>0的后驗概率大于0.8,p(bi>0)>0.8,則為強變化區,若p(bi>0)<0.2則為弱變化區域,其余為穩態區。
評價貝葉斯時空分解的穩定組分對整個時空變化過程的解釋度,常用指標是方差成分系數(VPC),VPC越大,則時空組分分解對時空變化過程的解釋度越高,表達式為:

本文研究區域范圍為中國大陸31個省級行政區域,由于普查數據滯后性太大,因此選用時效性較好的《中國人口和就業統計年鑒》數據,該年鑒可提供2009—2014年統計口徑一致的省際人口遷入率指標,該指標是某地區某時期的遷入人口占該地區同時期總人口的比重,遷入人口指住本鄉、鎮、街道,戶口在本鄉、鎮、街道,離開戶口登記地半年以上的人口。
總的來看,2009—2014年我國各地區人口遷入率有大幅度上升,2009年,我國總平均遷入率為8.6%(表1),2011年達到19.5%后開始緩慢下降,2014年總平均遷入率達19%。2009年只有北京、上海、廣東、福建、浙江、天津、江蘇、內蒙8個地區人口遷入率大于10%,2014年只有西藏、江西、甘肅、河南和河北5個地區人口遷入率低于10%。

表1 2009—2014年全國各地區人口遷入率統計值 (單位:%)
2009—2014年,我國各地區人口流入的格局大致穩定,上海和北京一直是我國人口流入最高的兩大地區,具有對人口遷入的巨大吸引力。其次是浙江、福建和廣東,東部沿海地區的快速發展吸引了大量人口,三個地區的人口遷入率2010年后都達到30%以上,特別是浙江和福建,幾乎達到了40%。遷入率偏低的地區有西藏、甘肅、河北、河南、江西和云南,主要分布在中西部地區,這些地區2009年和2010年,人口遷入率都不到5%,2014年都不到10%,特別是西藏,一直是我國人口遷入率最低的地區。
遷入人口觀測數據屬于計數數據,且個人遷入概率不完全相同,存在過度散布情形,因此數據模型采用泊松-伽馬混合模型:

其中,yit表示i(i=1, 2,..., 31)地區t年時遷入人口數,λit表示i地區t年時的遷入人口均值,uit是i地區t年時的隨機效應參數,rit是散度系數,相應的概率密度函數為:

過程模型為:

pit為i地區t年遷入率,α為全國總體省際人口遷入基礎常數,si為i地區人口遷入的空間相對風險參數,βt*+vt描述全國人口遷入率時間變化趨勢,bit*為各地區的局部變化趨勢,bi度量從總體變化趨勢中分解出的局部變化程度,若大于零說明其局部變化強度強于總體變化趨勢,若小于零說明局部變化強度弱于總體變化強度,εit是高斯噪聲隨機變量。
參數si和bi的先驗分布用Besag York Mollie(BYM)模型確定,BYM模型通過卷積運算實現空間結構和非結構隨機效應的相互作用,數學表達式為:

l(y|θ,Θ)為樣本似然函數,Sit表示時空域,利用條件自回歸先驗分布表示空間結構隨機效應,空間鄰接矩陣W

采用一階“皇后”鄰接形式,其先驗分布形式為:St是時空隨機變量,rk和ρt分別代表時間和空間相關性參數,,I是單位矩陣,σt是t時期的總體方差,上述先驗分布對應的概率密度函數為:

本文模型估計通過實現貝葉斯層次模型的專門軟件WinBUGS完成。為保證模型運行的收斂性,采用了兩條MCMC鏈,每條鏈的迭代次數均設置為20萬次,所有參數的Gelman-Rubin統計值都低于1.005,說明該模型收斂性較好。
2.4.1 空間相對風險和總體時間趨勢估計結果
根據各地區人口遷入率的空間相對風險大于1的后驗概率把各地區分為熱點、溫點和冷點區域(見表2)。在研究期內,人口遷入率高于全國總體水平的熱點區域有7個(按相對風險中值估計值降序排序):上海(3.15)、北京(2.77)、浙江(1.86)、福建(1.74)、天津(1.49)、廣東(1.48)、江蘇(1.34),主要集中在京津地區和東部沿海地區;溫點區域有11個(按相對風險中值估計降序排序):內蒙(1.28)、寧夏(1.24)、遼寧(1.13)、海南(1.13)、山西(1.00)、黑龍江(1)、吉林(0.98)、新疆(0.97)、重慶(0.95)、青海(0.88)、河北(0.83),溫點區域主要集中在東北地區,包含華北地區和西北地區部分省份。冷點區域有13個(按相對風險中值估計降序排序):江西(0.97)、湖北(0.86)、安徽(0.84)、貴州(0.84)、陜西(0.83)、四川(0.82)、廣西(0.78)、云南(0.77)、山東(0.75)、甘肅(0.69)、湖南(0.68)、河南(0.64)、西藏(0.63),除山東省外,冷點區域都集中于我國中西部地區。冷、熱、溫點區域具體地理分布見下頁圖1。從圖1可見,我國人口遷入的冷、熱、溫點各自集中分布特征明顯,冷點區覆蓋了我國中西部的大部分區域。溫點地區除重慶市被冷點區環繞外,整個東北地區和華北地區的內蒙、山西與河北以及寧夏接壤成片,面積廣袤的新疆和青海緊密相連,形成我國地區人口流入的溫點區。熱點區除京津兩地外大都集中于東南沿海地區,形成地區人口流入的環帶狀熱點區域群。

表2 全國各地區人口遷入總體相對風險和局部趨勢估計結果
不可置否,地區人口遷入與地區經濟發達程度密切相關,2014年人均GDP排在前9位的地區依次為天津、北京、上海、江蘇、浙江、內蒙、遼寧、福建和廣東,除內蒙和遼寧外,其余7省(市)都屬于人口遷入的熱點區域,人口遷入的熱點區也是地區經濟的發達區;13個人口遷入的冷點區域有9個區域(湖北、湖南、陜西、山東除外)人均GDP的排名位于最末10位,人口遷入的冷點區域也是地區經濟欠發達區域;11個溫點區域其GDP排名除內蒙和遼寧較靠前、山西較靠后外,其余9個溫點區域在全國的位次排在11位至21位之間。地區人口遷入的冷熱圖譜與地區經濟發達程度圖譜高度一致。

圖1 各地區人口遷入熱點、溫點和冷點分布圖

圖2 人口遷入率總體時間變化曲線(95%置信區間)
全國省際人口遷入總體變化趨勢(圖2)表現為曲折上升,局部表現為先上升后下降,2009—2011年表現為較快的上升,2011—2014年呈現逐年緩慢下降的態勢。全國總體人口遷入率的局部走勢與我國整體經濟走勢基本一致,2009—2014年,我國經濟增長率依次為9.2%、10.6%、9.5%、7.7%、7.7%和7.3%,2009—2010年表現為上升趨勢,2010—2014表現出逐年下降趨勢,省際人口流入對經濟放緩的響應具有一定的時滯,所以人口流入下降趨勢的出現比經濟增長的下降延遲了一年。
本文模型估算結果的方差成分系數VPC等于94%,說明該模型的時空分解組分對整個時空變化過程的解釋度比較高,但局部變化趨勢也在起作用,地區人口流入的局部變化趨勢影響著全國省際人口流入的空間相對關系。2.4.2 局部變化趨勢估計結果
考察各地區局部變化系數大于0的后驗概率估計(表2),根據Richardson原則把全國31個省區分為強變化區域、穩定態區域和弱變化區域三個類別。我國大部分地區為人口局部變化的穩態區,包括山西、內蒙、遼寧、吉林、福建、江西、山東、海南、云南、西藏、陜西、青海和新疆13個地區,根據模型中局部趨勢的統計意義,這些地區的人口流入局部變化趨勢與全國總體變化趨勢相當。穩態區中只有福建是熱點區,說明福建人口流入程度高于全國平均水平但人口流入的局部變化與全國水平相當。穩態區中包含山西、內蒙、遼寧、吉林、海南、青海、新疆7個溫點區,這7個區域人口流入水平和人口流入的局部變化都與全國平均水平相當。穩態區中江西、山東、云南、西藏、陜西為冷點區,這5個地區人口流入水平較全國低但人口流入局部變化與全國總體變化相當。強變化區域有9個,包括安徽、河南、湖北、湖南、廣西、重慶、四川、貴州和甘肅,這9個地區的人口流入局部變化趨勢強于總體變化趨勢,又由于總體變化趨勢是上升的,所以這7個地區人口流入的增加速度高于總體平均增加速度。9個強變化區域中重慶為溫點區,其他8個強變化區為冷點區。弱變化區域有北京、天津、河北、黑龍江、上海、江蘇、浙江、廣東、寧夏這9個地區,弱變化區中大部分為熱點區,少部分為溫點區,不包含冷點區,包含的熱點區有6個:北京、天津、上海、江蘇、浙江、廣東,這些熱點區雖然人口流入率高于全國平均水平,但其人口流入率上升變化小于全國水平。弱變化區中的河北、黑龍江和寧夏為溫點區,3個溫點區人口流入水平與全國相當,其局部變化趨勢弱于全國總體變化趨勢。
本文首次應用Bayesian層次時空模型,從總體和局部兩個層面分析了我國地區人口流入在空間和時間上的變化特征。目前我國各地區總體平均人口流入率已接近20%,各地區人口流入的空間相對風險和局部變化趨勢存在著較大的差異,本文研究發現:第一,我國人口遷入的冷、熱、溫點各自集中分布特征明顯,地區人口遷入的冷熱圖譜與地區經濟發展圖譜高度一致,近幾年,隨著我國經濟增長的放緩,地區人口的遷入率在逐漸下降;第二,人口遷入的熱點區有7個,主要集中在京津地區和東部沿海地區,特別是上海和北京,人口遷入率一直是全國最高的。北京、天津、上海、江蘇、浙江、廣東這6個熱點區同時屬于局部變化的弱變化區,這些地區雖然人口流入率高于全國平均水平,但其人口流入率上升變化小于全國水平。熱點區中的福建屬于局部變化的穩態區;第三,我國人口遷入的冷點區有13個,大都集中于中西部地區,冷點區中的安徽、河南、湖北、湖南、廣西、四川、貴州和甘肅這8個地區同時屬于局部強變化區,這些地區人口遷入率低于全國平均水平,但人口流入率的增長態勢高于全國。江西、山東、云南、西藏、陜西這5個冷點區同時屬于穩態區,冷點區中無弱變化區;第四,溫點區域有11個,主要集中在東北地區,包含華北地區和西北地區部分省份。溫點區中的重慶屬于強變化區,說明重慶地區人口流入程度與全國平均水平相當,但人口流入率的增加速度高于全國。河北、黑龍江和寧夏這3個溫點區屬于弱變化區,其他7個溫點區同時屬于局部變化的穩態區。
貝葉斯層次時空模型是研究人口流動時空特征的有效方法。基于本文研究結果,相關的政策制定需要充分認識和掌握我國省際人口流入的空間差異和局部變化趨勢的異質性。充分認識北京、天津、上海、江蘇、浙江、廣東這6個熱點區的局部弱變化性,認識安徽、河南、湖北、湖南、廣西、四川、貴州和甘肅這8個冷點區的局部強變化性,注重人口遷入冷熱與經濟增長快慢之間以及經濟發展區域格局和人口流入區域格局之間的關聯,通過協調區域經濟發展引導人口流動趨于合理。
參考文獻:
[1]Gelman A,Rubin D B.Inference from Iterative Simulation Using Multiple Sequences.[J].Statist.Sci,1992(7).
[2]G Li,R Haining,S Richardson,N Best.Space-time Variability in Burglary Risk:A Bayesian Spatio-temporal Modeling Approach[J].Spatial Statistics,2014,(9).
[3]Richardson S,Thomson A,Best N,Elliot P.Interpreting Posterior Relative Risk Estimates in Disease-mapping Studies.[J]Environ.Health Perspect.,2004,112(9).
[4]Goldstein H,Browne W J,Rasbash J.Partitioning variation in multilevel models.[J],Underst.Statist,2002,(1).
[5]Besag J,York J,Mollie A.Bayesian Image Restoration,with two Applications in Spatial Statistics[J].Ann.Inst.Math.Stat,1991,(43).
[6]Gelman A.Prior Distribution for Variance Parameters in Hierarchical Models[J].Bayesian Anal,2006,(1).
[7]Lunn D.J.,Thomas A,Best N,Spiegelhalter D.WinBUGS-a Bayesian Modeling Framework:Concept,Structure,and Extensibility.[J]Stat.Comput,2000,(10).
[8]文雯,文小焱,胡珊等.貝葉斯層次模型在嵌套結構調查數據中的應用研究[J].中國衛生統計,2015,32(2).