王美玲,張和生*
(1.太原理工大學,山西 太原 030024)
目前夜間燈光數據在人口空間化方面的應用十分廣泛[1-3]。最早的夜間燈光影像是由美國國防氣象衛星(DMSP)搭載的線性掃描業務系統(OLS)提供的。通過研究發現,人口密度與燈光強度顯著相關,因此DMSP/OLS數據具有刻畫人口空間分布的潛力[4]。 隨著對D M S P/O L S數據研究的深入,學者發現DMSP/OLS數據在城市中心存在大面積的輻射飽和區域,這些飽和區域無法體現城市中心區人口分布的差異[5]。雖然有學者提出利用植被指數修正DMSP/OLS數據增加城鎮用地內部人口分布的差異性,并通過城鄉分區建模來提高空間化結果的精度,但由于DMSP/OLS數據本身精度不高,因此限制了人口空間化結果的精度[6]。同時,美國國家地球物理數據中心僅提供了1992-2013年的DMSP/OLS數據,不能用于近些年人口空間分布的研究。
2011年美國新一代極軌運行環境衛星系統預備項目衛星(NPP)搭載的航天器可見紅外成像輻射計套件(VIIRS)拍攝的夜間燈光數據彌補了2013年后夜間燈光數據的空缺,且NPP/VIIRS數據分辨率較高,也不存在燈光飽和現象。利用多源數據建立回歸模型發現,NPP/VIIRS和DMSP/OLS均可用于人口空間化分析,且基于前者反演的人口空間化結果精度較高[7]。隨著研究尺度的不斷縮小,受城市內部公共服務設施的影響,夜間燈光亮度值與人口值的相關性有所降低。為了進一步提高小尺度人口空間化的精度,胡云鋒[8]等提出了利用夜間燈光數據和土地利用數據構建逐步回歸模型的方法。王珂靖[9]等將NPP/VIIRS夜間燈光數據與商業、居住區空間分布相結合,利用空間回歸模型得到了精細空間尺度的常住人口分布結果。隨著機器學習算法的不斷成熟,出現了利用機器學習算法對人口數據進行空間化的研究。此外,譚敏[10]等基于隨機森林模型,利用夜間燈光數據、道路網絡數據、水域分布數據等空間變量得到了珠江三角洲30 m格網的人口空間化結果。
地理空間模型在線性回歸的基礎上加入了空間要素,雖然結果的精度較高,但模型結構復雜、模型精度很大程度上受數據的空間分布影響;基于機器學習算法的人口空間化方法,雖然對數據結構要求低,但樣本的選擇對模型精度影響較大,同時自變量與因變量之間的數量關系模糊,無法明確各變量對人口分布的影響;而逐步回歸模型的模型簡單,能明確因變量與自變量之間的關系,且可通過分區進一步提高人口數據空間化結果精度,還可對各分區進行深入的精度分析,是在人口空間化研究中使用較多的方法。總的來說,利用夜間燈光數據和土地利用數據分區構建逐步回歸模型,是適用于不同尺度的人口數據空間化的典型方法。
長期以來,國內研究采用的夜間燈光數據均來自國外。為了擁有屬于自己的夜間燈光數據,武漢大學發射了全球首顆專業夜光遙感衛星——珞珈一號,也是目前國際上第三顆具備夜間燈光數據拍攝能力的衛星,具有重要的歷史意義和研究價值[11]。與其他夜間燈光影像相比,珞珈一號夜間燈光影像的分辨率顯著提高,具有明顯的城市結構分布,能清晰地區分城市范圍、道路以及大面積房屋[12]。雖然鐘亮[13]等發現珞珈一號數據與人口數據的相關性較高,但缺乏利用珞珈一號數據的人口空間化研究。
北京市是我國政治、文化中心,經濟發達,城市發展迅速,人口基數大;同時外來人口不斷涌入城市,給城市資源、環境管理造成巨大壓力,因此了解北京市的人口空間分布對北京的城市規劃和綜合管理具有重要的參考意義。
綜上所述,本文以北京市為研究區,將珞珈一號和NPP/VIIRS數據分別與土地利用數據相結合,分區構建漸進回歸模型,以實現北京市人口的100 m格網空間化,并對人口空間化結果進行了精度評價,旨在通過對比兩種夜間燈光數據人口空間化的結果來說明珞珈一號數據在人口空間化方面的應用價值和潛力。
本文選取北京市作為研究區,總面積為1.641萬 km2;人口眾多,2017年常住人口高達2 170.7萬人,是我國人口高度集聚的三大城市之一。北京市的西部和北部地區多山地丘陵,地形起伏較大,人口較少、分布相對集中;東南部地勢平坦,居住著全市絕大多數的人口,占總人口的91%,科技產業園區、高等教育和科研機構、商業中心、行政中心,文化中心均分布于此,是人口分布高度集中的區域。根據北京市鄉鎮(街道)行政區劃,全市分為325個行政區。本文將各鄉鎮(街道)的WorldPop人口數據總值作為行政區人口統計數據,再利用行政區統計人口和面積得到人口密度(最大可達3.3萬人/km2)。根據人口密度,本文分別以0.2 萬人/km2、0.56 萬人/km2和1.53 萬人/km2為界,將行政區劃分為4個分區,如圖1所示。

圖1 人口密度分區圖
珞珈一號01星由武漢大學于2018年6月2日發射,是珞珈一號科學實驗衛星系列中的第一顆衛星。珞珈一號01星配備高靈敏度的夜光攝像機,光譜帶寬為0.319 μm,可獲得高精度夜間燈光圖像,夜間動態范圍可達14位,空間分辨率為130 m,幅寬為250 km,約15 d完成全球夜光遙感。珞珈一號夜間燈光數據可在湖北省數據與應用中心高分辨率地球觀測系統中免費下載。由于珞珈一號衛星圖像的輻射校準仍在改進中,本文利用圖像灰度值(DN值)進行分析,采用2018年9月數據,分辨率為120 m。另外,由于原始數據為GEC系統幾何糾正產品,因此還需對珞珈一號夜間燈光數據進行地理配準。
NPP/VIIRS夜間燈光數據采用2018年9月數據,分辨率為450 m。WorldPop人口數據來源于WorldPop Project 官方網站,空間分辨率約為90 m。2017年北京市土地利用數據來源于地理國情云平臺,分辨率為100 m,并將原始數據重分類為耕地、林地、草地、水域、城鎮用地、農村居民地、其他建設用地和未利用地8類。
本文采用的矢量數據和柵格數據坐標統一為WGS84地理坐標系,并將其投影為墨卡托UTM投影,除土地利用外的其他柵格數據采用雙線性法重采樣為100 m。
根據“無土地無人口”的原則,回歸方程的常數為0,模型公式為:

式中,Pi為第i個行政區的人口;N為土地利用類型數量;NLij為第i個行政區第j種土地利用類型下的燈光輻射總量;NAij為第i個行政區第j種土地利用類型下的燈光輻射面積;aj、bj為回歸系數。
本文利用SPSS軟件分區構建漸進回歸模型,以行政區內人口統計數據為因變量,以統計行政區內每種土地利用類型下的燈光輻射總量和燈光輻射面積為回歸模型的自變量,自變量進入方程的方式為步進,置信水平為0.05,剔除的置信水平為0.1。雖然模型會剔除不顯著相關的自變量,但還存在某些自變量系數為負的情況,這些系數會使人口的估計值出現負數。為保證最終進入模型的自變量系數全為正,本文在第一次構建模型的基礎上,將系數為負的自變量直接剔除,再對剩余的自變量進行第二次建模。
對比不同模型下相同格網的人口空間化結果時,一般采用決定系數(R2)、平均絕對誤差(MAE)和 平均相對誤差(MRE)3個指標。R2用來評價模型的擬合程度,數值在0~1之間,越接近1,模型的擬合程度越高;MAE和MRE分別用來評價模型在整體和各分區的精度,數值越低,模型精度越高。其計算 公式為:

式中,POPi為第i個行政區的統計人口數;POPi'為 第i個行政區的人口估計值;POP為區域內所有行政區統計人口的平均值;POP'為區域內所有行政區估計人口的平均值;A為統計范圍內行政區總數。
由于各區人口的回歸值和統計值存在誤差,本文通過式(5)對各柵格人口的初步估計值進行修正。

式中,P'ik為第i個行政區第k個柵格的人口修正值;Pik為第i個行政區第k個柵格的人口估計值。
兩種數據人口空間化結果在主城區的展示如圖2 所示,可以看出,NPP/VIIRS數據的人口空間化結果單元柵格內人口分布的最大值為623,遠小于WorldPop數據的最大值1 380;而珞珈一號數據結果的最大值為1 432,與WorldPop數據的最大值更接近,這是由于VIIRS傳感器對高輻射的探測能力有限,使得探測到的燈光最大值低于實際值,進而導致人口空間化結果的最大值過低,而珞珈一號提高了探測能力,能如實記錄燈光的高亮值,空間化結果的最大值也更接近實際值。從局部來看,NPP/VIIRS數據人口空間化結果的行政區范圍內部平滑、差異性小,而在行政區邊界變化突兀;珞珈一號數據結果能明顯看出人口分布與街道分布的空間耦合,清晰反映行政區內人口分布的差異性,且在行政區邊界處銜接良好。

圖2 NPP/VIIRS和珞珈一號人口空間分布圖
由人口空間化結果可知,北京市人口主要分布在城區,受城市規劃等影響,人口密度并非越靠近城市核心區越大,而是在核心區周圍呈多點集中分布。這些地區人口密度大、通勤人口多、人口流動大,對交通和基礎設施具有巨大需求,因此未來要考慮通過改善交通將北京市人口疏解到更外層地區的方式來緩解人口增長帶來的巨大壓力。
利用SPSS軟件構建漸進回歸模型得到人口空間化參數,如表1所示,可以看出,利用NPP/VIIRS和珞珈一號數據構建的模型R2均較高,說明在街道尺度夜間燈光數據與人口分布有明顯的相關關系;且人口密度越大的分區,R2越大,人口密度越小的分區,R2越小,說明夜間燈光數據與人口分布的相關程度隨人口密度變化而變化,人口密度越大,相關程度越高,反之,相關程度越小。對比兩種夜間燈光數據發現,各分區珞珈一號數據的R2均大于NPP/VIIRS數據,說明珞珈一號數據與人口分布具有更緊密的相關關系。

表1 漸進回歸模型的人口空間化參數
從精度上來看,與NPP/VIIIRS數據相比,珞珈一號數據人口空間化結果的整體MAE和MRE更小,誤差更小、精度更高,說明珞珈一號數據對人口的擬合程度更高,擬合效果更好。從各分區來看,人口密度越大的分區,MRE越小,人口密度越小的分區,MRE越大;而MAE在各分區的變化情況與MRE略有不同,MAE在分區一、分區二和分區三的變化與MRE相同,隨人口密度的增大而減小,但分區一的MAE小于其他分區,這并不代表分區一的精度就高于其他區分區。其原因有兩個:①分區一的行政區人口基數小,計算得到的MAE也不會太大;②分區一的行政區個數遠多于其他分區,雖然MAE較小,但絕對誤差總值更大。因此,在人口密度大的地區,基于珞珈一號數據的人口空間化結果精度更高,對人口的擬合效果更好;而在人口密度小的地區,基于珞珈一號數據的人口空間化結果精度較低,擬合效果較差。
本文分別基于珞珈一號夜間燈光數據和NPP/VIIRS數據分區構建了漸進回歸模型,進而實現了人口空間化;并將空間化結果制圖,對比了兩種數據擬合人口的能力和精度。其主要結論為:①利用回歸公式計算得到人口初步估計,再經過公式修正得到基于 NPP/VIIRS和珞珈一號數據的北京市100 m空間分辨率的人口分布圖,其中基于珞珈一號數據得到的人口最大值為1 432,更接近WorldPop數據的最大值1 380,且其人口分布圖能清晰展示城市內部人口空間分布的差異,分區邊界平滑自然,能更好地應用于城市資源、環境管理中;②對比兩種夜間燈光數據和漸進回歸模型對人口空間化的模型參數發現, 珞珈一號數據的整體和各分區精度均優于NPP/VIIRS數 據,尤其是在人口密度小的區域的擬合程度明顯高于 NPP/VIIRS。總的來講,珞珈一號夜間燈光數據更適合小尺度人口空間化研究。
本文在使用珞珈一號數據前并沒有進行去噪處理,因此提出一種適用于人口空間化研究的去噪方法是新的研究方向。另外,利用珞珈一號數據進行小尺度人口空間化研究時如何提高人口密度小的區域的精度還需進一步深入研究。珞珈一號數據的時空分辨率明顯高于其他夜間燈光數據,其在研究突發事件的影響范圍方面具有巨大的應用潛力,可作為未來的研究方向。