張維群,余欣媛,趙鯤鵬
(1.西安財經學院 統計學院,西安 710100;2.西安交通大學 經濟與金融學院,西安 710061)
一種基于多變量空間非概率抽樣方法的設計
張維群1,余欣媛1,趙鯤鵬2
(1.西安財經學院 統計學院,西安 710100;2.西安交通大學 經濟與金融學院,西安 710061)
文章基于樣本均值無偏估計和有效估計的前提下,以行政區域單位劃分為抽樣框,采用多個輔助指標控制多目標抽樣估計的誤差,設計了一種多指標空間非概率抽樣樣本選取方法。并利用陜西省2014年城鎮人均可支配收入以及人口增長率兩個輔助指標對陜西省107個區縣進行了抽樣應用,結果顯示樣本的抽取涵蓋了各個不同水平層次的區縣,抽樣效果良好。
多變量;空間樣本;抽樣設計;抽樣方法
隨著抽樣技術不斷進步,抽樣調查的發展已經進入新的階段,抽樣技術也被人們提出了新的要求。依據GIS對自然界動植物及礦產資源進行空間樣本選取和估計中,大多數文獻空間抽樣理論是基于給定空間尺度下,對總體空間選擇代表性樣本空間[1-7]。當前,對于經濟、社會問題的空間抽樣理論研究逐漸得到理論界的關注,在經濟、社會問題的抽樣定量估計中,空間單元區域往往是按照行政區劃分,比如,抽樣單元為區縣行政區,各個行政區域地圖形狀不規則,其面積大小也必然不相等,若按照GIS等面積空間單元進行抽樣設計,顯然是不可行的;另一方面中,利用同一樣本同時推斷總體的多個屬性,總是依據一個輔助變量進行抽樣設計,而輔助變量并不一定與總體多個推斷指標強相關,比如要推斷總體人均純收入和人口增長率等指標,用單個輔助指標做抽樣設計對多目標指標進行推斷的誤差難以控制。因此,本文在抽樣單元區域為自然行政單位情形下,研究利用多指標進行空間抽樣設計,并達到對總體多指標進行有效推斷的目的。
Tobler W.(1970)[8]提出了著名的托普勒第一定律,他認為,任何事物之間都有相關性,相距近的事物比相距遠的事物之間更加相關;此后,一大批學者對空間相關性和空間變異等問題做了大量的研究[9-14],對這種些相關性的研究和量化構成了空間統計理論的基礎。有關空間相關性測度理論的研究文獻較多,歸納起來,均體現了總體特征與地理空間位置具有相關性。
根據托普勒第一定律,認為y1,y2變量的水平與空間單元的位置si有關。因此,總體變量的數量特征自然可以看成地理空間位置的函數,不妨,先討論兩變量的情形,設抽樣總體有兩個需要估計的目標變量y1,y2,且y1,y2一般情形下在空間區域上非均勻分布。因此,目標變量y1,y2是關于空間單元位置si的函數,形式可以寫為向量:,空間抽樣樣本兩個目標變量的總體均值向量為:。空間抽樣樣本兩個目標變量的方差為:

在實際的應用中,可以依據目標變量前期水平作為輔助指標做抽樣設計。如果采用簡單隨機多指標抽樣技術,一個優良的空間樣本選取應是樣本均值估計滿足無偏性。即:

這里,定義多指標空間抽樣樣本的廣義方差為樣本協方差陣的積。顯然,一個優良的多指標簡單隨機空間抽樣方案中,其樣本均值估計量應當滿足無偏性同時還應當滿足方差最小,因此,可以構造式(2)表達式描述這種抽樣思想。

對于式(2)可以構造拉格朗日函數,其函數形式見式(3):

如何獲得一個最優的樣本,可以通過式(3)求最小值情形下的結果以獲得最優樣本。因此,對于?,si,式(3)對si求偏導,有:

上式變換有:

對于式(4)中參數λ1,λ2和C,可以利用總體全部單位信息進行回歸估計。式(4)經變換為式(5)為非線性模型,利用式(5)采用牛頓迭代法估計出參數1,2,?。在多指標空間抽樣中,最優空間樣本的選取應當滿足條件:

事實上,由于空間離散分布的情形下,選取樣本容量為n的樣本不可能全部滿足上式的條件,因此,上式可以寫成式(6)的形式。

一般情況下,若要采用p個變量作為輔助指標做空間抽樣設計,自然,有樣本選取的條件:


在現實的經濟、社會空間抽樣設計中,存在著以下三個方面的問題,一是抽樣對象為行政劃分的區縣,各行政區縣的單元尺度面積并不是完全相等的,進行抽樣設計的歷史指標卻是按照行政區縣獲得各個單位數據,按照等單元尺度設計的空間抽樣方案并不一定完全合適;二是在抽樣中,往往采用一個樣本來推斷區域經濟和社會的多個指標的信息,若采用單指標進行抽樣設計可能存在著推斷風險;三是需要推斷的指標在地理空間上具有很強的相關性,因此,這就需要采用基于多變量的空間抽樣方法。如果需要對陜西省城鎮人均可支配收入、人口增長率兩個經濟社會指標進行抽樣推斷,由于經濟指標和社會指標之間相關性較弱,不同區域各個指標再地理空間上具有強的相關性,采用單指標空間抽樣方法存在缺陷。因此,利用本文設計的方法進行多指標空間抽樣應用,以驗證本文設計抽樣方法的有效性。
若需要通過空間抽樣推斷2015年陜西省城鎮人均可支配收入(y1)、人口增長率(y2),采用2014年兩個指標作為抽樣設計的輔助指標。本文通過《陜西省統計年鑒》(2015)收集了2014年陜西省107個區縣的城鎮人均可支配收入數據,通過陜西省2013年、2014年人口數據獲得2014年人口增長率數據。由于兩個指標量綱不同,因此,對空間抽樣設計的輔助指標數據進行標準化處理,采用標準化的兩個輔助指標進行空間抽樣樣本選取。
根據式(5),利用SPSS軟件采用牛頓迭代法估計出參數1,2,?,見表1。

表1 空間樣本選取模型的估計參數
根據表1的參數估計結果,有兩變量空間抽樣樣本選取的模型見式(9):

為了簡單、易操作,抽取10%的單位,即11個區縣作為樣本單位。利用陜西省107個縣區2014年的城鎮人均可支配收入(y1)、人口增長率(y2)標準化的數據,通過模型式(8),選取出最小的神木縣、吳堡縣、吳起縣、藍田縣、商州區、洛南縣、勉縣、佛坪縣、寧陜縣、石泉縣、旬陽縣等11個區縣作為選取的樣本單位。兩個指標五分位地圖及選取的空間樣本單位見下頁圖1和圖2。
圖1和圖2中顏色由深及淺表示:城鎮人均可支配收入和人口增長率兩個指標的水平由高到低。從圖可以看出,陜西省城鎮人均可支配收入、人口增長率兩個指標的水平在空間上分布情況不同,圖中標明抽樣單位的區縣作為共同樣本可實現對陜西省2015年人均可支配收入、人口增長率兩個指標水平的推斷。選取的11個區縣的兩個指標均值估計與總體均值進行比較,見表2。

圖1 城鎮人均可支配收入空間分布及樣本點

圖2 人口增長率空間分布及樣本點

表2 兩指標總體均值與樣本指標估計值比較
從表2可以看出,陜西省城鎮人均可支配收入、人口增長率兩個指標樣本均值與總體均值的相對誤差均為8%左右,抽樣效果較好,說明采用本文設計的方法選取空間樣本具有良好的代表性。
本文基于總體均值無偏性估計和有效性估計的前提下,設計了多指標空間抽樣樣本選取方法,并利用陜西省2014年各區縣城鎮人均可支配收入以及人口增長率兩個指標進行了抽樣應用,結果顯示樣本的抽取涵蓋了各個不同水平層次的區縣,抽樣效果良好。綜合歸納,該空間抽樣方法具有以下優良性:(1)適合經濟、社會指標抽樣中以行政區域劃分單位的抽樣框,克服了GIS抽樣中空間單元相等尺度的缺陷;(2)設計的多指標進行抽樣方法采用同一樣本推斷總體多個屬性的數量水平,有效地控制了多個屬性的抽樣誤差;(3)適合總體各指標在空間上的任意分布情形,不受總體各個特征在空間上分布情況的影響。該方法假定輔助指標是相互獨立的,對于輔助指標強相關性情形下的理論研究需要進一步討論。
[1]Yang J W.Transportation Implications of Land Development in a Transitional Economy Evidence from Housing Relocation in Beijing[J].Transportation Research Record,2006.
[2]Wang J F,Liu J Y,Li L F.Spatial Sampling Design for Monitoring the Area of Cultivated Land[J].International Journal of Remote Sensing 2002,23(2).
[3]李連發,王勁峰,劉紀遠等.國土遙感調查的空間抽樣優化決策[J].中國科學:地球科學,2004,34(10).
[4]王勁峰,姜成晟,李連發,胡茂桂.空間抽樣與統計推斷[M].北京:科學出版社,2009.
[5]李章貴.基于RS、GIS的呈貢縣總體活立木蓄積量分層抽樣控制方法[J].2007,32(2).
[6]徐新良,莊大方等.基于3S技術的土地利用/土地覆蓋變化野外采框設——以東北地區黑龍江省為例[J].遙感技術與應用,2002,17(3).
[7]曹志冬,王勁峰,李連發等.地理空間中不同分層抽樣方式的分層效率與優化策略[J].地理科學進展,2008,27(3).
[8]Tobler W.A Computer Movie Simulating Urban Growth in the Detroit Region[J].Economic Geography,1970,46(2).
[9]Cliff A,Ord J.Spatial Autocorrelation[J].London:Pion,1973.
[10]Fisher M,Scholten H J,Unwin D.Spatial Analytical Perspectives on GIS[J].London:Taylor&Francis,1996.
[11]Anselin L.Spatial Econometrics:Methods and Models[J].Dordrecht:Kluwer Academic,1988.
[12]Haining R P.Spatial Data Analysis:Theory and Practice[J].Cambridge:Cambridge University,2003.
[13]Ripley B D.Spatial Statistics[J].New York:John Wiley&Sons.Inc.,1981.
[14]Griffith D A.Spatial Autocorrelation and Spatial Filtering[J].Springer,2003.
A Design of Non-Probability Sampling Method Based on Multivariable Space
Zhang Weiqun1,Yu Xinyuan1,Zhao Kunpeng2
(1.Institute of Statistics,Xi'an University of Finance and Economics,Xi'an 710100,China;2.Institute of Finance and Economics,Xi’an Jiaotong University,Xi'an 710161,China)
With sample mean unbiased estimation and effective estimation as a premise,this paper selects administrative region as the sampling box,and uses multiple auxiliary indexes to control the error of multi-objective sampling estimation.Meanwhile the paper designs a sample selection method of multi-index space non-probability sampling,and also makes use of two auxiliary indexes,namely the urban per capita disposable income and growth rate of population of Shaanxi Province in 2014,to carry out a sample application to its 107 counties.The study results show that the sample extraction covers the districts and counties at different development levels,and that the sampling effect is benign.
multivariable;space sample;sampling design;sampling method
C81
A
1002-6487(2017)20-0076-03
國家哲學社會科學基金資助項目(13TJ006);全國統計科學研究重點項目(2012LZ020);陜西省教育廳重點實驗室科學研究項目(13JZ023)
張維群(1969—),男,陜西旬邑人,博士,教授,研究方向:多目標抽樣理論方法與應用。
余欣媛(1988—),女,云南玉溪人,碩士研究生,研究方向:抽樣理論方法與應用。
趙鯤鵬(1976—),男,陜西西安人,博士研究生,研究方向:商務統計方法及應用。
(責任編輯/易永生)