宋 健
(中國人民大學 人口與發展研究中心, 北京 100872)
人口學是以方法見長的學科,方法發展史一定程度上折射了學科發展史。人口學方法的傳承遵循兩條脈絡。一條可追溯至1662年格蘭特(Graunt)發表第一部人口學著作《關于死亡表的自然的和政治的觀察》時所采用的主要方法。這條脈絡沿著純人口學(pure demography)或規范人口學(formal demography)的路徑,從死亡現象出發,聚焦人口系統內部各要素之間的關系,使用特定的人口學概念、測量指標與人口統計學方法進行人口分析(demographic analysis)。另一條源自1798年馬爾薩斯(Malthus)經典著作《人口原理》發表后開拓的路徑,通過人口呈幾何級數增長而糧食呈算術級數增長的不均衡表現及結果,激起了學界對人口過剩問題的爭論,揭示了人口與經濟之間的關系。這條脈絡注重人口系統內部各要素及其變遷與社會、經濟等人口系統外部各要素之間的關系及互動機制,吸引了來自不同專業領域的學者用各自的學科視角與方法進行人口研究(population studies)。
人口分析與人口研究也被認為是廣義人口學所包含的兩個方面[1]。其中人口分析的歷史更為悠久,方法經典且面對新問題正不斷深耕并尋找突破點;人口研究的領域更為廣闊,方法集采眾家之長、頗具海納百川之氣勢。兩個方面并行不悖,使人口學方法呈現出經典與現代、內斂與開放共存的特點。
中國的人口學學科發展起步相對較晚,但起點不低,一直比肩世界人口學前沿;加之中國豐富多彩的人口現象和獨具特色的人口問題,為人口學發展提供了充足的動力。進入21世紀,中國的人口形勢發生了重大轉折性變化,如何透過現象深入本質,如何著眼當下展望未來?“事必有法,然后可成”,有效的方法是破解迷局、打破迷思的必備工具,為此對既有方法進行梳理和總結具有十分重要的意義。本文將以人口學方法傳承的兩條脈絡為基礎,分別從人口分析和人口研究兩個方面,關注人口學方法的應用現狀及其應對人口形勢需求而發生的演變,并以此透視中國人口學學科的發展。
人口分析是人口學的核心內容之一。基于人口數據,構建比、率等指標;關注人口規模、分布、結構及其變遷,以及死亡、生育等人口事件在不同規模和結構人群間的表現與差異;探索人口發展的內在規律,預判人口發展趨勢,為制定相關政策提供依據和參考,是人口分析的主要特點。
從學科發展來看,早在公元前2000多年一些文明古國就開展了人口統計實踐活動,但多僅限于人口數量和人口基本特征(如年齡、職業、健康狀況、戶籍身份等)的調查與登記,服務于國家財富掌握及征兵、賦役等國家管理事務,罕有人對這些數據進行系統分析。1662年格蘭特基于英國幾十年的人口統計資料進行潛心研究,發現了出生嬰兒性別比、死亡年齡模式、城鄉死亡率差異等人口結構和分布特點,編制了人類歷史上第一張反映人口生存和死亡規律的死亡表(death table),并根據出生和死亡資料推算出人口總數,奠定了人口統計學的基礎,也提供了人口分析的基本思路與框架。
1.數據可得性及其質量是人口分析方法有效發揮作用的基礎
人口分析離不開人口數據,其中最基本的是分性別、年齡別人口數,以及各類人口事件特別是死亡和生育事件的發生與分布,因此數據的可得性及數據質量就成為人口分析方法能否有效發揮作用的關鍵因素。
目前大多數國家的人口數據主要來自人口普查、抽樣調查和人口登記系統;普查和抽樣調查一般獲得反映人口現狀的靜態數據,動態連續的人口事件發生數往往需要依靠登記系統獲得。不同的數據來源所對應的人口分析指標和方法有所不同:靜態數據一般用于構建比和比例指標,揭示人口現狀與結構;動態數據一般用于構建率指標,與時期長度相結合,計算人口事件的發生強度和水平。開展人口分析的權威數據首先來自普查。中國的1982年全國人口普查不僅第一次采用了電子計算機技術進行數據的儲存和處理,還首次邀請了國際專家共同研討數據的開發與使用。此后,每一次人口普查前后,關于普查技術的改善建議和數據質量的評估分析都會集中涌現,使中國人口普查內容不斷豐富、技術不斷提升。1990年普查首次增加了遷移流動相關項目;2000年普查首次采用了長短表相結合和光電錄入技術,并增加了住房相關項目;2010年普查首次增加了針對港澳臺和外籍人員的短表。學者們根據國家統計局公布的匯總表數據和提供的普查抽樣數據,對普查時點的人口狀況、普查期間的人口變化等進行多角度分析。隨著抽樣調查技術的推廣,全國性和區域性人口專項抽樣調查層出不窮,推動著人口分析更加深入。
利用多來源數據和間接估計技術評估數據質量、推算和檢驗重要的人口指標,是人口分析的重點內容之一。數據質量的評估有多種技術手段,常用的包括隊列存活逆推法、間接估計技術、數據內部一致性檢驗或多來源數據外部驗證等。年齡和性別數據的質量對人口數據整體質量具有舉足輕重的作用,對年齡和性別結構進行準確性檢驗有一系列較為成熟的指標和方法(如惠普爾指數、邁耶爾指數等),其共同特點是先構建一個年齡均勻變化的人口,以這樣的年齡結構為標準,比較現實人口與標準人口的年齡結構,以兩者離差的大小為尺度,判別現實人口的年齡數據是否準確;對質量不高的數據,指出在哪些年齡尾數上存在堆積或回避。由于現實人口年齡結構可能并非均勻變化,有中國學者提出了基于概率判斷基礎上的、利用人口函數的年齡變動符號分布的檢驗方法[2],更適合處于變遷中的人口的年齡性別結構檢驗。
需要指出的是,數據收集手段相對落后、開放度不夠和對不同來源數據缺乏有效整合是中國學者對一些基本人口狀況(如生育水平、流動人口規模等)存在認識分歧的主要原因,也是學者們進行深入人口分析的制約性因素。2010年第六次人口普查時我國采用的仍是傳統的入戶問卷調查法,給應答率和準確率造成挑戰;一些發達國家已開始嘗試用來自不同行政記錄來源的信息替代傳統的人口普查[3]。中國是最早建立戶口登記制度的國家,但迄今為止各類人口登記數據的公布和使用仍是有限的,不同行政部門的數據在統計口徑、收集方式和最終結果上有時存在不一致的問題。以全面兩孩政策實施后引人注目的2017年出生人口數為例,國家統計局(1)見人民政協網:國家統計局.2017年我國出生人口1723萬人,http://www.rmzxb.com.cn/c/2018-01-19/1936146.shtml?n2m=1和原國家衛生和計劃生育委員會(2)見搜狐-財經網:2017年全國住院分娩活產數為1758萬 其中二孩占比為51%,http://www.sohu.com/a/235609499_313745分別公布的數據就存在不一致,其原因是數據收集方式不同:統計部門數據利用年度人口抽樣調查推算得到,原國家衛生和計劃生育委員會數據則來自住院分娩活產登記系統,結果的差異在一定程度上造成了公眾的困擾。
數據收集方式和數據性質的改進有助于激發人口分析的新思路和開拓人口分析的新領域。如隨著追蹤數據越來越普遍,一些新的分析方法(如事件史分析、序列分析及將二者結合的序列分析多狀態模型等[4])應運而生,使以往截面數據不能滿足的生命歷程和軌跡研究(life course and trajectories study)得以發展,因為長時期的追蹤數據可以提供長時期的豐富的個人信息,能夠捕捉人口事件發生的次數、順序、時長和類別,使更細致、更深入的分析得以實現。如在最近的一項研究中,有學者基于追蹤數據,綜合使用序列分析(sequence analysis)、聚類技術(data-driven clustering techniques)和多變量回歸模型(multivariate regression models),探討女性生命歷程中生育期望的變化對其終身不育的影響[5]。以往缺乏相關數據的情況下,學者們從事這類研究是心有余而力不足的。
改進調查技術、提升數據質量、增加數據開放性以及系統整合不同來源數據,已成為當前人口信息化平臺建設的主要任務,這也是推進中國人口學發展的重要的基礎性工作。
2.經典的分析方法技術使人口學獨樹一幟
生命表技術、假定隊列分析方法、人口預測技術,以及標準化和因素分解技術是經典的人口分析方法技術,這些方法技術至今仍具有強大的生命力,并賦予人口學相比其他社會科學而言獨具一格的視角和學科魅力。
(1)生命表技術不僅僅用于死亡分析。生命表技術最初用于死亡分析。格蘭特首次編制的死亡表僅包含了各種年齡存活者的比例;梅爾尼(Milne)基于英格蘭西北部城市卡萊爾兩個教區1779—1787年間的年齡別人口和死亡數據,于1815年編制完成的生命表,被公認為規范了生命表的常規計算方法與表達形式,沿用至今[6]。隊列生命表(cohort life table)由于數據可得性和時效性均較差的緣故,很少被編制;作為一種統計模型的時期生命表(period life table)更受青睞。時期生命表的基礎數據是年齡別死亡率。在數據準確可靠的前提下,通過將基于時期人口的死亡率轉換為基于隊列的死亡概率,再借助假定隊列分析技術,可以獲得一個人口隊列從出生到死亡的全生命歷程,以觀察不同年齡人群間的存活和死亡情況及關系;計算得到的平均預期壽命,是度量時期死亡率水平的綜合指標。如果不是通過構建死亡模型、模擬不同年齡人口的死亡率曲線,直接對年齡別死亡率和死亡概率進行轉換的話,年齡組間死亡人口的平均存活年數就成為編制時期生命表的關鍵指標。該指標的選取既可以套用死亡水平相當的國家或地區的經驗數據,也可以使用基于本地區人口的詳細死亡登記信息。中國在1982年第三次全國人口普查后,獲得了較為詳細的年齡別死亡數據,分別編制了中國第一套全國和區域完全生命表[7]和首套區域模型生命表[8]。
死亡數據的準確可靠是理想狀況,現實情況是死亡數據質量常常遭到質疑。其中嬰幼兒死亡率是衡量死亡水平的敏感指標,對該指標數據準確性及其影響的討論在死亡分析領域一直方興未艾。隨著人口轉變的完成,包括中國在內的很多國家嬰幼兒死亡率已降到比較低的水平,當前的技術發展主要著眼于低死亡率、高預期壽命背景下人口的死亡模式和規律探尋,如死亡減速(deceleration,指高齡組死亡率增長率的下降)和壓縮(compression,指死亡年齡分布的方差隨時間減少)現象[9]等。
生命表技術目前不僅僅用于死亡分析,其應用包含了將其他因素與死亡綜合考慮構建多因素生命表,獲得如健康預期壽命[10]、幸福預期壽命[11]等指標,也包含將這一模型拓展到婚姻、家庭、勞動就業等領域,編制婚姻生命表[12]、家庭生命表[13]、勞動生命表[14]等;生命表技術特別是其“存活分析”(survival analysis)的思路還被應用于其他學科領域,如用于害蟲生物防治[15]、植物種群的年齡結構分析[16]等。
總體而言,生命表技術是較為成熟的人口分析方法。有學者認為,19世紀末以前所謂規范人口學的發展軌跡,某種程度上就是生命表技術的演變歷程[17]。這一技術至今仍煥發著勃勃生機。
(2)假定隊列分析方法構建時期綜合指標。假定隊列分析方法是人口學特有的分析方法。在真實隊列數據難以獲取的現實情境下,用假定某隊列按照某時期年齡別率(如年齡別死亡率或年齡別生育率)度過一段時期(如一生或育齡期)可能會發生的情景來構建指標,結合了時期數據易于獲取和隊列思路易于理解的雙重優勢,反映人口事件在某時期的綜合發生水平,在人口學多個領域有著廣泛使用,構建出的經典指標有平均預期壽命、總和生育率、再生產率、內在自然增長率等。
隨著學科的發展,對假定隊列分析方法構建的指標的應用局限性,學界有了越來越深刻的認識,主要集中于生育領域對總和生育率指標的反思和檢討。特別是當人口形勢急劇變遷和人口事件模式發生變化時,試圖用假定隊列分析方法構建的時期綜合指標來預測未來發展趨勢就變得更有風險和更不可靠,需要探索新的更適合的指標和方法。學者們通過構建去進度效應總和生育率(tempo-adjusted TFR)[18]或使用能逐步消除生育率進度效應的遞進總和生育率、內在總和生育率,與隊列生育率和總和生育率等多個指標一起,綜合判斷時期生育水平及其發展趨勢[19]。
(3)人口預測集數學、統計學和人口學方法之所長。人口預測是人口學使用最為廣泛的分析方法之一,從分析思路上可分為期望模型和隨機模型兩種類型。二者是對時間、年齡和人口狀態及其變化過程的不同視角和認識,取決于把人口發展過程視作期望性還是隨機性的生命過程。
基于期望模型的確定性人口預測(determinant population projection)方法,經歷了從數學方法、統計學方法到人口學方法的演變,其演變歷程與數據的可得性和人類對人口現象的認識過程相一致。數學方法(包括簡單數學模型和復雜數學模型)與統計學方法(包括回歸模型和時間序列模型)基于有限的數據,通過構建模型,對人口進行單變量預測[20]。其中,簡單數學模型方法常常按照幾何級數增長或指數增長模式來預測未來人口規模;復雜數學模型方法是在數據不充分的條件下,利用灰色模型、神經網絡系統等方法進行人口預測。灰色模型也稱GM(n,h)模型,其中n表示n階導數,h表示時間序列個數,基于模糊數學中的模糊不確定性,將人口系統視為灰色系統,通過模型用系統的已知信息推測未知信息,將系統中的因素從不明確轉為明確[21]。神經網絡系統來源于生物學的神經元學說,神經網絡中的單個神經元具有自組織復合模式,并反映非線性特征,能夠重建任意非線性連續函數。利用人工神經網絡(如BP神經網絡)系統思想可建立基于回歸分析的和基于時間序列的相應數學模型進行人口預測,其假設一次觀測中的過去值與未來值之間存在聯系,構建以過去觀測值為輸入、以未來預測值為輸出的函數[22]。在BP神經網絡模型中,通過信號的正向傳播和誤差的逆向傳播的反復學習過程,最終經過多次迭代,得到期望的輸出值[23]。統計學方法通過構建回歸模型或時間序列模型(如ARIMA模型,即自回歸移動平均模型)預測未來人口規模。20世紀50年代,人口學預測方法——隊列要素法(cohort-component projection method)被廣泛使用并成為主要的人口預測方法,通過設定死亡、生育和遷移等要素參數,實現“如果”滿足這些參數要求,人口規模、結構及增長“就”將會怎樣的預期。
基于隨機模型的人口概率預測(probabilistic projection method,也叫作隨機預測方法、區間預測方法等)自20世紀90年代逐漸發展起來,其核心是將隨機技術和概率推理運用于人口預測中,也可認為是將統計學方法與人口學方法有機結合。確定性人口預測通過高、中、低方案,量化人口預測結果的不確定性,但這種方法不能提供各個方案的發生概率,且往往會低估死亡率的下降和預期壽命的提高,在估計各人口指標時存在內部不一致的問題[24]。人口概率預測技術可以給出在未來某時刻出現某種人口狀態的概率,并對確定性人口方案預測的實現可能性進行定量評價[25]。
目前通常使用概率預測方法(多基于貝葉斯分層模型或時間序列模型)先對生育和死亡等要素本身進行預測,然后再基于這些要素利用隊列要素法進行全人口預測。通常仍會給出高、中、低三種方案,以框定未來人口發展的值域范圍,也可以給出不同條件下的其他方案。如聯合國人口司近些年在進行世界人口展望時,就通過對生育、死亡和遷移的不同設定,給出了9套預測方案結果[26]。我國有學者利用概率預測方法嘗試對小區域人口進行預測,以解決小區域人口數據缺乏和受遷移流動擾動的問題[24]。
(4)標準化與因素分解技術應用廣泛且不斷推陳出新。指標(直接或間接)標準化以及因素分解(demographic standardization and decomposition techniques),也稱為要素分析法(component analysis)或偏離—份額分析法(shift-share analysis),是經典的人口分析技術。其核心在于排除或區分人口結構因素與事件率因素,其中事件率是人口分析最關注的指標形式,反映了一定時期內事件發生的強度(事件別率同時反映事件發生水平和模式);結構因素除了年齡結構之外,還包括婚姻結構、孩次結構等。生育領域內經典的寇爾生育指數和邦戈茨生育率模型等都是以這一技術為構建基礎。邦戈茨近期一篇關于懷孕結果影響因素的文章中再次使用了這一技術,將總和懷孕率(Total Pregnancy Rate,或TPR)表達為總和生育率(Total Fertility Rate,或TFR)和總和流產率(Total Abortion Rate,或TAR)之和的形式,并將總和生育率按照是否想要這個孩子以及其出生時間是否符合計劃進行進一步劃分[27]。
使用標準化和因素分解技術對于準確把握人口形勢具有重要的作用。如2016年全面兩孩政策實施之后,社會各界對中國生育政策的效果極為關心。如果僅看出生人口數(B),由于該指標受到育齡婦女年齡結構的影響,并不能準確反映政策實施后的生育水平;即使只看總和生育率(TFR),由于其是多個孩次生育的結果,也不能準確反映二孩政策的實施效果。因此需要區分孩次結構,觀察二孩生育率的變化。分析結果顯示,政策寬松化改革后,二孩生育率呈現非常顯著的上升態勢,說明中國二孩政策的實施效果是明顯的;出生人口數和總和生育率提升效果不盡如人意,主要原因是一孩生育率在下降[19]。這樣通過孩次結構因素的分解,對事實的把握才更為精準,對政策進一步完善的建議也才更科學合理和更有針對性。
在死亡分析領域,廣泛用于隨機死亡率預測的李-卡特(Lee-Carter)模型[28]將死亡率變化分解為年齡別平均死亡率、年齡別變化速度和時間變化三個部分,通過調整年齡別變化速度和時間變化,可生成不同預期壽命水平的年齡別死亡率。有學者使用修正了李-卡特模型在中長期預測中的性別差異擴大和年齡別死亡率失調問題的改進模型,來預測高預期壽命水平下的年齡別死亡率并對模型生命表進行拓展[29]。此外,鑒于平均預期壽命本質上與年齡別死亡率存在密切關系,將兩張生命表上平均預期壽命的差異分解為其年齡別死亡率的差異,可深入探究死亡水平和模式變化發展的規律。波拉德(Pollard)和阿里亞加(Arriaga)分別從不同的角度和適用性提出了分解平均預期壽命差異的方法,前者通過將平均預期壽命差異表達為對死亡力差異的加權積分形式,將其分解為年齡別風險函數和生存函數之和[30];后者通過固定其他年齡組死亡率,考慮某年齡組死亡率變化時,將其對平均預期壽命的影響,分解為直接效應(即該年齡組死亡率降低所帶來的該組生存人數增加對平均預期壽命的提高效應)、間接效應(指該年齡組死亡率降低帶來其后續年齡組生存人數的影響)和交互效應[31]。有學者對這兩種方法用中國數據進行了驗證,發現當需要進行動態差異分解或者分解成風險率和生存函數時,應選用波拉德模型;當只有大組距年齡分組數據、需要計算開口組影響,或者需要分解到對各個年齡區間影響的情況下,使用阿里亞加的方法分解更為合適[32]。
年齡—時期—隊列分析(Age-Period-Cohort Analysis,或APC分析)方法在本質上也是一種因素分解方法。傳統人口學通過年齡、時期以及隊列分析方法觀察人口現象在時間上的變化;20世紀70年代,將這三個與時間相關的要素相結合的模型被提出,之后得到了廣泛的認可和應用。APC分析方法的目的是,在控制其他兩個因素的條件下,評估其中某一個因素的凈效應,以更細致地揭示人群特征或事件發生水平的年齡模式(反映了生命歷程中生理變化、社會經驗的積累、角色或地位變化的影響)、時期趨勢(反映社會、文化或環境變遷的作用)和隊列異同(反映早期生活條件和成長經歷的作用)。從基于匯總數據的會計/多分類模型(age-period-cohort accounting /multiple classification model)到基于多期截面微觀數據的分層模型(hierarchical age-period-cohort model,或HAPC)[33],這一方法隨著數據性質的變化和應用的拓展不斷被推進。
作為經典人口分析方法的標準化和因素分解技術不僅應用廣泛,而且不斷推陳出新。隨著微觀數據的日益普遍和豐富,一些學者開始基于個體微觀數據與回歸分析方法相結合,嘗試對回歸模型的系數進行因素分解(regression decomposition technique),如采用瓦哈卡-布林德分解方法(Oaxaca-Blinder decomposition)對線性模型的系數進行因素分解;對非線性模型(如logit模型、Probit模型、泊松回歸模型等)的系數或OR值進行因素分解,或對風險率模型中的概率進行分解等,將其分解為已釋的(或特征/稟賦)因素和未釋的(或系數/效果)因素[34],等等。這是在微觀數據推動下人口學因素分解方法與統計學回歸標準化等方法相結合的做法,也是未來人口分析方法一個可能的發展方向。
人口研究注重人口系統內、外各要素之間的關系及互動機制,內容更豐富多彩。從學科分類來看,人口研究可進一步區分為社會人口學(用人口系統外部要素解釋人口系統內部要素)和應用人口學(用人口系統內部要素解釋人口系統外部要素)兩個分支,這兩個分支的共同點在于,除了構建指標和模型之外,著重基于宏觀面板數據或微觀調查數據進行描述和回歸統計,并探索現象之間的因果關系。
人口發展具有其規律性,表現為不同人口要素在人口轉變各階段以及在不同結構和特征的人群中呈現出差異性。人口要素為什么會呈現出這樣的差異性?哪些社會經濟因素發揮了作用?人口要素的不同特點會對社會經濟、資源環境造成何種影響?社會人口學和應用人口學分別回答上述“為什么”和“會怎樣”兩大類問題,對上述問題感興趣的來自經濟學、生物學、統計學、數學、社會學和地理學等不同專業領域的學者紛紛加入,使人口研究呈現多學科方法交叉融合的局面。
1.多元統計方法特別是回歸模型被廣泛使用
人口研究的領域極為廣闊,難以逐一列舉。本文僅就幾個涉及主要人口要素的重點領域及其研究方法,通過案例方式進行粗略地梳理和歸納。總體來看,在人口研究方面,多元統計方法特別是回歸模型被廣泛使用,因果機制的探索是大多數研究的努力方向;不同專業領域貢獻了很多理論、思路和技術,跨界使用和融合構建的指標與方法不斷涌現,豐富著人口學科的方法工具箱。
生育涉及個體的生物學基礎,與人類的婚姻、家庭等社會制度,以及生育政策、文化傳統等因素密切相關;生育結果對家庭穩定、社會經濟發展和國家安全具有重要影響,因而是社會人口學和應用人口學均青睞有加的研究領域,成果可謂汗牛充棟。人口轉變完成之后,徘徊不前的低生育率形勢在包括中國在內的很多國家出現并引起了廣泛擔憂。到底是什么因素導致了如此低迷的生育水平?低生育水平會產生怎樣的社會經濟后果?阻礙家庭生育意愿和生育計劃的是什么?生育會給女性帶來怎樣的影響?上述問題成為近年來我國生育研究的重點。
作為影響人口增長的重要因素之一,相比較死亡和生育,遷移/流動在本質上是一種社會、經濟、政治現象,加之其涉及空間要素,使得與其相關的統計和研究更為復雜。遷移/流動不僅改變著地區間的人口分布格局、影響著遷移/流動者的生活,對遷/流入地和遷/流出地的社會經濟發展也具有立竿見影或潛移默化的影響。流動人口是中國一道獨特的風景,其流動狀態、流動原因、流動方向、居留/返鄉意愿、社會融合、權益保障、對城鄉社區/城鄉家庭/家庭成員個體的影響等都為學者所關注。鄉城遷移同時也是城鎮化的必經之路,中國的“半城鎮化”現象和未來的城鎮化發展趨勢與政策定位密不可分。遷移/流動相關研究自20世紀90年代以來熱度不減,對上述議題進行了多角度的觀察。
人口結構要素作為死亡、生育和遷移等人口事件的結果和未來人口事件的慣性影響機制,在人口分析領域一直被高度重視。人口研究不僅關注人口結構對社會經濟的整體影響,也關注人口老齡化、勞動年齡人口和出生性別比的影響因素及后果。
上述人口要素的影響因素及其社會經濟后果研究,大多基于微觀抽樣調查數據或省/市級面板數據,通過構建回歸模型,關注自變量對因變量的影響,特別是探索二者間的因果機制。建模策略(modelling strategy)是20世紀70年代自世界生育率調查(World Fertility Survey,或WFS)數據可得以來,國內外人口實證研究的通常做法[35]。這些實證研究的一般思路是:首先基于文獻和理論,提出研究問題和研究假設,并確定因變量和主要自變量;其次根據數據對變量進行操作化處理,并進行描述分析和列聯統計;然后構建相應的模型進行相關分析和因果推斷:檢驗變量間的互動關系,報告模型中統計顯著的參數的意義。在利用回歸模型探索變量間因果機制的過程中,研究方法不斷被推進。如越來越多的學者注意到內生性問題,逐漸采用傾向值分析、工具變量或使用追蹤調查數據進行修正和糾偏;在多因素回歸分析中考慮嵌套或分層、考慮模型的不確定性并使用貝葉斯方法(Bayesian approach)選擇合適的模型等[35]。筆者隨機摘錄了中國知網上近些年來運用回歸分析方法的部分社會人口學和應用人口學研究案例,結果如表1和表2所示。

表1 運用回歸分析方法的部分社會人口學研究案例

表2 運用回歸分析方法的部分應用人口學研究案例
2.指標和方法的跨界使用與融合構建
從表1和表2的案例可以看到,經濟因素頻繁出現,是學者們非常關注的非人口要素。事實上,關于人口與經濟之間關系的討論,自馬爾薩斯以來就在人口研究領域長盛不衰;二者之間的關系有時還加入更多的要素,較常見的是同時考察資源、環境和生態狀況。其中人口要素包括人口規模、增長、密度、素質、結構等。
20世紀70年代羅馬俱樂部的著名報告《增長的極限》中刻畫了人口增長、糧食供應短缺、資本投資、環境污染和資源枯竭如何通過循環體系結構影響世界經濟增長[36]。21世紀以來,全世界對人口、經濟和資源、環境間的關系更加關注。中國不斷攀升的人口數量和令世人矚目的經濟迅速增長對資源環境造成了很大壓力。對中國近10年省級層面人口集聚、經濟集聚和環境污染三者間的關系研究顯示,三者短期呈現單向環形因果關系,長期呈現雙向環形因果關系。該研究從產業經濟學和區域經濟學領域引入了區位熵(Location Quotient,又稱區域產業專業化率)的概念測算集聚度,基于面板數據的特點采用了單位根檢驗(檢驗面板數據的平穩性)、面板協整檢驗(對非平穩面板數據確定變量間的長期關系)以及面板誤差修正模型(PECM,確定因果關系的方向和類型),同時考慮到內生性問題,采用了動態廣義最小二乘法(DGLS)估計三者間的因果關系[37]。通過該研究案例可以看到,除了運用回歸模型之外,跨專業概念的引入、對數據的細致檢驗,以及對變量間因果關系的謹慎處理,使具有學科交叉性質的人口研究呈現更加規范化和精細化的特點。
除了人口與經濟研究領域的跨學科交流和融合之外,人口分布研究領域也吸納了來自地理學和經濟學的一些指標和方法,如反映人口分布均衡性的5個常用指標中,人口密度(Population Density)、人口集中指數(Population Concentration Index)和人口重心(Center of Population)指標來自地理學;洛倫茨曲線(Lorenz Curve)和基尼系數(Gini Coefficient)來自經濟學。隨著空間分析技術的不斷發展,地理學貢獻了更多的指標和方法催動人口地理學的發展,分異指數(Index of Dissimilarity)、熵指數(Entropy Index),以及結合地理信息系統(Geographic Information System,簡寫為GIS)和空間自相關分析技術的莫蘭指數(Moran’s I)等指標近些年也被頻繁使用。
廣泛應用于心理學、教育學、行為科學、醫學和經濟管理等領域的橫斷歷史元分析方法近年來也被引入人口學研究,這一定量文獻研究方法有助于把多項相互獨立,但具有共同目標的研究按照時間順序加以連貫,進而考察研究變量隨時代變化的趨勢,借以歸納人口發展的一般規律,并依此預測未來的趨勢。這一方法已在生育意愿變遷研究中得到運用[38]。
對經典模型和方法進行改造也是人口研究方法使用中的一個突出特點。如人口對環境的影響可通過公式“I(影響)=P(人口規模)×A(人均財富)×T(技術水平)”簡要表達[39]。針對該模型只能在保持其他要素不變條件下觀察其中一個要素變化效應的不足,學者們對其進行了改進。有研究基于改進后的隨機模型(STIRPAT),利用動態面板數據,討論了二氧化碳排放與人口、經濟、技術的關系,發現人口對二氧化碳排放的影響具有明顯的雙向性,經濟增長和技術進步則分別促進和緩解了二氧化碳排放[40]。
值得一提的是,統計學方法的進步總是會(或早或晚地)反饋在人口研究領域,與數據的豐富和改善一起,推動著人口學方法的進步。20世紀90年代以來,可直接用概率分布描述未知統計參數不確定性的貝葉斯統計(Bayesian statistics)得到了迅速的發展,與將統計檢驗建立在重復抽樣的頻率分布基礎上的頻率論統計學(frequentist statistics)分庭抗禮[41]。這一趨勢不僅反映在人口研究方法的改善上,如更傾向于使用分層回歸模型(hierarchical regression models)檢驗多層數據中自變量與因變量的關系,也反映為人口分析方法的推進,如前面所述的在人口預測中將概率預測法與隊列要素預測法相結合、在APC分析中使用分層回歸模型打破年齡、時期、隊列三者的共線性等。
從學科起源和發展路徑來看,人口學具有“自然的”和“政治的”內在屬性,這使其與生物學、統計學、社會學、地理學等相關學科有著“剪不斷、理還亂”的關系,這一關系在人口研究領域表現得更為明顯。人口學方法在人口分析方面主要呈現為獨特性;在人口研究方面主要呈現為交叉性;服務于社會經濟發展的應用性特點貫穿人口學發展的始終。
方法的獨特性塑造了人口學作為社會科學中偏重實證分析的學科屬性,使其與其他社會科學相比獨樹一幟,這是人口學學科發展的基礎,必須加以鞏固并不斷完善。人口分析方法著重回答“是什么”的問題,倚重全面而準確的數據進行事實描述,揭示人口現象和事件的狀態。對人口規律的探尋往往使用生命歷程或隊列視角,通過指數構建和因素分解的方法,剝繭抽絲、披沙揀金,逐漸接近真相。大量運用圖形工具或模型作為人口分析的輔助:直觀呈現人口年齡和性別結構的人口金字塔,有效分解年齡、時期和隊列效應的列克西斯圖,化繁就簡的靜止人口模型(或追蹤靜止人口生命軌跡的時期生命表模型),對眾多方法而言本固枝榮的穩定人口模型,以及基于不同條件的人口發展(增長/預測)模型等,散發著人口學獨特的光輝。當前人口分析方法面臨的挑戰是,如何保持經典方法技術的生命力并在理論上有所突破。人們對人口發展規律的認識總是局限于一定的社會歷史條件,人口學經典方法技術多源自穩定人口假設,這是基于西方的人口轉變經歷和社會實踐所概括出的模型,現實中發展中國家快速的社會轉型早已突破了這一窠臼,前人的貢獻需要在時機成熟時加以超越。當人口現實用原有的理論難以解釋、現有的技術方法束手無策時,新的技術和方法將應運而生。當前有很多現實問題亟待回答:如完成了人口轉變后生育率為什么未能穩定在更替水平附近?低生育率國家能否擺脫以及如何擺脫“低生育率陷阱”?不斷延長的人類壽命是否存在上限?流行病學轉變經歷了從傳染病向退行性疾病的轉化后,未來將怎樣發展?等等。這些問題的回答不僅有賴于經典的人口分析方法和技術,更有賴于新的理論支持下的新思路和新方法。
方法的交叉性使人口學成為一門兼容并蓄的開放性學科。無論是原因探析還是結果預期,聚焦人口變量,同時將視野拓展至其他各個學科領域,極大豐富了人口研究的內容,并為人口學學科發展帶來了源源不斷的活力。人口研究方法著重回答“為什么”和“會怎樣”的問題,通過建立變量之間的有機聯系,深入挖掘變量間的互動機制,探索變量間的因果關系。各學科專業視角和方法的融入,對人口研究方法的推陳出新具有很大啟發性。需要指出的是,在人口研究過程中,必須牢記初心,即研究應圍繞人口變量的影響因素(determinants)和社會經濟后果(consequences)展開,無論是社會人口學還是應用人口學,核心都應是人口變量,目的是探尋人口系統與外系統相互作用的關系與規律;否則很容易“亂花漸欲迷人眼”,在多學科交叉中失去人口學學科的定位。當前人口研究方法面臨的挑戰是,大多數研究被多元統計分析所壟斷,方法隨統計學的發展亦步亦趨,難以凸顯人口學方法特點。未來的努力方向在于整合多來源數據,整合多學科方法,將獨特性與交叉性相結合,圍繞人口學核心指標和方法,構建多元、動態的人口研究方法體系。
人口學自創建伊始,就是一門應用性社會科學,服務于社會經濟發展。當生育政策的寬松化改革不斷推進、當機構調整取消了部委名稱中的“人口”和“計劃生育”,很多人開始質疑伴隨中國計劃生育成長的人口學學科是否將裹足不前甚至從此銷聲匿跡。事實是,服務于社會經濟發展的人口學的應用性屬性,從來都使其站在時代前沿,與時代同呼吸共命運;人口學方法一直與時俱進,始終探索作為社會經濟發展主體的人類人口的發展軌跡和規律。因此,人口學的強大生命力來源于其學科研究對象、研究方法和研究內容。我們看到,一方面,追蹤數據和多期截面數據不斷積累,描述性統計與因果性推斷并駕齊驅,移動互聯網、大數據、云計算等信息技術日新月異;另一方面,本世紀人口達到峰值、慣性正增長悄然轉向慣性負增長、低生育水平和人口老齡化長期并行、人工智能開始替代人類勞動甚至挑戰人類智慧等現實,都需要人口理論和研究方法不斷革故鼎新。當代中國的社會變革和實踐創新,為人口學方法的發展提供了強大動力,為人口學學科發展展示了廣闊空間。