北京大學公共衛生學院(100191) 葉 芳 王 燕
雙重差分模型(difference-in-difference,DID)近年來多用于計量經濟學中對于公共政策或項目實施效果的定量評估。
通常大范圍的公共政策有別于普通科研性研究,難以保證對于政策實施組和對照組在樣本分配上的完全隨機。非隨機分配政策實施組和對照組的試驗稱為自然試驗(natural trial),此類試驗存在較顯著的特點,即不同組間樣本在政策實施前可能存在事前差異,僅通過單一前后對比或橫向對比的分析方法會忽略這種差異,繼而導致對政策實施效果的有偏估計。
DID模型正是基于自然試驗得到的數據,通過建模來有效控制研究對象間的事前差異,將政策影響的真正結果有效分離出來。
1.“前后”差異比較 是將研究對象干預后結局變量的值At1減去干預前的值At0,所得之差即為干預效果d,如下式:
該方法簡單明了,可操作性強,然而,由于研究對象干預期間有可能受到其他因素的影響,如特殊事件、宏觀因素影響等,簡單的“前后”差異比較法并不能分離出這些影響,可能得到干預效果的有偏估計。
2.“有無”差異比較 它考慮到了干預效果中可能摻雜其他因素的影響,因而通過設立對照組來消除這種影響。干預效果的實際影響d即為干預實施后干預組結局變量的值Btreat減去對照組結局變量的值Bcontrol,如下式:

該方法的使用需建立在一個重要的假設基礎之上,即干預實施前干預組和對照組之間需考察的結局變量沒有差異。在小范圍、通過隨機分組得到的研究對象可滿足這一假設,而對于大規模、規定區域分組的干預措施,則很難滿足該假設或為了滿足假設而導致很高的成本。
3.協方差分析 通過對干預以外的影響因素采取數理統計方法進行控制,使這些因素盡量保持一致,同時結合方差分析的方法,對某一控制變量進行分組,以提高研究的精確性和準確性。按照此方法,將干預前結局變量的值作為控制因素之一,而將干預后的值作為應變量,即可解決干預前干預組和對照組業已存在的差異問題。協方差分析通過分離干預組和對照組可消除其他影響因素,并考慮到干預實施前存在的應變量的事前差異,可在理論上保證分析結果的真實可靠性,然而過多、過于嚴格的應用條件使得協方差分析在實際工作中并不能得到廣泛使用。
在干預效果評價方面,DID模型通過將“前后差異”和“有無差異”有效結合,一定程度上控制了某些除干預因素以外其他因素的影響;同時在模型中加入其他可能影響結局變量的協變量,又進一步控制了干預組和對照組中存在的某些“疑似”影響因素,來補充“自然試驗”在樣本分配上不能完全隨機這一缺陷,因而得到對干預效果的真實評估;另外,構造模型所需滿足的條件較少,又成為該模型在計量經濟學界廣為應用的原因之一。
1.DID模型構造
在使用DID模型之前,要確保數據滿足三個假設;(1)在干預組項目的開展對對照組的相關研究變量不產生任何影響,即項目實施僅造成干預組相關研究變量的改變。例如,對一項營養干預項目進行效果評價,干預組內的所有5歲以下兒童均可得到免費的營養支持,而對照組無。若有部分對照組研究對象通過各種辦法也獲得了該項免費營養支持,則違反了本模型的第一項假設,造成干預效果的低估。(2)項目開展期間,宏觀環境(除項目實施以外的因素)對干預組和對照組的影響相同〔1〕。(3)干預組和對照組的某些重要特征分布穩定,不隨時間變化,即在整個項目開展期間保持穩定。
DID模型的核心是構造雙重差分估計量(DID estimator),通過對單純前后比較(干預前vs.干預后)和單純截面比較(干預組vs.對照組)的結合,得到如下

其中,d就是雙重差分估計量,Y為研究的結局變量,右側腳標中treatment和control分布代表干預組和對照組,t0和t1分別代表干預前和干預后。構造了差分估計量之后,就要根據不同的數據類型和不同的結局變量Y,分別選用相應的參數檢驗方法來進行建模。
2.不同數據類型的基本DID模型
對于不同的數據類型,DID模型的雙重差分估計量的估算方法有所不同。
(1)適用于獨立混合橫截面數據(independent pooled cross-sectional data/repeated cross-sectional data)的DID模型
獨立混合橫截面數據是在不同時點從同一個的大總體內部分別進行隨機抽樣,將所得的數據混合起來的一種數據集。該類數據的特點為每一條數據都是獨立的觀測值。通過將不同時點的多個觀測值結合起來,從而可以加大樣本量以獲得更精密的估計量和更具功效的檢驗統計量;也可加入新的變量——時間(即干預前后),以便判斷干預前后的差別。對于總體一致、范圍較大、涉及不同時間點的調查研究,多收集此類數據〔2〕。
這類數據的DID模型基本形式為:

在(4)式中,Y為被解釋變量(dependent),T和A是分別代表時間和分組的虛擬變量(dummy variable)。T·A即為時間和分組虛擬變量的交互作用。在回歸分析中,被解釋變量不僅受到一些定量變量的影響(如年齡、收入、體重等等),還受到一些定性變量的影響(如性別、婚姻關系、是否患病等等),這些定性變量稱之為虛擬變量。e代表殘差。角標i代表每一個個體,角標t代表不同時間點。i=0和1時分別代表對照組和干預組,t=0和1時分別代表基線和隨訪。
當個體i屬于干預組時,被解釋變量Y在隨訪和基線期間的差VYi(1)為:

同樣,當個體i屬于對照組時,被解釋變量Y在隨訪和基線期間的差△Yi(0)為:

那么,干預的實際效果,即干預組和對照組在隨訪前后被解釋變量的差△△Yi為:

因此,b3就是我們最感興趣的雙重差分估計量。
由于混合獨立橫截面的一大特點:數據集都是由獨立抽取的觀測值構成的,因此可以滿足殘差項與分組解釋變量完全獨立,即:

在確定滿足條件(8)以及滿足回歸方程要求的“LINE”條件(線性、獨立、正態分布、方差齊)后,該模型可采用普通最小二乘(OLS)來進行回歸,并得到無偏的估計量。若在實際情況中得到的數據不滿足以上“LINE”條件,則需要對數據進行進一步轉化、分層以及使用廣義最小二乘等方法來進行模型的構造。
(2)適用于綜列數據(panel data/longitudinal data)的DID模型
綜列數據同時兼有橫截面數據和時間序列數據的特點,要求在不同時點調查相同的研究對象。它與獨立混合橫截面數據最大的不同在于,不同時點的觀測值并不是獨立分布的。這類數據的特點在于:①由于研究的個體相同,一些不隨時間改變的不可觀測的因素(如個人特質等)對不同時點的觀測值會產生影響,可以通過控制這些影響從而得到較為真實的結果;②由于綜列數據要求隨訪相同的研究對象,使得數據收集工作的難度明顯增加,不太適用于大規模的調查研究〔2〕。
多數情況下,我們無法保證與個體自身有關的因素與分組變量完全無關,這樣就不能保證(8)式,即殘差獨立于分組變量。為了解決該問題,需將這些因素從殘差eit中分離出來。于是我們引入變量ai,稱為固定效應(fixed effect),代表不同個體的自身相關因素。因為它不隨時間變化,因此右下角腳標為i。即有:Yit=b0+b1·Tit+b2·Ait+b3·Tit·Ait+ai+eit'(9)相比(4)式,(9)式增加了新變量ai。這樣就在一定程度上保證了殘差項獨立于解釋變量這個條件。對于普通的較大范圍的調查,很難收集到所有與ai有關的信息,無法得到這個參數的某個無偏估計系數或關系式,因此通常進行差分來移除ai而不影響對雙重差分估計量的無偏估計,即

由于DT為固定不變的參數,用d0來代表截距b1·△T,因此將(10)式略微修改并進一步簡化就成為:

經過差分和簡化后,就可以通過普通最小二乘法來對綜列數據進行回歸了。
以上分析僅針對最簡單的兩時期綜列數據進行分析,通過差分來移除固定效應。而綜列數據同樣具有時間序列的性質,對于多于兩期的綜列數據而言,還應考慮到滯后性等問題,需要結合時間序列數據的特點,進一步通過計量經濟學方法對其進行分析。
3.一般化DID模型
由于一般大規模的人群調查存在較大的變異性問題,僅在模型中納入虛擬變量“分組(A)”、“時間(T)”是遠遠不夠的。為了提高解釋系數R2,需要加入其他可能影響被解釋變量的因素,即控制除分組、時間變量以外的其他變量。對于結局變量是一些偏態分布的連續性變量,可通過非線性處理(如取自然對數)后再行建模,而進一步提高模型的擬合度。
1.DID發展歷史
1985年普林斯頓大學的Ashenfelter和Card的一篇項目評價的文章 ,第一次引入了DID模型。隨后的十多年間,該模型在計量經濟學界以及社會學界被廣泛應用。
2001年6月哈佛大學公共衛生學院學者Yip W與Eggleston K對中國海南省的醫療報銷付費制度改革進行了分析〔4〕。同年12月,杜克大學衛生政策研究中心學者Conover C J等人,對美國保險制度Medicaid對于婦幼健康結局的影響進行了研究〔5〕。這兩篇文章將DID模型引入醫學和公共衛生領域,隨后帶動了一批學者使用該模型進行相關研究。
我國學者周黎安、陳燁借鑒DID模型的思路,運用全國591個縣市級數據對我國農村稅費改革政策的效果進行系統的評價〔6〕,這也是國內醫療衛生領域首次運用該模型對政策效果進行評價。
2.DID模型的國外應用現狀
通過對pubmed進行檢索,從2001年至2011年11月共檢索到124篇文獻應用到DID模型對醫療衛生相關領域數據進行分析,DID模型的應用呈遞增趨勢(圖1)。

圖1 各年間用到DID模型的文章數量
在已發表的124篇文章中,一半以上的文章將DID用于政策評價,其他的研究分類包括干預評價和事件影響。政策評價是對影響范圍較廣的政府宏觀政策的效果評價〔7-9〕;干預評價是對規模較小、由研究組織或機構對某些地區或人群進行干預的效果評價〔10-12〕;事件影響是指某些重大突發事件對個人或群體的心理或生理健康影響的評價〔13-14〕。
在這些文獻中,74%的文章作者或機構來自美國,其次為英國,占6%。與這些國家相比,中國學者在這方面的研究還有一定差距,僅占2%。
3.DID模型的國內應用現狀
通過國內數據庫CNKI、維普以及萬方對雙重差分模型進行篩選,并選擇醫藥衛生方向,僅搜到3篇文獻〔6,15-16〕。
由于簡單的DID模型是建立在解釋變量完全外生的假設之上的,導致“內生性”和“自相關”問題被忽視,一些計量經濟學者又進一步對原模型提出了修正的思想。“內生性”是指隨機誤差項與自變量存在相關關系,它可導致DID模型得出有偏估計。對于內生性問題,可采用Hausman檢驗或probit模型來判斷是否存在此種情況。如果是,可應用工具變量(instrumental variable)法進行兩階段最小二乘回歸(2SLS)〔17-18〕。“自相關”指對于不同的樣本值,隨機誤差項之間不再是完全相互獨立的,而存在某種相關性。可采用Wooldridge's test來檢驗是否存在此種情況〔19〕。若存在,則需要選擇可行廣義最小二乘法(FGLS)〔2〕。
最普遍的DID模型適用于被解釋變量為連續性變量的一般線性方程,而根據不同的分析目的,對于廣義線性方程(如probit模型、logit模型、tobit模型等),DID模型也可以應用。下式列出了基于probit模型的DID模型:

同時,對于雙重差分估計量的計算方法也不同于一般線性方程。Puhani〔20〕與 Ai C〔21〕對于其計算方法提出了不同的觀點。
綜上所述,在進行人群調查前,較理想的情況是按照流行病學方法,將干預組和對照組之間除干預以外的其他因素進行匹配,使不同組間的研究對象可比。而在某些情況下,研究對象是已經給定的人群,無法進行匹配以消除各組之間不同質的情況。同樣,在另一類情況中,我們已經對某些因素進行了匹配,但由于匹配不足,導致不同組間研究對象仍不可比。對于以上所提到的兩類情況,DID模型通過將干預效果構造為關鍵變量(雙重差分估計量)和控制其他協變量來消除這些客觀影響,以得到對于結果的無偏估計。同時,通過該模型還可得到干預效果的定量結果,彌補了單純統計性檢驗僅能得到定性結果的不足。以上這些都使得DID模型成為人群調查中一種較好的輔助方法。因此,在醫療、公共衛生領域中,DID模型將得到越來越廣泛的應用。
1.Heckman,James J.“Comment”In Empirical Foundations of Household Taxation,ed.Martin Feldstein and James Poterba.Chicago:NBER and University of Chicago Press,1996.
2.Wooldridge Jeffery M.Introductory econometrics:a modern approach.South-Western College Pub(2nd edition),2002.
3.Ashenfelter O,Card D.“Using the longitudinal structure of earnings to estimate the effect of training programs,”Review of Economics and Statistics,1985,67:648-660.
4.Yip W,Eggleston K.Provider payment reform in China:the Caseof hospital reimbursement in Hainan province.Health Econ,2001,10(4):325-339.
5.Conover CJ,Rankin PJ,Sloan FA.Effects of tennessee medicaid managed care on obstetrical care and birth outcomes.J Health Polit Policy Law,2001,26(6):1291-324.
6.周黎安,陳燁.中國農村稅費改革的政策效果:基于雙重差分模型的估計.經濟研究,2005(8):44-53.
7.Parente ST,Evans WN,Schoenman J A,et al.Health care use and expenditures of medicare HMO disenrollees.Health Care Financ Rev,2005,26(3):31-43.
8.Nolan A.An extension in eligibility for free primary care and avoidable hospitalisations:a natural experiment.Soc Sci Med,2011,73(7):978-985.
9.Subramanian S.Impact of medicaid copayments on patients with cancer:lessons for medicaid expansion under health reform.Med Care,2011,49(9):842-847.
10.Alderman H,Ndiaye B,Linnemayr S,et al.Effectiveness of a community-based intervention to improve nutrition in young children in Senegal:a difference in difference analysis.Public Health Nutr,2009,12(5):667-673.
11.Busch AB,Frank RG,Lehman AF,et al.Schizophrenia,co-occurring substance use disorders and quality of care:the differential effect of a managed behavioral health care carve-out.Adm Policy Ment Health,2006,33(3):388-397.
12.Ward MA,Xu Y.Pharmacist-provided telephonic medication therapy management in an MAPD plan.Am J Manag Care,2011,17(10):
13.Dano AM.Road injuries and long-run effects on income and employment.Health Econ,2005,14(9):955-970.
14.Torche F.The effect of maternal stress on birth outcomes:exploiting a natural experiment.Demography,2011.
15.楊菊華.城鄉差分與內外之別:流動人口社會保障研究.人口研究,2011(5):8-25.
16.楊練,毛正中.非吸煙孕婦被動吸煙干預措施效果評價.中國慢性病預防與控制,2010(3):226-228.
17.Bertrand M,Duflo E,2002.Mullainathan S.How much should we trust Differences-in-Differences estimates?NBER Working Paper No.8841.
18.http://www.hks.harvard.edu/fs/aabadie/didp.pdf.
19.Drykker DM.Testing for serial correlation in linear panel-data models.The Stata Journal,2003,3(2):168-177.
20.Puhani.The treatment effect,the cross difference,and the interaction term in nonlinear“Difference-in-Differences”models.IZA Discussion Paper 2008,No.3478.
21.Ai C,Norton EC.Interaction terms in logit and probit models.Economics Letters,2003,80:123-129.