999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中國工業企業數據庫(1999~2013)的使用研究:基于插值處理方法的比較分析

2021-09-24 15:18:52張少華李蘇蘇
貴州財經大學學報 2021年5期

張少華 李蘇蘇

摘 要:中國工業企業數據庫已經成為研究中國微觀企業活動的首選數據庫,但是數據庫中關鍵指標的缺失嚴重影響了數據庫的更新和使用。本文在借鑒主要文獻處理方法的基礎上,先后采用單值移動時序平滑法、MICE1、MICE2、MMICE1和MMICE2五種插補方法對數據庫進行完善,從而將中國工業企業數據庫延伸至2013年,并通過計算企業全要素生產率來評估各種插補方法的相對有效性。研究表明:在這五種插值方法中,單值移動時序平滑法和MMICE1是兩種最為有效的插值方法,不僅可以實現插值前后的數據庫特征一致,而且能夠實現所計算的全要素生產率的數據結構特征一致。值得強調的是,在完善數據庫和計算全要素生產率方面,前者因為處理過程簡單因而是一種相對經濟的方法,而后者因為能夠保留更多樣本信息因而是一種相對有效的方法。本文研究價值體現在對使用中國工業企業數據庫提供了基礎性研究工作。

關鍵詞:中國工業企業數據庫;單值移動時序平滑法;多重鏈式方程插補法;混合插補法;全要素生產率

文章編號:2095-5960(2021)05-0020-10;中圖分類號:F011;F016;F42

;文獻標識碼:A

一、引言

目前,中國工業企業數據庫已經成為研究中國經濟問題的一個非常重要的微觀數據庫,因其來源權威、統計規范、樣本巨大以及指標多樣等優良特性而得到了海內外學者的廣泛使用和認可。其研究成果不僅發表在《經濟研究》《管理世界》《中國工業經濟》《數量經濟技術經濟研究》等國內權威期刊,也大量出現在《美國經濟評論》《政治經濟學期刊》《經濟學季刊》《金融研究》等國際頂級期刊。但是令人遺憾的是,目前學者們使用的中國工業企業數據庫樣本主要局限在1999年至2007年,盡管主要研究機構已經將數據庫更新至2013年,但是由于2008年之后的多個關鍵指標缺失問題,導致數據庫無法更新到2013年。因此,如何采用科學方法將數據庫進行完善和更新,是一項基礎性研究工作。

關于中國工業企業數據庫的使用問題,事實上國內外學者已經進行了大量深入研究和探討。例如,Brandt et al.最早規范使用該數據庫,其在面板構建、行業調整、價格平減等方面的處理一直被后續學者采用。[1]而國內學者聶輝華等在Brandt et al.基礎上,明確指出數據庫存在的樣本匹配混亂、變量大小異常、測量誤差嚴重以及指標缺失等問題[2],并首次提出采用交叉匹配法來構建面板。張天華和張少華則運用1998~2007年的中國工業企業數據庫討論了生產函數模型、樣本范圍和價格因子在不同估計方法中對企業全要素生產率估計的影響。[3]在近期數據的使用上,陳林對數據庫的真實性和系統性誤差進行了定量評估,并指出樣本范圍及統計口徑的變動,缺失值較多、“回避規模以上”以及“化整為零”等方面的數據問題,均會對數據規范使用產生一定的影響。[4]隨后其更進一步從中國工業統計的理論體系和制度變遷角度,探討了相對頻繁的統計制度變遷對樣本統計范圍和統計口徑產生的系統性誤差影響。[5]

本文在系統梳理使用中國工業企業數據庫的文獻后發現,1999~2007年區間的數據處理方式已逐漸形成共識,尤其體現在面板構建、行業調整、價格平減以及樣本篩選等方面,正是因為2008年后數據庫關鍵指標的嚴重缺失,從而使得該數據庫的使用在時序上無法推進。為此,本文主要研究目標就是解決中國工業企業數據庫的關鍵指標缺失問題。在遵循文獻主要處理方法基礎上,先后采用五種插補方法:單值移動時序平滑法、多重鏈式方程插補法1(MICE1)、多重鏈式方程插補法2(MICE2)、混合插補法1(MMICE1)和混合插補法2(MMICE2),對中國工業企業數據庫進行更新和完善,并進一步通過計算全要素生產率這個使用數據庫最為頻繁的指標,實證評估各種插補方法的相對有效性。

二、插值處理方法

下文詳細介紹對中國工業企業數據庫中的缺失指標如何采用五種插補方法進行指標插補。事實上,對于中國工業企業數據庫的處理,還需要進行面板構建、行業調整、價格平減、派生指標計算、樣本篩選等一系列的處理過程,本文在此處不進行詳細的介紹,這些處理過程可以參考李蘇蘇、葉祥松和張少華,以及李蘇蘇、張少華和周鵬[6,7]。在進行插值處理之前,首先需要進行面板數據構建,本文改進了現有文獻的交叉識別方法,遵循盡量在數據庫中識別同一企業原則,采用三個步驟進行匹配,具體匹配效果見表1。

表1中的重復觀測值包括通常意義上的重復觀測值和上面所提到的同一年份同一企業ID有多個觀測值且法人代碼相同的情況;重復觀測值的比例指重復觀測值占原始觀測值總數的比例,匹配數據是指構建面板后刪除重復觀測值后剩下的年度觀測值總數;匹配比例指匹配數據占原始觀測值總數的比例。其中2004年數據融合了中國經濟普查企業數據,故原始觀測值總數較多,匹配率相對較低。由于2010年數據異常,本文不予使用,在構建面板的時候沒有刪除,是為了在匹配的時候保留更多的企業信息。構建面板后本文借鑒王萬珺和劉小玄的做法,去掉2010年數據將2009年和2011年視為連續年份處理,原始數據觀測值總數為4936335,刪除重復值之后,匹配數據數量為3505053。[8]如果不考慮2004年數據融合的影響,數據庫總體匹配比例高達85%以上,而且匹配比例逐年提高,說明匹配效果穩步提升。

(一)插值前的準備

中國工業企業數據庫自2008年始,數據庫中諸多關鍵指標缺失,這里將根據五種方法對數據庫缺漏值進行插補,每一種插補方法后文詳細說明。本文對缺失指標按照“先計算,后插補”的原則進行處理,并且以全要素生產率的估算為例進行詳細闡述。

1.先計算

具體過程如下:對2004年缺失的工業總產值與工業增加值,在使用2004年中國經濟普查企業數據進行融合后還缺少工業增加值指標,通過“工業增加值=工業總產值-工業中間投入+增值稅”計算得出。關于本年折舊,對2007年前本年折舊缺失的樣本以及2008~2009年的數據進行補全處理,若上一年存在固定資產總值,采用“固定資產投資=當年固定資產總值-(1-折舊率)×上年固定資產總值”來補充計算,折舊率折中取10%。[2,9]這樣可以利用固定資產投資推算2008~2009年的本年折舊。

關于缺失的2008~2013年的工業中間投入和工業增加值,借鑒余淼杰等的方法,采用“工業中間投入=產出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業增加值=工業總產值+增值稅-工業中間投入”先后得出。[10]由于2009年工資支付缺失,這樣,在計算企業全要素生產率指標中,還缺失2009年的工業中間投入和工業增加值,需要通過插值方法來獲得。

2.離群值、異常值缺漏化處理

為保留盡可能多的觀測值,在插值前本文對異常值做如下處理:①通過畫指標的核密度函數圖,將工業增加值a17、固定資產合計a25、工業中間投入a70左右端十萬分之一的離群值設為缺漏值。②將關鍵指標如工業總產值、從業人員年平均人數、固定資產合計、職工人數缺失或者小于等于0的觀測值設為缺漏值。③對于所用到的明顯不符合會計原則的觀測值,如“資產總計<固定資產合計”“工業增加值>工業總產值”“工業中間投入>工業總產值”的觀測值,保留理論上相對較大的指標值,將對應的固定資產合計、工業增加值、工業中間投入設為缺漏值。

經過如上處理,總樣本和工業增加值、工業中間投入和本年折舊的觀測樣本發生了一系列變化,具體如表2所示。從表2最后一列的缺失率計算結果來看,需要插值處理的工業增加值a17、本年折舊a28、工業中間投入a70指標的缺失率分別由46.93%、23%、46.84%降低為15.98%、5.42%、16.25%。很大程度上對數據庫進行了完善,也為接下來插值處理與效果評估提供了基礎。

(二)五種插補方法

經過一系列數據分析與處理,可以觀察到要計算全要素生產率關鍵在于對2008~2009年本年折舊和2009年工業中間投入和工業增加值缺失值的處理。關于本年折舊缺失值的處理,王萬珺和劉小玄提到采用固定資產和兩位數行業信息,利用單值插補和多元線性回歸重復插值十次,以第十次的插值替代缺失值。[8]究竟這種多重插補在大樣本數據中是否合適?是否較單值插補法更為優越?通過不斷的嘗試,本文最終采用單一插補中的單值移動時序平滑法、和多重插補中的鏈式方程法以及這兩者的混合插補對數據庫進行處理,并比較它們的效果。具體介紹如下:

單值插補(移動平滑插補):原始數據 公式計算1 移動平滑插值 公式計算2 插值結果1

多重插補(MICE1):原始數據 公式計算1 分省份分行業多重插值MICE 插值結果2

多重插補(MICE2):原始數據 公式計算1 分省份多重插值MICEI 插值結果3

混合插補(MMICE1):原始數據 公式計算1 移動平滑插值 分省份分行業多重插值MICH 插值結果4

混合插補(MMICE2):原始數據 公式計算1 移動平滑插值 分省份多重插值MICEH 插值結果5

1.單值移動時序平滑插補

單一插補(Single Imputation)就是給一個缺失單元(變量)補上一個合理的值。本文通過移動時序平滑插值法來獲得2009年工資支付,進而利用“工業中間投入=產出值×銷售成本/銷售收入-工資支付-本年折舊”和“工業增加值=工業總產值+增值稅-工業中間投入”計算出缺失的工業中間投入和工業增加值。

然后再對于數據庫中存在缺漏的主要變量使用單值移動時序平滑插補法進行均值插補處理。在插補的基礎上再通過上面公式計算出部分缺漏的本年折舊、工業中間投入與工業增加值。經過如上兩輪的計算和插補后,將工業總產值a14還存在缺失的觀測值進行刪除處理,其原因在于a14作為多數研究的核心指標,從數據庫本身的情況來看a14缺失的觀測變量相應地其他指標也缺失嚴重,這樣的觀測值并不能為研究提供更多的信息。最終得到數據結果如表3所示。

2.多重插補

根據經驗,如果大樣本數據某個或某些變量的缺失比例超過5%,則可能需要進行多重插補。多重插補(multiple imputation)是給每個缺失單元(變量)插補上多個值,并將這些值合并為一個綜合的結果,進而運用這個被綜合處理的數據集對變量進行描述或者研究變量之間的關系。多重插補以完全隨機缺失、隨機缺失機制為前提,要求盡可能保證數據缺失與觀測來的數據有關,與未觀測到的數據無關。如果說單一插補的假定是從回答數據中能夠預測出缺失數據的“最佳值”,那么多重插補則的假定是從回答數據中能夠找出缺失數據的概率分布。

本文運用了MICE(Multivariate Imputation by Chained Equations)鏈式方程法對缺漏值進行插值處理。在進行MICE 插值前,我們對參考指標和插值指標進行了共線性測度,對VIF值超過10的參考指標如工業銷售總產值a14b、流動資產合計a18、資產總計a31、所有者權益合計a36、主營業務收入a39、主營業務成本a40等進行剔除。在進行MICE插值時,我們作了兩種處理以作對比,第一種為同時控制行業與地區,將數據集分為30×31個子數據集來進行處理,在文中我們記為MICE1。第二種為控制地區的同時將行業設為啞變量,將數據集分為31個子數據集來進行插值處理,記為MICE2。在插補時,對于使用同類回歸方法的變量可以排列在一起,程序在執行插補的時候會自動按照缺失值從低到高的順序依次執行。我們分別運用這兩種方法對數據庫中主要的關鍵變量進行10次插補取平均值。插補觀測值的變化情況歸納為表5所示。由于鏈式方程法與單值移動時序平滑法的插值原則不同,在鏈式方程法前需對參考變量中存在缺失值的觀測值作刪除處理,因此得出采用MICE1和MICE2進行插值前的觀測值數量分別為3,293,169和3,381,821。由表4可見,經MICE1和MICE2多重插補以后,缺失值相較于插值前的觀測值數量得到完全的填充。

3.混合插補

考慮到單純進行單值移動時序平滑插值以后還存在較多的缺失值,而單純的多重插值因數據量過于龐大不可能對單個個體進行控制使得插值效果不盡人意,經不斷實踐,本文發現在進行單值移動時序平滑法插值后,再進行如上相應的多重插補能夠獲得很好的效果,且各自變量的相對效率均高于98.6%,在單純的多重插補92.8%的基礎上提高不少。我們將相應的插補方式記為MMICE1和MMICE2。在單值移動時序平滑法的插值之后鏈式方程法插值之前需對參考變量中存在缺失值的作刪除處理,因此得出MMICE1和MMICE2插值前的觀測值數量為3,381,791和3,382,121,具體如表5所示。可見,經MMICE1和MMICE2多重插補以后,缺失值相較于插值前的觀測值數量得到完全的填充。

(三)五種插值方法效果比較

在完成插值以后,需要對插值效果進行檢驗。首先,我們從感性的角度上來考察它們分別對數據庫的補充程度,即比較它們的插值后數據庫的完善情況,本文將結果歸納如表6所示。可見,在對數據庫的完善程度來看,原始觀測值為3,505,053,單值插補的插值后存在值占原始觀測值的比例為63.95%~94.42%,多重插補MICE1、MICE2的比例分別達到93.95%和96.48%,混合插補因其結合了單值插補和多重插補的優點,MMICE1、MMICE2的比例分別達到96.48%和96.49%。從對數據庫指標完善的程度上來看,混合插補具有相對優勢。

上面我們對插值后觀測值統計量變化情況進行了比較。因在插值前我們對異常值進行了缺漏設定,現在具體考察插值后異常值的統計情況,如表7所示。從中可以看出,采用MMICE1方案所得到的正常樣本的比例最高(94.45%),其次是MICE1(93.49%),然后是MICE2(91.83%)和MMICE2(91.16%),最后是移動平滑插補(83.68%)。移動平滑插補所得到的正常樣本比例最低,主要源于它對缺漏值所做的插補有限,在計算后的數據基礎上只增加了4528個觀測樣本。同樣地,我們可以衡量其他四種插值方法的插值效果,其中MMICE1在計算后的數據基礎上增加了123262個觀測樣本且正常樣本達到94.45%。從這個意義上來說,MMICE1的插值效果具有相對優勢。

上面兩種方式主要是從對數據完整程度的改善和插補后異常值/正常值的對比情況來反應插值的效果,并不能準確判別出哪種方式更好。具體哪種插補方法能被應用于實證研究,關鍵還在于插值前后具體指標數據的結構是否改變。如何考察這樣龐大的數據集指標結構的變化,我們嘗試考察插值前后的指標分布結構是否有較大差異,具體參見表8。

根據已有文獻的做法,我們以MICE1和MICE2多重插補下的估計結果作為參考基準。發現個案刪除(表中原始列)、移動時序平滑插值法的估計都是有偏的,只有混合插補MMICE1和MMICE2的插補結果較為接近多重插補下的估計結果,與多重插補相比,刪除個案、移動時序平滑插補方法在多數樣本上均顯示出低估了樣本的標準差。

具體多重插補和混合插補哪一種更適合我們后續的實證研究,我們還將多重插補MICE1及混合插補MMICE1、MMICE2插值前后的a17、a28、a70對數的核密度函數圖與原始數據計算補充后相應指標的核密度函數圖進行擬合,發現雖然擬合程度都很高,但MMICE1基本上能與原始數據所得出的核密度函數圖相重合,如圖1所示。在插補過程的檢驗中自變量的相對效率也體現出混合插補相對于多重插補的優越性。因此,我們認為MMICE1的插值結果最有效合理。遂將MMICE1插值后的數據庫用于下文企業全要素生產率的測度。

三、插值效果評估

鑒于全要素生產率的測度是使用中國工業企業數據庫進行的最為廣泛的一個研究領域,本文在上述兩種相對最有效的插補方法建立的數據庫基礎上,分別采用OLS、FE、OP方法、LP方法來計算中國工業企業的TFP,以進一步評估不同插補方法的效果。表9是基于單值移動平滑和MMICE1插補后采用如上四種方法估計的結果。研究表明,采用OLS回歸與FE方法計算的勞動產出彈性系數高于資本產出彈性系數,采用OP方法和LP方法計算的資本產出彈性系數則高于勞動產出彈性系數。根據現有研究可知,OLS回歸與FE 方法計算TFP會產生聯立性偏誤和樣本選擇性偏誤這兩種重要問題,因此會導致勞動產出彈性系數被高估。與此同時,我們發現OP 方法計算的資本產出彈性系數和勞動產出彈性系數均顯著高于LP方法計算結果。

表10是基于兩種主要插補方法建立數據庫基礎上,進而采用四種TFP計算方法對中國工業企業的全要素生產率進行重新測度,最后得出表中的描述性統計數據,并且分別畫出了四種TFP估計方法估計結果的核密度分布函數圖,如圖2所示。從表10以及圖2可以看出,基于兩種插值方法建立的數據庫無

論是在計算TFP的資本和勞動彈性系數上,還是在計算TFP的數據分布特征上,兩種插值方法呈現出來的差異都非常小,這一方面驗證了我們數據處理過程的合理性,另一方面說明了兩種插補方法的相對有效性。值得強調的是,盡管這兩種插補方法建立的數據庫在計算TFP的效果上的差異較小(這說明這兩種方法建立的數據庫都能夠捕捉到TFP的基本分布特征信息),但是由于混合插補法的MMICE1能夠在保證計算指標有效性的同時保留更大的數據樣本,進而保留更多的關鍵數據信息。因此,本文認為相對于移動平滑法,混合插補法MMICE1在數據庫完善和關鍵指標獲取方面更為有效。同時,考慮到移動平滑法是一種最為簡單的插補方法,即使沒有過多的技術處理仍然可以取得相當完美的計算結果,因為本文認為移動平滑法是一種更加經濟有效的插補方法。

參考文獻:

[1]Brandt Loren,Biesebroeck Johannes Van, and Zhang Yifan. Creative accounting or creativedestruction? Firm-level productivity growth in China[J]. Journal of DevelopmentEconomics, 2012, 97:339~351.

[2]聶輝華,江艇,楊汝岱.中國工業企業數據庫的使用現狀和潛在問題[J].世界經濟,2012(5).

[3]張天華,張少華.中國工業企業全要素生產率的穩健估計[J].世界經濟,2016(4).

[4]陳林.中國工業企業數據庫的使用問題再探[J].經濟評論,2018(6).

[5]陳林.中國工業統計的理論體系和制度變遷:兼議中國工業企業數據的部分系統性誤差[J].經濟科學,2019(4).

[6]李蘇蘇,葉祥松,張少華.中國制造業企業全要素生產率測度研究[J].學術研究,2020(3).

[7]李蘇蘇,張少華,周鵬.中國企業出口生產率優勢的識別與分解研究[J].數量經濟技術經濟研究,2020(2).

[8]王萬珺,劉小玄.為什么僵尸企業能夠長期生存[J].中國工業經濟,2018(10).

[9]蘇錦紅,蘭宜生,夏怡然.異質性企業全要素生產率與要素配置效率——基于1999~2007年中國制造業企業微觀數據的實證分析[J].世界經濟研究,2015(11).

[10]余淼杰,金洋,張睿.工業企業產能利用率衡量與生產率估算[J].經濟研究,2018(5).

Research on the use of China industrial enterprise database (1999~2013):

Comparative analysis of missing value processing methods

ZHANG Shao-hua,LI Su-su

(Guangzhou University,Guangzhou,Guangdong 510006,China;Guangdong University of Finance and Economics,Guangzhou,Guangdong 510320,China)

Abstract:

China industrial enterprise database has become the preferred database to study China's micro enterprise activities. However, the lack of key indicators in the database seriously affects the update and use of the database. On the basis of referring to the main literature processing methods, this paper uses five interpolation methods to improve the database, including single imputation, MICE1、MICE2、MMICE1和MMICE2, so as to extend the Chinese industrial enterprise database to 2013, and evaluate the relative effectiveness of various interpolation methods by calculating the total enterprise productivity. The results show that: In the five interpolation methods, the single imputation method and MMICE1 are the two most effective interpolation methods, which can not only achieve the consistency of database features before and after interpolation, but also achieve the consistency of data structure features of total factor productivity. It is worth emphasizing that in terms of improving the database and calculating the total factor productivity, the former is a relatively economic method because of its simple process, while the latter is a relatively effective method because it can retain more sample information The research value of this paper is to provide basic research work for the use of Chinese industrial enterprise database.

Key words:

chinese industrial enterprise database;single imputation;multivariate imputation by chained equations;mixed interpolation method;total factor productivity

責任編輯:吳錦丹

收稿日期:2021-03-05

基金項目:國家社會科學基金重大攻關項目“全面建成小康社會背景下新型城鄉關系研究”(17ZDA067);國家自然科學基金常規面上項目“中國的“中部迷失”問題:典型事實、形成機理及宏觀后果”(批準號:71673253)、“中國企業和城市規模分布異化的政策根源、形成機制與效率評估”(批準號:72073038),以及廣州市宣傳文化人才培養專項經費資助的成果之一。

作者簡介:張少華(1975—),男,山西陽城人,廣州大學經濟與統計學院教授、博導,中山大學博士,浙江大學博士后,研究方向為資源錯配與全要素生產率研究;李蘇蘇(1984—)(通訊作者),女,湖南婁底人,廣東財經大學講師,博士,研究方向為生產率測度與分解研究。

主站蜘蛛池模板: 91黄色在线观看| 亚洲男人的天堂久久香蕉| 亚洲精品欧美重口| 婷婷色丁香综合激情| 国模极品一区二区三区| 日韩欧美中文| 青青极品在线| 亚洲精品麻豆| 免费三A级毛片视频| 久久人妻xunleige无码| 国产又色又爽又黄| 国产视频一区二区在线观看| 91国内在线观看| av一区二区三区高清久久| 99在线视频免费观看| 亚洲综合激情另类专区| 久久久久久国产精品mv| 久久公开视频| 中文成人在线| 国产一区二区丝袜高跟鞋| 欧美一区二区自偷自拍视频| 乱色熟女综合一区二区| 中文成人在线视频| 国内精自线i品一区202| 亚洲最猛黑人xxxx黑人猛交| 国产精品亚洲一区二区三区z| 亚洲午夜福利在线| 精品国产成人国产在线| 国产高潮视频在线观看| 午夜精品区| 国产成人精彩在线视频50| 伊人色综合久久天天| 亚洲欧洲日产国产无码AV| 人人91人人澡人人妻人人爽| 欧美三級片黃色三級片黃色1| 欧美成人免费| 2019年国产精品自拍不卡| 黄网站欧美内射| 亚洲美女一区二区三区| 亚洲中文精品人人永久免费| 亚洲青涩在线| 国产青青操| 91最新精品视频发布页| 欧美黄网在线| 秘书高跟黑色丝袜国产91在线| 99精品视频播放| 无码一区二区波多野结衣播放搜索| 色欲色欲久久综合网| 久久久久88色偷偷| 国产精品亚洲综合久久小说| 一本无码在线观看| 中美日韩在线网免费毛片视频| 国产成人精品日本亚洲| 国内丰满少妇猛烈精品播 | 国产成人狂喷潮在线观看2345 | 亚洲综合片| 国产毛片基地| 婷婷午夜影院| a亚洲天堂| 永久免费av网站可以直接看的| 波多野结衣无码视频在线观看| 亚洲综合专区| 成人免费午夜视频| 在线a视频免费观看| 国产精品夜夜嗨视频免费视频| 992tv国产人成在线观看| 日韩美毛片| 日韩欧美中文字幕在线精品| 国产精品一老牛影视频| 久久天天躁狠狠躁夜夜2020一| 制服丝袜在线视频香蕉| 久久网欧美| 国产成人精品男人的天堂下载| 欧美自慰一级看片免费| 国内精品手机在线观看视频| 欧美精品不卡| 国产精品爽爽va在线无码观看 | 亚洲一区二区三区中文字幕5566| 国产成人91精品免费网址在线| 亚洲欧洲美色一区二区三区| 国内精品伊人久久久久7777人| 久久国产精品夜色|