劉 怡, 徐平峰
(長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長春 130012)
財(cái)政是實(shí)行宏觀經(jīng)濟(jì)調(diào)控的重要杠桿,探究地方財(cái)政收入發(fā)展變化情況,對政府而言,能夠幫助其進(jìn)行合理的財(cái)政收支計(jì)劃安排和統(tǒng)籌相應(yīng)的預(yù)算,更好地服務(wù)經(jīng)濟(jì)發(fā)展;對社會而言,能夠促進(jìn)社會公平、穩(wěn)定社會經(jīng)濟(jì),并提高人民生活幸福程度。因此,對財(cái)政收入的研究具有十分重要的意義。
一些學(xué)者使用回歸方法對財(cái)政收入的影響因素進(jìn)行研究,李波等[1]針對我國財(cái)政收入可能存在的影響因素,基于LS多元線性回歸模型預(yù)測中國財(cái)政收入未來增長趨勢。楊涵等[2]通過多元線性回歸方法分析了河北省財(cái)政收入影響因素。江星等[3]通過計(jì)量經(jīng)濟(jì)學(xué)相關(guān)知識,就安徽省財(cái)政收入及其相關(guān)經(jīng)濟(jì)數(shù)據(jù)使用Eviews軟件建立多元回歸模型進(jìn)行計(jì)量經(jīng)濟(jì)學(xué)分析,并提出相關(guān)建議。更多的學(xué)者使用機(jī)器學(xué)習(xí)的方法建立模型,進(jìn)而對影響因素進(jìn)行探究。倪杰[4]首先利用統(tǒng)計(jì)學(xué)中的變量篩選方法與機(jī)器學(xué)習(xí)中的變量篩選方法分別對初步選擇的21個自變量進(jìn)行篩選,然后利用自適應(yīng)Lasso-半?yún)?shù)模型進(jìn)行后續(xù)的預(yù)測。劉倩[5]為實(shí)現(xiàn)江浙滬財(cái)政收入的預(yù)測,用神經(jīng)網(wǎng)絡(luò)模型來擬合財(cái)政收入與影響因子之間復(fù)雜的非線性關(guān)系,建立LASSO-RBF、嶺回歸-RBF、彈性網(wǎng)-RBF三個組合預(yù)測模型,為江浙滬未來的經(jīng)濟(jì)發(fā)展提供了重要啟示。連強(qiáng)[6]建立了兼具灰色GM(1,1)模型和多元線性回歸模型優(yōu)點(diǎn)的河南省財(cái)政收入多因素灰色模型,模型預(yù)測結(jié)果顯示,河南省未來幾年財(cái)政收入將持續(xù)大幅增加。盧榮偉等[7]利用Adaptive-Lasso變量選擇方法識別影響財(cái)政收入的關(guān)鍵因素,在此基礎(chǔ)上,建立改進(jìn)的灰色神經(jīng)網(wǎng)絡(luò)預(yù)測模型,對南寧市財(cái)政收入值進(jìn)行預(yù)測。
為預(yù)測河南省財(cái)政收入變化趨勢,選取1998-2020年間的數(shù)據(jù),根據(jù)相關(guān)資料,選取15個影響財(cái)政收入(Y)的主要因素:X1為就業(yè)人員數(shù);X2為城鎮(zhèn)非私營單位就業(yè)人員年平均工資;X3為社會消費(fèi)品零售總額;X4為城鎮(zhèn)居民人均可支配收入;X5為城鎮(zhèn)居民人均消費(fèi)性支出;X6為年末總?cè)丝?X7為全社會固定資產(chǎn)投資增速;X8為地區(qū)生產(chǎn)總值;X9為第一產(chǎn)業(yè)增加值,第一產(chǎn)業(yè)是我國的基礎(chǔ)產(chǎn)業(yè);X10為第二產(chǎn)業(yè)增加值,第二產(chǎn)業(yè)是指工業(yè)和建筑業(yè);X11為第三產(chǎn)業(yè)增加值,第三產(chǎn)業(yè)是指流通和服務(wù)行業(yè);X12為稅收收入;X13為進(jìn)出口總額;X14為居民消費(fèi)水平總指數(shù);X15為居民消費(fèi)水平。
相關(guān)數(shù)據(jù)來源于河南省統(tǒng)計(jì)年鑒[8]。
首先對河南省地方財(cái)政收入及影響因素的原始數(shù)據(jù)進(jìn)行描述性分析,給出了變量數(shù)據(jù)的最小值、最大值、25%臨界值、中位數(shù)、75%臨界值和均值6個主要統(tǒng)計(jì)量結(jié)果,見表1。

表1 描述性統(tǒng)計(jì)分析結(jié)果
由描述性統(tǒng)計(jì)分析結(jié)果可以看出,從1998-2020年,河南省財(cái)政收入翻了20多倍,從1998年河南發(fā)生特大洪水,經(jīng)濟(jì)遭受重創(chuàng),到2021年河南在全國率先開展大規(guī)模高標(biāo)準(zhǔn)農(nóng)田建設(shè),黨的十八大以來,河南瞄準(zhǔn)高質(zhì)量發(fā)展主攻方向,三大產(chǎn)業(yè)協(xié)同向中高端邁進(jìn),推進(jìn)河南產(chǎn)業(yè)體系加速形成,再到最后的財(cái)政收入飛速上升,這中間既離不開國家層面的有效引導(dǎo)和支持,也離不開地方政府的統(tǒng)籌規(guī)劃。除此之外,在眾多影響因素中,城鎮(zhèn)非私營單位就業(yè)人員年平均工資(X2),社會消費(fèi)品零售總額(X3),地區(qū)生產(chǎn)總值(X8),第二產(chǎn)業(yè)增加值(X10),第三產(chǎn)業(yè)增加值(X11),稅收收入(X12),進(jìn)出口總額(X13),居民消費(fèi)水平(X15)也均翻了10倍以上,財(cái)政收入激增的背后是人民生活水平的提高,地方產(chǎn)業(yè)水平的提升,以及消費(fèi)投資的不斷增長,各個環(huán)節(jié)之間相輔相成,共同促進(jìn)了河南省朝著更富、更強(qiáng)、更美的方向邁進(jìn)。
通過定性分析對影響河南省地方財(cái)政收入的因素進(jìn)行了初步探討,但仍然需要對數(shù)據(jù)進(jìn)行定量的相關(guān)分析,主要利用簡單的相關(guān)系數(shù)作初步分析,繪制相互兩個變量之間的熱力圖,如圖1所示。

圖1 兩個變量之間的熱力圖
由圖1結(jié)果可以得出,全社會固定資產(chǎn)投資增速(X7)與財(cái)政收入以及其余變量之間的相關(guān)系數(shù)均在[-0.4,0]之間,任意兩個變量間的相關(guān)性也很小,且變量之間是負(fù)相關(guān)關(guān)系。居民消費(fèi)水平總指數(shù)(X14)與財(cái)政收入以及其余變量之間的相關(guān)系數(shù)也均在[-0.4,0]之間,任意兩個變量間的相關(guān)性很小,同樣,變量之間是負(fù)相關(guān)關(guān)系。這說明二者變量與河南省地方財(cái)政收入之間的關(guān)系不夠強(qiáng),而其余因素變量的相關(guān)系數(shù)較高,與河南省地方財(cái)政收入都表現(xiàn)出高度的相關(guān)關(guān)系。
在最開始進(jìn)行變量選擇時,往往選擇盡可能多的變量,以使得模型預(yù)測更加準(zhǔn)確,預(yù)測結(jié)果更具有可靠性與準(zhǔn)確性。但若變量選擇得過多或者不合理,也會增加預(yù)測成本,而變量之間也可能存在多重共線性,導(dǎo)致預(yù)測結(jié)果不盡如人意,所以,變量的選取至關(guān)重要,需要采用適合的方法進(jìn)行變量的篩選。
作為經(jīng)典的統(tǒng)計(jì)方法之一,多元線性回歸是將兩個或兩個以上變量的集合聯(lián)系起來的最常用的統(tǒng)計(jì)技術(shù)。引入多元線性回歸模型探究因變量(Y)和各個自變量之間的關(guān)系,由于選取的15個自變量之間一定存在著高度的多重共線性問題,若直接進(jìn)行擬合,則無法選出相關(guān)性較強(qiáng)的變量,模型方程也會因?yàn)榇嬖诟叨鹊亩嘀毓簿€性而存在問題,因此選用逐步回歸的方法先進(jìn)行變量選擇,再使用最小二乘估計(jì)來求得回歸系數(shù),得出預(yù)測模型。逐步回歸選取的變量結(jié)果及對應(yīng)的回歸系數(shù)和檢驗(yàn)P值見表2。

表2 逐步回歸變量選擇結(jié)果
由表2可以看出,逐步回歸選擇出來的變量是:城鎮(zhèn)居民人均可支配收入(X4)、第二產(chǎn)業(yè)增加值(X10)、第三產(chǎn)業(yè)增加值(X11)、稅收收入(X12)、進(jìn)出口總額(X13)。其中,城鎮(zhèn)居民人均可支配收入(X4)所對應(yīng)的回歸系數(shù)為-0.034 470,且檢驗(yàn)P值大于0.01,沒有通過檢驗(yàn);除此之外,其余4個變量均為正值,且P值檢驗(yàn)的結(jié)果都小于0.01,通過了顯著性檢驗(yàn)。
回歸診斷結(jié)果如圖2所示。

圖2 回歸診斷結(jié)果
圖2(a)用于驗(yàn)證因變量與自變量是否線性相關(guān),所有的點(diǎn)應(yīng)該均勻地落在[-2,2]之間,而圖中的點(diǎn)落在了[-40,40]之間,遠(yuǎn)超合理范圍,所以認(rèn)為該模型不滿足線性假設(shè)。圖2(b)用于判斷因變量是否呈正態(tài)分布,當(dāng)自變量值固定時,若因變量滿足正態(tài)假設(shè),則殘差值也應(yīng)該是一個均值為0的正態(tài)分布,正態(tài)Q-Q圖是在正態(tài)分布情況下的標(biāo)準(zhǔn)化殘差概率圖,可以看出圖上的點(diǎn)基本都落在呈45°角的直線上,滿足正態(tài)假設(shè)。圖2(c)用于驗(yàn)證同方差性,可以看出水平線周圍的點(diǎn)在前半部分更密集,在后半部分更稀疏,并沒有十分均勻地隨機(jī)分布,所以認(rèn)為該模型不滿足同方差假設(shè)。圖2(d)用于判斷是否存在離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn),通過Cook可以看出,存在Cook距離大于0.3的點(diǎn),即有強(qiáng)影響點(diǎn)。
綜上所述,在建立多元線性回歸模型中,篩選出來的變量X4不通過顯著性檢驗(yàn),整個模型不通過線性檢驗(yàn)和同方差檢驗(yàn),并且存在強(qiáng)影響點(diǎn),所以認(rèn)為該模型的建立不合理,接下來將使用其他方法來建立新的模型。
嶺回歸分析法是通過犧牲估計(jì)的無偏性來換取估計(jì)方差的大幅減小,以修正最小二乘法在多重共線情況下的估計(jì)效果[9]。嶺回歸與多元線性回歸的最大不同是,多元線性回歸對變量使用最小二乘估計(jì)的方法求得回歸系數(shù),而嶺回歸是在最小二乘估計(jì)的基礎(chǔ)上加了一個L2懲罰項(xiàng),其中包括一個嶺回歸參數(shù)k。
建立嶺回歸模型的關(guān)鍵點(diǎn)在于確定好嶺回歸參數(shù),這個嶺回歸參數(shù)稱為最佳嶺回歸參數(shù),它是通過嶺跡圖來判斷的。首先,對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后畫出嶺跡圖,根據(jù)跡圖確定最佳嶺回歸參數(shù)k,結(jié)果如圖3所示。

圖3 嶺跡圖
圖3中橫軸表示嶺參數(shù)k,縱軸表示嶺回歸系數(shù),取不同的k值,對應(yīng)不同的嶺回歸系數(shù),一般k的取值范圍是0到1,當(dāng)k取0時,對應(yīng)的嶺回歸系數(shù)就是普通線性回歸中通過最小二乘估計(jì)得到的回歸系數(shù),隨著k的增大,模型對共線性處理的效果越來越好,但是擬合精度會有所下降,因此必須找好平衡點(diǎn),確定出最佳嶺回歸參數(shù)。
綜上所述,根據(jù)最佳嶺回歸參數(shù)的選取原則,即在嶺軌跡變化趨于穩(wěn)定時選取其最小值,最終決定選擇最佳嶺回歸參數(shù)的取值為0.1。
通過R軟件得出在最佳嶺回歸參數(shù)確定下的模型方程的各自變量對應(yīng)的嶺回歸系數(shù),見表3。

表3 嶺回歸變量的回歸系數(shù)
由于將數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,所以模型中不含截距項(xiàng)。
得到模型方程后,將數(shù)據(jù)代入得到每一年份河南省財(cái)政收入的估計(jì)值,然后與真實(shí)值作對比,得到的真實(shí)值與擬合值如圖4所示。

圖4 真實(shí)值與擬合值(嶺回歸)
通過圖4可以發(fā)現(xiàn),估計(jì)值與真實(shí)值之間的擬合效果還是不錯的,這表明通過嶺回歸建立的模型方程可以用于實(shí)際預(yù)測,當(dāng)給出新一年自變量的取值后,可以拿來預(yù)測該年份對應(yīng)的河南省財(cái)政收入的值。
Lasso是一種常用的同時估計(jì)和變量選擇的技術(shù),相對于嶺回歸方法的優(yōu)點(diǎn)在于可以做變量選擇,Adaptive-Lasso方法是在進(jìn)行運(yùn)算的過程中將不同的懲罰給予不同的變量,變量不重要,懲罰就大;變量越重要,懲罰越小[10]。因此可以很容易地選擇重要的變量,而不重要的變量就會被剔除,從而達(dá)到變量選擇的目的,而同時也能對變量進(jìn)行參數(shù)估計(jì),這就在根本上改進(jìn)了Lasso方法,Adaptive-Lasso 方法在彌補(bǔ)其不足的基礎(chǔ)上具有更廣泛的應(yīng)用前景[11]。
通過R軟件調(diào)用Lasso包,得到的選擇變量結(jié)果及系數(shù)見表4。

表4 自適應(yīng)Lasso的變量選擇結(jié)果
由表4可以發(fā)現(xiàn),某些自變量的系數(shù)被壓縮成0,可以將這些被壓縮成0的系數(shù)所對應(yīng)的自變量從模型中剔除出去,將剩余的變量納入到模型中。地區(qū)生產(chǎn)總值與第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)齊頭并進(jìn),共同決定和衡量河南省地區(qū)的財(cái)政收入水平。
灰色預(yù)測檢驗(yàn)一般有殘差檢驗(yàn)、關(guān)聯(lián)度檢驗(yàn)和后驗(yàn)差檢驗(yàn)。這里采用后驗(yàn)差檢驗(yàn),根據(jù)后驗(yàn)差檢驗(yàn)判別標(biāo)準(zhǔn)表檢驗(yàn)各變量預(yù)測好壞。當(dāng)計(jì)算結(jié)果C<0.35時,表示模型精度好;當(dāng)0.35
由表5結(jié)果發(fā)現(xiàn),通過自適應(yīng)Lasso選取的4個變量中,針對X8(地區(qū)生產(chǎn)總值),X9(第一產(chǎn)業(yè)增加值),X11(第三產(chǎn)業(yè)增加值)計(jì)算出的C值均小于0.35,所以對預(yù)測模型的精度是好的,只有變量X10(第二產(chǎn)業(yè)增加值)計(jì)算出的C值是0.469,大于0.35,但是依舊小于0.50,可以判斷是合格的。
綜上所述,通過灰色模型檢驗(yàn)判斷,可以將通過自適應(yīng)Lasso篩選出來的變量全部放到模型中。
通過自適應(yīng)Lasso模型得出每一年的河南省財(cái)政收入分析的估計(jì)值,同樣將其與真實(shí)值作對比,得到擬合結(jié)果如圖5所示。

圖5 真實(shí)值與擬合值(自適應(yīng)Lasso)
從圖5可以看出,通過神經(jīng)預(yù)測模型得到各期的估計(jì)值與真實(shí)值之間很接近,兩條直線幾乎重疊,表明擬合效果較好。
單從兩條曲線的擬合度來看,自適應(yīng)Lasso擬合的結(jié)果會比嶺回歸擬合的結(jié)果更好,但為了進(jìn)一步說明,文中通過RMSE準(zhǔn)則來判斷,即計(jì)算兩個模型的均方根誤差,結(jié)果見表6。

表6 模型比較
通過計(jì)算結(jié)果發(fā)現(xiàn),使用自適應(yīng)Lasso進(jìn)行變量選取來建立模型,得到模型結(jié)果的均方根誤差要小得多。
綜上所述,在針對河南省財(cái)政收入的分析所建立的模型中,最終選擇了后者。