999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

回歸模型中啞變量的相對重要性指數

2018-01-08 08:47:57李海超王開軍陳黎飛
計算機應用 2017年11期
關鍵詞:重要性影響模型

李海超,王開軍,胡 淼,陳黎飛

(1.福建師范大學 數學與信息學院, 福州 350007; 2.福建省網絡安全與密碼技術重點實驗室(福建師范大學), 福州 350007)

回歸模型中啞變量的相對重要性指數

李海超1,2*,王開軍1,2,胡 淼1,2,陳黎飛1,2

(1.福建師范大學 數學與信息學院, 福州 350007; 2.福建省網絡安全與密碼技術重點實驗室(福建師范大學), 福州 350007)

為在回歸模型中描述定性屬性,通常需要引入啞變量。對含啞變量的回歸方程,提出描述不同啞變量在回歸方程中不同重要程度的方法。該方法分解出含啞變量的回歸方程中啞變量部分和非啞變量部分的回歸平方和,計算這兩部分在該回歸方程中所起作用的占比,將該占比設計為各啞變量在回歸方程中的相對重要程度指數。在近10萬筆的Lending Club和Prosper網絡借貸數據集上,所進行的挖掘借款用途對借款成功率、信用等級對借款利率的影響程度的實驗結果表明,與傳統回歸方程僅提供啞變量前的系數卻不能展現其重要程度相比,所提方法展現出不同啞變量的不同重要程度,為定量分析回歸方程中定性自變量對因變量的影響程度提供了重要的手段。

定性屬性;回歸方程;啞變量;指數

0 引言

對于回歸分析模型,在許多場合下,因變量除了受到那些定量自變量的影響外,也會受到定性變量的影響。例如,對于一些如性別、種族、婚姻狀況等這些無法定量度量或者無法直接觀測的一類自變量,稱為定性變量,也稱為啞變量。引入啞變量會使得線性回歸模型變得更復雜,但能對問題的描述簡單明了,一個方程能達到多個方程的作用,而且更接近現實,使得模型更完美[1-2]。一般情況下,在啞變量的設置中,肯定類型通常取值為1,否定類型則取值為0;類似的,若是這種定性變量含有多種變量取值時,可以引入多個啞變量來處理。涉及線性回歸模型的一種典型任務就是分析自變量對因變量的影響程度,這通常是通過分析自變量前的系數來解釋影響程度。對于含有啞變量的回歸模型,分析不同啞變量的重要程度也是一類重要的任務。現有的相關文獻主要都是直接通過模型的回歸系數(即,啞變量前的回歸參數)來比較各啞變量在回歸方程中的重要性程度,其中:吳小英等[3]直接用啞變量前回歸系數分析了借款用途對借款成功率的影響; Leistritz[4]在回歸分析中使用啞變量,研究分析了啞變量的系數對各因子影響;Hardy[5]對啞變量系數的解釋是給定相同x值的多個類別之間的y的差異;Grotenhuis等[6]研究認為所有啞變量前估計參數是與原始參考類別的偏差,進而用系數直接來分析各案例;Usman等[7]構建啞變量模型,直接用系數得出job_logistics和discipline_ECE這兩項因素對畢業生的薪酬影響最小;Gürtler等[8]通過引入虛擬變量回歸系數研究結果表明,交易復雜性、評級和再保險周期是巨災債券保護(Catastrophe Bonds, CAT)的重要驅動因素;文獻[9-12]都僅僅圍繞啞變量前的系數來對各啞變量的重要性進行探究分析,得出的結論不是很明確;楊希等[13]在多元回歸分析中引入啞變量,用回歸系數僅僅發現各啞變量是否具有顯著性,且僅得出正負影響;徐衛華等[14]引入控制變量和啞變量,構建產業結構優化升級的3個動態面板模型,直接利用回歸系數分析其是否有顯著性影響,而不能得出具體的結論。因此,當啞變量較多、回歸方程較復雜時,這種用人眼觀察的系數對比法則很難實施,啞變量回歸系數的解釋及其意義往往不正確或不能得出準確結論[15]。為了用客觀方法代替這種人眼觀察對比法,本文提出一種判定不同啞變量的相對重要性指數方法,用來衡量各啞變量對因變量的影響程度。

1 啞變量相對重要程度指數法

在回歸分析當中,常見的有解釋變量(因變量)和被解釋變量(自變量),而被解釋變量的影響因素包含定量變量的因素外,還可以包含定性變量的因素。為了將定性變量引入回歸模型,在模型中引入一種特殊的變量,即“啞變量”。使用啞變量可以使得我們在模型中引入定性回歸元,使得模型更精確[16]。

1.1 含啞變量的回歸模型的建立

當在研究一個因變量與多個自變量之間的相關關系時,影響因變量的因素有很多,包括定量自變量,也包括定性自變量; 而這種定性自變量通常可以引入啞變量來處理,常取0、1等,這些編碼值并不代表著具體數量的大小,它們沒有數量大小關系,僅僅是用來表示啞變量中各個不同的分類類別。假設一個影響因素的定性自變量有k個分類類別(k個水平),為避免出現共線性,則通常需定義k-1個啞變量來表示這些分類類別[17]。設影響因變量Y的定量自變量為X,啞變量為D;D有k個分類類別,這里Xi=(X1i,X2i,…,Xmi)T、Dji=(D1i,D2i,…,D(k-1)i)T(其中i=1,2,…,n,j=1,2,…,k-1,Dj為第j個啞變量)和Yi分別是第i個觀測值對應的定量自變量、啞變量和因變量,通常可以將含有啞變量的回歸模型寫成:

Yi=α0+α1X1i+…+αmXmi+β1D1i+…+βk-1D(k-1)i+

γ1D1iX1i+…+γk-1D(k-1)iXmi+εi

(1)

式中:k代表啞變量中有k個分類類別;α1,α2,…,αm為m個定量自變量的回歸系數;α0,β1,…,βk-1為各啞變量的回歸系數;γ1,γ2,…,γk-1為啞變量與各定量變量之間的交互影響回歸系數,分別反映了各啞變量對因變量Y的平均影響程度,根據這些系數的t值檢驗來判斷啞變量是否對因變量Y存在顯著性影響;εi代表隨機誤差,通常假設εi是服從均值為0、方差為δ2的高斯分布,即εi~N(0,δ2),由此可以利用觀測值來進行參數的估計。

1.2 啞變量的相對重要性指數設計

對含啞變量部分的回歸平方和SSRDj(其中j=1,2,…,k-1,Dj為第j個啞變量),求解出它占總平方和SSTDj的比例,于是啞變量重要性指數設計如下:

(2)

2 實證分析

實驗數據是美國網貸平臺Lending Club在2012年里49 737筆有效借貸數據,每筆借貸樣本屬性主要包括借款金額、借款用途、借標人數、利息率、年利率、借款時長、資助金額(成功募集)、信用評級、FICO(Finance Controlling)評分、總信用額度、房屋所有權、月收入、債務對收入比率、循環信貸余額、循環信貸利用率、教育程度、地址、工作年限等信息。直觀上看,借款用途說明了借款人借款的目的,其必定是作為投資人重要的考量標準,所以借款用途對借款成功率必有一定的影響。為了探究借款用途對借款成功率的重要性影響程度,本文引入7個啞變量0~6。本文將以Lending Club平臺數據為基礎,通過其近年來的數據分析研究借款用途對借款成功率的影響。

在進行回歸分析前,一些屬性如借款金額、資助金額、月收入等與利息率或債務收入比率之間具有不同的量綱和量綱單位,為了消除不同量綱對實驗結果的影響,把每個變量的數據標準化為均值為0、標準差為1的數據,使得這些屬性變量值的數量級相同,且無量綱,這樣獲得的標準化的回歸系數可以解決數據中各變量之間的可比性。另外,信用評級A、B、C設為高信譽,賦值為1;信用評級D、E、F為低信譽,賦值為0。房屋所有權情況,租房賦值為0,抵押賦值為1,已有賦值為2;FICO評分區間取其平均數,如FICO值為“679~713”,則取平均值696;借款用途共分為7種,先用0~6這7個數值代表各借款用途。

對上述Lending Club實驗數據,由于原始數據不免存在或多或少的多重共線性,故先對原始數據通過Lasso回歸[18]、MallowsCp統計量方法[19],能夠把無關的自變量進行剔除。最后,選取借款用途、資金需求、資助金額、借標人數等變量。利用上述變量,構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。其中選用資金需求、資助金額、借標人數等屬性作為模型中的X,啞變量借款用途用Di表示(i取值:0為其他債務,1為債務鞏固,2為汽車債務,3為信用卡,4為小額商業,5為家庭改善,6為大宗購買),以借款成功率為因變量Y。其中,其他債務作為基礎啞變量,其他借款用途則作為對比類型。然后,利用上述各變量構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。通過t值顯著性檢驗,剔除顯著性不強的部分,可以得到債務鞏固、汽車債務、信用卡債務、小額商業、家庭改善、大宗購買、其他債務等7種借款用途的最終的含啞變量的回歸方程,如下所示。

基礎類型:

E(Yi|Xi,D0=0)=0.429 6-0.523 3x1+0.603 6x2+

0.099 6x3

債務鞏固:

E(Yi|Xi,D1=1)=0.429 6-0.523 3x1+0.603 6x2+

0.099 6x3+0.065 4D1

汽車債務:

E(Yi|Xi,D2=1)=0.429 6-(0.523 3-0.404 4D2)x1+

(0.603 6+0.322 4D2)x2+0.099 6x3+0.058 7D2

信用卡:

E(Yi|Xi,D3=1)=0.429 6-0.523 3x1+0.603 6x2+

0.099 6x3+0.088 1D3

小額商業:

E(Yi|Xi,D4=1)=0.429 6-0.523 3x1+(0.603 6-

0.168 9D4)x2+0.099 6x3+0.096 4D4

家庭改善:

E(Yi|Xi,D5=1)=0.429 6-0.523 3x1+0.603 6x2+

0.099 6x3+0.049 9D5

大宗購買:

E(Yi|Xi,D6=1)=0.429 6-(0.523 3-0.654 6D6)x1+

(0.603 6+0.490 6D6)x2+0.099 6x3+0.122 9D6

表1 各借款用途回歸參數與相對重要程度指數分析比較Tab. 1 Comparison and analysis of regression parameters and relative importance indices of each loan purpose

針對Prosper平臺2005年11月— 2012年2月的 49 992筆有效借貸數據(Loans數據)進行研究分析,每筆借貸樣本的屬性主要包括借款利率、貸款利率、從起始日算起的月數、借款金額、債務與收入比率、借款月數、信用等級、貸款狀態等。直觀上看,信用等級是Prosper平臺是對不同信用級別的借款人設置借款利率的參考標準,所以信用等級對借款利率有一定的影響。本文將以此平臺數據為基礎,通過其近年來的數據分析研究借款人的信用等級對其借款利率的影響。因此,本文選取因變量借款利率(Borrower Rate)Y;自變量屬性借款金額(Amount Borrowed)X1、債務與收入比率(Debt ToIncome Ratio)X2、借款月數(Term)X3作為定量變量。首先為了解決量綱問題,把數據標準化、歸一化。自變量屬性W(信用等級(CreditGrade)),為定性變量,設置成啞變量Di(i取值為:0表示未評級NC;1表示信用為HR等級,風險極高;2表示信用為E等級;3表示信用為D等級;4表示信用為C等級;5表示信用為B等級;6表示信用為A等級;7表示信用為最高AA等級),這樣的分類有助于迅速分析出各啞變量對借款人的借款利率的不同影響程度。其中,未評級NC作為基礎啞變量,其他信用等級作為對比類型。利用上述各變量構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。

于是本文通過t值顯著性檢驗,剔除顯著性不強的部分,最終得到含啞變量的回歸方程,如下所示。

基礎類型NC:

E(Yi|Xi,D0=0)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3

信用等級HR:

E(Yi|Xi,D1=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3+0.272 1D1

信用等級E:

E(Yi|Xi,D2=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3+0.269 1D2

信用等級D:

E(Yi|Xi,D3=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3+0.029 6D3

信用等級C:

E(Yi|Xi,D4=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3-0.213 0D4

信用等級B:

E(Yi|Xi,D5=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3-0.376 7D5

信用等級A:

E(Yi|Xi,D6=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3-0.559 5D6

信用等級AA:

E(Yi|Xi,D7=1)=0.845 9+0.079 0x1+0.006 8x2+

0.171 4x3-0.672 7D7

表2 各信用等級回歸參數與相對重要程度指數分析比較Tab. 2 Comparison and analysis of regression parameters and relative importance indices of each credit grade

3 結語

含啞變量的回歸模型作為一種特殊的回歸分析模型,而傳統的判定各啞變量對因變量Y影響的重要性程度方法是直接通過啞變量的回歸參數,當部分啞變量的回歸系數差別較小,或者回歸系數的值較小時,這種用人眼觀察的系數對比法則不易得出明確的結論,甚至有時候使用回歸得到的系數不能直接作為重要性程度的標準。為了用客觀方法代替這種人眼觀察對比法,本文提出新的不同啞變量在回歸方程中的相對重要性指數的方法,將用它來度量各啞變量對回歸方程的重要性影響程度,得到了比較好的效果。與傳統回歸方程僅提供啞變量前的系數卻未展現其重要程度相比,本方法展現了不同啞變量的不同重要性,為定量分析回歸方程中定性自變量對因變量的影響程度提供了可靠的工具。

References)

[1] 張曉峒.計量經濟分析[M].北京: 經濟科學出版社,2000:242-271.(ZHANG X T. Econometric Analysis[M]. Beijing: Economic Science Press, 2000:242-271.)

[2] 章曉英.虛擬變量在線性回歸模型中的應用[J].重慶工業管理學院學報,1998(2):84-88.(ZHANG X Y. Application of dummy variable in linear regression model[J]. Journal of Chongqing Institute of Technology Management, 1998(2):84-88.)

[3] 吳小英,鞠穎. 基于最小二乘法的網絡借貸模型[J].廈門大學學報(自然科學版),2012,51(6):980-984.(WU X Y, JU Y. Network borrowing model based on least squares method[J]. Journal of Xiamen University (Natural Science), 2012,51(6):980-984.)

[4] LEISTRITZ F L. Use of dummy variables in regression analysis[J]. Agricultural Economic Miscellaneous Report Technical, Agricultural Experiment Station, North Dakota State University, 1973, 4(43):434-442.

[5] HARDY M A. Regression with Dummy Variables[M]. Thousand Oaks, CA: SAGE Publications, 1993: 96.

[6] GROTENHUIS M T, THIJS P. Dummy variables and their interactions in regression analysis: examples from research on body mass index[EB/OL].[2016- 11- 20]. http://www.ru.nl/publish/pages/780171/table1-4.pdf.

[7] USMAN A U, ABDULKADIR H S, TUKUR K. Application of dummy variables in multiple regression analysis[J].Recent Scientific Research, 2015,7(11): 7440-7442.

[8] GüRTLER M, HIBBELN M, WINKELVOS C. The impact of the financial crisis and natural catastrophes on CAT bonds[J]. Journal of Risk and Insurance, 2016, 83(3): 579-612.

[9] SKRIVANEK S. The use of dummy variables in regression analysis[EB/OL].[2016- 11- 20]. https://www.moresteam.com/WhitePapers/download/dummy-variables.pdf.

[10] SUITS D B. Use of dummy variables in regression equations[J]. Journal of the American Statistical Association, 1957, 52(280): 548-551.

[11] HELLMANN T F, SCHURE P, VO D. Angels and venture capitalists: substitutes or complements?[J]. Social Science Electronic Publishing, 2015,11(7): 1301-1307.

[12] SEARLE S R, UDELL J R. The use of regression on dummy variables in management research[J]. Management Science, 1970, 16(6): 397-409.

[13] 楊希, 王蘇生. 政府背景風險投資對創業企業經營績效的影響[J]. 大連海事大學學報(社會科學版), 2016, 15(5):52-58.(YANG X, WANG S S. Influence of government background venture capital on the performance of startup enterprises[J]. Journal of Dalian Maritime University (Social Science Edition), 2016, 15(5):52-58.)

[14] 徐衛華, 何宜慶, 鐘慧安. 金融深化、科技創新與產業結構優化升級——基于我國30個省市1997~2014年面板數據分析[J]. 金融與經濟, 2017,15(3):54-64.(XU W H, HE Y Q, ZHONG H A. Financial deepening, technological innovation and industrial structure optimization and upgrading-based on panel data analysis of 30 provinces in China from 1997 to 2014[J]. Finance ans Economy, 2017,15(3): 54-64.)

[15] POLISSAR L, DIEHR P. Regression analysis in health services research: the use of dummy variables[J]. Medical Care, 1982,20(9): 959-966.

[16] 龐浩.計量經濟學[M].北京:科學出版社,2015: 190-199.(PANG H. Econometric Analysis[M]. Beijing: Science Press, 2015: 190-199.)

[17] 高鐵梅.計量經濟分析方法與建模[M].北京:清華大學出版社,2009: 76-79.(GAO T M. Econometric Analysis Method and Modeling[M].Beijing: Tsinghua University Press, 2009: 76-79.)

[18] TIBSHIRANI R. Regression shrinkage and selection via the Lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011,73(3): 273-282.

[19] MALLOWS C L. Some comments on CP[J]. Technometrics, 2000,42(1): 87-94.

This work is partially supported by the National Natural Science Foundation of China (61672157), the Project of Network and Information Security Key Theory and Technological Innovation Team in Fujian Normal University (IRTL1207).

LIHaichao, born in 1990, M. S. candidate. His research interests include machine learning, financial data mining.

WANGKaijun, born in 1965, Ph. D., associate professor. His research interests include machine learning, intelligent learning and reasoning, data mining, pattern recognition.

HUMiao, born in 1994, M. S. candidate. His research interests include machine learning, data mining.

CHENLifei, born in 1972, Ph. D., professor. His research interests include statistical machine learning, data mining, pattern recognition.

Relativeimportanceindexofdummyvariablesinregressionmodel

LI Haichao1,2*, WANG Kaijun1,2, HU Miao1,2, CHEN Lifei1,2

(1.CollegeofMathematicsandInformatics,FujianNormalUniversity,FuzhouFujian350007,China;2.FujianProvinceNetworkSecurityandCryptographyLaboratory(FujianNormalUniversity),FuzhouFujian350007,China)

To describe the qualitative attributes in the regression model, it is usually necessary to introduce dummy variables. For the regression equation with dummy variables, a method was proposed to describe the different importance of the different dummy variables in the regression equation. The sums of square due to regression with dummy variables were descomposed, including the sum of the dummy variable part and that of non-dummy variable part, and the proportions of the two parts was calculated in the regression equation, and the proportion was taken as the index of relative importance of every dummy variable in regression equations. In sets of Lending Club and Prosper network with nearly 100 thousand lending data, the experimental results about the influence of the purpose of loan on the borrowing success rate and the influence of credit grade on the borrowing rate show that compared with the traditional regression equation which only provides a dummy variable coefficient and cannot shows its importance, the proposed method can show the importance of different dummy variables, and provide an important means to quantitatively analyze the influence degree of qualitative independent variables on the dependent variable in the regression equation.

qualitative attribute; regression equation; dummy variable; index

2017- 05- 16;

2017- 06- 05。

國家自然科學基金資助項目(61672157); 福建師范大學網絡與信息安全關鍵理論和技術創新團隊項目(IRTL1207)。

李海超(1990—),男,湖南臨武人,碩士研究生,主要研究方向:機器學習、金融數據挖掘; 王開軍(1965—),男,福建福州人,副教授,博士,主要研究方向:機器學習、智能學習與推理、數據挖掘、模式識別; 胡淼(1994—),男,安徽太和人,碩士研究生,主要研究方向:機器學習、數據挖掘; 陳黎飛(1972—),男,福建福州人,教授,博士生導師,博士,主要研究方向:統計機器學習、數據挖掘、模式識別。

1001- 9081(2017)11- 3048- 05

10.11772/j.issn.1001- 9081.2017.11.3048

(*通信作者電子郵箱wkjwang@qq.com)

TP181

A

猜你喜歡
重要性影響模型
一半模型
是什么影響了滑動摩擦力的大小
“0”的重要性
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
論七分飽之重要性
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
3D打印中的模型分割與打包
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
主站蜘蛛池模板: 欧美日本激情| 美女无遮挡被啪啪到高潮免费| 91免费观看视频| 国产69精品久久久久妇女| 91久久国产综合精品女同我| 色婷婷成人| 色综合中文| 狠狠色成人综合首页| 天天色综网| 欧美激情第一欧美在线| 色婷婷在线播放| h网址在线观看| 国产成人喷潮在线观看| 最新国产午夜精品视频成人| 色欲色欲久久综合网| 久久久精品国产SM调教网站| 2022精品国偷自产免费观看| 9啪在线视频| 精品少妇人妻无码久久| 免费无遮挡AV| 国产精品开放后亚洲| 午夜色综合| 五月婷婷精品| 99尹人香蕉国产免费天天拍| 国产小视频免费观看| 欧美97色| 日本三级黄在线观看| 2021国产精品自产拍在线| 欧美另类视频一区二区三区| 亚洲成人精品在线| 午夜视频日本| 亚洲无线国产观看| 亚洲精品无码AV电影在线播放| 欧美亚洲综合免费精品高清在线观看| 黄色三级网站免费| 日韩成人午夜| 免费看a级毛片| 园内精品自拍视频在线播放| 凹凸国产分类在线观看| 亚洲综合久久成人AV| 中文字幕第4页| 国产成人精品在线| 亚洲日韩精品综合在线一区二区| 欧美影院久久| 久久精品日日躁夜夜躁欧美| 国产视频入口| 国产欧美日韩另类精彩视频| 天天激情综合| 真实国产精品vr专区| 香蕉国产精品视频| 中文天堂在线视频| 亚洲精品片911| 国产一区二区三区在线精品专区| 亚洲精品无码专区在线观看 | 一级毛片免费高清视频| 欧美国产综合色视频| AV不卡国产在线观看| 手机精品福利在线观看| 国产高清毛片| 国产精品毛片一区视频播| 久久伊人操| 91黄视频在线观看| 91人妻在线视频| 高清免费毛片| 国产女人综合久久精品视| 伊人久久精品无码麻豆精品| 国产一区成人| 夜精品a一区二区三区| 一区二区三区毛片无码| 国产一区二区三区精品欧美日韩| 草逼视频国产| 久久一级电影| 亚洲国语自产一区第二页| 国产在线精品人成导航| 精品国产成人a在线观看| 色有码无码视频| 青青网在线国产| 欧美视频在线观看第一页| 国产精品高清国产三级囯产AV | 特黄日韩免费一区二区三区| 日韩国产一区二区三区无码| 国产精品区网红主播在线观看|