本文以波士頓房?jī)r(jià)數(shù)據(jù)集為樣本,運(yùn)用方差分析、因子分析及回歸分析展開研究。方差分析檢驗(yàn)多個(gè)因素對(duì)房?jī)r(jià)均值影響差異,需滿足正態(tài)性、方差齊性和獨(dú)立性假設(shè);因子分析基于原始變量由公共和特殊因子構(gòu)成假設(shè),提取公共因子簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu);回歸分析包括單因變量、多因變量和邏輯回歸,研究變量間定量關(guān)系。通過回歸分析,發(fā)現(xiàn)部分變量對(duì)房?jī)r(jià)有顯著影響,該結(jié)論可為政策制定提供參考;方差分析得出多個(gè)變量對(duì)房?jī)r(jià)有顯著影響;因子分析提取并旋轉(zhuǎn)因子,推測(cè)出各因子代表的潛在概念。三種方法相輔相成,共同服務(wù)于數(shù)據(jù)的分析與解讀,從而揭示房?jī)r(jià)數(shù)據(jù)背后的規(guī)律。
一、研究背景與意義
在我國經(jīng)濟(jì)持續(xù)增長的大背景下,房地產(chǎn)業(yè)迅速發(fā)展,房?jī)r(jià)問題備受矚目。其影響因素繁雜,涵蓋經(jīng)濟(jì)、社會(huì)、環(huán)境等多個(gè)維度。房?jī)r(jià)是各地區(qū)的重要經(jīng)濟(jì)指標(biāo),因此,探尋影響房?jī)r(jià)的重要因素并分析這些因素對(duì)房?jī)r(jià)的影響方式和程度具有極其重要的現(xiàn)實(shí)意義。波士頓房?jī)r(jià)數(shù)據(jù)集為深入探究房?jī)r(jià)規(guī)律提供了良好樣本。本文運(yùn)用方差分析、因子分析及回歸分析方法,對(duì)該數(shù)據(jù)集展開系統(tǒng)研究。
二、波士頓房?jī)r(jià)數(shù)據(jù)描述
(一)數(shù)據(jù)來源
本文所用《波士頓房?jī)r(jià)數(shù)據(jù)集》數(shù)據(jù)來源于:
https://gitcode.com/Resource-Bundle-Collection/bc57d/
(二)變量選取和說明
波士頓房?jī)r(jià)數(shù)據(jù)集包含506個(gè)樣本,每個(gè)樣本均包括以下屬性:CRIM(犯罪率)、ZN(住宅用地比例)、INDUS(非零售商業(yè)用地比例)、NOX(氮氧化物濃度)、RM(每棟住宅平均房間數(shù))、AGE(1940年以前建成的自住單位比例)、DIS(與波士頓五個(gè)就業(yè)中心的加權(quán)距離)、RAD(輻射性公路的接近指數(shù))、TAX(每一萬美元的全值財(cái)產(chǎn)稅率)、PTRATIO(城鎮(zhèn)師生比例)、B(黑人占比)、LSTAT(低收入人口比例)和MEDV(自有住房的中位價(jià)值)等。
三、回歸分析應(yīng)用
(一)變量的選擇和模型的構(gòu)建
為了探究多個(gè)自變量對(duì)因變量CHAS(查爾斯河變量,地區(qū)邊界是河,取值1,否則取值0)的影響,選擇一系列變量進(jìn)行回歸分析。采用二元回歸模型,公式為:
=-3.581-0.272×CRIM+0.002×ZN+0.095×INDUS+3.162×NOX+……+0.069×MEDV
P表示CHAS=1的概率,1-P表示CHAS=0的概率。通過該模型嘗試揭示各變量對(duì)變化的影響程度。
(二)模型的估計(jì)和結(jié)果解釋
1.模型的估計(jì)
使用統(tǒng)計(jì)軟件對(duì)上述模型進(jìn)行估計(jì),得到CRIM(犯罪率)、ZN(住宅用地比例)、INDUS(非零售商業(yè)用地比例)、NOX(氮氧化物濃度)、RM(每棟住宅平均房間數(shù))、AGE(1940年以前建成的自住單位比例)、DIS(與波士頓五個(gè)就業(yè)中心的加權(quán)距離)、RAD(輻射性公路的接近指數(shù))、TAX(每1萬美元的全值財(cái)產(chǎn)稅率)、PTRATIO(城鎮(zhèn)師生比例)、B(黑人占比)、LSTAT(低收入人口比例)和MEDV(自有住房的中位價(jià)值)等屬性的Logit回歸分析和線性回歸分析數(shù)據(jù)。
2.邏輯回歸結(jié)果解釋
INSUS:回歸系數(shù)為0.095,且在0.05水平上顯著,表明非零售商業(yè)用地比例的增加會(huì)對(duì)CHAS產(chǎn)生顯著的正向影響。
RAD:回歸系數(shù)為0.219,且在0.01水平上顯著,表明輻射性公路的接近指數(shù)增加會(huì)對(duì)CHAS產(chǎn)生顯著的正向影響。
MEDV:回歸系數(shù)為0.069,且在0.05水平上顯著,表明自有住房中位價(jià)值的增加會(huì)對(duì)CHAS產(chǎn)生顯著的正向影響。
TAX:回歸系數(shù)為-0.009,且在0.05水平上顯著,表明全值財(cái)產(chǎn)稅率的增加會(huì)對(duì)CHAS產(chǎn)生顯著的負(fù)向影響。
其他變量則對(duì)CHAS沒有顯著影響。
綜上分析發(fā)現(xiàn)INDUS、RAD和MEDV對(duì)CHAS有顯著的正向影響,TAX對(duì)CHAS有顯著的負(fù)向影響,而其他變量則對(duì)CHAS沒有顯著影響。若希望提升房?jī)r(jià),可以考慮在政策上促進(jìn)非零售商業(yè)發(fā)展、改善交通基礎(chǔ)設(shè)施或穩(wěn)定住房?jī)r(jià)值,同時(shí)避免過高的財(cái)產(chǎn)稅率。
3.線性回歸結(jié)果解釋
在線性回歸分析中,重點(diǎn)觀察P值,發(fā)現(xiàn)有兩項(xiàng)數(shù)據(jù)INDUS和AGE的值比較大,意味著該自變量對(duì)因變量的影響不顯著。把這兩項(xiàng)數(shù)據(jù)去掉,再進(jìn)行一次擬合,根據(jù)結(jié)果可知,擬合效果有了一定的提高。
環(huán)境因素:NOX對(duì)因變量有較大的負(fù)向影響,說明環(huán)境質(zhì)量在該模型所研究的情境中至關(guān)重要,污染程度高會(huì)顯著降低因變量水平。而RAD有正向影響,反映出交通便利性對(duì)因變量所代表的現(xiàn)象具有促進(jìn)作用,可能與經(jīng)濟(jì)交流、人員流動(dòng)便利性有關(guān)。
社會(huì)經(jīng)濟(jì)因素:TAX的負(fù)向系數(shù)表明較高的稅率不利于因變量的提升,這可能影響了經(jīng)濟(jì)活動(dòng)的積極性。PTRATIO的負(fù)向關(guān)系顯示出教育資源分配的某種影響,或許意味著當(dāng)前的師生比例狀態(tài)對(duì)整體發(fā)展有一定抑制作用。LSTAT的負(fù)向系數(shù)則暗示了收入結(jié)構(gòu)對(duì)因變量的負(fù)面效應(yīng),可能反映出經(jīng)濟(jì)活力和消費(fèi)能力等方面的不足。
地理與住房因素:DIS的負(fù)向作用突出了就業(yè)機(jī)會(huì)的地理臨近性的重要性,距離就業(yè)中心遠(yuǎn)會(huì)降低因變量表現(xiàn)。RM的正向系數(shù)體現(xiàn)了住房的規(guī)模特征對(duì)因變量的正向貢獻(xiàn),可能與居住品質(zhì)和潛在價(jià)值有關(guān)。而CHAS的較大正向系數(shù)表明河流邊界這一地理特征對(duì)因變量有顯著的提升作用,可能是由于景觀、資源等優(yōu)勢(shì)。
人口結(jié)構(gòu)因素:B有正向影響但系數(shù)較小,說明其在模型中的影響力相對(duì)較弱,但仍存在一定的正向關(guān)聯(lián)。CRIM的負(fù)向系數(shù)顯示犯罪情況對(duì)因變量不利,治安狀況是影響該地區(qū)發(fā)展的一個(gè)因素。ZN的正向系數(shù)反映出住宅用地的占比對(duì)整體有一定的促進(jìn)作用,可能與居住功能的完善和社區(qū)發(fā)展相關(guān)。
四、方差分析應(yīng)用
(一)因素假定與假設(shè)檢驗(yàn)
在對(duì)波士頓房?jī)r(jià)數(shù)據(jù)集進(jìn)行方差分析時(shí),考慮了前文提到多個(gè)因素對(duì)住房?jī)r(jià)格的潛在影響。假定這些因素可能會(huì)對(duì)住房?jī)r(jià)格產(chǎn)生影響,且不同水平的因素可能導(dǎo)致住房?jī)r(jià)格的顯著差異。
在進(jìn)行方差分析前,需要檢驗(yàn)不同組別的方差是否相等。若方差不齊,可能會(huì)影響方差分析結(jié)果的準(zhǔn)確性。通常采用Levenes檢驗(yàn)等方法來檢驗(yàn)方差齊性。
此外,還需假設(shè)每個(gè)觀測(cè)值(每個(gè)住房的價(jià)格數(shù)據(jù))之間是相互獨(dú)立的。這意味著一個(gè)住房的價(jià)格不受其他住房?jī)r(jià)格的影響。
(二)方差分析結(jié)果與解釋
通過方差分析(如表1所示),發(fā)現(xiàn)多個(gè)變量之間存在顯著差異。
由表1,可以得出以下結(jié)論:
INDUS、NOX、RM、DIS、PTRATIO、MEDV對(duì)住房?jī)r(jià)格有顯著影響。這是因?yàn)榉橇闶凵虡I(yè)用地比例的增加可能會(huì)帶來更多的商業(yè)活動(dòng),從而影響住房?jī)r(jià)格;氮氧化物濃度越高,可能代表環(huán)境質(zhì)量越差,進(jìn)而降低住房?jī)r(jià)格;每棟住宅平均房間數(shù)越多,住房可能更具價(jià)值;與就業(yè)中心距離越近,住房?jī)r(jià)格可能越高;城鎮(zhèn)師生比例可能反映教育資源情況,進(jìn)而影響住房?jī)r(jià)格;自有住房中位價(jià)值本身與住房?jī)r(jià)格有很強(qiáng)的相關(guān)性。
CRIM、ZN、AGE、RAD、TAX、B、LSTAT對(duì)住房?jī)r(jià)格沒有顯著影響。這并不意味著這些因素完全不影響住房?jī)r(jià)格,可能在當(dāng)前的數(shù)據(jù)集中,這些因素的影響不明顯或被其他顯著因素所掩蓋。
五、因子分析應(yīng)用
(一)因子的提取和旋轉(zhuǎn)
1.因子的提取
如表2中的數(shù)據(jù)顯示,樣本數(shù)據(jù)適合進(jìn)行因子分析,且變量之間存在相關(guān)性。可以進(jìn)一步分析數(shù)據(jù)間的因果關(guān)系和趨勢(shì)。
2.因子的旋轉(zhuǎn)
為使因子載荷矩陣更易于解釋,采用一種合適的旋轉(zhuǎn)方法——方差最大旋轉(zhuǎn)法,對(duì)提取的因子進(jìn)行旋轉(zhuǎn),得到表3數(shù)據(jù)。
(二)因子分析的結(jié)果解釋
首先分別觀察因子在各個(gè)變量上的載荷情況,然后對(duì)因子進(jìn)行分析,得出結(jié)論,推測(cè)因子的實(shí)際意義。
從旋轉(zhuǎn)后的因子載荷系數(shù)來看,CRIM在因子2上的載荷系數(shù)較高,為0.74。這表明因子2可能與犯罪相關(guān)因素有密切聯(lián)系。
ZN在因子1上有較高的負(fù)載荷。這意味著與ZN因子1存在較強(qiáng)的負(fù)相關(guān)關(guān)系。因子1可能代表了與城市土地利用結(jié)構(gòu)或城市功能分區(qū)相關(guān)的潛在因子,且在這個(gè)因子所代表的概念中起到反向作用。
INDUS在因子1上的載荷系數(shù)為0.687,表明INDUS與因子1有較強(qiáng)的正相關(guān)。因子1可能與區(qū)域商業(yè)發(fā)展特征或經(jīng)濟(jì)活動(dòng)類型相關(guān)。
NOX在因子1上有相對(duì)較高的載荷。這暗示因子1可能與環(huán)境污染因素相關(guān),特別是與氮氧化物這種典型的大氣污染物相關(guān)。因子1可能代表了與環(huán)境質(zhì)量,尤其是大氣環(huán)境質(zhì)量相關(guān)的潛在因子。
RM在因子3 上載荷系數(shù)為-0.871,表明RM與因子3存在較強(qiáng)的負(fù)相關(guān)。因子3可能涉及到居住環(huán)境特征相關(guān)的潛在因子,且在這個(gè)因子概念中是反向作用的。
AGE在因子1上的載荷系數(shù)為0.823,顯示AGE與因子1有較強(qiáng)的正相關(guān)。由此推測(cè)因子1可能還與區(qū)域的建筑年代和歷史風(fēng)貌相關(guān)。
DIS在因子1上載荷系數(shù)為-0.889,說明DIS與因子1存在較強(qiáng)的負(fù)相關(guān)。因子1可能與區(qū)域的經(jīng)濟(jì)地理區(qū)位或就業(yè)便利性相關(guān)。
RAD在因子2上的載荷系數(shù)為0.850,表明RAD與因子2有較強(qiáng)的正相關(guān)。因子2可能與區(qū)域的交通網(wǎng)絡(luò)特征或交通便利性相關(guān)。
TAX在因子2上有0.809的載荷系數(shù),說明TAX與因子2存在較強(qiáng)的正相關(guān)。因子2可能與區(qū)域的經(jīng)濟(jì)政策或財(cái)政環(huán)境相關(guān)。
PTRATIO在因子3上載荷系數(shù)為-0.581。這表明因子3可能還與教育相關(guān)因素有一定聯(lián)系。
B在因子2上有-0.635的載荷系數(shù),表明B與因子2存在較強(qiáng)的負(fù)相關(guān)。因子2可能與社會(huì)人口結(jié)構(gòu)相關(guān)。
LSTAT在因子3上的載荷系數(shù)為0.668,顯示LSTAT與因子3有一定的正相關(guān)。因子3可能與區(qū)域的經(jīng)濟(jì)社會(huì)結(jié)構(gòu)相關(guān)。
MEDV在因子2上有-0.265的載荷系數(shù),表明MEDV與因子2存在一定的負(fù)相關(guān)。因子2可能與區(qū)域的經(jīng)濟(jì)和財(cái)富特征相關(guān)。
綜上所述,可以大致推測(cè):因子1可能與城市土地利用和經(jīng)濟(jì)地理區(qū)位相關(guān),涉及到住宅用地比例、非零售商業(yè)用地比例、與就業(yè)中心的距離等變量;因子2可能與社區(qū)治安和社會(huì)經(jīng)濟(jì)結(jié)構(gòu)相關(guān),涉及犯罪率、建筑年代、自有住房中位價(jià)值、城鎮(zhèn)師生比例等變量;因子3可能與環(huán)境質(zhì)量、交通便利性和經(jīng)濟(jì)社會(huì)結(jié)構(gòu)相關(guān),涉及氮氧化物濃度、每棟住宅平均房間數(shù)、輻射性公路接近指數(shù)、財(cái)產(chǎn)稅率、黑人占比、低收入人口比例等變量。
(作者單位:天津大學(xué)數(shù)學(xué)學(xué)院)