蔡 波、程順森、趙智群
(國家統計局上海調查總隊,上海 200003)
網絡大數據在自有住房折算租金推算上的應用
蔡 波、程順森、趙智群
(國家統計局上海調查總隊,上海 200003)
城鄉一體化住戶調查改革后,自有住房折算租金計入居民可支配收入和消費支出。但房屋市場價估計值變化大,由調查員輔助調查戶填報,在實際過程中存在調查困難現象,而且隨意性較大,從而影響居民可支配收入和消費支出計算的精確度。本文利用網絡大數據結合房屋的側面客觀數據信息,建立回歸樹、隨機森林等數據挖掘模型,擬合小區房屋的均價,并對住戶調查數據中的部分小區樣本進行了實證測算并作評估比較。
自有住房折算租金;大數據;回歸樹;隨機森林
自有住房折算租金又被稱為虛擬租金、歸算租金、估算租金等,是指對居民自己擁有并使用的住 房 (Owner-Occupied Housing(Dwelling),OOH 或OOD),計算該自有房的租賃價格,即虛擬的租賃成本。
(一)自有住房折算租金的研究意義
2012年4季度,國家統計局實施了城鄉一體化住戶調查改革,統一了城鄉居民收入名稱、分類和統計標準,實施全新的《住戶收支與生活狀況調查方案》。為了更好地進行世界各國經濟規模的國際比較,新方案中加入了自有住房折算租金?!蹲羰罩c生活狀況調查方案》中,自有住房折算凈租金計入城鎮居民可支配收入,自有住房折算租金計入城鄉居民消費支出。
在我國現行住戶調查體系中,自有住房折算租金中占一定的比例。以上海為例,2015年,自有住房折算凈租金在全市居民人均可支配收入中占比為13%左右,自有住房折算租金在全市居民人均消費支出中占比為25%左右。美國GDP中,城市居民自有住房服務的貢獻率約8%,其占個人消費支出的比例約11%。在日本,上述兩者比例分別約為10%和17%。因此,計算自有住房折算租金對衡量經濟發展趨勢和居民福利狀況至關重要。
(二)國際上關于自有住房折算租金的主要估算方法
由于自有住房折算租金是計算并沒有發生的現金交易,只能通過虛擬估算,假設該自有住房參與市場交易,得到虛擬的市場價格。因此,其估算方法的選擇直接決定了自有住房折算租金的結果。聯合國SNA給出推薦方法有兩種,主要是等值租金法(rental-equivalence approach,也稱為市場租金法)和使用者成本法(user-cost approach)。等值租金法適用于房屋租賃市場比較完善的國家,以真實的市場交易價格作為估算標準。當該方法在本國不適用時,即無法得到合理的、具有代表性的市場租金價格時,可采用第二種使用者成本法。
(三)我國住戶調查中自有住房折算租金調查方法
考慮到國內很多地區還不存在規范和成熟的房屋租賃市場,目前我國住戶調查中,自有住房折
算租金采用折舊法計算。具體方法是:
自有住房折算租金=自有住房市場現價估值×年折舊率(城鎮地區2%,農村地區3.03%)
自有住房折算凈租金=自有住房折算租金–購建房分攤成本
目前,我國住戶調查體系中,自有住房購買價調查數據較準,但房屋市場價估計值采用調查員輔助調查戶填報,由于房屋市場價估計值變化大,在實際操作過程中存在調查困難現象,而且隨意性較大,從而影響居民可支配收入和消費支出計算的精確度。
(四)網絡大數據應用的構想
在政府統計調查之外,當前互聯網上有多個專業房產網站對城市房屋價格進行實時公布。盡管這些價格為估算價格而非實際價格,但由于其和大眾的感受較趨一致,而逐漸被接受認可甚至具有了權威性。其中最典型的代表是房價網(www.fangjia.com)。房價網數據主要利用爬蟲技術,實時抓取新房和二手房成交記錄數據,并利用數據模型推算出具體房屋市場價估計值,涉及包含住宅地址、板塊、建筑年份、建筑面積、小區物業費、容積率和綠化率等信息,具有大數據特征。
當然由于網絡數據數出多門,每家網站的估價不盡相同。實際研究中也發現存在部分數據誤差較大或更新不及時。如某區域板塊如果一段時間零交易,則基于爬蟲技術的模型就無法擬合出最新的實際估值而造成數據失真。所以網絡大數據只能作為參考數據,并不適合直接拿來使用。
本文設計目標是通過利用取得房價網的部分數據來建立模型,測算出上海某區域(小區)的房屋市場估值,返回住戶調查系統中,對原有填報值進行測算和評估(甚至替代),從而保證住戶調查中自有住房折算租金計算的精確度,進而提高居民可支配收入及消費支出數據的準確性。
值得一提的是,本文模型并非為精確測算個案房價而建(事實上由于房價影響因素較多,很難有精確測算模型),而是致力于推算總體均值為目標。
(一)數據預處理
1.數據源及字段描述
本文研究數據源為房價網(www.fangjia.com)提供的部分上海住房數據,包含全部17個區縣,每個區縣各60個小區,每個小區10條記錄。每條記錄為到戶的房屋信息,其中部分數據有缺失(見表1)。

表1 數據源字段描述表
2.字段選取分析
房價網提供的數據字段共23個,但其中一部分字段無法或者較難用于建模處理,因此需要對字段進行分析并做篩選,選取適宜字段用于建模。
(1)放棄字段/數據
內部或房價網自定義字段:房源ID、小區ID、板塊;難以數據化的字段:小區名、小區地址;數據散亂、帶有主觀因素的字段:朝向、裝修;數據量少、分布極為分散的字段:所在樓層、總樓層、室、廳、衛。
另外因住戶調查主要針對普通住宅,因此選取物業類型字段為普通住宅的數據,刪去其他兩類物業類型對應的數據;因目標是能應用于住戶調查,而最近能用于比較的住戶調查數據為2015年年報數據。故放棄2014-12、2016-3兩個字段,保留2015-12字段。
觀察發現,各小區10個房屋的均價是相同的,為了后續數據處理節省資源與空間,故將每個小區只提取一個記錄,刪去其他數據。
(2)保留字段/數據
區域、建筑年份、容積率、綠化率、車位比、物業費、面積、2015-12
3.利用網絡爬蟲技術新增學區房字段
學校教育資源越來越成為買房的一個重要考慮因素,因此是否是學區房,對于房價是有顯著影響的。中原地產上海網站中有根據學區房來進行小區分類的搜索條件,我們采用網絡爬蟲獲取了709所網站所列的幼兒園及小學對應的小區,用于和現有房價網提供的小區數據比對,建立了新字段學區房,數值1代表小區內房屋屬于學區房,數值0代表小區內房屋不屬于學區房(受限于網站分類是否科學準確詳盡,以及學校也有優劣之分等因素,該字段只能算是建模的一次嘗試)。
4.字段數據清理及插補過程
區域字段:根據上海市實際情況,對17個區縣進行分類處理,分為4檔并賦值(離散型):數值4代表金山、崇明,數值3代表奉賢、青浦、松江、嘉定,數值2代表閔行、寶山以及浦東除去源深、碧云、陸家嘴的地區,數值1代表剩下的區域。
建筑年份字段:本身為日期型數據,部分數據存在月份,如2015-12,處理為只包含年份信息的數值型數據。建筑年份數據存在空值170個,占總數據10200的1.67%,且年份數據分布較廣不宜采用插補等方式補全,故刪除空值數據。
容積率字段:本身為數值型,將所有數據直接處理為保留兩位小數。容積率數據存在空值90個,占總數據10200的0.89%,占比較小,故刪除空值數據。
綠化率字段:本身為數值型,直接保留原數據。綠化率數據存在空值70個,占總數據10200的0.69%,占比較小,故刪除空值數據。
車位比字段:因本身為比值型,需要處理為數值型,根據定義和數據觀察,將該字段重新定義為每一戶可用車位數,如原數據為1∶0.7,則處理后應為0.7,代表該小區每一戶有0.7個車位。
物業費字段:本身為數值型,將所有數據直接處理為保留兩位小數。物業費數據存在空值450個,采用區域物業費均值補全法,用已有物業費數據分17個區縣求出均值,然后根據空值所在區縣補全。
面積、2015-12兩個字段:因房價一般討論均價,故將這兩個字段合并處理為2015年12月均價一個字段,利用2015年12月總價除以面積得到該字段的值。
最終得到數據預處理結果,共保留910個記錄。
(二)模型擬合過程
1.回歸樹建模
數據準備工作結束后,根據預期目標,擬建立小區房屋均價預測模型。這里的小區房屋均價作為預測變量為連續型數值變量,而相關因素變量中既包括了區域、學區房等離散型變量,也有容積率、綠化率等連續型變量,故首先采用回歸樹模型擬合。執行R程序后,擬合結果的圖示如下:

由上圖可以明顯發現qy(區域)字段為最重要的分類指標。qy=1的市中心板塊和qy=2,3,4,的其他板塊為第一節點分類指標。在左側樹的進一步細分節點上也主要根據qy指標進行分類。這是符合實際的。
考慮到住戶調查的收入測算為城鎮自有住房
折算凈租金,范圍實際主要集中在中心城區板塊,這值得我們重點分析。同時也能進一步研究分析除去區域字段后,其他因素對房價的影響。
2.中心城區板塊建模
選取中心城區板塊即qy=1的小區進一步做模型擬合,這里涉及的變量為建筑年份、容積率、綠化率、車位比、物業費和學區房等指標。模型擬合結果如下:

從樹節點分類看,去除區域因素影響后,物業費影響程度較高,其次為建筑年份。平均相對誤差(rel error)0.505,交叉驗證估計誤差(xerror)0.695,標準誤差(xstd)0.083。
3.隨機森林模型建模
一般來說在連續型變量的預測上隨機森林模型優于回歸樹模型,同時也能更好的分析變量重要性。故也嘗試采用此方法擬合模型。各變量的重要性如圖:

這里也分別計算了加入學區房字段前后,隨機森林的模型變量解釋度(%Var explained:),分別為38.88和40.64??梢?,是否學區房字段的加入增強了模型的有效性。
(三)模型結論
1.房屋所在的位置區域即板塊地段是影響房屋價格的首要因素。模型很清晰地反映了中心城區和近遠郊的房價區別,和實際情況相符。
2.一般認為物業費只和維護成本有關,同房價并無直接聯系。但同地段下,物業費越高的小區,房型質量越好,房屋價格越高。物業費也是影響房屋價格的重要參考因素。同理,建筑年份即房齡,房屋新舊顯然也是影響房屋價格的重要指標。
3.雖然在小區指標上,容積率是比較重要的衡量指標。但相對來說,由于高層住宅小區容積率較低,而房齡卻較新。而越市中心的區域“寸土寸金”,這項指標的影響度被模糊,對房屋價格的影響不及上述指標。
4.學區房預想應當是較為重要的影響因素。但由于學區房的影響程度很難量化,本文僅作是否是的處理。每個學校的名氣不一,影響程度自然也不同,可能使其對房屋價格的影響度弱化。在本模型中的影響程度和容積率等同處第二類別。同時通過模型解釋得出,學區房字段的加入對模型有完善作用。
5.至于車位比,雖就追求品質來說是小區車位越多越好,但在市中心區域房價較高的地方,車位極其緊張。另市中心板塊小區的綠化率基本集中在30%-50%的區間,區分度并不是很大,實際上人們也不太會優先關注這一指標。從模型結構看,這兩指標對小區房價的影響度相對不高,屬第三類別。
本文模型經過了自身的驗證,但最終具體的成果是將應用到住戶調查中,故應嘗試實證測算住戶調查數據。這里利用2015年上海住戶調查的部分樣本數據進行模型的實證測算。
(一)樣本數據準備
首先,我們從住戶樣本中對市中心各區及浦東中心地區共8個區域內各抽取2個小區,共16個小區。通過2015年住戶調查年報數據中的自有住房市場價估計值和建筑面積指標計算得到這些小區的房屋均價。同時提取住戶調查數據中的房屋
建筑年份數據字段。
因本文模型的建立其他所需的其他相關字段,住戶調查數據中并沒有現成存在,我們通過在網上查詢取得,包括容積率、綠化率、車位比和物業費等指標,是否學區房指標通過地址匹配小區后獲得。實際操作中發現,由于這些指標是相對確定的客觀指標,在專業的房產網上可以較容易地獲得。同時,我們也在搜房網上查詢到這些小區的網站評估價格作為參考數據。
(二)測算結果比較分析
將多來源收集的指標數據輸入上述建立的預測模型中進行測算,將測算結果與其他來源數據進行比較。比較結果如下(見表2):

表2 模型測算結果比較表 (單位:元)
從測算結果看,這些小區搜房網的均價為60356元,住戶調查得到的數據均值為33235元,差異較大。而采用回歸樹和隨機森林模型擬合的小區均價分別為58466元和61503元,與搜房網較為接近,差異分別僅為-3.1%和1.9%。
當然網上評估價并非完全就等同于真實價格,但目前專業網站的評估價格一般更讓公眾承認與接受,可認為更貼合實際。由此看來,住戶調查數據存在低估的概率較大,而本文模型擬合的總體均值則更接近實際。
(一)本文有待改進的地方
1.數據源獲取需進一步建立溝通機制
由于此次使用的數據來源只是選取小部分的房源信息,而非全部。相比大數據來說,數據量顯得有所欠缺。在和相關網站溝通并達成協議的前提下,取得更全面的數據信息,顯然對模型的精度提升會有相當大的幫助。
本文建模旨在提供思路想法,也考慮到與同時期住戶調查數據比較,故采用2015年末時點的數據建模。如要實際投入正式應用則需要建立從網站取得即時數據的溝通機制,以便隨時根據最新數據擬合模型,測算結果,以達到利用大數據的時效性特點。
2.房屋地址信息有待充分利用
對于房屋均價來說,地段永遠是第一位的決定因素。雖然本文結合了區域指標,但只是粗略的大塊區分。如果能進一步充分利用地址信息,建立地塊的細分法,也必將進一步提高模型的精度。如開發商、交通便利程度、購物便利程度等都可能是影響房價的重要因素。如何取得這些指標并量化結合到模型中,是值得將來繼續深入研究的。當然,這一工作需要大量的數據和經驗積累才能逐步達成。
(二)未來構想
通過本文研究,在充分利用大數據的情況下,有望通過較為準確的客觀指標建立數據挖掘模型來間接測算房屋市場價估計值,進而推算出自有住房折算租金,而不需要讓調查對象做誤差較大的主觀估算。這樣做既降低調查成本,也能減少調查誤差,同時還具備時效性。
(責任編輯:曹家樂)