范雅靜+黃笛
[摘要]隨著我國經濟水平飛速增長,城市間人口流動日益頻繁,房屋租賃市場日趨繁榮,房屋的租金也受到越來越多的關注。而由于互聯網的發展,房東與租戶通常會在網絡上發布并獲取信息,因此租房網站中包含豐富的租房信息。文章利用網絡爬蟲技術從租房網站收集了北京市各區域共計三千余條租房信息,并將住房租賃價格作為被解釋變量,并選擇6個微觀因素作為解釋變量,基于特征價格理論建立決策樹模型,分析影響租房價格的關鍵因素,并為住房租賃價格定價及預測提供新的思路。
[關鍵詞]住房租賃價格;微觀影響因素;決策樹
[DOI]1013939/jcnkizgsc201717037
1引言
作為房地產市場體系兩個必不可少的重要組成部分,租賃市場與買賣市場,與北京市房地產市場的健康平穩運行有著密切的關系。持續提高的城鎮化水平意味著將有相當數量的農村剩余勞動力及人口轉移到城市。北京地區的高房價客觀上也使購買商品房需要大量的資金。因此,越來越多的人選擇暫時放棄購房需求,并將目光由買賣市場轉向租賃市場,借助租賃市場將自身的住房需求解決。在此背景下,住房租賃價格由哪些因素確定成為了學者關注的問題。
目前,已有大量學者對此進行了研究。Marks(1984)用特征價格指數對溫哥華租賃住宅數據進行研究,結果發現停車位提供、自動洗衣店等相關變量均顯著影響住宅租金。Guntermannn(1987)的研究表明,游泳池、健身房的存在對租金有著顯著影響。此外,許多學者將研究重心放在配套設施對住宅的影響。George(1985)、Sirmans(1990)等則對住房內的配套設施,如電視、洗衣機等對租金有正方向的影響作用。然而,住宅由于其私密性等問題,傳統的入戶調查方法成本較高且難以獲得較大數據。從國內文獻看,學者大多集中在微觀因素對寫字樓等商用房屋租賃價格影響的研究。聶沖(2009)研究發現區位、建筑、商鋪和租約特征都是購物中心商鋪租金的重要決定因素,但相對而言,區位特征最為重要。梁艷(2011)選取深圳市場上能獲得數據的四類20個解釋變量進入租金模型。采用特征模型,對深圳市114棟寫字樓的要價租金均價進行回歸分析,并發現大部分特征因素對寫字樓租金有顯著影響。全百松(2013)通過構建寫字樓特征價格模型,發現不同城市發展水平下的寫字樓租金影響因素在顯著性及影響系數兩方而表現不同。
然而,由于住宅私密性等問題,傳統的入戶調查方法成本較高且難以獲得較大數據,若要避免入戶問題則只能對寫字樓等開放區域進行調查。為彌補此缺陷,本文通過網絡爬蟲技術獲取到北京市住房租賃價格相關數據,可以在較短時間內獲得豐富的租房微觀數據。此外,本文通過建立決策樹模型對北京市住房租賃價格進行分析,可利用決策樹的優勢對住房租賃價格的微觀影響因素進行深入分析,從而使各類租房人群能結合自身對房屋的需求,借助模型估算參考價格,同時對當地房地產中介機構合理評估住房租賃價格有一定的參考借鑒意義。
2理論基礎
21特征價格模型理論
特征價格模型來源于特征價格理論。A T Court(1939)首次對汽車價格進行了研究,認為汽車價格是由汽車本身特征決定,并構建了汽車價格指數。隨后,Lancaster(1966)提出消費者偏好理論,認為消費者購買一個產品,是由于產品的特征符合消費者的需求。Rosen(1974)則完善了Lancaster偏好理論,理論上構建了特征價格供需特征模型,為特征價格模型奠定了基礎。該理論認為,住房價格是由住房特征帶給人們的效用決定的,由于住宅特征的數量及組合方式不同,使得房地產的價格存在差異。因此,本文根據特征價格理論對住宅租賃價格的影響因素分解,分析各因素對房租的影響。
22決策樹理論
本文主要采用決策樹方法進行建模。決策樹是一種監督式的學習方法,產生一種類似流程圖的樹結構。決策樹對數據進行處理是利用歸納算法產生分類規則和決策樹,再對新數據進行預測分析。樹的終端節點——葉節點(leaf nodes),表示分類結果的類別(class),每個內部節點表示一個變量的測試,分枝(branch)為測試輸出,代表變量的一個可能數值。為達到分類目的,變量值在數據上測試,每一條路徑代表一個分類規則。
在樹的每個節點上,使用信息增益選擇測試的變量,信息增益是用來衡量給定變量區分訓練樣本的能力,選擇最高信息增益或最大熵(entropy)簡化的變量,將之視為當前節點的分割變量,該變量促使需要分類的樣本信息量最小,而且反映了最小隨機性或不純性(impurity)(Han和Kamber,2001)。若某一事件發生的概率是p,令此事件發生后所得的信息量為I(p),若p=1,則I(p)=0,因為某一事件一定會發生,因此該事件發生不能提供任何信息。反之,如果某一事件發生的概率愈小,不確定性愈大,則該事件發生帶來的信息愈多,因此I(p)為遞減函數,并定義I(p)=-log(p)。給定數據集S,假設類別變量A有m個不同的類別(c1, …, ci, …, cm)。利用變量A將數據集分為m個子集(s1, s2, …, sm),其中si表示在S中包含數值ci中的樣本。對應的m種可能發生概率為(p1, …, pi, …, pm),因此第i種結果的信息量為-log(pi),則稱該給定樣本分類所得的平均信息為熵,熵是測量一個隨機變量不確定性的測量標準,可以用來測量訓練數據集內純度(purity)的標準。熵的函數表示如下式:
I(s1, s2, …, sm)=-[DD(]m[]i=1[DD)]pilog2(pi)
其中pi是任意樣本屬于ci的概率,對數函數以2為底,因為信息用二進制編碼。變量分類訓練數據集的能力,可以利用信息增益來測量。算法計算每個變量的信息增益,具有最高信息增益的變量選為給定集合S的分割變量,產生一個節點,同時以該變量為標記,對每個變量值產生分枝,以此劃分樣本。再根據變量的不同值建立樹的分枝,每個分枝子集中重復建樹的下層結果和分枝的過程,一直到完成建立整株決策樹。
3數據說明、預處理與變量選擇
31數據說明
本文所使用的數據來源于58同城網站。58同城(http://58com)作為覆蓋全領域的生活服務平臺,業務覆蓋招聘、房產、汽車、金融、二手及本地生活服務等各個領域。其網站內含有海量的房產信息,也包括北京市的房屋出租信息。本研究采用C#語言并基于Net框架,建立一個租房信息采集程序,依據所設定的采集方案與規則,成功地實現了一定數量的租房信息自動采集,同時將所采集到租房數據持續地添加到SQL Server數據庫中。
本文隨機抓取了2015年期間發布的3606條北京市住房招租信息,并將數據導入至Excel表格文件中,原始數據主要包括城市、標題、租賃價格、戶型、面積、裝修程度、所在樓層、原有設施種類、地址等。
32數據預處理
原始數據中數據格式比較特殊,多為對房屋進行描述的語句。因此,本研究首先使用了R中的stringr以及jiebaR包,將每個樣本所在的城區、樓層、朝向、原有設施、裝修程度等關鍵詞一并提取。其次,由于租房信息中不能準確描述樓層信息,通常用樓層范圍來表示,如“2層/6層”表示2~6層,因此本研究采用平均數估算其樓層;此外,由于房間數量也是影響房租的一個重要因素,因此對形如“3室2廳2衛”的住宅類型數據,提取“室”的數量作為房間數量指標;最后,租房信息中還對住宅內配套設施加以描述,包括電視、洗衣機、冰箱等,由于設施種類較多,因此將設施種類數量作為單一指標。
33變量選擇
基于特征價格模型理論,本文將住房租賃價格作為被解釋變量,將不同類別的微觀因素共19個指標作為解釋變量,建立機器學習模型進行預測。下表報告了選取的被解釋變量與解釋變量的詳細說明。
4實證分析
通過建立決策樹模型,得到結果如下圖所示。決策樹共有一個根節點、四個中間節點以及六個葉節點。每個節點上方的數值表示平均價格,下方百分比表示樣本所占比例,連接線上表示該節點的條件,節點顏色由淺到深表示該子樣本平均價格由低至高。由下圖可以看出,影響房租價格最主要的因素為所在城區。決策樹第一層將城區分為昌平、大興、房山、門頭溝、密云、平谷、順義、通州、西城區和朝陽、東城、豐臺、海淀、石景山,其中前者價格較低,此外,房山、密云的租房價格也比昌平、大興、門頭溝、順義、通州更低。除西城區外,其結果也較符合城區離北京市中心距離越遠租房價格越低的實際情況。對于朝陽、東城、豐臺、海淀、石景山區,決定房租價格的關鍵因素為住宅類型,如果是公寓類則價格較低,別墅、精裝修、平房、普通住宅、商住兩用類的平均價格較高。對于后者,其價格還取決于朝向,其中朝北的住宅價格較高,這也體現了居民對房屋風水朝向的要求。由結果可以看出,平均價格最低的為房山、密云的住宅,最高的為朝陽、東城、豐臺、海淀、石景山朝向北的中高檔住宅。
5結論
本文利用從58同城網站抓取的北京市住房租賃數據,將決策樹模型引入到租賃價格的分析、預測工作中,并分析影響住房租賃價格的微觀因素。北京的研究經驗表明,影響房租最關鍵的因素為所在城區,其次為住房類別及朝向。未來,在對房租微觀影響因素進行研究時,為了提高分析的準確度以及因素覆蓋范圍,應結合其他領域技術提取更多的解釋變量,例如根據地址提取距地鐵站距離、距商圈距離等地理位置相關信息;同時,還可利用其余學習方法,如神經網絡等進行分析預測,以更全面地分析房地產價格的圍觀影響因素。對