999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

杭州共享住宿入住影響因素分析及預測*
——基于Airbnb愛彼迎平臺數據

2018-03-05 07:11:30薛潔姚雨萌吳霞
統計科學與實踐 2018年12期
關鍵詞:分類模型

□薛潔 姚雨萌 吳霞

隨著全球化和自由化進程的加快,越來越多的人熱衷于體驗共享生活。繼滴滴出行打開共享交通出行市場之后,人們紛紛把目光投向了共享住宿。針對杭州市共享住宿問題,借助國際住宿分享平臺Airbnb愛彼迎,研究杭州市共享住宿的發展狀況,并且利用XGBoost算法對杭州市共享住宿的入住率進行預測。結果表明,杭州市共享住宿的入住率受入住時間、訪問量和評論數的影響較大,并且提出的基于機器學習算法XGBoost的預測模型對入住率的擬合效果較好,可以作為消費者和共享住宿房東做決策的模型依據。

引言

隨著“互聯網+”和社會生產力水平的不斷發展,衍生了一種新的經濟形態——共享經濟。共享經濟是利用互聯網等現代技術,實現資源優化再配置,減少資源浪費,降低成本的模式[1]。我國的共享經濟相較國外雖然開展的較晚,但卻發展迅速,展現了良好的生機。2018年6月21日,國務院總理李克強主持召開國務院常務會議,部署促進分享經濟健康發展,推動創業創新便利群眾生產生活。據國家信息中心分享經濟研究中心估計,我國共享經濟保持高速增長,2017年我國共享經濟市場交易額約為49205億元,比上年增長47.2%,到2020年中國的共享經濟的總規模將占到中國GDP的10%左右,到2025年中國的共享經濟的交易總規模將達到GDP的20%左右[2]。由此看出,共享經濟在未來對我國的經濟發展貢獻巨大。

隨著共享經濟實踐與理論的不斷發展,國內住房分享日漸普及,行業持續升溫,在市場交易規模、融資量、參與人數等方面都取得了重大突破。初步估算,2017年我國共享住宿市場交易規模達145.6億元,比上年增長70.6%,融資額約為5.4億美元,比上年增長約180%[3]。目前,國內共享住宿市場整體處于起步階段,未來發展潛力巨大。《2018中國共享住宿發展報告》中提到2017年主要共享住宿平臺的房源數量約300萬套,參與者人數約為7800萬人,其中房客7600萬人。報告中還提到,我國共享住宿行業初具規模,業務創新不斷涌現,整體處于快速上升階段,頭部企業正在脫穎而出[3]。

目前對于共享住宿的研究,從概念、運營模式、發展進程到社會影響等各個方面都做了很多工作,成為了一個跨學科綜合性課題。國外JonesD.等人(2011)在調查中國香港游客對中國大陸分享住房的偏好時,發現年輕、接受中高等教育、中等收入水平的女性是大陸分享住房的主要目標群體[4];Chen L.等人(2013)對中國臺灣游客的調查發現,選擇分享住房的游客呈現出核心家庭、獲得良好教育及中低階層的特征[5];ZhihuaZhang等(2017)利用地理位置加權法對影響Airbnb平臺房價的主要因素進行了定量研究[6]。國內的共享住宿研究主要以定性分析為主,顧彥(2017)指出目前住房分享市場成立較早、規模較大的活躍平臺大概可以分為三個梯隊:第一梯隊是小豬短租、途家網等;第二梯隊包括Airbnb、中國、木鳥網等;第三梯隊主要包括大量的、長尾的特色品牌和民宿聯盟等[7]。而王漪(2017)則指出現階段國內住房分享平臺呈現途家、小豬、Airbnb三足鼎立的局面[8]。雖然共享住宿已經廣受市場認可,但其發展仍面臨諸多問題,如邱榕等(2016)從國情、房源及市場這些因素出發分析了Airbnb在我國發展存在的問題,其中信任缺失和房源質量參差不齊這兩個問題最為嚴重[9]。

因此,針對國內共享住宿定量研究的不足,本文以歷來有“上有天堂,下有蘇杭”美譽的杭州市作為研究對象,分析杭州市共享住宿的發展、入住率等影響因素,提出基于XGBoost算法的共享住宿入住率預測模型,從而為杭州共享住宿發展提供科學建議和決策支持。

數據來源

官方界定共享住宿主要指以互聯網平臺為依托,整合、分享海量的、分散的住宿資源,滿足多樣化住宿需求的各種經濟活動的總和[3]。由此可見,互聯網平臺在共享住宿中的重要性。目前,國內共享住宿業務開展較好的互聯網平臺有Airbnb、途家、小豬短租等。其中,Airbnb平臺作為共享住宿平臺的主力軍,占整個中國用戶群體的83%,其中房東平均年齡32歲,30歲以下房東占比45%[3]。

表1 各變量的具體描述

由于本案例研究對象的發展尚處起步階段,不利于開展問卷調查,因此本文以Airbnb作為研究共享住宿的數據平臺,獲取網站上展示的杭州市307個共享住宿信息,以及2018年第一季度的每日住房可訂情況,將每月的不可訂比例作為每月的入住率。

經過數據收集及整理發現,評論數為空的房源在總房源中所占比例較低,且房源的入住率也較低,可以認為,評論數為空是新房源的緣故,因此,直接刪除評論數為空的房源。基于此,本文最終確定了281個不重復房源。通過對房源入住率的分析,發現約七成房源的入住率超過60%,如圖1所示。從圖中也可發現:入住率低于20%的房源僅占3.6%,整體而言,杭州市在線房源的入住率較好,說明現階段杭州市共享住宿的發展較為樂觀,從而研究杭州市房源的入住率具有重要的現實意義。

圖1 杭州市在線房源入住率餅圖

為了便于消費者更加直觀的判斷房源,在接下來的模型構建中,因變量入住率則根據計算出來的數值大小將其轉換成高、中、低三個程度,即入住率低于0.33設為低,0.33到0.66設為中,高于0.66則設為高。

而為了具體分析杭州市共享住宿入住的影響因素,本文利用網絡爬蟲技術獲取每個房源的特征信息作為自變量,共計22個。自變量大致分為兩類:一類為“硬件設施”,即描述房屋內部特征,比如臥室數、床數、衛生間數和最多可住人數;另一類為“軟件設施”,描述房屋的各性能,比如價格、評論數、圖片數等。具體描述如表1所示。其中,綜合評分取值為4、4.5和5三種,且以4.5和5居多,鑒于此,對于綜合評分變量采取隨機替換為4.5和5的隨機填補法;瀏覽數變量,采用均值填補法補充缺失值。

接下來,本文將基于XGBoost算法構建多分類預測模型,具體分析上述因素對杭州市共享住宿入住率的影響,并對入住率進行預測,評估模型的預測效果。

共享住宿入住率的多分類預測

由TianqiChen在2015年提出的XGBoost算法作為如今的新起之秀,在數據挖掘領域熠熠生輝。XGBoost全名 ExtremeGradient Boosting,作為監督學習,可以處理回歸和分類兩類問題[10]。因此本文選用XGBoost算法作為預測模型。

XGBoost是在GBDT基礎上發展起來的,通常以決策樹或者回歸作為基學習器[11]。XGBoost是遞歸模型,每次建立模型都是在上一次的模型基礎上建立的,并且以損失函數(lossfunction)作為模型建立參考,損失函數越大,則說明模型越不穩定。每一次建立模型的目的就是要減少誤差,如果建立的模型能夠讓損失函數不斷的下降,則說明模型性能在不斷的提高。

模型的目標函數表示為:

其中,L(Θ)為訓練誤差,Ω(Θ)為正則項。優化誤差項,以便于減小誤差,提高模型的精度;優化正則項是為了簡化模型,簡單模型往往未來變動較小,預測更加穩定。但是沒有辦法同時訓練很多樹,所以采取逐步增加的方式,先固定之前學習到的,再在其基礎上添加一顆新的樹[12]。

表2 Booster參數之分類模型參數

則目標函數可以改寫成:

const表示常數項,對目標函數進行泰勒展開,如:

對泰勒展開的目標函數,遍歷每個特征的分裂點,計算該分裂條件下的前后目標函數變量值,最后確定目標函數變化值最大的為分類條件。

(一)模型構建

目前很多平臺可以實現XGBoost算法,常見的如R,python,Java等。本文選用Python作為實現工具,對Airbnb網站的共享住宿數據進行模型構建。模型的優化選擇本質上就是模型的參數選擇過程,為模型選擇最優參數,才能不斷提高模型的性能。XGBoost算法的參數大致分為三種類型:通用參數,Booster參數和學習目標參數[13]。其中Booster作為控制每一步迭代的參數,對模型的性能影響較大,對模型具體的參數解釋如表2所示。在建立模型之前將281條數據分為訓練集和測試集,其中訓練集為221條數據,測試集為60條數據。

上述參數中,對模型影響最大的參數為eta(學習速率)和n_eati-mators(迭代次數)。對模型而言,n_eatimators越大說明學習越充分,模型的性能也會提高,但是,過大的迭代次數會浪費資源,也會導致過擬合現象。所以選擇合適的迭代次數顯得尤為重要,既可以讓模型處在一個良好的性能,同時,也可以達到最好的效率。eta參數的設置和n_eatimators的參數選擇有關,為了能夠快速的迭代找到其他最優的參數,通常先將eta設置較大,當其他參數確定了之后再盡可能的選擇較小的學習速率以獲得最優的性能。

選擇最優參數的過程,實際是參數的排列組合過程,不同的參數組合擬合程度也是不同的。為了找出最優的參數組合,本文利用網格搜索法,通過遍歷所有的參數組合選定最優的參數組合(調參過程如圖2所示),分別設置樹的最大深度、最小葉子節點樣本權重和、gamma值、類別數目、訓練模型的子樣本占樣本的比例和每棵樹隨機采樣的列數的占比為[3,10]、[1,10]、[0,0.5]、[3,8],[0.6,1]和[0.6,1],搜索步長從大到小。對每一個參數進行網格搜索法調參,最終獲得最佳參數如表3所示。

表3 模型最終確定參數

圖2 網格搜索調參流程圖

圖3 模型特征重要性排序

表4 模型混淆矩陣

(二)結果及分析

XGBoost模型作為預測模型,算法較為復雜,只能得到最終的預測結果,其中自變量和因變量之間的關系無從得知。因此,本文利用XGBoost包中的important函數來獲取各變量的重要性大小,從而得出各變量對預測結果所貢獻的權重比重。如圖3所示:

從圖中可以看出特征重要性依次為:入駐時間,訪問量,評論數,價格,圖片數,瀏覽數,服務費,清潔費,回復率,是否超贊房東,是否整套,是否有自我介紹,最多可住人數,衛生間數,是否可以自助服務,床數,是否有交通介紹,星級評分,是否有助手,語言數,臥室數,是否有房屋介紹。

其中,入駐時間、訪問量、評論數、價格、圖片數、瀏覽數、服務費、清潔費、回復率和是否超贊房東,對入住率高低的影響較為重要,也體現出了房客選擇房源的著重點所在。而星級評分、是否有助手、語言數、臥室數和是否有房屋介紹這五個因素的重要性最低,不僅說明了這些變量對入住率高低的影響較低,也體現了如今Airbnb的主要客源還是國內。

(三)模型評估

利用測試集對模型進行檢驗,可得混淆矩陣如表4所示:

1.總體模型評估。模型的總體準確率為:p總=100%=86.67%,該模型的總體準確率為86.67%,認為該模型的預測效果較好。

Hammingloss(漢明損失)是描述多分類的評價指標,表示所有分類中錯誤樣本的比例,所以該值越小則模型的分類能力越強。其中,|D|表示樣本總數,|L|表示標簽總數,xi和yi分別表示真實結果和預測結果,xor表示異或運算。根據公式得出模型的Hammingloss(漢明損失)為:HammingLoss(xi,yi)=

顯示模型的整體分類錯誤較低,模型的整體擬合程度較好。

2.各分類評估。研究了模型的整體效能之后,對每一個分類進行討論。本文所研究的是三分類問題,對于多分類問題需要對二分類做類似推廣,將每個類別單獨視為“正”,其他類別視為“負”,得出每個類別的精確度、召回率,以及精確度與召回率的調和平均值F1,如表5所示:

表5 不同類別的精確度、召回率和F1

可以看出,入住率中和高的各項指標都較高,顯示該模型對這兩類的擬合程度較好,而與入住率為中和高相比,入住率為低的召回率較低,但是F1值和精確度較高。由于F1值是對精確度和召回率的調和平均值,是綜合了兩個指標的評判指標,F1值越高,則說明模型較理想。入住率為低的F1值為1.96,較高。則說明XGBoost模型不僅在整體上表現優異,在每個類別上也表現良好。

結論

本文基于Airbnb網站上281個房源信息,運用XGBoost算法對杭州市的共享住宿進行入住率預測。

考慮到共享住宿入住率目前研究的不足,提出使用XGBoost算法對入住率進行多分類預測,從模型的各項評判指標來看,模型的擬合效應較好,可以作為判斷入住率高低的依據,從而為消費者提前選擇合適的共享住宿提供參考。為了提高模型的性能,本文使用網格搜索法,尋找最優參數組合,提高模型的預測準確度。

從模型的特征重要性評估結果顯示:(1)重要性排名前三名的為入駐時間,訪問量和評論數,也說明了在共享住宿的選擇上價格并不是影響消費者的重要因素,選擇共享住宿,是為了體驗時下年輕人十分注重的社交體驗機會。入駐時間可以體現房源的存在價值,時間越久,消費者會更加傾向該房源。訪問量和評論數可以作為評判房源吸引力的直接指標,是房源預訂與否的重要因素。(2)重要性排名后三名的是語言數,臥室數,是否有房屋介紹。其中,語言數直接體現了我國的國外市場沒有打開,為了讓我國的共享住宿事業有更好的發展,應適當的拓展國外客戶,吸引國外消費者的青睞;臥室數和是否有房屋介紹則顯示了消費者對于房間的具體構造關注度較低,人文情懷才是人們選擇共享住宿的著重點。

本文提出的共享住宿入住率預測模型有助于共享住宿房東針對不同時期的入住采取措施,制定對應的策略,也可以查缺補漏,在有關方面采取針對性的提高策略,以更好的達到共享。另一方面,為消費者提前制定出行計劃提供數據支持,致力于讓更多的消費者可以選擇到滿意的共享住宿,讓出行更加便利。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 真人高潮娇喘嗯啊在线观看| 午夜无码一区二区三区在线app| 国产精品亚洲一区二区三区在线观看| 日本成人在线不卡视频| 国产真实自在自线免费精品| 午夜色综合| 91久久性奴调教国产免费| 日本欧美一二三区色视频| 亚洲第七页| 国产欧美日韩精品综合在线| 综合色在线| 综合社区亚洲熟妇p| 婷婷99视频精品全部在线观看| 亚洲AⅤ永久无码精品毛片| 久久久精品无码一二三区| 国产综合精品一区二区| 午夜欧美理论2019理论| 亚洲精品天堂自在久久77| 国产农村精品一级毛片视频| 国产成人AV男人的天堂| 欧美日韩精品在线播放| 国产综合日韩另类一区二区| 亚洲最大综合网| 国产精品香蕉在线| 日日拍夜夜操| 天堂成人av| 欧美日韩高清在线| 日本欧美午夜| 一级毛片网| 国产浮力第一页永久地址| 色爽网免费视频| 国产女人水多毛片18| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲综合在线最大成人| 亚洲AV无码久久精品色欲 | 日本日韩欧美| 国产主播在线一区| 国产又大又粗又猛又爽的视频| 欧美成人午夜在线全部免费| 亚洲综合久久成人AV| 国产成人综合亚洲网址| 美女被操黄色视频网站| 中文字幕波多野不卡一区| 91亚洲精品第一| 欧美69视频在线| 日本久久网站| 日韩欧美91| 国产熟睡乱子伦视频网站| 久久国产精品无码hdav| 黄色网页在线播放| 成人一级免费视频| 国产微拍一区二区三区四区| 日本成人在线不卡视频| 亚洲综合狠狠| 国产成人欧美| 欧美性爱精品一区二区三区| 欧美午夜视频在线| 无码福利视频| 一级毛片中文字幕| 亚洲国产日韩在线观看| 爆操波多野结衣| 亚洲国产中文精品va在线播放 | 亚洲美女一区二区三区| 久久婷婷人人澡人人爱91| 日本91视频| 欧美伦理一区| 亚洲国产成人麻豆精品| 亚洲成人高清无码| 白浆视频在线观看| 激情国产精品一区| 亚洲九九视频| 亚洲天堂久久久| 国产精品无码久久久久久| 欧美97色| 亚洲综合第一区| 乱码国产乱码精品精在线播放| 欧美第二区| 日本欧美一二三区色视频| 69视频国产| 国产精品女熟高潮视频| 18禁高潮出水呻吟娇喘蜜芽| 激情無極限的亚洲一区免费|