范志勇
(黑龍江大學經濟與工商管理學院,哈爾濱150080)
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Bigdata)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。[1]
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統的大數據分析技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
隨著房地產行業競爭的加劇,房地產企業要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業擁有大量的數據積累,包括行業信息、經濟環境信息、客戶信息等。這些數據是房地產企業市場運作的重要參考。面對快速增長的海量數據收集,企業需要有力的數據分析工具將“豐富的數據”轉換成“有價值的知識”,否則大量的數據將成為“數據豐富,但信息貧乏”的“數據墳墓”。
大數據分析是從大量數據中發現潛在關聯、模式,做出預測性分析的有效工具,它是現有的一些人工智能、統計學等技術在數據庫領域中的應用。應用大數據分析有助于發現業務發展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業分析出解決問題所需要的關鍵因素,使企業處于更有利的競爭位置。[2]
對于企業的海量信息存儲,大數據分析是一種系統地檢查和理解大量數據的工具。大數據分析根據預定義的商業目標,對大量的企業數據進行探索和分析,揭示其中隱含的商業規律,并進一步生成相應的分析、預測模型。
大數據分析發現的是以前未知的、可理解的、可執行的信息,所以也被稱為“知識發現”(Knowledge Discovery in Databases)。與統計分析技術相比,大數據分析技術能很好地和數據庫技術相結合,而且大數據分析工具用以發現數據中隱含的商業規律的方法已不局限于統計技術,還包括神經網絡、遺傳算法、自組織圖、神經模糊系統等統計學科以外的方法。大數據分析發現的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統計分析師的背景知識,再被統計分析師應用到數據分析中。
大數據分析任務一般可以分兩類:描述和預測。描述性分析任務刻劃數據庫中數據的一般特性。預測性分析任務在當前數據上進行推斷,以進行預測。具體來講,大數據分析主要用于解決以下幾種不同事情。
1.關聯分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一事件中出現的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。
2.分類(Classification)和預測(Prediction)。分類根據某種標準將數據庫記錄分類到許多預先定義好的類別中。例如,將房地產企業客戶根據消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業、家庭構成等個人屬性,預測他們的購房支出;如將房地產企業客戶分為潛在客戶、購買者和實際客戶。分類系統可以產生這樣的規則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業務訪問,那么他/她是一個購買者。”
3.聚類(Clustering)是把整個數據庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數據盡量相似。聚類與分類不同:分類之前已經知道要把數據分成哪幾類,每個類的性質是什么;聚類則恰恰相反。
4.演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發展趨勢、社會經濟發展趨勢進行房地產消費趨向的分析。
5.描述和可視化(Description and Visualization),對數據進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區域的形象化描述。
大數據技術在商業上實際應用十分豐富。應用大數據分析技術,可以幫助房地產行業找出有價值的信息,十分有助于企業發現商機、制定開發計劃與營銷策略。對于房地產市場研究,大數據分析可以應用于宏觀經濟形勢研究、市場發展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。目前,專業市場研究公司對房地產行業的調研主要集中在客戶需求分析方面,并積累了一定的經驗,因此,筆者主要探討房地產客戶信息的大數據分析。
房地產行業的客戶信息有許多特點,一方面房地產行業面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。[3]
對于復雜、多樣而且擅變的客戶信息,房地產行業客戶信息的大數據分析有助于識別客戶購買行為,發現客戶購買模式和趨勢。從而,幫助房地產企業改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業成本。根據已有的大數據分析經驗,大數據分析在房地產行業的應用可以歸納成以下幾個方面。
1.客戶細分:聚類,有效的劃分目標客戶群。
2.客戶保留:分類回歸、關聯分析,識別無效的客戶及流失的客戶的消費決策模式,幫助企業識別現有客戶中相似的潛在流失客戶,以便采取預防措施。
3.客戶拓展:分類,關聯分析,有針對性的發現客戶的反應行為模式,用來將潛在客戶列表中的客戶排序,以便找出哪些是對所提供的服務最感興趣的客戶。
4.升級服務:分類,預測,通過對客戶行為特點的跟蹤分析,對客戶將來的行為進行預測分析,用預測得到的評分為每個客戶選出最合適的幾種服務方案。
5.活動分析:多維分析,通過比較熱銷期間的銷售量和交易數量等有關情況,分析營銷手段的有效性。
6.銷售預測:特征化、關聯分析,在項目開發的不同階段,如:開盤、熱銷、封頂、現房,成交客戶和意向客戶的屬性特點。
7.需求描述:特征化、多維分析,提供強有力的多維分析和可視化工具,方便企業進行帶有復雜條件的聚集上的分析。
8.需求預測:層次分析、關聯分析,通過比較出不同類型的消費者對各種價值構成的排序,找出各價值構成中的相關性。
應用大數據分析的首要任務就是明確需要達到什么樣的商業目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測大數據分析效果,判斷建立的模型的有效性。
有些目標是大而空的目標:獲得客戶行為的了解;在數據中發現有用的模型;發現一些有意思的東西。而另外一些目標有較強操作性:發現哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。
基于大數據分析的商業目標,提取所需要的數據。為了保證數據的質量,除了對數據進行檢查和修正外,還需要考慮不同源之間數據的一致性問題。
如果數據集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當減少輸入的字段。常用的方法包括:“描述型大數據分析”、連結分析等。
很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數據。因此,在數據準備階段需考慮是否創建一些新的變量。
處理缺失數據也是數據準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。
建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發對數據的理解并加以修改,甚至改變最初對問題的定義。
一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數據的預處理工作。例如,神經網絡需要做數據轉換,有些大數據分析工具可能對輸入數據的格式有特定的限制等。
模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數據的不同發生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。
模型在建立并經驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數據庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。
大數據分析技術在房地產市場研究中還處于嘗試階段,在應用中還有很多具體的問題有待解決,但畢竟給我們提供了一個對房地產市場進行科學研究的方法。[4]在實踐中還有很多新領域需要探索,對此我們需要時間和不斷實踐來磨合,但我們有理由相信在房地產市場研究中大數據分析技術會發揮越來越重要的作用。
[1] 栗 蔚,魏 凱.大數據的技術、應用和價值變革[J].電信網技術,2013(7):6-10.
[2] 李國杰.大數據研究:未來科技及經濟社會發展的重大戰略領域:大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[3] 范志勇.中國房地產政策回顧與探析[J].學術交流,2008(8):60-66.
[4]王飛躍.知識產生方式和科技決策支撐的重大變革:面向大數據和開源信息的科技態勢解析與決策服務[J].中國科學院院刊,2012,27(5):527-537.