陸紅
摘要:大數(shù)據分析模型構建完成后,最重要的是對模型進行檢驗,如何檢驗是困擾我們的一個難題,本文圍繞房價大數(shù)據分析模型,介紹幾種大數(shù)據分析模型的檢驗方法,供從事大數(shù)據分析研究的人員借鑒和參考。
關鍵詞:大數(shù)據;分析模型;檢驗方法
中圖分類號:G712 文獻標志碼:A 文章編號:1674-9324(2017)17-0082-02
一、引言
房價大數(shù)據分析模型通過機器學習方法構建,模型建立完成后需要對模型進行檢驗,房價大數(shù)據模型需要檢驗擬合的情況,欠擬合說明模型對數(shù)據的覆蓋程度不夠,過擬合無法反應模型的通用性。通過回歸診斷,診斷殘差情況,殘差是反映真實值與假設值之間的差,希望模型殘差盡量小,假設值極大地逼近真實值。通過檢驗可以剔除奇異數(shù),剔除一些干擾項。
二、回歸診斷
1.房價大數(shù)據分析模型。price1<-data.frame(price=c(130,140,150,135,200,220,210,280,300,320,350),size=c(50,55,60,55,80,90,90,110,120,130,140),room=c(1,1,1,1,2,2,2,3,3,3,3));tline<-function(){plot(price~room+size,data=price1,pch=16,col='red');model1=lm(price~room+size,data=price1);)tline();summary(model1)。模型構建采用最小二乘算法進行機器學習,經過訓練數(shù)據訓練,訓練出房價大數(shù)據分析模型。通過summary(model1)函數(shù),生成模型檢驗數(shù)據,檢驗模型擬合情況、殘差數(shù)據、正態(tài)分布情況、方差檢驗、奇異數(shù)檢驗,通過模型檢驗數(shù)據分析模型是否需要進一步優(yōu)化。
Residuals:
Min 1Q Median 3Q Max
-7.5556 -2.6667 -0.2222 3.5556 8.6667
殘差最小是-7.5556,最大是8.6667,中值是-0.2222。估計的值與真實值存在一定的誤差,通過求極值算法使之最小。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1
Residual standard error: 5.837 on 6 degrees of freedom
Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932
F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07
2.模型參數(shù)。采用最小二乘法算法,經過機器學習,訓練出模型參數(shù),構成房價大數(shù)據分析模型:房價大數(shù)據分析模型為y=aX1+bX2+C,其中:X1=size(面積),X2=room(間數(shù)),y(總價)。經過機器學習得到模型以下參數(shù):Size=1.5111;Room=15.7778;截距=
43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函數(shù)為房價大數(shù)據分析模型。
3.顯著性檢驗。
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1
殘差自由度為6的殘差標準誤差為5.837,p-value:1.346e-07,P值很小說明無自相關性,殘差項之間獨立。自變量與應變量相關性,截距和size顯著性均為三顆星***,說明截距和size與Y相關性顯著;room沒有星,說明room與Y房價相關性不顯著。
4.擬合情況分析。
通過數(shù)據可視化,觀察房價大數(shù)據散點圖,可以看出房價大數(shù)據訓練樣本呈直線分布。可以用線性回歸進行房價大數(shù)據分析模型的構建。
通過殘差與擬合圖,觀察和分析模型對訓練數(shù)據集擬合程度,從上圖擬合線(紅線)對數(shù)據的擬合情況看,基本上擬合了大多數(shù)數(shù)據。沒有發(fā)生欠擬合或過擬合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,從這兩個數(shù)據可以看出擬合達到99%以上,擬合程度很高。
5.假設性檢驗。從正態(tài)Q-Q圖上可以看出,數(shù)據分布在45°直線周圍,標準殘差成正態(tài)分布,滿足正態(tài)性假設。
6.方差檢驗。同方差性,若滿足不變方差假設,位置—尺度圖縱坐標為標準化殘差的平方根,殘差越大,點的位置越高。從圖中可以看出經過對殘差處理為標準化殘差的平方根,擬合的總體趨勢還可以,個別點可以看出遠離擬合線如“點5”、“點7”,奇異點已經顯露。
7.奇異數(shù)檢驗。從殘差與杠桿圖中可以看出離群點和影響強度。Cook's distance值衡量強影響點的強度,從圖中可以看出“點7”這個點Cook's distance值超過0.5是所有數(shù)據中Cook's distance值最高的數(shù)據,它是目前的強影響點。杠桿值高的數(shù)據是離群點,目前“點4”杠桿值也較高,它也是離群點。
三、交叉驗證
從訓練數(shù)據集中提取一部分數(shù)據作為驗證數(shù)據,將驗證數(shù)據代入房價大數(shù)據分析模型,得出的結果與真實數(shù)據進行比較。如果與真實值很接近,說明分析模型預測房價比較準確;如果模型得出的結果與真實的房價相差較大,需要優(yōu)化房價大數(shù)據分析模型算法。