陳文浩
(汕頭市測繪研究院,廣東汕頭 515041)
基于SPSS的沉降觀測數據異常值探測與回歸分析
陳文浩?
(汕頭市測繪研究院,廣東汕頭 515041)
沉降觀測數據受各種因素影響,觀測數據的處理極其重要,本文提出利用SPSS軟件對建筑物沉降觀測數據進行異常值探測并進行科學取舍的思路和方法,并經過樣本測試,分析比較對實測數據的回歸分析法中幾種曲線擬合法在預測沉降點變化中的各自的有效性和精確性。
SPSS;建筑物;沉降;觀測;異常值;探測;回歸分析
隨著社會的不斷進步與發展、先進科學技術與新型材料在建筑領域中的廣泛應用,高層與超高層建(構)筑物的出現越來越多,為保證高層建筑物本身的正常使用壽命與安全性以及考慮對周邊建筑群體帶來的復雜變形影響,必須從施工到竣工直至沉降穩定階段進行周期性的沉降觀測,研究其沉降原因和規律,為建筑物的設計、施工、運營維護及科學研究提供可靠資料,及時反饋信息,預防不均勻沉降和裂縫的出現。
沉降觀測中對觀測數據的處理極其重要,但是觀測數據受各種復雜因素的影響,存在各種誤差甚至粗差。通常的做法是在沉降觀測前采取各種措施預先防止各種系統誤差和偶然誤差的產生,通過內外業數據檢查剔除粗差后再對沉降觀測數據進行平差計算得到當期沉降數據,最后通過對多期觀測數據的分析對建筑物的穩定性做出相應的評價和預測[1]。
本文以某新建高層建筑物的沉降量曲線出現的異常抖動現象為研究對象,使用SPSS統計分析軟件,對數據進行異常值探測,排除異常的數據,從而達到優化計算數據并更好地體現出沉降規律的目的,最后通過回歸分析進行穩定性的預測,以指導后期施工和設備安裝。
在靜態沉降觀測中,幾乎所有的新建建筑物的沉降總是一個緩慢沉降并趨于穩定的過程,各沉降點的沉降速度均勻且趨于平坦,如圖1所示。
但是通過觀察沉降點的沉降量曲線,會發現這些曲線并不是平緩的,各期之間的沉降差也不是均勻的,沉降量曲線在某幾個周期會出現異常抖動的情況,如圖2所示。

圖1 建筑物X2號沉降點最后100 d沉降速度線

圖2 建筑物X2號沉降點沉降過程線
通過現場荷載試驗[2]的結論可知當荷載小于其臨界荷載時,p-s之間呈直線關系,即可排除荷載對沉降量異常的影響;通過外業檢查,排除了工作基點和監測點被破壞的情況。下面通過統計學分析,對這些由于偶然誤差以及外界條件的影響而造成異常的數據進行檢驗,科學地對數據進行取舍。
2.1 數據異常值探測
數據曲線擬合及分析的傳統方法是采用最小二乘法和坐標紙作圖法,這種手工做法計算量大,精度不高,數據的計算機處理已經成為趨勢。目前常見的方法是使用自編程序或Excel、Grapher等軟件。自編軟件往往功能單一,可視化功能差;Excel軟件功能雖然較強,但對數據的處理過程中針對性不強,數據分析能力弱。而SPSS數據分析軟件適合于中小型數據庫的處理、分析和可視化表達,應用比較廣泛。
(1)SPSS探索分析過程
SPSS的探索性分析(Explore)過程,適用于對數值型的變量(連續型或比率型)進行分析,能夠生成關于所有個案、或不同分組個案的綜合統計量及圖形,并進行數據篩選工作,還可以進行假設檢驗。此過程對數據的分布沒有特定限制。以該新建建筑物X2號點的沉降觀測數據為例,通過探索性分析對這些數據加以詳細描述,并進行數據的篩選。
(2)數據描述
該沉降點于2009年11月25日開始首次觀測,于2010年10月14日結束觀測,共觀測38期,觀測數據如表1所示。

表1 X2沉降點沉降觀測數據
(3)異常值探測結果
①不考慮日期間隔的影響
選取期沉降量為因變量進行探測,描述性輸出結果如表2所示,直方圖如圖3所示,箱圖如圖4所示。

表2 描述性輸出
由圖4可知,第2期以及第8期數據存在值偏低的異常,第7期以及第9期數據存在值偏高的異常。

圖3 直方圖

圖4 箱圖
②考慮時間間隔的影響
使用期沉降量作為因變量,同時選取時間間隔(天為單位)作為因子,考察在相同時間間隔下的數據異常。正態性檢驗結果如表3所示,其中時間間隔為7 d的直方圖如圖5所示,散點圖如圖6所示,箱圖如圖7所示。

表3 正態性檢驗

圖5 直方圖(時間間隔7 d)

圖6 趨降標準散點圖(時間間隔7 d)

圖7 箱圖
由圖7可知,在考慮時間間隔的情況下,第8期和第9期的數據存在異常。
通過兩種探測思路的綜合分析,得出第8期以及第9期的數據屬于異常,需要在計算時進行排除。
2.2 數據異常值探測的檢驗
利用SPSS中的頻數分析功能,通過比較去除異常值前后的計算結果,來對去除的效果進行檢驗,異常值消除前后頻數分析如表4所示,直方圖比較如圖8所示。

表4 異常值消除前后頻數分析

圖8 消除異常值前后直方圖比較
從偏度和峰度來看,消除異常值后的數據確實能更好地表達沉降趨勢。
SPSS的曲線估計模塊能夠自動擬合包括線性模型、對數曲線模型、二次曲線模型和指數模型在內的十幾種曲線模型。輸出的統計量包括模型的回歸系數、復向光系數、調整R方和方差分析表等。
由于沉降數據中存在非正數值,所以不能進行冪模型和指數模型計算。選取線性模型、二次曲線模型、對數模型,使用時間序列對該沉降點的累計沉降量進行回歸分析,比較模型如表5、圖9所示,數值比較如表6所示。

表5 模型與參數估計值輸出(因變量:累計沉降量)

圖9 三種模型曲線擬合圖

表6 三種模型計算數據比較表(最后10期)
通過比較可以看出,線性模型達到的預測效果最好。
基于誤差理論及精度控制,運用數理統計知識和SPSS軟件,提出了對建筑物沉降觀測數據進行異常值探測并進行科學取舍的思路和方法。經過樣本測試,得到了回歸分析法的曲線擬合法在預測沉降點變化中的各自的有效性和精確性。
本文研究的出發點僅是從單一變量對沉降量的影響進行考量,但是往往現場觀測具有復雜性和沉降環境的多變性,因此對于不同的觀測環境和地基條件,還待于獲得更多資料進行更為詳細的研究。
[1] 陳小榮,雷勁松.高層建筑沉降觀測數據處理與分析新方法[J].四川建筑科學研究,2009(6):119~124.
[2] 游祖吉,樊功瑜.測量平差教程[M].北京:測繪出版社, 1991:279~281.
[3] 杜強賈麗燕.SPSS統計分析從入門到精通[M].北京:人民郵電出版社,2009.
[4] 陳東東,馬大喜.某小區高層建筑沉降觀測技術及數據分析[J].城市勘測,2013(5):127~130.
[5] 胡杰.形變分析中的模型精化研究[J].城市勘測,2012 (6):148~151.
Detection of Outliers and Regression Analysis Based on Observational Data SPSS for Settlement
Chen Wenhao
(Shantou Institute of Surveying and Mapping,Shantou 515041,China)
Settlement observation data affected by various factors,treatment is extremely important observation data, we propose the use of SPSS software for building settlement observation data to detect abnormal values and trade-offs of scientific ideas and methods,and after sample tests,analysis and comparison of the measured data several regression analysis predicting subsidence curve fitting point in changing their validity and accuracy.
SPSS;building;settlement;observations;outliers;probe;regression analysis
2014—02—02
陳文浩(1973—),男,工程師,現主要從事測繪技術與經營管理工作。