摘 要: 文章從回歸分析基本理論入手,建立了線性回歸理論模型,論述了預測和控制的基本實現方法,并利用這一理論對裝備保障人員部分數據進行了初步的分析和預測。
關鍵詞: 一元線性回歸 檢驗 預測
隨著科技的不斷發展,武器裝備復雜性和高技術性不斷提高,于是關于裝備保障信息的海量數據出現了,裝備保障人員是海量數據中的一部分,文章將對這一數據進行研究分析。
一、回歸分析的基本理論
變量中最為簡單的是線性相關關系,設x是可控變量,Y是依賴于x的隨機變量,它們的關系是Y=α+βx+ε,其中,α、β是常數;ε是誤差項,期望值為0的隨機變量,即E(ε)=0,并且ε服從正態分布N(0,σ)。x與Y的這種關系稱為一元線性回歸(模型)。當x取回定值時,Y服從正態分布N(α+βx,σ)。上式兩邊取數學期望得:EY=α+βx,若記y=EY,則可改寫為:y=α+βx,稱之為Y對x的回歸直線方程,其中β稱為回歸系數。
已知變量x,Y的n對試驗值(x,y)(i=1,2,…,n),我們用最小二乘法求出α,β的估計值,作離差平方和Q=(y-y)=(y-α-βx),選擇參數α、β,使Q達到最小,即:
Q=(y-α-βx)=min
為此,令Q分別對α、β的兩個一階偏導數等于零,即:
因為方程組解到的不是α,β的真值,而是它們的估計值,所以可把方程組中的α,β分別用估計值、代替,得到:
=或=,
以及=-=+x,稱之為Y對x的經驗回歸直線方程,稱為經驗回歸系數。
二、一元線性回歸中的檢驗、預測理論
當隨機變量Y與變量X之間的線性相關關系顯著時,由試驗數據(x,y)(i=1,2,…,n)得到的Y關于X的線性回歸方程=+x大致反映了Y與X之間的變化規律,但由于它們之間的關系是非確定性的,對X于的任一值x,不可能確定Y的相應值y,由回歸方程確定的=+x只是y的估計值,我們自然關心,若以作為y的估計值,其精確性及可靠性能否保證?因此,對于給定的X=x,需要預測對應的Y的觀測值的取值范圍,即必須對y進行區間估計,對于給定的置信概率1-α,求出y的置信區間,稱為預測區間。由于y-與相互獨立,由t分布定義可知:~t(n-2)。對于給定的置信水平1-α,確定t(n-2),使
p 因此,y的對應于置信概率1-a的預測區間為: -t(n-2) 三、基于一元線性回歸理論的數據分析 (一)數據分析背景 本文數據分析主要是對裝備保障人員數據進行匯總并進行分析預測,即對各種資源應有數與現有數據存在差異進行分析。從理論上講,每個單位各類信息的應有數與現有數應一致,才能恰好滿足工作需求,但由于各種原因,出現了隨機變量ε,這使得有關部門針對這種變化無法作出正確決策,因此,我們通過本次分析,建立二者之間關系的數學模型,根據數學模型對現有資源作了初步預測,并根據需要,利用合理的現有數對應有數進行控制。 (二)數據分析方法步驟 根據相關知識,明確了按照線性回歸理論進行數據分析的基本步驟,基本步驟如下: 1.對要分析的數據對象進行收集整理,刪除異常記錄,抽樣,確定數據分析樣本。 2.計算樣本數據的,,,,x,,s各值。 3.將各值代入公式:=,求出β值。 4.按α=-x式,求出值,確定回歸方程=-x。 5.根據樣本數據作散點圖,并在圖中畫出回歸方程直線。 6.根據回歸方程計算任意x值時對應的值。 7.對于給定的置信概率,計算對y進行區間預測的下限和上限。 8.將數據進行分組(x,y)、(x,y),按2—4步分別求各組數據線性方程。 9.在同一圖中作各組數據散點圖,線性方程。 10.統計各數據散點的位置,對統計結果進行分析,形成分析結論。 (三)數據分析案例 本文采用的樣本數據是裝備保障人員中的80條應有數據、現有數據及對應專業數據,數據經過變換處理,并對80條數據作散點圖,在散點圖上作出回歸方程,如圖1所示。 圖1 一元線性回歸分析圖 分別計算應有數所對應上、下限根據計算結果,將數據分成三組,即(應有數,上限)、(應有數,估計值)、(應有數,下限),對三組數據再次進行回歸分析,求出各直線方程,在同一坐標系中作出各直線,對分布各直線附近的各點進行統計,其中,高出或在上限線上的點共4個,對應的專業分別為A、B、C,D;低于下限的點共4個,對應的專業分別為E、F、G、H;其它各點均在上下限之間。 通過上面分析可以得出以下結論: 1.從總體上來講,應有數與現有數基本能夠滿足需求。 2.技術人員現有人數根據所從事專業不同出現差別較大,從事A、B、C、D專業的技術人員現有數多于應有數,個別專業中現有人數低于應有人員。從事E、F、G、H專業的技術人員數量不足,不能滿足需求,而且缺編人數較多。 3.從長遠來看,應加大人才儲備,現有人數應以預測上限數為儲備標準。若應有數與現有數出現矛盾,不能滿足需求時,可以從合理的應有數預測合理的現有人數,也可以用合理的現有人數來控制應有數的大體區間,從而使用二者能夠滿足實際需求。 四、結語 本文采用線性回歸理論對保障人員的應有數、現有數進行分析,建立了二者之間的數學模型,以應有數為基礎,依據數學模型對現有人數進行了分析,得出了科學的結論,為決策部門提供了科學的依據。這種數據分析方法,為其它同類數據分析奠定了數據基礎。 參考文獻: [1]汪榮鑫.數理統計[M].西安:西安交通大學出版社,2006:174-222. [2]Schilling M.Setting up a data gathering infrastructure[M].2007:1-19. [3]Houtsma M,Set oriented data mining in relational databases[M].2000:1-20.