韓寶燕
(山東工藝美術學院 公共課教學部,山東 濟南250000)
居民消費支出是指城鄉居民個人和家庭用于生活消費以及集體用于個人消費的全部支出。商品性支出主要是居民用于購買商品的支出,非商品性支出主要就是指居民享受文化服務和生活服務的支出。非商品支出能從一個側面反映居民消費結構的變化和經濟水平的發展。
回歸這個詞最早是由英國著名統計學家Francis Galton在19世紀末期研究孩子及他們的父母的身高時提出來的。在研究時,Galton發現父母的身材高,他們的孩子身材也高,身材矮的父母孩子身材也矮。但是,他發現,該身材父母的孩子的身高并不像他們父母那般高,而身材矮的父母的孩子的身高并不像他們父母那樣矮,而是集中的趨向于某一值,Galton把這種趨勢稱為回歸效應,至此回歸一詞產生。后來,他發展研究兩個數值變量,這種方法也就是后來的回歸分析。
回歸分析是以概率論與數理統計為基礎迅速發展起來的一種應用型較強的學科。現在,回歸分析被廣泛的應用于經濟方面的研究。在現在的經濟研究中,回歸分析通常可以與聚類分析一起使用,在原始的分類學中,人們是根據經驗和專業知識來進行定性分析,很少使用數學工具,但是隨著人們不斷深入的去了解自然和社會,要處理的數據原來越復雜,相互關系越來越復雜,分類也越來越細,對數據分類的要求也變得越來越高,這時僅僅依靠經驗和專業知識進行分類是不夠的,這時數學便引入到數據分析中,便形成了數據分類學。這種方法是對分析對象進行定量的研究,由于這種方法不僅能夠用于分類,還能應用于其他領域,于是人們認為用“聚類分析”這個詞更為合適。
回歸分析方法是在眾多相關變量中,根據實際問題的要求,考察其中一個或幾個變量與其余變量的依賴關系。如果只要考察某一個變量與其余多個變量的相互依賴關系。我們稱為多元回歸問題。
多元回歸分析是研究因變量Y與k個自變量x1,x2,…,xk的相關關系,而且總是假設因變量y為隨機變量,而x1,x2,…,xk為一般變量。
如果被解釋變量(因變量)y 與 k 個解釋變量(自變量)x1,x2,…,xk之間有線性相關關系,那么他們之間的多元線性總體回歸模型可以表示為:

式中,β0,β1,β2,…,βk是 k+1 個未知參數,又稱為回歸系數;μ 是隨機誤差項。 如果我們將 n 組實際觀測數據(yi,x1i,x2i,…,xki)i=1,2,…,n代入式中可得到下列形式:


在多元線性回歸分析中,并不是所有的自變量都對因變量都有顯著地影響,這就存在著如何挑選出對因變量有顯著影響的自變量問題。從20世紀60年代開始,關于回歸自變量的選擇成為數理統計中研究的熱點問題,人們提出了一些較為簡便、實用、快速的選擇“最優”方程的方法。人們所給出的方法各有優缺點,至今還沒有絕對最優的方法,目前常用的方法有“前進法”、“后退法”、“逐步回歸法”,而逐步回歸法最受推崇。
逐步回歸的基本思想是“有進有出”。具體做法是將變量一個一個引入,引入變量的條件是其偏F統計量或t統計量經檢驗是顯著的。即每引入一個自變量后,對已經被選入的變量要進行逐個檢驗,當原引入的變量由于后面變量的引入而變得不在顯著時,要將其剔除。引入一個變量或從回歸方程中剔除一個變量,為逐步回歸的一步,每一步都要進行偏F檢驗或t檢驗(二者等價),以確保每次引入新的變量之前回歸方程中只包含顯著的變量。這個過程反復進行,直到既無顯著的自變量選入回歸方程,也無不顯著自變量從回歸方程中剔除為止。這樣就保證了最后所得的回歸子集是“最優”回歸子集。
在逐步回歸法中需要注意的是引入和剔除自變量的顯著性水平應該有所不同,一般要求引入自變量的顯著性水平α1小于剔除自變量的顯著性水平α2,否則可能產生“死循環”的現象。
聚類分析是統計學中研究的“物以類聚”問題的多元統計分析方法。聚類分析在統計分析的應用領域中已經得到了廣泛的應用。
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
Q型聚類是對樣本進行聚類,它使具有相似特征的樣本聚集在一起,使差異性大的樣本分離開來。分類的結果是直觀的,且比傳統分類方法更細致、全面、合理。
設有n個樣品,每個樣品測得m項指標。系統聚類方法的基本思想是:首先定義樣品間的距離(或相似系數)和類與類之間的距離。初始將n個樣本看成n類(每一類包含一個樣品),這時類間的距離與樣品間的距離是等價的;然后將距離最近的兩類合并成為新類,并計算新類與其他類的類間距離,再按最小距離準則并類。這樣每次縮小一類,知道所有的樣品都聚成一類為止。
由以上系統聚類法的基本思想,即可得出它的基本步驟如下:
(0)數據變換:數據變換的目的是為了便于比較和計算,或改變數據的結構。定義樣品間的距離和類與類之間的距離。(1)計算n個樣品兩兩間的距離,得樣品間的距離矩陣D(0),初始的n個樣品各自構成一類。 (2)找出距離最小元素,設為 Dpq,即將 Gp、Gq合并為一新類,記為Gr。(3)按類與類之間的距離計算新類與其他類的距離,重復步驟(2)和(3),知道類的總個數為 1 時轉到步驟(4)。(4)畫譜系聚類圖。(5)決定分類的個數及各類的成員。
[1]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005.
[2]薛薇.統計分析與SPSS的應用[M].2版.北京:中國人民大學出版社,2008.
[3]金玉國.計量經濟學[M].北京:經濟科學出版社,2006.
[4]何曉群.多元統計分析[M]北京:中國人民大學出版社,2008.
[5]國家統計局.中國統計年鑒[M].北京:中國統計出版社.
[6]朱建平.應用多元統計分析[M].北京:科學出版社,2006.
[7]陳捷.中國城鎮居民消費結構變化的定量分析[J].統計與決策,2003.