李佳奇,呂 宏
?
基于SPSS的城市廢氣中主要排放物的統計與分析
李佳奇1,呂 宏2
(1. 昆明理工大學機電工程學院,云南 昆明 650051;2. 昆明理工大學機電工程學院,云南 昆明 650051)
近幾年來,我國經濟發展迅速,一躍成為世界一大經濟強國。但是隨之犧牲的是空氣質量下降,環境污染越來越嚴重。為了了解我國城市廢氣中主要污染物的排放情況和污染來源,我選取了我國幾個主要城市中工業二氧化硫排放量、工業氮氧排放量、工業煙(粉)塵排放量、生活二氧化碳排放量、生活氮氧化物排放量和生活煙塵排放量幾個指標對這個問題進行分析。
SPSS;聚類分析;判別分析;因子分析
SPSS是世界上最早采用圖形菜單驅動界面的統計軟件,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮[1]。廢氣是指人類在生產和生活過程中排出的有毒有害的氣體[2]。特別是化工廠、鋼鐵廠、制藥廠,以及煉焦廠和煉油廠等及人類生活所帶來的生活廢氣的產生,排放的廢氣氣味大,嚴重污染環境和影響人體健康。近年來,隨著城市工業的發展,大氣污染日益嚴重,空氣質量進一步惡化,不僅危害到人們的正常生活,而且威脅著人們的身心健康。我國大氣污染比較嚴重地集中在經 濟發達的城市地區,城市也是人口最密集的地方,我國城市嚴重的大氣污染對居民健康造成了巨大的危害,已經成為廣泛關注的熱點問題之一。
本文主要選取了中國統計年鑒上的一組數據,關于2015年我國主要城市廢氣中主要污染物的排放方面的問題。對該數據,用統計軟件對它進行了聚類、判別、因子、相應等方面的分析,希望通過對該數據的分析研究一下影響我國主要城市空氣質量的因素并盡可能的提出解決方法。
將獲取的數據錄入到SPSS當中,如下圖1所示。

圖1 主要城市廢氣中主要污染物的排放情況
聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。通常聚類分析為Q型聚類和R型聚類。Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理[3]。本文使用系統聚類對數據進行聚類分析。為了在第二步進行判別分析,在這里首先取出天津、哈爾濱、杭州、廣州四個城市的信息,對其他的地區進行分類分析。
SPSS運行結果如表1所示。
表1是系統聚類得到的聚類表,其中包括了群集組合、系數和首次出現階群集,從中我們可以看出不同的群集之間的系數差異較大。
表2是系統聚類得到的最終的聚類結果。從表中可以看出,北京、南昌、長沙、南寧、海口、成都、貴陽、拉薩和西安為第一類;重慶為第三類;其余城市為第二類。從原始數據圖1中可以看出,第三類的城市廢氣中污染物含量較高,屬于空氣污染嚴重的地區,環境治理迫在眉睫;第二類污染物含量居中,空氣質量較差,需要治理;第一類的城市廢氣中污染物含量較低,屬于空氣質量不錯的城市。比較分類結果也是比較符合實際。
表1 聚類表

Tab.1 Cluster table
表2 群集成員

Tab.2 Cluster members

圖2 聚類分析的樹狀圖
圖2是用系統聚類的得到的樹形圖。從圖中可以看出,樹形圖得出的結論和群集成員的分類結果基本吻合,也與實際相符。
在聚類分析的基礎上對其他的四個未分類的數據進行判別分析[4],找到屬于它們的分類。
表3 匯聚的組內矩陣

Tab.3 Aggregated inner matrix
表3是匯聚的組內矩陣,其中的數值表示的是每個變量同他自身以及其他的變量之間的相關系數,從中可以看出生活二氧化硫排放量和生活氮氧化物排放量之間,工業氮氧化物排放量和工業二氧化硫排放量之間的相關性是比較大的,而其他的幾個變量之間相關性較小。
表4是標準化的典型判別式函數系數,由標準化的自變量通過Fisher判別法[5]得到的,通過上表可以得到標準化的典型判別函數,要得到標準化的典型判別得分,代入該函數的自變量必須是經過標準化的。這種方法相對比較麻煩,我們一般不采用。
表4 標準化的典型判別式函數系數

Tab.4 Typical discriminant function coefficients of standardization
表5是未標準化的典型判別函數系數,由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數使用起來比標準化的系數要方便一些。一般在輸出表中是默認保留三位小數,但有些系數是0.000,為判別函數的結果造成誤差,可以在右擊后選擇更改單元格格式中改一下顯示的小數點位數。
表5 典型判別式函數系數

Tab.5 Canonical discriminant function coefficient
由此表可知,兩個Fisher判別函數分別為:
1=–3.503926+0.0000711–0.0000302+ 0.0000073–0.0000134–0.0000135+0.0000276
2=–1.766617–0.0000171+0.0000352+ 0.0000203–0.0000324+0.0000055+0.0000296
實際上兩個函數式計算的是各觀測值在各個維度上的坐標,這樣就可以通過這兩個函數式計算出各樣品觀測值的具體空間位置。
表6給出了組重心處的函數,實際上為各類別重心在空間中的坐標位置。這樣,只要在前面計算出各觀測值的具體坐標位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。
表6 組質心處的函數

Tab.6 Functions at the center of a group
如表7所示,Ward Method欄中的每一列表示樣品判入相應列的Bayes判別函數系數。在本例中,各類的Bayes判別函數如下:
1=–2.525429+0.0000711–0.0000212+ 0.0000183+0.0000584–0.0001205+0.0000836
2=–11.013341+0.0001751+0.0000082+ 0.0000853–0.0000524–0.0001355+0.0002146
3=–338.565610+0.0018061–0.0007542+ 0.0002083–0.0002704–0.0004385+0.0007536
表7 分類函數系數

Tab.7 Classification function coefficient
將各地區的自變量值代入上述三個Bayes判別函數,得到三個函數值。比較這三個函數值,哪個函數值比較大就可以判斷該樣品判入哪一類。結果可知,天津、哈爾濱、杭州歸為第二類,廣州歸為第一類,如下圖3所示。
因子分析也是一種降維、簡化數據的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數據中的基本結構,并用少數幾個“抽象”的變量來表示其基本的數據結構[6]。這幾個抽象的變量被稱作“因子”,能反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而因子一般是不可觀測的潛在變量。
表8是相關矩陣表,相關系數反映每個變量相互之間的依賴程度[7],由上面的表可以看出多數變量之間相關性還是比較強的,生活煙塵排放量和工業二氧化硫排放量相關性最低,相關系數為–0.022。
表9是公因子方差表,里面包括各變量初始的方差和提取的因子的方差。變量中大部分信息能被因子所提取,說明因子分析的結果有效。
表10給出各公因子方差貢獻表,其中初始特征值的三列給出初始相關矩陣或協差陣矩陣的特征值,用于確定哪些因子應該被提取:合計列為各因子對應的特征值,本例中共有兩個因子對應的特征值大于1,因此應提取相應的兩個公因子;方差的%列為各因子的方差貢獻率;累積%列為各因子的累積方差貢獻率,由上表可以看出,前兩個因子已經可以解釋82.336%的方差,所以,提取前兩個為公因子。后面兩大列給出提取出的公因子以及其經過旋轉后的方差貢獻情況。

圖3 判別分類結果
表8 相關矩陣

Tab.8 Correlation matrix
a. 行列式 = .009
表9 公因子方差

Tab.9 Common factor variance
提取方法:主成份分析。
圖4是個變量所占比重的碎石圖,可見第一個成分的方差貢獻率最大,而前兩個成分的累積貢獻率已經足夠代表所有變量。
表11給出旋轉前的因子載荷陣,根據該表可以寫出每個原始變量的因子表達式:
1=0.7621–0.53822=0.7881–0.41323=0.7551–0.5382
4=0.7621+0.45125=0.6221+0.71426=0.5161+0.6862
從上表可以看出,每個因子在不同原始變量上的載荷沒有明顯的差別,為了便于對因子進行命名,需要對因子載荷陣進行旋轉。
表12給出旋轉后的因子載荷陣,從表上可以看出,經過旋轉后的載荷系數已經明顯兩極分化了。第一個公共因子在指標1、2、3上有較大的載荷,說明這三個指標有較強的相關性,可以歸為一類;第二個公共因子在指標4、5、6上有較大載荷,可以歸為一類。
表10 解釋的總方差

Tab.10 Total variance of interpretation
提取方法:主成份分析。

圖4 碎石圖
表11 成分矩陣

Tab.11 Component matrix
提取方法:主成份。
a. 已提取了2個成份
表12 旋轉成分矩陣

Tab.12 Rotated component matrix
提取方法:主成份。旋轉法:具有Kaiser標準化的正交旋轉法。
a. 旋轉在3次迭代后收斂。
表13給出因子轉換矩陣,若用表示旋轉前的因子載荷陣,用B表示因子轉換矩陣,用表示旋轉后的因子載荷陣,則有:=。
表13 成份轉換矩陣

Tab.13 Component transformation matrix
提取方法:主成份。
旋轉法:具有 Kaiser 標準化的正交旋轉法。
表14是因子得分系數矩陣,根據上表中的因子得分系數和原始變量的標準化值可以計算每個觀測值的各因子的得分數,并可以據此對觀測量進行進一步的分析。本例中旋轉后的因子得分表達式可以寫成:
1=0.3721+0.3382+0.3703+0.0534– 0.0695–0.0876
2=–0.0601–0.0042–0.0613+0.3414+ 0.4185+0.3846
表14 成份得分系數矩陣

Tab.14 Component score coefficient matrix
提取方法:主成份。
旋轉法:具有Kaiser標準化的正交旋轉法。
構成得分。
注意:在因子表達式中的各變量為進行標準化變換后的標準變量。
最后計算因子得分,以個因子的方差貢獻率占兩個因子總方差貢獻率的比重作為權重進行加權匯總,得到個城市的綜合得分,即表15。
表15 各城市因子得分及排名

Tab.15 City factor score and ranking
從上表可以看出重慶這個城市在工業廢氣上的排放量比重最高,也說明城市廢氣污染的主要受是工業二氧化硫排放量、工業氮氧化物排放量和工業煙塵排放量這個1公共因子的影響。
(1)聚類分析將城市分為三類,判別分析將未歸類的四個城市歸于上述三類中,不難看出城市的環境污染狀態與該城市的經濟結構有一定的關系,以工業為主要發展經濟的城市中廢氣污染物較多。
(2)因子分析得出的各城市因子分析及排名可以體現廢氣污染物排放量的比重,由此可以根據排名對出針對性措施。
綜合以上所有分析,我國各個城市之間的環境質量存在很大的差距,工業發展較發達的城市空氣污染及其嚴重。在污染嚴重的城市中,廢氣中的污染物主要來源于工業排放,而且不難看出,污染嚴重的大多是經濟較為發達,人口較為密集的城市。
所以,提出如下幾點建議:
(1)國家應該適當的轉變經濟發展方式,改善產業結構,減少能源消耗大的能源占比。
(2)發展經濟的同時,避免過多的重工業導致嚴重的環境污染。
(3)平衡城市之間的經濟發展,避免發達城市人口過度密集。
(4)加強城市綠化建設,優化環境治理投資 結構。
[1] 吳占福, 馬旭平, 李亞奎. 統計分析軟件SPSS介紹[J]. 河北北方學院學報(自然科學版). 2006, 56(06): 23-25
[2] 王凌, 魏瑾輝. 環境污染對人體健康的影響[J]. 江漢大學學報(自然科學版). 1987, 34(02): 45-53
[3] 何曉群. 現代統計分析方法與應用[M]. 北京:中國人民大學出版社 , 2007.
[4] 薛薇. 基于 SPSS 的數據分析 [M]. 北京 : 中國人民大學出版社,2006.
[5] 趙麗娜. Fisher判別法的研究及應用[D]. 東北林業大學. 2013.
[6] 張林泉. 基于因子分析的應用研究[J]. 哈爾濱師范大學自然科學學報. 2009, 21(05): 12-16
[7] 張璐, 權婷, 劉清. 使用SPSS進行相關分析[J]. 現代商貿工業. 2018, 35(03): 32-35
Statistics and Analysis of Major Emissions From Urban Waste Gas Based on SPSS
LI Jia-qi1, LV Hong2
(1. City college, Kunming University of mechanical and electrical engineering, Kunming 650051, China; 2. City college, Kunming University of mechanical and electrical engineering, Kunming 650051, China)
In recent years, China's economy has developed rapidly and has become a major economic power in the world. But the sacrifice is the deterioration of air quality and the increasingly serious environmental pollution. In order to understand the emission situation and sources of major pollutants in urban exhaust gases in China, I selected the industrial sulfur dioxide emissions, industrial nitrogen and oxygen emissions, industrial smoke (powder) dust emissions, domestic carbon dioxide emissions, domestic nitrogen oxides emissions and domestic smoke and dust emissions from several major cities in China. An indicator is used to analyze the problem..
SPSS; Cluster analysis; Discriminant analysis; Factor analysis
TP391.41
A
10.3969/j.issn.1003-6970.2018.12.028
李佳奇(1994-),女,研究生,主要研究方向:企業集成及信息化;呂宏(1965-),女,副教授,主要研究方向:企業集成及信息化。
李佳奇,呂宏. 基于SPSS的城市廢氣中主要排放物的統計與分析[J]. 軟件,2018,39(12):120-126