申停波++曹西娟++謝祥俊
摘 要:因子分析法是從研究相關矩陣或協方差的內部依賴關系出發,把一些具有錯綜復雜關系的變量歸結為少數幾個深層次因子,它是一種多變量統計方法。該文以成都市的空氣質量為例,針對具有代表性的空氣污染指標,利用因子分析法對成都市的空氣質量進行綜合分析,給出了成都市各月份的空氣質量因子綜合得分,與政府給出的環境空氣質量綜合指數進行卡方檢驗,結論具有一致性并與實際天氣狀況相符合。
關鍵詞:因子分析 空氣污染 綜合得分 卡方檢驗
中圖分類號:TN93 文獻標識碼:A 文章編號:1674-098X(2017)03(c)-0121-04
Study on Air Quality in Chengdu Based on Factor Analysis
Shen Tingbo Cao Xijuan Xie Xiangjun
(School of Sciences, Southwest Petroleum University, Chengdu Sichuan, 610500, China)
Abstract: Factor analysis is a kind of multivariate statistical method, which is based on the study of correlation matrix or covariance, and some of the variables with complex relations are reduced to a few deep factors First this paper based on the air quality in Chengdu city, focusing on the representative air pollution index, comprehensive analysis by using factor analysis method of air quality in Chengdu City, given the comprehensive score of air quality factor each month. The second is based on the comprehensive index score with the official air quality by the chi square test,results are consistent. It is concluded that the air quality in Chengdu is consistent with the results obtained by factor analysis.
Key Words: Factor analysis; Air pollution; Composite score; Chi square test
對空氣質量進行綜合評價的工作已經成為當今環保科學的重要課題,而空氣質量評價系統是由多種因子構成的復雜系統,受到多方面的影響。由于人們希望能夠盡早知道可能出現的大氣污染程度和空氣質量,以便采取防護措施來減輕污染危害,各地環保機構都已經開始實行空氣質量指數,飲用水水質質量檢測,地表水水質檢測。2012年2月29日,環保部新修訂的《環境空氣質量標準》新標準增加了PM2.5、O3、CO共3項考核指標,收緊了部分污染物濃度限值,將PM10的二級標準年均濃度限值由現行的0.100 mg/m3調整為0.070 mg/m3;NO2二級標準的年均濃度限值由現行的0.080 mg/m3調整為0.040 mg/m3;調整了數據統計的有效性規定。PM2.5和PM10同為懸浮在大氣中的顆粒物,只是粒徑大小不同。PM2.5是PM10的一部分,是指大氣中空氣動力學直徑小于或等于2.5 μm的顆粒物,也稱為細顆粒物,它的直徑還不到人的頭發粗細的1/20。PM2.5主要對呼吸系統和心血管系統造成傷害,包括呼吸道受刺激、咳嗽、呼吸困難、降低肺功能、加重哮喘、導致慢性支氣管炎、心律失常、非致命性的心臟病、心肺病患者的過早死。老人、小孩以及心肺疾病患者,是PM2.5污染的敏感人群。
在我國環境預測方面,時間序列預測在20世紀70~80年代開始逐步采用和預測,主要是根據歷史規律和歷史數據,采用自回歸平均移動模型等[1]。而因子分析可以很好地詮釋時間序列預測模型中的個數,找出問題的主要原因,有針對性地提高和改進。
1 基礎數據
根據成都市環境保護局發布2016空氣質量指數報告,飲用水水質質量檢測,地表水水質檢測報告,筆者搜集了2016年12個月成都市空氣污染情況統計數據(表1)。
2 因子分析法基本模型及算法步驟
(1)模型的建立。
假設有P個月份,因子分析的目的是用少數幾個公共因子(設為個因子)來描述個月份的協方差結構。以表示各空氣污染指標的隨機向量,建立正交因子模型,即存在綜合指標,也稱為主要因子。假設隨機變量滿足以下模型():
用矩陣表示為,其中,是的主要因子,成為影響的特殊因子,且與互不相關。
(2)數據的標準化。
首先對原始數據(第個指標,第個樣本上的原始數據值)進行標準化變換,以消除量綱以及數據上的差異。具體的方法為:
(3)確定初始主因子和初始因子的載荷矩陣。
(4)選取公共因子個數,計算因子載荷矩陣。
因子分析方法的目的就是尋求少數的幾個公共因子來解釋全部的評價指標。如果選取的因子數量過多,就會失去因子分析方法的意義;如果選取的因子個數較少,又會對原始信息產生浪費。因此可以以主成分方法的特征值為標準來選取公共因子的個數,該文選取碎石圖和主成分法對數據進行分析。如果發現每個公共因子的含義不清楚,不便于實際背景解釋,還需要對因子載荷進行旋轉。
(5)根據回歸算法計算出因子得分函數的系數。
因子分析的數學模型是將變量(或樣品)表示為公共因子的線性組合:
由于公共因子能反應原始變量的關系,用公共因子代替原始變量,有時更能有利于描述研究對象的特征,因而需要將公共因子表示為變量的線性組合,即:
上式稱為因子得分函數。
(6)由得分系數陣,算出成都市各月份的環境因子得分并對結果進行分析。
3 實例計算
對12個月成都市空氣污染情況統計數據采用(2)式進行數據標準化,變換后的數據可以仍然記作,具體的于是得到了12×6的標準化的數據矩陣,且滿足以下條件:
令,則為待估的系數矩陣,稱為因子載荷矩陣(見表2)。
對標準化后的數據進行KMO(Kaiser-Meyer-Olkin)檢驗和Bartlett球度檢驗[3](表3),得到KMO檢測值為0.828,根據統計學家Ksise的建議KMO的值大于0.5,適合做因子分析;Bartlett球度檢驗給出的相伴概率為0.00,小于顯著性0.05或者0.01,認為此數據適合做因子分析。
選取公共因子個數,計算因子載荷矩陣,運用SPSS軟件做出因子分析碎石圖,圖1和表4中可以看出前兩個綜合指標已經可以反映出原始數據中的大部分信息,因此可以取因子個數;由主成分法得到因子載荷矩陣:
由因子載荷矩陣可見:第一行至第四行,指標變量在第一因子上都有比較大的載荷值,前面4個指標在第二因子上有較大的載荷量,并且發現O3日8小時最大滑動平均在第一因子為負相關。因為因子的個數小于變量的個數,不能精確計算出因子的得分,只能對因子得分系數進行估計。采用回歸法進行估計得分系數矩陣(見表5)。
由得分函數,算出成都市各月份的環境因子得分,如表6。
環境空氣質量綜合指數是描述城市環境空氣質量綜合狀況的無量綱指數,綜合考慮了各項污染物的污染程度。環境空氣質量綜合指數越大,表明綜合污染程度越重。對綜合排名和公布的空氣指數進行檢驗,看這兩種結果是否具有顯著的差異。
由表7得:從卡方分布P值為0.015,小于0.05,表明市環境保護局給出的空氣質量指數排名與用因子分析法算出的排名相關,所以相關假設成立,指數排名與綜合排名具有一定的相關性。
該文根據成都市公布的空氣質量數據進行因子分析,得到影響空氣的主要因素為常規污染氣體和空氣中固體顆粒物兩大類。因子評價方法給出了2016年成都市空氣質量在主要因子上的得分,根據得分越高反而空氣質量越差進行了排名,可以看出2月、6月和7月空氣質量較好。而11、12月的空氣質量較差。根據歷史記錄,7月份成都市城區環境空氣質量6天優、14天良、10天輕度污染、1天重度污染,而12月份成都市城區環境空氣質量5天良、9天輕度污染、13天中度污染、4天重度污染,空氣質量達標天數比例16.1%,是比較差的。由此可見,運用因子分析法得出的結論與實際天氣狀況相符合。
參考文獻
[1] 郭祥鵬.因子分析法在空氣質量綜合評價中的應用[J].淮南師范學院學報,2015(3):14-16.
[2] 馬逢時,吳誠鷗,蔡霞.基于MINITAB的現代實用統計[M].中國人民大學出版社,2013.
[3] 張瓊.因子分析在學生成績綜合評價中的應用[J].惠州學院學報,2010,30(3):40-45.
[4] 朱星宇,陳勇強.SPSS多元統計分析方法及應用[J].清華大學出版社,2011.
[5] 王曉鵬.多元統計分析在河流污染狀況綜合評價中的應用[J].系統工程理論與實踐,2001,21(9):118-123.