(廣東財經大學 經濟學院 廣東 廣州 510320)
我國經濟高速發展的同時,也伴隨著大量的環境問題,霧霾這一名詞的出現,也標志著我國由于工業化的進程對環境的造成了顯著影響。生活環境的變化,給人們的衣食住行都帶來了一系列的不便。其中,空氣質量變成人們日益關注的指標。因此,針對空氣指標的研究變得具有現實意義。尋找影響AQI的合理算法成為本文的主要研究方向。
對廣州市的各項空氣指標做簡單的散點圖可以看出,各項指標在第一季度的數值較高,之后呈現下降趨勢。各項空氣質量指標存在季節性變動。大氣環境污染影響著人們的健康生活,因此對AQI進行建模能夠為人們提供一個實時可查詢的信息。進而對這些環境指標的來源進行分析,對于環境保護存在指導意義。
本文數據來源于中國空氣質量在線監測分析平臺歷史數據。選取了2018年1月1日到2018年9月22日每天逐個觀測時間點的數據,將各個時間點的均值作為當天的值。對于有規律的缺失數據進行批量刪除。進而得到每天各個指標的平均值。
通過對各個變量畫散點圖、以及做相關性分析后發現,變量AQI和變量PM10、PM2.5、SO2之間有很強的相關性。AQI是通過一定的規則由PM2.5計算得出,因此,這也解釋了它們之間存在很強相關性的原因。在不滿足多元線性回歸的基本假定的情況下,因此,排除AQI對CO、NO2、O3、PM10、PM2.5、SO2這幾個變量進行主成分分析。
主成分分析的原理是,變量越多,對事物特征的反應就越完整、準確,但同時大量描述同一事物特征的變量數據疊加在一起可能造成信息嚴重重復,甚至會掩蓋事物內部的真正規律。主成分分析的作用就是從現有的眾多變量中,得出若干個起主導作用的綜合指標,并且可以判定這些綜合指標對所研究的事物或問題所起作用的大小。通過主成分的研究,既可以抓住原始變量所表達的重要信息,又減少了需要關心的變量數量,使得實際的應用和操作得到簡化。
假設某待分析的數據中每個完整的觀測有P個變量,分別用X1,X2,…,Xp表示,這個P個變量構成了p維的隨機向量X=(X1,X2,…,Xp)。每一個觀測對應值是隨機變量X的一個取值。為隨機向量X的協方差陣。那么根據高等代數的理論可知,一定存在正交矩陣U,使得:
U′∑U=Λ
其中Λ為對角矩陣diag(λ1,λ2,...,λp),并且λ1≥λ2≥...≥λp≥0。
這時對X進行如下線性變換,使得:
Y=U′X

首先對數據進行標準化處理,再對數據進行主成分分析,得出的結果如下:
本操作過程主要由SAS軟件實現。
從相關矩陣的特征值可以得出,對應于特征值4.21的這成分能解釋70.17%的變異;對應于特征值1.10的主成分能解釋88.53%的變異;對應于特征值0.35的主成分能解釋94.41%的變異。前三個主成分能解釋的變異比例達到了94.41%。

因子模式
根據相關系數矩陣的特征值可以寫出前三個主成分得分:
Factor1=0.81100*CO+0.93247*NO2+0.18133*O3+0.96572*PM10+0.95701*PM2_5+0.89547*SO2
Factor2=-0.37813*CO-0.10038*NO2+0.95694*O3+0.11084*PM10-0.00859*PM2_5+0.14285*SO2
Factor3=0.41664*CO-0.05077*NO2+0.21703*O3-0.03667*PM10+0.02601*PM2_5-0.35668*SO2
主成分的個數為3個,通過原始變量的線性組合得到主成分。第一主成分PM2_5、PM10指標的系數較大,這三個指標起主要作用,因此,我們可以把第一主成分看做由細微顆粒所組成的反應環境質量的顆粒指標。在第二主成分中,O3、CO指標的影響大,可以看做碳氧綜合指標。在第三主成分中,CO、SO2的系數較大,遠遠超過其他指標的影響,可以看做碳硫綜合指標。
(一)主成分回歸
利用三個主成分對AQI進行回歸。
R方= 0.8977,表示回歸模型能夠解釋響應變量89.77%的變異。三個主成分對應的P值都小于0.0001,則其系數都是顯著不為0。即各個系數都經過了假設檢驗且顯著不為0。
預測的回歸模型為:


從主成分Y表達式的系數可以看出:Y主要受O3和PM2.5的影響。