倪振威 宋道柱 朱成龍 王強 李潔
摘 要 支持向量機(SVM)的在大氣污染預測中顯示出良好的非線性回歸預測性能,本文通過建立基于該算法的時間序列模型,通過選取最優超平面,利用RBF核函數來解決在大氣預測中線性不可分的問題。并取得了很高的預測精度結果,為大氣回歸預測方面的問題研究提供了一種嶄新的思路。
關鍵詞 向量機;RBF核函數;預測
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-7597(2014)08-0050-02
SVM algorithm is applied to time series prediction of atmospheric pollution
Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4
(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)
Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.
Key Words: Vector machines; kernel function; forecast
隨著城市經濟的快速增長,工業化的進程日益加快。近幾十年來,大氣污染問題愈演愈烈,提高空氣質量,建立合理精確的預測模型是目前大氣污染預測的基礎。美國環保局(EPA)在進行大氣質量預測與評估時,主要用到了擴散模型與箱式模型,此外神經網絡統計模型能更為完善地模擬大氣污染因素的非線性關系,在大氣污染預測時取得了較好結過果。然而以上的模型或很難模擬復雜多變的大氣系統,或具有推廣能力差,過擬合等缺點。
支持向量機是由Vapnik實驗小組于1995年提出的一種新一代的機器學習技術,使用的是數學方法和優化技術[1,2],它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預測樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。成功應用于分類、回歸和時間序列預測等領域。本文主要討論基于支持向量機(SVM)算法在時間序列預測大氣污染中的問題研究。
1 基于支持向量機的時間序列預測模型
利用SVM進行回歸與預測的基本思想是:通過非線性映射將數據映射到高維特征空間Ω中,并在該特征空間進行線性
回歸[1]。
1.1 最優超平面
首先考慮兩個類別的分類問題,數據點用x來表示,這是一個n維向量;類別用y來表示,則超平面方程表示為:
圓點和方點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離稱為分類間隔,推廣到高維空間,最優分類線就變為最優分類面。
1.2 拉格朗日函數和對偶變量
將問題轉化為一個二次目標函數,約束條件為線性,即:
(表示w的二階范數)
在一定的約束條件下,目標最優,損失最小。通過拉格朗日二元變換到對偶變量的函數,這樣的優點在于:對偶問題往往更容易求解并且可以自然的引入核函數,進而推廣到非線性問題?;貧w分析問題將最終轉化為以下優化問題[3]:
1.3 核函數及參數的選擇
由于大氣污染的回歸與預測是高度非線性的,于是在上述基礎上,對于非線性的情況,選擇一個核函數,通過核函數將數據映射到高維空間,來解決在原始空間中線性不可分的問題。另一方面,核函數反映了訓練數據樣本的特性,對于系統的泛化能力影響較大,選擇哪種核函數進行預測很重要[4]。
在支持向量機中使用的核函數主要有四類:線性核函數、多項式核函數、RBF核函數、Sigmoid核函數。RBF核函數[3]的均方根誤差最小,因此本文在大氣污染預測時選取該核函數。下圖1所示的例子便是把低維線性不可分的數據通過高斯核函數映射到了高維空間。
圖1 多維圖形
2 預測實驗
根據04年4月全月武漢氣象資料SO2濃度值的數據進行試驗[4]。每組數據包括7個輸入因子和一個濃度實際值,采用最小信息預報準則評價模型的預測誤差,以當誤差最小來確定m,我們將前月年15組數據作為訓練數據,后15組作為測試數據,利用SVM回歸預測算法,將RBF作為核函數,確定訓練誤差e=0.001,通過MATLAB編程作圖分析,最后即得到污染平均濃度的時間序列數據,如圖3所示。
圖2 逐日SO2圖形
分析圖2可知,SO2誤差的來源主要收到環境空氣狀況的影響,一般一旦有風雨天,其衰減幅度加大,誤差加大。實測值與預測值相對誤差除個別突變點外,大部分在15%左右。
3 結論
1)建立了支持向量機時間序列預測大氣模型并給出了SO2預測濃度與實際濃度的對比折線圖。2)支持向量機的RBF核函數具有均方誤差小、高度可分離性等優點,能很好的步驟大氣污染物濃度之間的非線性關系,為大氣的預測模型提高了精度。3)目前支持向量機時間序列對大氣污染的預測尚處于探索階段,本文也只作出了粗略的探討,對于該方面的研究仍需進一步改進。
參考文獻
[1]白鵬,張斌,等.支持向量機理論及工程應用實例[M].西安電子科技大出版社,2008.
[2]馮漢中,陳永義.支持向量機在天氣預報中的應用[J].應用氣象學報,2004(15).
[3]趙瑩.支持向量機中高斯核函數的研究[J].華東師范大學,2007.
[4]胡基福.氣象統計學原理與方法[M].青島海洋大學出版社,1996.
作者簡介
倪振威(1993-),男,江蘇蘇州人,本科,研究方向:水質修復處理技術。endprint
摘 要 支持向量機(SVM)的在大氣污染預測中顯示出良好的非線性回歸預測性能,本文通過建立基于該算法的時間序列模型,通過選取最優超平面,利用RBF核函數來解決在大氣預測中線性不可分的問題。并取得了很高的預測精度結果,為大氣回歸預測方面的問題研究提供了一種嶄新的思路。
關鍵詞 向量機;RBF核函數;預測
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-7597(2014)08-0050-02
SVM algorithm is applied to time series prediction of atmospheric pollution
Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4
(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)
Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.
Key Words: Vector machines; kernel function; forecast
隨著城市經濟的快速增長,工業化的進程日益加快。近幾十年來,大氣污染問題愈演愈烈,提高空氣質量,建立合理精確的預測模型是目前大氣污染預測的基礎。美國環保局(EPA)在進行大氣質量預測與評估時,主要用到了擴散模型與箱式模型,此外神經網絡統計模型能更為完善地模擬大氣污染因素的非線性關系,在大氣污染預測時取得了較好結過果。然而以上的模型或很難模擬復雜多變的大氣系統,或具有推廣能力差,過擬合等缺點。
支持向量機是由Vapnik實驗小組于1995年提出的一種新一代的機器學習技術,使用的是數學方法和優化技術[1,2],它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預測樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。成功應用于分類、回歸和時間序列預測等領域。本文主要討論基于支持向量機(SVM)算法在時間序列預測大氣污染中的問題研究。
1 基于支持向量機的時間序列預測模型
利用SVM進行回歸與預測的基本思想是:通過非線性映射將數據映射到高維特征空間Ω中,并在該特征空間進行線性
回歸[1]。
1.1 最優超平面
首先考慮兩個類別的分類問題,數據點用x來表示,這是一個n維向量;類別用y來表示,則超平面方程表示為:
圓點和方點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離稱為分類間隔,推廣到高維空間,最優分類線就變為最優分類面。
1.2 拉格朗日函數和對偶變量
將問題轉化為一個二次目標函數,約束條件為線性,即:
(表示w的二階范數)
在一定的約束條件下,目標最優,損失最小。通過拉格朗日二元變換到對偶變量的函數,這樣的優點在于:對偶問題往往更容易求解并且可以自然的引入核函數,進而推廣到非線性問題?;貧w分析問題將最終轉化為以下優化問題[3]:
1.3 核函數及參數的選擇
由于大氣污染的回歸與預測是高度非線性的,于是在上述基礎上,對于非線性的情況,選擇一個核函數,通過核函數將數據映射到高維空間,來解決在原始空間中線性不可分的問題。另一方面,核函數反映了訓練數據樣本的特性,對于系統的泛化能力影響較大,選擇哪種核函數進行預測很重要[4]。
在支持向量機中使用的核函數主要有四類:線性核函數、多項式核函數、RBF核函數、Sigmoid核函數。RBF核函數[3]的均方根誤差最小,因此本文在大氣污染預測時選取該核函數。下圖1所示的例子便是把低維線性不可分的數據通過高斯核函數映射到了高維空間。
圖1 多維圖形
2 預測實驗
根據04年4月全月武漢氣象資料SO2濃度值的數據進行試驗[4]。每組數據包括7個輸入因子和一個濃度實際值,采用最小信息預報準則評價模型的預測誤差,以當誤差最小來確定m,我們將前月年15組數據作為訓練數據,后15組作為測試數據,利用SVM回歸預測算法,將RBF作為核函數,確定訓練誤差e=0.001,通過MATLAB編程作圖分析,最后即得到污染平均濃度的時間序列數據,如圖3所示。
圖2 逐日SO2圖形
分析圖2可知,SO2誤差的來源主要收到環境空氣狀況的影響,一般一旦有風雨天,其衰減幅度加大,誤差加大。實測值與預測值相對誤差除個別突變點外,大部分在15%左右。
3 結論
1)建立了支持向量機時間序列預測大氣模型并給出了SO2預測濃度與實際濃度的對比折線圖。2)支持向量機的RBF核函數具有均方誤差小、高度可分離性等優點,能很好的步驟大氣污染物濃度之間的非線性關系,為大氣的預測模型提高了精度。3)目前支持向量機時間序列對大氣污染的預測尚處于探索階段,本文也只作出了粗略的探討,對于該方面的研究仍需進一步改進。
參考文獻
[1]白鵬,張斌,等.支持向量機理論及工程應用實例[M].西安電子科技大出版社,2008.
[2]馮漢中,陳永義.支持向量機在天氣預報中的應用[J].應用氣象學報,2004(15).
[3]趙瑩.支持向量機中高斯核函數的研究[J].華東師范大學,2007.
[4]胡基福.氣象統計學原理與方法[M].青島海洋大學出版社,1996.
作者簡介
倪振威(1993-),男,江蘇蘇州人,本科,研究方向:水質修復處理技術。endprint
摘 要 支持向量機(SVM)的在大氣污染預測中顯示出良好的非線性回歸預測性能,本文通過建立基于該算法的時間序列模型,通過選取最優超平面,利用RBF核函數來解決在大氣預測中線性不可分的問題。并取得了很高的預測精度結果,為大氣回歸預測方面的問題研究提供了一種嶄新的思路。
關鍵詞 向量機;RBF核函數;預測
中圖分類號:TP18 文獻標識碼:A 文章編號:1671-7597(2014)08-0050-02
SVM algorithm is applied to time series prediction of atmospheric pollution
Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4
(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)
Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.
Key Words: Vector machines; kernel function; forecast
隨著城市經濟的快速增長,工業化的進程日益加快。近幾十年來,大氣污染問題愈演愈烈,提高空氣質量,建立合理精確的預測模型是目前大氣污染預測的基礎。美國環保局(EPA)在進行大氣質量預測與評估時,主要用到了擴散模型與箱式模型,此外神經網絡統計模型能更為完善地模擬大氣污染因素的非線性關系,在大氣污染預測時取得了較好結過果。然而以上的模型或很難模擬復雜多變的大氣系統,或具有推廣能力差,過擬合等缺點。
支持向量機是由Vapnik實驗小組于1995年提出的一種新一代的機器學習技術,使用的是數學方法和優化技術[1,2],它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預測樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。成功應用于分類、回歸和時間序列預測等領域。本文主要討論基于支持向量機(SVM)算法在時間序列預測大氣污染中的問題研究。
1 基于支持向量機的時間序列預測模型
利用SVM進行回歸與預測的基本思想是:通過非線性映射將數據映射到高維特征空間Ω中,并在該特征空間進行線性
回歸[1]。
1.1 最優超平面
首先考慮兩個類別的分類問題,數據點用x來表示,這是一個n維向量;類別用y來表示,則超平面方程表示為:
圓點和方點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離稱為分類間隔,推廣到高維空間,最優分類線就變為最優分類面。
1.2 拉格朗日函數和對偶變量
將問題轉化為一個二次目標函數,約束條件為線性,即:
(表示w的二階范數)
在一定的約束條件下,目標最優,損失最小。通過拉格朗日二元變換到對偶變量的函數,這樣的優點在于:對偶問題往往更容易求解并且可以自然的引入核函數,進而推廣到非線性問題?;貧w分析問題將最終轉化為以下優化問題[3]:
1.3 核函數及參數的選擇
由于大氣污染的回歸與預測是高度非線性的,于是在上述基礎上,對于非線性的情況,選擇一個核函數,通過核函數將數據映射到高維空間,來解決在原始空間中線性不可分的問題。另一方面,核函數反映了訓練數據樣本的特性,對于系統的泛化能力影響較大,選擇哪種核函數進行預測很重要[4]。
在支持向量機中使用的核函數主要有四類:線性核函數、多項式核函數、RBF核函數、Sigmoid核函數。RBF核函數[3]的均方根誤差最小,因此本文在大氣污染預測時選取該核函數。下圖1所示的例子便是把低維線性不可分的數據通過高斯核函數映射到了高維空間。
圖1 多維圖形
2 預測實驗
根據04年4月全月武漢氣象資料SO2濃度值的數據進行試驗[4]。每組數據包括7個輸入因子和一個濃度實際值,采用最小信息預報準則評價模型的預測誤差,以當誤差最小來確定m,我們將前月年15組數據作為訓練數據,后15組作為測試數據,利用SVM回歸預測算法,將RBF作為核函數,確定訓練誤差e=0.001,通過MATLAB編程作圖分析,最后即得到污染平均濃度的時間序列數據,如圖3所示。
圖2 逐日SO2圖形
分析圖2可知,SO2誤差的來源主要收到環境空氣狀況的影響,一般一旦有風雨天,其衰減幅度加大,誤差加大。實測值與預測值相對誤差除個別突變點外,大部分在15%左右。
3 結論
1)建立了支持向量機時間序列預測大氣模型并給出了SO2預測濃度與實際濃度的對比折線圖。2)支持向量機的RBF核函數具有均方誤差小、高度可分離性等優點,能很好的步驟大氣污染物濃度之間的非線性關系,為大氣的預測模型提高了精度。3)目前支持向量機時間序列對大氣污染的預測尚處于探索階段,本文也只作出了粗略的探討,對于該方面的研究仍需進一步改進。
參考文獻
[1]白鵬,張斌,等.支持向量機理論及工程應用實例[M].西安電子科技大出版社,2008.
[2]馮漢中,陳永義.支持向量機在天氣預報中的應用[J].應用氣象學報,2004(15).
[3]趙瑩.支持向量機中高斯核函數的研究[J].華東師范大學,2007.
[4]胡基福.氣象統計學原理與方法[M].青島海洋大學出版社,1996.
作者簡介
倪振威(1993-),男,江蘇蘇州人,本科,研究方向:水質修復處理技術。endprint