999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R的江西省肺結核發病率ARIMA-SVM組合預測模型*

2015-03-09 06:52:32南昌大學公共衛生學院330006謝驍旭袁兆康
中國衛生統計 2015年1期
關鍵詞:模型

南昌大學公共衛生學院(330006) 謝驍旭 袁兆康

基于R的江西省肺結核發病率ARIMA-SVM組合預測模型*

南昌大學公共衛生學院(330006) 謝驍旭 袁兆康△

目的在ARIMA和SVM基礎上,提出一種肺結核發病率組合預測方法。方法以2004年至2012年江西省肺結核月發病率資料為例,利用R中的forecast包、e1071包,擬合ARIMA-SVM模型實現對肺結核發病率的預測。結果ARIMA-SVM組合預測模型的預測精度優于單純ARIMA模型。結論ARIMA-SVM組合預測模型是一種切實可行的肺結核發病率預測方法。

支持向量機 差分自回歸移動平均 組合預測 肺結核發病率

肺結核是由結核分枝桿菌引發的肺部感染性疾病,是嚴重威脅人類健康的疾病,我國是世界上結核疫情最嚴重的國家之一[1]。對肺結核發病率進行預測,從而做到有效防控是一件具有實際意義的事情。常見的時間序列預測模型為差分自回歸移動平均(ARIMA)模型,ARIMA模型為基于線性數據的預測模型,因此可能會出現精度不理想的情況[2]。本研究將擬合ARIMA-SVM組合模型來預測江西省肺結核發病率。使用ARIMA-SVM預測模型既對肺結核發病率的線性趨勢進行了預測,又對非線性關系進行了預測;且能克服小樣本數據過擬合、泛化能力不強、局部極小、結果不穩定、沒有解釋能力等問題。常用的時間序列分析軟件為SAS、SPSS、Matlab等,這些軟件雖然功能強大但是均為商業付費軟件,且軟件是大型集成統計軟件,不夠靈活。而R是一個自由、免費、源代碼開放的軟件,因此本研究擬用R進行預測模型的擬合。

資 料

從國家人口與健康科學數據共享平臺公共衛生科學數據中心(http://www.ncmi.cn/info/69/1544)下載2004-2012年江西省肺結核月發病率,見表1。

表1 2004-2012年江西省肺結核月發病率(1/10萬人)

方 法

1.R軟件

R是用于統計分析、繪圖的語言和操作環境,R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優秀工具[3]。本文使用R語言3.0.2版forecast包Arima函數建立ARIMA模型,計算原序列與ARIMA模型預測結果的殘差。對殘差序列進行樣本重構獲得SVM樣本集,使用R語言e1071包對殘差進行SVM預測。將兩種模型的預測結果相加得到最終的預測結果。

2.ARIMA模型[4-5]

ARIMA模型由Box和Jenkins提出,在ARIMA模型中預測值表達為過去若干個取值和隨機誤差的線性函數。

式中,yt是t時的預測值,εt是t時的隨機誤差,φi和θj是系數,p為自回歸項數,q為移動平均項數。

肺結核發病率ARIMA模型的建立:使用auto.arima()函數來尋找合適的模型,采用AIC準則作為參數估計和判斷模型殘差是否為白噪聲的標準。

3.ARIMA-SVM組合模型[6-8]

支持向量機(SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,建立ARIMA-SVM組合模型的過程如下。

(1)使用ARIMA對肺結核發病率Pt進行預測,設預測結果為原序列和ARIMA模型預測結果的殘差為et,即et=Pt-t,序列{et}隱含了原序列中的非線性關系,et=f(et-1,et-2,…,et-n)+ε,其中,ε為隨機誤差。

(2)對上一步的殘差序列進行輸入向量構造,得到SVM樣本集{e(ti),e(ti-s),…,e(ti-τs)},利用SVM對殘差進行預測,設預測結果為t。

肺結核發病率ARIMA-SVM組合模型的建立:使用tune.svm()函數確定核函數的參數,使用svm()函數擬合模型。

R實現

結 果

1.ARIMA模型

擬合2004-2011年的江西省肺結核發病率數據后的ARIMA模型為ARIMA(0,1,1)(2,0,0)12。根據該模型得2012年1-12月發病率月預測值,見表2。

2.ARIMA-SVM組合模型

將2004-2011年的江西省肺結核發病率ARIMA模型預測值殘差使用SVM模型進行擬合,殘差SVM預測模型參數:核函數為radial函數,C=100,γ=0.01,ε=0.1。將SVM殘差預測值加上ARIMA預測值得肺結核發病率ARIMA-SVM預測值。根據該模型得2012年1-12月發病率月預測值,見表2。

3.ARIMA模型和ARIMA-SVM組合模型的比較

由表2可知,ARIMA-SVM組合模型的均方誤差、平均相對誤差均低于單純ARIMA模型,說明ARIMA-SVM組合模型有效的校正了ARIMA模型預測值的殘差。但是MAPE偏大,說明整體擬合效果不是非常好,這可能和肺結核發病率變化不穩定及發病率較低有關。

表2 2012年江西省肺結核月發病率的兩種模型預測值比較(1/10萬人)

討 論

傳染病發病率的預測是一個非常活躍的研究領域,傳統的預測方法通常沒有考慮到發病率數據的非線性部分,對于不規則數據序列難以確定合適的模型結果,因而會導致預測準確度不高的問題。

支持向量機(SVM)是一種可訓練的機器學習方法,最早應用于對資料進行分類,但是基于SVM的原理,現已將其擴展應用于回歸以及時間序列分析中[9-10]。SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以求獲得最好的推廣能力[11-12]。即使在訓練樣本較小的情況下,SVM也可以有效地處理高維數據,并對復雜模型擬合出效果好的模型;SVM表現出良好的回歸和時間序列預測能力,可以對非線性關系資料擬合出有效穩定的模型;SVM在很多情形下是解決凸優化問題的唯一解決方案;但是SVM也存在著缺點,如果沒有有效的算法,在數據包含較多的樣本時,模型擬合時間會非常長[13-14]。

SVM在多個領域中得到了廣泛的應用,Patrick Rebentrost應用SVM進行了對大數據的分類[15];Eszter Hazai應用SVM對人類乳腺癌耐藥蛋白的底物進行了預測;PP Bhagwat應用SVM預測了河流流量[16];吳虹采用ARIMA-SVM預測了石油價格[17]。本研究使用ARIMA模型擬合肺結核發病率的線性部分,使用SVM模型擬合肺結核發病率的非線性部分,建立兼有ARIMA和SVM模型優點的ARIMA-SVM組合模型,從而達到更優的預測效果。通過對江西省肺結核發病率的預測研究,驗證了組合模型比單一模型的預測結果更合理可靠。

綜上所述,ARIMA-SVM組合預測模型是一種切實可行的肺結核發病率預測方法。

1.Zhao F,Cheng S,He G,et al.Space-time clustering characteristics of tuberculosis in china,2005-2011.PLoS One,2013,8(12):e83605.

2.陳正利,陳偉,許汴利.應用ARIMA模型對河南省1991-2011年乙型肝炎發病趨勢分析.中國衛生統計,2013,30(3):401-402.

3.薛毅,陳立萍.統計建模與R軟件.北京:清華大學出版社,2007.

4.Cowpertwait PSP,Metcalfe AV.Introductory time series with R.Newyork:Springer,2009.

5.吳家兵,葉臨湘,尤爾科.時間序列模型在傳染病發病率預測中的應用.中國衛生統計,2006,23(03):276.

6.Fan RE,Chen PH,Lin CJ.Working set selection using second order information for training support vector machines.Journal of Machine Learning Research,2005,6:1889-1918.

7.Chang CC,Lin CJ.LIBSVM:A Library for Support Vector Machines. ACM Transactions on Intelligent Systems and Technology,2011,2(273SI).

8.David Meyer.Support Vector Machines-the Interface to libsvm in package e1071.http://cran.r-project.org/web/packages/e1071/vignettes/svmdoc.pdf.

9.李磊,黃水平.支持向量機原理及其在醫學分類中的應用.中國衛生統計,2009,26(1):22-25.

10.Jiang Q,Wang G,Jin S,et al.Predicting human microRNA-disease associations based on support vector machine.Int J Data Min Bioinform,2013,8(3):282-293.

11.武振宇,李康.支持向量機在基因表達數據分類中的應用研究.中國衛生統計,2007,24(1):8-11.

12.Chen Y,Xu W,Kuang F,et al.The research and application of visual saliency and adaptive support vector machine in target tracking field. Comput Math Methods Med,2013,2013:925341.

13.李望晨,王培承,潘慶忠.BPNN與SVM在醫院管理綜合評價中的應用.中國衛生統計,2008,25(1):15-17,21.

14.李望晨,張利平,李向云,等.基于SVM的死亡率時間序列預測設計與分析.中國衛生統計,2010,27(1):76-77,79.

15.Rebentrost P,Mohseni M,Lloyd S.Quantum support vector machine for big feature and big data classification.arXiv preprint arXiv:1307.0471,2013.

16.Bhagwat PP,Maity R.Hydroclimatic stream flow prediction using Least Square-Support Vector Regression.ISH Journal of Hydraulic Engineering,2013(3):320-328.

17.吳虹,尹華.ARIMA與SVM組合模型的石油價格預測.計算機仿真,2010,27(5):264-266,326.

(責任編輯:郭海強)

江西省研究生創新專項資金項目(YC2013-S009)

△通信作者:袁兆康,E-mail:yuanzhaokang@126.com

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成年女人特黄特色毛片免| 九九久久精品免费观看| 亚洲第一黄片大全| 精品国产免费观看一区| 99在线国产| 99人体免费视频| 日本人妻一区二区三区不卡影院 | 亚洲无码37.| 成人免费视频一区| 亚洲人成网站日本片| 一级毛片在线播放免费| 四虎成人精品| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 日韩一区二区三免费高清 | 久久黄色毛片| 91色在线视频| 久久精品亚洲中文字幕乱码| 色噜噜在线观看| 国产亚洲精品精品精品| 国产乱论视频| 精品福利网| 国产日韩欧美在线播放| 免费毛片a| 日韩第九页| 国产福利拍拍拍| 亚洲女同欧美在线| 深夜福利视频一区二区| 国产精品永久免费嫩草研究院| 欧美特黄一免在线观看| 国产另类视频| 国产jizzjizz视频| 亚洲男人的天堂久久香蕉| 亚洲三级电影在线播放| 国产成人免费观看在线视频| av午夜福利一片免费看| 日韩一级毛一欧美一国产| 国产成人亚洲综合a∨婷婷| 久久精品aⅴ无码中文字幕 | 亚洲国产天堂久久综合226114| 日本成人在线不卡视频| AⅤ色综合久久天堂AV色综合| 小蝌蚪亚洲精品国产| 久热中文字幕在线| 精品视频在线观看你懂的一区| 国产精品漂亮美女在线观看| 午夜精品久久久久久久2023| 久久亚洲中文字幕精品一区| 亚洲无码视频一区二区三区| a免费毛片在线播放| 国产原创自拍不卡第一页| 一本久道久综合久久鬼色| 国产精品极品美女自在线| 首页亚洲国产丝袜长腿综合| 国产91熟女高潮一区二区| 精品国产免费观看一区| 天天综合网亚洲网站| 欧美日韩第三页| 国产成年女人特黄特色大片免费| 国产女人喷水视频| 无码高潮喷水专区久久| 精品久久777| 亚洲av无码成人专区| www.youjizz.com久久| 人妻无码AⅤ中文字| 1769国产精品视频免费观看| 日韩一区精品视频一区二区| 欧美日韩资源| 人妖无码第一页| 亚洲综合九九| 免费亚洲成人| 激情国产精品一区| 免费看久久精品99| 国产日韩欧美在线视频免费观看 | 亚洲Av综合日韩精品久久久| 中美日韩在线网免费毛片视频| 久久永久精品免费视频| 国产99精品久久| 99免费视频观看| 国产激情影院| 久久成人免费| 国产清纯在线一区二区WWW| 啊嗯不日本网站|