摘 要:本文將神經網絡與時間序列方法相結合,建立肺癌發病率的RBF神經網絡時間序列組合預測模型。
關鍵詞:BRF神經網絡時間序列模型肺癌發病率預測
中圖分類號:R7文獻標識碼:A文章編號:1674-098X(2011)06(b)-0008-02
1 前言
隨著我國人口的持續增長和人口老齡化的加劇,加之生活方式、社會、經濟、環境等影響腫瘤發病死亡的危險因素的改變,自20世紀70年代以來,我國癌癥呈明顯上升趨勢,現已成為我國城、鄉居民的首要死因,而其中肺癌的上升趨勢更為明顯[1]。目前,肺癌發病率的預測模型和方法主要有時間序列模型[2]、相關性分析[3]、灰色模型[4]等。由于肺癌的危險因素很多,包括吸煙、大氣污染、室內微小環境的污染、職業危害(如矽肺等)、既往肺部疾病史及遺傳因素等[1],這些因素相互作用,是一個復雜的非線性系統,難以用經典數學模型模擬。由于肺癌至今仍然是居民健康的重大威脅之一,建立肺癌發病率科學預測方法,是重要而且緊迫的工作。
時間序列分析是非線性動態系統建模與預測的一類重要方法,目前使用得較成熟的是Box-Jenkins模型等線性方法,但線性方法對于復雜系統往往不很有效[6]。在此背景下,人們越來越重視非線性方法及其在復雜系統模擬中的應用和研究。神經網絡是一種隨著計算機技術的發展而產生的智能化方法,具有可任意逼近非線性連續函數的學習能力和對雜亂信息的綜合能力[7],已被廣泛應用于經濟[7]、水資源[8]、醫療衛生以及環境等領域。建立時間序列和神經網絡的組合預測模型可以有效的反映各種因素的綜合影響,組合預測理論已經證明多種模型的線性組合在一定的條件下能夠有效的改善模型的擬合能力和提高預測精度。
然而,在基于時間序列的預測模型的設計和應用中,需要著重考慮兩個問題。一個是用于建模時間序列要有多長?另一個是模型的有效預測期限有多長?在以往肺癌發病率的預測模型中,有關于此的研究比較少。本文將神經網絡與時間序列方法相結合,建立肺癌發病率的神經網絡時間序列組合預測模型,并著重探討了建模時間序列的長度和模型預測的有效期限。旨在為肺癌發病率的科學的預測增添新方法,為肺癌防控提供科學依據。
2 材料與方法
2.1 數據來源
本文的數據資料為江蘇省啟東市1972 ~2001年肺癌發病資料(粗發病率),源自公開發表的文獻[2]。病例來源、人口資料及資料質量等情況可詳見該文獻。
2.2 原理與方法
本文基于MATLAB7.0軟件平臺,建立基于時間序列模型的徑向基神經網絡(RBF)預測模型。神經網絡模型和時間序列模型的基本原理已有很多文獻報道,在此不再敖述。
2.3 建模時間序列長度的優化
以1999~2001年的數據為測試樣本,分別以1972~1998、1980~1998和1990~1998共三個時段的時間序列數據作為建模樣本,通過比較不同時間序列長度建模條件下模型的結果,優化建模的時間序列長度。
2.4 模型有效預測期限的確定
分別以1997~2001、1998~2001、1999~2001和2000~2002年共四個時段的時間序列數據作為輸出,分別以1980~1996、1980~1997、1980~1998和1980~1999年共四個時段的時間序列數據作為輸入,分別預測未來1、2、3和4的肺癌發病率,通過比較模型對不同預測期限的結果,確定模型的有效預測期限。
3 結果與討論
3.1 模型的建立
RBF神經網絡在MATLAB軟件平臺上設計和應用,所有數據均經過歸一化和反歸一化轉化。RBF神經網絡的建立和訓練十分簡單,避免了BP神經網絡的容易陷入過擬合、參數確定主觀性強以及結果不同等諸多缺點。
3.2 建模時間序列的優化
在時間序列預測模型的建模中,盡管保證足夠的時間序列長度十分必要,但是時間序列的長度并非越長越好。三個不同時間序列長度建模的預測結果見表1。1990~1998時段時間序列建模的結果最差。原因可能是該時段時間序列太短(僅9年),9年的觀測難以保證未來預測值的穩定性。1972~1998時段時間序列建模的結果居中。原因可能是該時段時間序列最長(27年),涵蓋了豐富的系統變化信息,但是由于該時段歷經20世紀70、80和90三個年代,而研究區域在三個不同階段的人口、經濟和醫療衛生等發展水平差異巨大,因而在一定程度上影響了模型的模擬效果。1980~1998時段時間序列建模的結果最好。原因可能是該時段保證了足夠的時間序列長度(19年),而且自改革開放以后,80年代開始,研究區域在經濟社會發展水平、人口等方面穩步發展,因而模型的干擾因素的影響水平相對比較低。結果表明,對于江蘇省啟東市肺癌發病率的建模時間序列,從80年代算起為宜。
3.3 模型有效預測期限的確定
任何一種模型都無法保證未來無限期的預測值的穩定性,因而在建模過程中需要對模型的有效預測期限進行檢驗。本文對2~5年不同預測期限的預測結果表明(表2),預測未來2~3年的平均相對誤差都在5%以內;預測未來4年的相對誤差都在10%以內,平均5.81%;預測未來5年的相對誤差范圍為0.68%~11.21%。可見,本模型非常適用于肺癌發病率的短期預測,對未來2~3年的肺癌發病率的預測具有很到的精度。
4 結論
在時間序列預測模型的建模中,需要考慮研究區域在個不同階段的人口、經濟和醫療衛生等發展水平,并經過模擬和檢驗后優化建模時間序列長度。對于江蘇省啟東市肺癌發病率的建模時間序列,從80年代算起為宜。在時間序列模型的建模過程中需要對模型的有效預測期限進行檢驗。本模型非常適用于肺癌發病率的短期預測,對未來2~3年的肺癌發病率的預測具有很高的精度。
本文將神經網絡與時間序列方法相結合,建立肺癌發病率的RBF神經網絡時間序列組合預測模型。本模型充分發揮時間序列和神經網絡的優勢,具有很到的擬合能力和預測精度。此外,神經網絡時間序列模型具有很強的動態分析能力,一旦有了新的觀測值,即可不斷加入建模,具有很高的適應性。本模型在應用中得到了檢驗,是一種強有力的肺癌發病率預測手段。
參考文獻
[1]楊玲,李連弟,陳育德,等.中國肺癌死亡趨勢分析及發病、死亡的估計與預測[J].中國肺癌雜志,2005,8(4):274-278.
[2]陳勇,陳建國,朱健,等.1972~2001年啟東市肺癌發病趨勢的時間序列分析及預測模型探討[J].南京醫科大學學報(自然科學版),2005,25(7):514-519.
[3]沈永洲,余曉琴,徐雪良,等.海寧市大氣質量與肺癌發病率關系研究[J].中國腫瘤,2006,15(1):10-13.
[4]孫喜文,劉巍,吳樹嶺,等.哈爾濱市南崗區肺癌發病、死亡10年動態分析及預測[J].中國肺癌雜志,2005,8(6):514~517.
[5]溫亮,徐德忠,林明和,等.應用時間序列模型預測瘧區瘧疾發病率[J].第四軍醫大學學報,2004,25(6):507-510.
[6]徐鵬飛,李煒,鄭華,等.神經網絡在時間序列預測中的應用研究[J].電子技術,2010,(8):5-7.
[7]王波,張鳳玲.神經網絡與時間序列模型在股票預測中的比較[J].武漢理工大學學報(信息與管理工程版),2005,27(6):69-73.
[8]Maier, H. R. and Dandy,G. C., Neural networks for the prediction and forecasting of water resources variables: a review of modelling issues and applications, Environmental Modelling Software,2000,15(1),101-124.
[9]段瓊紅,聶紹發,仇成軒,等.應用BP神經網絡預測前列腺癌流行趨勢[J].中國公共衛生,2000,16(3):193-1995.
[10]郝全明,李桂榮.人工神經BP網絡在礦區環境污染經濟損失預測中的應用[J].黃金,2003,24(3):47-50.