葉藝勇



摘要首先分析了影響廣東省第三產業發展的主要因素,指出由于上述因素相互制約、相互影響,導致第三產業的發展呈現出高度的非線性特征,并使得單一的預測模型在預測效果和泛化能力方面難以勝任.在此基礎上,提出了基于神經網絡集成的組合預測模型,對廣東省第三產業的發展進行預測,闡述了算法的基本原理和數據處理流程,實證分析表明:基于神經網絡集成的組合預測模型要比單一預測模型的預測精度高.
關鍵詞第三產業,核方法,組合預測,支持向量回歸,神經網絡
中圖分類號N945.12 文獻標識碼A
AbstractThis paper analyzed the main factors on the improvement of tertiary industry, and pointed out that the single forecast model was difficult to satisfy the need of economic forecasting as the factors restrict and influence each other. On this basis, we proposed the combination forecasting model based on neural network ensemble, forecasted the development of tertiary industry of Guangdong Province, and described the basic principles and data processing algorithms. The empirical analysis shows that the combination forecasting model based on neural network ensemble has high prediction accuracy than a single forecast model.
Key wordstertiary industry; kernel method; forecast model; support vector regression; neural network ensemble
1引言
第三產業是指對消費者提供最終服務和對生產者提供中間服務的行業,除了第一、第二產業以外,其他所有的行業均屬于第三產業.隨著社會經濟的發展和國家對產業結構的調整,第三產業的地位和重要性日益突出,以市場經濟發達的廣東省為例,2013年,47.76%的生產總值是由第三產業貢獻的,遠遠超出第一產業的4.9%,略高于第二產業的47.34%,從以上數據可以看出,第三產業已經成為廣東經濟發展的主要推動力,加快發展第三產業既可以有效地推進我國工業化和現代化的進程,擴大就業領域和就業人數,還可以保證社會安定,提高人民生活水平,改善生活質量.
因此,深入研究第三產業的發展狀況,對第三產業未來的發展有著重要的指導意義.要考察第三產業的發展,必須從全局的角度出發進行分析,研究它的規律和發展趨勢,其中第三產業生產總值作為衡量第三產業發展狀況的重要指標之一,對其進行科學的分析和預測,能為第三產業的發展和政策的制定提供有力的參考依據.
圖1是廣東省1987~2013年三大產業產值比例變化圖,從圖1可知:第一產業所占的比重迅速下降,第二產業的比重穩中有升,而第三產業的比重增加最快,但從圖2可知,廣東省第三產業生產總值的增長是呈現非線性狀態的,這是由于反映經濟發展的各項指標互相聯系、互相作用所導致的,特別是由于經濟系統自身的復雜性和動態性,使得指標數據呈現高度的非線性、非精確性等特征.因此,要實現對廣東省第三產業生產總值的準確預測,必須要解決兩方面的問題,一方面是預測指標體系的構建要全面反映第三產業發展的基本情況,另一方面是選擇合適的預測方法對樣本數據進行模擬仿真.
2文獻綜述
當前已有眾多學者對第三產業的發展進行了深入的研究.使用的方法包括灰色理論、神經網絡、ARIMA模型、逐步回歸分析等,并取得了一定的成效.如崔二濤等利用二次曲線指數平滑模型對廈門市第三產業的增加值進行預測研究,獲得了較為精準的預測效果[1];呂一清等研究了基于灰色神經網絡的第三產業發展趨勢的預測模型,實證分析表明灰色神經網絡比單一的灰色預測模型和傳統BP神經網絡預測模型擬合和預測能力要好,適合應用于成都第三產業發展趨勢的預測[2];徐群等將主成分分析和逐步回歸分析應用于我國第三產業發展現狀研究及趨勢預測,并對如何保持我國第三產業穩步發展給出合理化建議[3];鄧偉使用ARIMA模型對廣東省第三產業的發展情況進行短期預測,實證檢驗發現:模型的預測誤差較小,預測精度較高[4];李榮麗等則研究了將時間序列BP神經網絡應用于福州市第三產業值的預測,研究結果表明:BP神經網絡模型收斂速度較快,預測精度較高,具有較高的應用價值[5].
上述研究成果的特點是將單一的模型應用于第三產業的發展預測,但由于每個模型均有自身的局限性,導致在實踐中,對同一個問題,采用不同的預測方法會產生不同的預測結果,即存在預測精度的差異.因為每一種預測方法都不可能做到零誤差,但是不同的方法往往又能提供不同角度的有效信息,因此,單一預測模型在預測結果的準確性和信息反映的全面性、以及模型的泛化能力方面均存在一定的缺陷,考慮使用組合預測模型的方法來改善單一模型的不足,因為組合預測模型能夠較大限度地利用樣本的各種信息,比單個模型考慮問題更加系統、全面,能夠有效地減少預測過程中隨機因素的影響程度,避免在面對復雜系統時出現預測偏差波動較大,泛化能力不足的情況,從而提高預測的精度與模型的穩定性.
3廣東省第三產業發展影響因素分析
第三產業作為國民經濟一個重要的組成部分,它的發展受到多方面因素的制約,這些因素相互聯系、互相滲透,共同影響著第三產業的發展水平和發展速度,本文遵循可獲得性、可比性、客觀性、綜合性的原則,結合定性和定量的相關性分析,以及參考其他學者的研究成果[6-8],認為以下幾個方面與廣東省第三產業生產總值的變化相關性最大.
1)人均生產總值
人均GDP反映了一個地區的經濟總體發展水平,人均GDP的增長會引起社會需求結構的相應變化,與之相關的是,各產業產品的需求收入也會彈性地發生變化,從而引起各產業在經濟發展中的地位發生改變,最終導致產業結構的變化.
2)城鎮居民可支配收入
一個地區居民的消費水平與該地區第三產業的發展水平是密切相關的.城鄉居民消費帶動了城市第三產業的發展,其消費水平越高,第三產業的發展就越迅速,第三產業產值占國民收入總額的比例也越大.一個地區居民的消費水平可以用城鎮居民可支配收入指標來衡量.
3)固定資產投資
固定資產投資是衡量經濟發展水平的重要指標,固定資產投資額的增加會加強區域的水利、電力、能源、通訊、城鄉公用設施等基礎建設, 從而帶動地質勘察、水利管理、交通運輸、倉儲及郵電、房地產業等第三產業的產值增加,加大其投資力度能消除經濟發展中的“瓶頸 ”問題,因此, 固定資產投資作為模型的一個輸入變量.
4)第三產業就業人數
第三產業的快速發展能廣泛地吸收勞動力資源,因此第三產業的就業人數在一定程度上能夠反映第三產業的發展狀況;而就業人員的素質,將在很大程度上決定了第三產業發展的進程和行業經營的狀況,高素質的人力資源能夠促使第三產業的快速健康發展.
5)城市化水平
城市化水平是指一個地區農村向城市發展的狀況,通常代表著該地區經濟的發展水平.城市經濟的發展,吸引了大量農村剩余勞動力的涌入,產生了很強的規模經濟效應.城市經濟聚集性、開放性等特點為第三產業發展創造了良好的條件.因此,要想實現第三產業發展,需要努力提高地區的城市化水平.
6)外貿出口總額
服務產品的輸出狀況會影響一個區域的第三產業結構.因為在輸出商品的同時,也是運輸、信息、科技等服務的對外輸出.此外,出口的產值將會對第三產業行業的結構產生影響,此結論也是被很多經濟學家認同的,所以本文中也引進外貿出口總額作為輸入指標.
綜上所述,最終確定預測模型的輸入指標是:廣東省人均GDP,城鎮居民可支配收入,固定資產投資,第三產業就業人數,城市化水平,外貿出口總額,預測對象為廣東省第三產業生產總值.
3基于神經網絡的組合預測模型
3.1支持向量回歸模型
由統計學習理論發展而成的核方法,是一類模式識別的算法,其目的是找出并學習一組數據中的相互關系,它是解決非線性模式分析問題的一種有效途徑.SVR,即支持向量回歸,是目前核方法應用的經典模型,它對非線性、非確定性、非精確性數據的擬合能力表現非常優秀,在復雜的非線性預測以及綜合評價中有著非常的廣泛應用前景[9].更加重要的是,SVR是建立在結構風險最小化的優化目標上,它可以在過度學習和模型適應性之間取得很好的平衡,在很大程度上改善了其他智能算法在非線性擬合上存在的不足.
從本質上講,線性多元回歸就是求方程[10]:
y=Xw+ε.(1)
考慮到對回歸曲線本身的要求,在如圖3所示的ε不敏感損失函數下,線性回歸問題可轉化為優化問題:
3.2約束條件下的線性回歸模型
在現實問題研究中,因變量的變化往往受幾個重要因素的影響,此時就需要用2個或2個以上的影響因素作為自變量來解釋因變量的變化,這就是多元回歸亦稱多重回歸.當多個自變量與因變量之間是線性關系時,所進行的回歸分析就是多元線性回歸.約束條件下的線性多元回歸模型(簡稱為CMVR模型)[11],可描述為:
y=Xβ+ε,lb≤β≤ub.(8)
其中,lb,ub分別為β的上下限.
其中,式(8)可轉化為如下的求優化問題:
min Q=(y-Xβ)2,s.t.lb<β 其中,y,X,β分別為n×1,n×m,m×1矩陣. 3.3擴展CobbDouglas生產函數模型 柯布道格拉斯生產函數是美國數學家柯布(C.W.Cobb)和經濟學家保羅·道格拉斯(PaulH.Douglas)共同探討投入和產出的關系時創造的生產函數,是用來預測國家和地區的工業系統或大企業生產一種經濟數學模型,簡稱生產函數,它是經濟學中使用最廣泛的一種生產函數形式,在數理經濟學與經濟計量學的研究與應用中都具有非常重要的地位[11]. ECDPF即擴展的CobbDouglas生產函數,該模型可描述為:設y為第三產業生產總值,xi為與之相關聯指標的數值,αi為與xi相對應的指數,則: y=α0∏ixαii+ε.(10) 兩邊取對數,有: ln y=ln α0+∑iαiln xi+ε0.(11) 同樣具有約束條件:αi>0.(12) 3.4基于神經網絡的組合預測模型 由于單個模型預測存在一定的不足之處,因此,本文使用組合預測模型的方法來完成數據的建模與仿真.目前,關于組合預測的研究,主要集中在3個方面,一是關于預測信息的組合,二是預測方法的組合,三是預測結果的組合.本文主要是針對單個模型的預測結果進行組合,其中的關鍵步驟就是尋找用于組合各單項模型預測結果的權系數.現有的組合預測處理方法大部分是限于定權系數,即對于第i種預測方法,其加權系數Ki是固定的,與時間、外部環境等因素無關,這顯然是不科學的.因為各種預測方法對于不同的預測時間段表現出不同的預測能力:有的方法對瞬態變化敏感,適用于短期預測;有的方法善于把握長期趨勢,表現出優越的中長期預測能力.如果將不同時間組合的權系數設定為常值,就無法各取所長,獲得最佳預測結果.
鑒于變權重的組合預測方法是提高模型的擬合精度和預測精度、增強預測模型實用性的有效手段.本文提出使用神經網絡來集成各個模型的輸出,因為從理論上講,一個具有Sigmoid函數的三層前饋神經網絡能夠擬合任意非線性函數[12].神經網絡的實質就是一個從輸入層到輸出層的非線性映射,它的訓練過程實際上就是一個優化計算的過程.如果以各個模型的預測數據作為輸入,以待預測序列的真實值作為理想輸出來訓練神經網絡,則其訓練過程就是尋找最優的權值,使得組合預測的誤差平方和達到最小的過程,這實際上就實現了組合預測的最優組合.神經網絡結構如圖4所示.
因此,基于神經網絡集成的組合預測模型,其數據處理的基本原理是:將各個模型訓練階段的預測數據作為神經網絡的輸入,訓練階段的實際數據作為輸出,構建神經網絡模型,即該模型具有n個輸入變量(假設有n個預測模型),1個輸出變量的結構,由訓練階段的數據確定模型最佳參數;第二步,將測試階段各個模型的預測數據作為訓練好的神經網絡模型的輸入,計算其輸出,即為組合預測模型的輸出結果.
4實證研究
4.1數據預處理及模型訓練
本文所有經濟數據均來源于廣東省統計年鑒(1987~2014年).
由于不同指標的單位不一致,為了提高預測的精度,也為了消除不同年份價格指數差異所帶來的影響,使不同年份的數據具有可比性,在使用模型處理數據之前,首先把原始數據轉化為環比數據,轉換公式如下:
X當前年份=Y當前年份/W當前年份Y上一年度/W上一年度.(13)
式中:X為指標的環比數據,Y為指標的純量數據,W為累計物價指數.
由于經濟發展具有一定的延續性和滯后性,因此,在實際的經濟系統運行過程中,近期的經濟數據對未來的影響比早期的數據應該更大,為了體現對近期數據的重視程度,把1987~2008年22個年度的數據樣本按1.2的比例加權作為學習樣本,對模型進行訓練,以確定各模型的參數值,然后將2009~2013年的數據作為測試樣本,用于檢驗模型的預測效果.
4.2模型測試
4.2.1單個模型預測
分別使用上述3個訓練好的模型對測試樣本數據進行擬合,得到的結果如表1所示.
從表1可知,3個模型的平均預測誤差分別為5.68%,5.92%和3.77%,其中SVR模型的預測效果略比其他2個模型高.為了便于比較,將3個模型的預測輸出使用平均組合法處理,得到相應的預測結果及誤差,如表1最后2列所示,可以看到,5年的平均預測誤差為5.12%,說明了簡單的組合預測效果在當前的參數狀態下是可行的,但是由于平均組合法是忽略了各個模型之間的差異性,以同等的權重衡量各個模型的計算精度和重要性,從理論上來講,平均權重無法保證一定能獲得最優的處理結果,權重相同只是眾多情況下的一種特殊選擇,因此,本文繼續使用基于神經網絡集成的組合預測模型來改善預測精度.
4.2.2神經網絡組合預測模型
根據神經網絡組合預測的基本原理,該模型的輸入變量個數為3,輸出變量個數為1,關于隱含層的數量,設置其范圍初始區間為[4,10],通過訓練樣本數據循環計算并比較,確定最佳的隱含層單元數為5,然后將3個模型的預測結果使用訓練好的神經網絡模型集成輸出,結果如表2最后2列所示.
從表2可知,與平均組合法相比較,經過神經網絡優化權重的組合預測模型在預測精度上更為準確,5年的預測平均誤差為0.83%,遠遠低于平均組合的5.12%,該方法不但在訓練樣本的數據擬合方面表現優秀(如圖5,圖6和圖7所示),而且對測試樣本的學習效果也表現良好(如圖8所示),以2009年的數據為例,預測誤差為1.54%,轉換為實際的數據就是相差278億元,預測誤差非常理想,并且各模型的權值完全由歷史數據確定,不受主觀因素的干擾,因此能更客觀地反映出在組合模型中,各個模型自身的重要程度,計算結果也驗證了基于神經網絡集成的組合預測模型的有效性.將預測數據反映在圖上,如圖8所示.
4.3模型應用
分別使用上述3個模型預測未來5年廣東省第三產業的生產總值,并且采用神經網絡集成的方法將預測數據合成輸出,這里假設未來五年各指標保持現有的增長速度,結果見表3所示.表32014-2018年預測結果
預測得2014年第三產業生產總值約為33 137億元,增長率為11.62%,由于廣東省2015年統計年鑒尚未發布,通過查詢廣東省統計局發布的季度統計數據可知道:2014年第三產業實際的生產總值為34006億元,增長率為14.55%,預測值與實際值只相差2.93%,如果再扣除當年的消費價格指數,預測數據與實際數據是基本吻合的,可見使用神經網絡組合預測模型的效果是相當準確的.
5結論
在現有第三產業發展預測研究成果的基礎上,針對單一預測模型的不足,構建了基于神經網絡的組合預測模型,以廣東省第三產業發展為例,驗證了模型的有效性.由于組合預測方法依然處于不斷的發展和完善中,本文只是針對預測結果進行了組合處理,如何在預測過程中,針對樣本信息和預測方法進行有效的組合,力求做到預測的系統性和科學性,進而提高預測的效果,是下一步需要研究的方向.
參考文獻
[1]崔二濤,肖哲.廈門市第三產業增加值增長預測——二次曲線指數平滑模型在第三產業增加值預測中的應用[J].中國市場.2010, 582(23):54-57.
[2]呂一清,何躍.基于灰色神經網絡的第三產業發展趨勢的預測模型[J].統計與決策. 2011, 382 (4) : 154 -157.
[3]徐群,于德淼,趙春閣.我國第三產業發展現狀研究及趨勢預測——基于主成分分析和逐步回歸分析[J].巢湖學院學報. 2014, 125(2):45-49.
[4]鄧偉.論ARIMA模型在廣東省第三產業預測中的應用[J].現代商貿工業. 2010,50(24):29-31.
[5]李榮麗,黃曦,葉夏,陳志強,陳志彪.時間序列BP神經網絡在福州市第三產業值預測中的應用[J].江西農業學報. 2010, 22(12):183-185.
[6]張亞峰.河南省第三產業發展影響因素分析及對策研究[J].江蘇商論,2011,(08):91-95.
[7]彭豐,杜洋.基于VAR模型的第三產業發展影響因素分析[J].現代商貿工業,2010(17):31-33.
[8]聶曉博.邢臺市第三產業發展的影響因素研究[D].石家莊:河北大學經濟學院,2013.
[9]彭森.基于粗糙集與支持向量機的工業企業經濟景氣指數智能預測模型研究[D].武漢:華中師范大學信息管理學院,2012.
[10]張學工.關于統計學習理論與支持向量機[J].自動化學報. 2000, 26(1):37-39.
[11]肖健華.區域經濟發展智能預測方法[J].經濟數學. 2005, 22(1):57-63.
[12]蔣林利.改進的PSO算法優化神經網絡模型及其應用研究[D].廈門:廈門大學軟件學院,2014.