丁 杰
改革開放以來,隨著我國綜合國力的提升和全球化業務的發展,人們生活水平的不斷提高為兒童讀物的快速發展提供了堅實物質基礎。與此同時,黨和政府的十分重視兒童文化教育事業的建設,社會各個層面對兒童出版事業提供了大力的支持,對兒童的培養和教育也提出了更高的要求。[1]少年強則國家強,全面提升我國兒童的綜合能力,保證兒童讀物的數量、種類和質量已成為社會教育、出版事業的共識。在我國幾代出版人的共同努力下,我國的兒童讀物發展迅速、日益繁榮,兒童讀物的銷量不斷突破新高,種類也呈多樣化發展趨勢。[2]兒童文學已占據大塊的市場份額(特別是近幾年來繪本熱銷),第八次全國國民閱讀調查結果顯示,我國未成年人的閱讀率為82.7%,未成年人年均圖書閱讀量超過了成年人①。近年來,我國學者在對兒童讀物的研究主要集中在宏觀層面,[3-5]在量綱上對兒童讀物的發展趨勢及其影響因子的研究上還比較貧乏。為了更好的分析我國兒童讀物的發展狀況;本文以國家統計局有記錄的1998—2012年相關統計數據為樣本,利用GEP技術對我國兒童讀物出版總印數及種類進行統計分析,為我國兒童讀物的研究提供一種新的思路,拋磚引玉。
兒童讀物的發展是與其生存環境密切相關的,本文主要從居民消費水平,兒童比例,城鎮化率,普通小學在校學生數,教育經費5個方面對我國兒童讀物出版總印數及種數進行統計分析,本文涉及的數據來源于國家統計局②。原始數據包括:兒童讀物出版總印數(單位:萬冊,記為y1)、兒童讀物出版種數(單位:個,記為y2)、居民消費水平(單位:萬,記為x1)、年末總人口(單位:萬,記為x2)、0-14歲人口(單位:萬,記為x3)、城鎮人口(單位:萬,記為x4)、普通小學在校學生數(單位:萬,記為x5)、教育經費(單位:萬,記為x6)。
GEP算法[6]是葡萄牙科學家C.Ferreira于2001年提出的一種新型自適應進化算法,兼備遺傳算法(GA)和遺傳程序設計(GP)的優點。GEP算法集成了遺傳算法的固定步長、簡單編碼的特點和遺傳程序設計的樹形結構彈性編碼的特點,使得GEP算法能夠用簡單的編碼解決復雜問題。GEP算法在進行回歸分析時,通過選定基本函數(sin,cos,L tan)和運算符號(+,-,×,÷)對輸入變量進行黑箱運算得到一個最優回歸方程。
利用SPSS軟件對1998年至2012年兒童讀物出版總印數及種數與1.1中其它指標數據進行相關性分析,結果如表1所示:
從表1中可以看到,兒童讀物出版總印數及種數與居民消費水平、城鎮化率、小學經費有明顯的正相關;而與少兒比例、普通小學在校學生數沒有明顯的對應關系,也即是兒童讀物出版總印數并不是因少兒的數量的增加而增加。選取兒童讀物出版總印數及種數與居民消費水平、城鎮化率、小學經費進行基于GEP技術的回歸建模。
為了檢驗擬合效果,本文分別計算兩個擬合數據的均方根誤差(RMSE)和復相關系數(R2)并與一元線性回歸和二元非線性回歸進行比較;在統計學里均方根誤差值越小越好,復相關系數越接近1越好;結果如表2所示:

表2 三種回歸數據均方根誤差及復相關系數比較
從表2中我們可以看到,利用GEP技術得到的回歸模型的擬合效果無論是兒童讀物出版總印數還是兒童讀物出版種數均優于一元線性回歸和二元非線性回歸的擬合效果;說明基于GEP的關于我國兒童讀物出版總印數及種數的回歸模型是科學有效。
綜上,可以利用該模型可以反演國家統計局1991-1997年間我國兒童讀物出版總印數及種數的缺失記錄,反演結果如表3所示:

表3 1991-1997年間我國兒童讀物出版總印數及種數反演數據
從反演結果來看,表3中數據依時間呈非線性遞增,符合我國我國兒童讀物出版總印數及種數發展規律,反演結果能夠代表我我國兒童讀物1991-1997年的確實統計信息,能夠為研究我國兒童讀物出版總印數及種數提供科學有效的數據支持。
在國家統計局1990-2012年年度統計數據基礎上,利用基于GEP技術構建非線性回歸模型對我國兒童讀物出版總印數及種數進行量化研究,得出以下結論:
一.我國兒童讀物出版總印數及種數在過去十余年間總體呈現出非線性增長的趨勢,且與居民消費水平、城鎮化率、小學經費具有明顯的正相關關系,而與兒童的數量沒有明顯的依賴關系;
二.基于GEP技術的非線性回歸模型能夠有效的刻畫我國兒童讀物出版總印數及種數的發展趨勢,且由于一元線性回歸模型和二元非線性回歸模型;
三.利用基于GEP技術的回歸模型能夠科學有效的反演處我國兒童讀物出版總印數及種數的確實統計數據,為學者研究我國兒童讀物出版總印數及種數提供可靠的數據支持。
注 釋
①中國出版網www.chuban.cc/
②國家統計局www.stats.gov.cn/