汪金濤,高峰,雷林,鄒曉榮,官文江,陳新軍
(1.上海海洋大學海洋科學學院,上海 201306;2.大洋漁業資源可持續開發省部共建教育部重點實驗室,上海 201306;3.國家遠洋漁業工程技術研究中心,上海 201306;4.遠洋漁業協同創新中心,上海 201306)
基于主成分和BP神經網絡的智利竹筴魚漁場預報模型研究
汪金濤1,4,高峰1,2,3,4,雷林1,2,3,4,鄒曉榮1,2,3,4,官文江1,2,3,4,陳新軍1,2,3,4
(1.上海海洋大學海洋科學學院,上海 201306;2.大洋漁業資源可持續開發省部共建教育部重點實驗室,上海 201306;3.國家遠洋漁業工程技術研究中心,上海 201306;4.遠洋漁業協同創新中心,上海 201306)
東南太平洋智利竹筴魚Trachurusmurphyi是我國大型拖網漁船隊的重要捕撈對象。準確預報中心漁場是提高漁業生產能力的重要工作。本文根據2003—2009年我國船隊在東南太平洋海域捕撈智利竹筴魚的漁撈日志數據,結合海洋遙感獲得的海表溫度(SST)和海面高度(SSH)等海洋環境因子,利用主成分和BP神經網絡方法對智利竹筴魚中心漁場預報模型進行了研究。研究利用主成分分析法(PCA)得到累計貢獻率在90%以上樣本的主成分,綜合考慮模型測試的精度與速度,基于原始樣本和經PCA處理后的主成分分別建立了BP模型,其最優BP模型結構分別為5∶10∶1和3∶7∶1。研究結果表明,經PCA處理后的主成分所建立的BP神經網絡模型在訓練結果和測試結果上均要優于用原始樣本建立的BP神經網絡模型,兩者的預報準確率分別為67%和60%。
東南太平洋;智利竹筴魚;BP神經網絡;主成分分析;漁場預報
東南太平洋智利竹筴魚Trachurusmurphyi是世界上重要的中上層魚類資源之一,屬于大洋性高度洄游性魚類[1],廣泛分布于東南太平洋,其產量一直位居世界單一魚種的前列[2-3]。準確預報中心漁場是提高漁業生產能力的重要內容。目前,利用海洋環境因子預報智利竹筴魚漁場已有一些研究。例如,牛明香等[4]利用廣義可加模型和案例推理預報智利竹筴魚中心漁場,崔雪森等[5]利用分類回歸樹算法預報智利竹筴魚中心漁場,張衡等[6]利用遙感數據開發了智利竹筴魚漁場預報系統。據前人研究,用于漁情預報的模型和方法較多,既有基于單一環境因子的漁情預報[7-8],又有基于多環境因子的漁情預報[9-10];在預報方法上,有統計學模型,包括一般的線性模型[11-12]、復雜的分段線性模型[13]、多項式回歸[14]、指數回歸[15-16]、分位數回歸[17]等;也有智能模型,如專家系統、遺傳算法、模糊推理等[18-19]。由于近實時遙感數據的缺乏,牛明香等[4]、崔雪森等[5]、張衡等[6]開發的漁情預報模型無法實行近實時的漁情預報工作。本文根據我國大型拖網漁船多年來在東南太平洋捕撈智利竹筴魚的生產統計數據和近實時的表溫、海面高度等遙感環境數據,嘗試采用基于主成分分析的BP神經網絡模型來建立漁情預報模型,并進行不同輸入因子的BP模型優劣比較,為東南太平洋智利竹筴魚的科學生產提供手段。
2.1 數據及其預處理
2.1.1 數據來源
東南太平洋智利竹筴魚生產統計數據來自上海海洋大學大型拖網技術組,為中國大型拖網漁船上報的捕撈日志,數據包括作業日期、作業位置、作業船數和漁獲量,時間為2003—2009年。遙感獲得的海表溫度數據和海面高度數據來自美國OceanWatch網站(http://oceanwatch.noaa.gov/index.html),空間分辨率為0.25°×0.25°,時間分辨率為月。
2.1.2 數據預處理
(1)CPUE計算
CPUE(Catch per Unit Effort,t/d)為單位捕撈努力量漁獲量,作為智利竹筴魚的資源豐度指標。智利竹筴魚生產數據按空間分辨率0.25°×0.25°、時間分辨率按月進行統計。計算月平均CPUE,計算公式如下:

式中,CPUE(i,j,m,y)表示m月y年,位置i,j的平均CPUE;C(i,j,m,y)表示m月y年,位置i,j的總產量;E(i,j,m,y)表示m月y年,位置i,j的總的作業船數。
(2)樣本組成
按時間、空間將智利竹筴魚生產數據和遙感環境數據進行匹配組成樣本集,其中輸入向量為月份、經度、緯度、海表溫度、海面高度,輸出向量為CPUE。
2.2 建模方法
2.2.1 主成分分析方法
對神經網絡而言,輸入向量維度過多時,網絡結構變得復雜,網絡的訓練負擔加重,學習速度急劇下降;輸入向量維度過少時,預測精度又無法達到要求。如果主觀選擇很有可能包含與輸出相關性很小的輸入變量,增加了陷入局部極小點的可能性,非但沒有提高預測精度,反而降低了神經網絡預測的性能。主成分分析(Principle component analysis PCA)是將研究對象的多個相關變量指標化為少數幾個不相關變量的一種多元統計方法,且這些不相關的綜合變量包含了原變量提供的大部分信息,即對原始多變量數據達到降維的目的[20]。其研究方法見文獻[21-23]。
2.2.2 誤差反向傳播網絡
誤差反向傳播網絡(Error Backpropagation Network,BP)屬于多層前向神經網絡,采用誤差反向傳播的監督算法,能夠學習和存儲大量的模式映射關系,已被廣泛應用于各個領域[24-25]。
BP算法主要包括學習過程信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,樣本從輸入層進入,經隱層激活函數處理,傳向輸出層,如輸出層的實際輸出與期望的輸出不符合誤差要求,則轉入誤差的反向傳播階段。反向傳播是將誤差以某種形式通過隱層向輸入層逐層反向傳播,將誤差分攤給各層所有節點,從而獲得各層節點的誤差信號,此誤差信號作為修正的依據。這種信號的正向傳播與誤差的反向傳播是周而復始地進行,權值不斷調整,也就是網絡學習的過程。此過程一直進行到網絡輸出的誤差減少到可接受的程度或進行到預先設定的學習次數為止。
3.1 CPUE分布
由圖1可知,5—10月各月CPUE較高,其中7月份CPUE最高,達到了47.13 t/d。1月份CPUE最低,為9.26 t/d。這說明5—10月為捕撈智利竹筴魚的盛產期,其余各月為生產淡季。各月CPUE的方差與CPUE變化幾乎一致(圖1)。

圖1 2003—2009年智利竹筴魚月平均CPUE及方差分布Fig.1 CPUE and its variance ofTrachurusmurphyifrom January to December during 2003 to 2009
3.2 作業區分布

圖2 2003—2009年1—12月各月智利竹筴魚CPUE(t/d)空間分布Fig.2 Monthly spatial distribution ofTrachurusmurphyifrom January to December during 2003 to 2009
從圖2可看出,生產淡季(1—4月,11—12月)作業次數少(圖2),生產旺季(5—10月)作業次數多(見圖2)。從緯度分布來看,1—12月份生產作業位置分布相對集中,主要集中在47°~35°S范圍(見圖2);從經度分布來看,生產旺季作業位置廣泛,分布在84°~119°W海域,生產淡季則相對集中,分布在84°~119° W海域。各月中“△”符號出現的次數均較多,這說明大部分CPUE值都在30 t/d以內;除2月外,其余各月中均出現“○”符號,這說明每月都有零產量的作業次數(見圖2)。
3.3 PCA處理結果
在Matlab軟件中,用PCA方法來提取月份、經度、緯度、海表溫度、海面高度5個變量因子的主成分,經過標準化后的相關系數矩陣的特征值、特征向量見表1,各主成分的貢獻率、累計貢獻率見圖3。本文選取前3個主成分,這3個主成分代表原變量因子90%以上的綜合信息量,選取的主成分構成見下式:


表1 特征值和特征向量表Tab.1 Eigen values and eigen vectors

圖3 變量因子貢獻率及累計貢獻率Fig.3 The contribution rate and cumulative contribution rate of variables
3.4 模型結構確定、比較與測試結果
BP模型結構的確定主要包括輸入層、隱含層、輸出層神經元個數的確定。輸入層、輸出層神經元個數確定以模型應用的實際情況為依據進行確定(見圖4);隱藏層神經元個數的確定首先根據文獻[26]中的方法確定其個數范圍為5~14,然后根據測試均方誤差(Mean Squared Error,MSE)綜合考慮測試精度與速度確定模型網絡結構,得出用原始數據建立的BP模型結構為5∶10∶1,用PCA處理過的數據建立的BP模型結構為3∶7∶1(見圖5)。
確定模型結構后,利用原始數據建立的BP模型和經PCA處理后的主成分建立的BP模型進行擬合,結果表明前者的模擬精度為62%,后者為68%,均具有較好的擬合效果,其中,后者模型精度好于前者模型。
同時,利用訓練好的BP模型,對2009年智利竹筴魚中心漁場進行預報和驗證,研究結果顯示,上述2種模型預報的準確率都在60%以上,經過PCA優化后的模型預報準確率達到67%。
目前,有關東南太平洋智利竹筴魚的研究多集中在資源和漁場的時空分布變化,對其中心漁場的預報則較少[27-29]。本文利用2003—2009年智利竹筴魚生產數據和獲得的遙感環境數據,建立了預測東南太平洋智利竹筴魚CPUE空間分布的BP神經網絡模型,雖然樣本數量多,但經過主成分分析之后再訓練BP模型,不但使得模型的規模減小,而且數據所包含的信息相對比較充分,因此網絡的訓練速度加快,網絡的泛化能力反而得到提升。另外,兩種方法建立的BP模型所預測的結果及其變化趨勢是一致的,這說明用BP神經網絡模型預測智利竹筴魚中心漁場的方法是可行的。

圖4 BP模型結構Fig.4 The structure of BP model

圖5 不同隱藏層神經元個數下BP模型的MSE比較Fig.5 The MSE of BP models with different nodes in hidden layer
本文雖然利用的海洋環境數據偏少,但均可以近實時地獲得,從而使得預報模型能夠進行近實時業務化運行,比前人的研究[4-6]更具有實際的應用價值。在預報精度上,本文模型利用有限的近實時環境數據基本上達到了前人研究的預報模型的精度,其最高預報精度達到了67%,相信未來隨著遙感技術的發展獲得更多的近實時數據可進一步提高模型預報精度。
由公式(2)的主成分分析發現,海表溫度SST均有較高的權重,在第一、第二和第三主成分中,其SST的權重分別為0.416 3、0.468 9和0.622 5,而SSH的權重分別為0.515 6、0.089 2和-0.025 5,這說明SST對智利竹筴魚的棲息地和中心漁場有著重要影響,這一研究與前人研究[2,4-6,27-29]中均選取SST作為重要因子是一致的。
此外,神經網絡模型是典型的“黑盒模型”,其權重不具備可解釋性。但在生態學研究中,國外已有學者初步總結了幾種方法去解釋變量與權重的關系,如神經網絡解釋圖法(Neural Interpretation Diagram NID)、Garson算法、靈敏度分析法(Sensitivity analysis)、隨機測試法(Randomization test)等[30-31]。今后可嘗試使用這些方法解釋模型,例如輸入變量中的環境因子與輸出CPUE關系,不但說明環境因子對漁場預報的重要性,而且也提供了一種解釋環境因子與中心漁場關系的方法。
[1] 鄒莉瑾,張敏,鄒曉榮,等.東南太平洋公海智利竹筴魚年齡與生長研究[J].上海海洋大學學報,2010,19(1):61-67.
[2] 方宇,鄒曉榮,張敏,等.東南太平洋智利竹筴魚棲息地指數的比較研究[J].海洋漁業,2010,32(2):178-185.
[3] FAO.The state of world fisheries and aquaculture[R].Rome:FAO,1996-2007.
[4] 牛明香,李顯森,徐玉成.基于廣義可加模型和案例推理的東南太平洋智利竹筴魚中心漁場預報[J].海洋環境科學,2012,31(1):30-33.
[5] 崔雪森,伍玉梅,張晶,等.基于分類回歸樹算法的東南太平洋智利竹筴魚漁場預報[J].中國海洋大學學報(自然科學版),2012,42(7/8):53-59.
[6] 張衡,崔雪森,樊偉.基于遙感數據的智利竹筴魚漁場預報系統[J].農業工程學報,2012,28(15):140-144.
[7] 陳新軍,趙小虎.西南大西洋阿根廷滑柔魚產量分布與表溫關系的初步研究[J].大連水產學院學報,2005,20(3):222-228.
[8] 方舟,陳新軍,李建華,等.阿根廷專屬經濟區內魷釣漁場分布及其與表溫關系[J].上海海洋大學學報,2013,22(1):134-140.
[9] 高峰,陳新軍,范江濤,等.西南大西洋阿根廷滑柔魚中心漁場預報的實現及驗證[J].上海海洋大學學報,2011,20(5):754-758.
[10] 陳新軍,陸化杰,劉必林,等.利用棲息地指數預測西南大西洋阿根廷滑柔魚漁場[J].上海海洋大學學報,2012,21(3):431-438.
[11] 王為祥,朱德山.黃海鮐魚漁業生物學研究:Ⅱ.黃、渤海鮐魚行動分布與環境關系的研究[J].海洋水產研究,1984(6):59-76.
[12] 韋晟,周彬彬.黃渤海藍點馬鮫短期漁情預報的研究[J].海洋學報,1988,10(2):216-221.
[13] 陳新軍,馮波,許柳雄.印度洋大眼金槍魚棲息地指數研究及其比較[J].中國水產科學,2008,15(2):269-278.
[14] 邵全琴,馬巍巍,陳卓奇,等.西北太平洋黑潮路徑變化與柔魚CPUE的關系研究[J].海洋與湖沼,2005,36(2):111-122.
[15] 劉傳楨,嚴雋箕,崔維喜.渤海秋汛對蝦數量預報方法的研究[J].水產學報,1981,5(1):65-73.
[16] 陳新軍,劉必林,田思泉,等.利用基于表溫因子的棲息地模型預測西北太平洋柔魚(Ommastrephesbartramii)漁場[J].海洋與湖沼,2009,40(6):707-713.
[17] 馮波,田思泉,陳新軍.基于分位數回歸的西南太平洋阿根廷滑柔魚棲息地模型研究[J].海洋湖沼通報,2010(1):15-22.
[18] 樊偉,崔雪森,沈新強.漁場漁情分析預報的研究及其進展[J].水產學報,2005,29(5):706-710.
[19] 易倩,陳新軍.基于信息增益法選取柔魚中心漁場的關鍵水溫因子[J].上海海洋大學學報,2012,21(3):425-430.
[20] 梁娜.基于神經網絡與主成分分析的組合預測研究[D].武漢:武漢理工大學,2007.
[21] Johnson R A,Wichern D W.Applied Multivariate Statistical Analysis[M].Upper Saddle River,NJ:Prentice Hall,2002.
[22] 何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,2007.
[23] 于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,1999.
[24] Benediktsson J A,Swain P H,Ersoy O K.Neural network approaches versus statistical methods in classification of multisource remote sensing data[J].IEEE Transactions on Geoscience and Remote Sensing,1990,28(4):540-552.
[25] Hush D R,Horne B G.Progress in supervised neural networks[J].IEEE Signal Processing Magazine,1993,10(1):8-39.
[26] 劉維群,李元臣.BP網絡中隱含層節點優化的研究[J].交通與計算機,2005,23(2):83-86.
[27] 化成君,張衡,樊偉.東南太平洋智利竹筴魚資源和漁場的時空變化[J].生態學報,2011,31(19):5676-5681.
[28] 張衡,張勝茂.東南太平洋智利竹筴魚漁場及單位捕撈努力量的時空分布[J].生態學雜志,2011,30(6):1142-1146.
[29] 牛明香,李顯森,徐玉成.基于廣義可加模型的時空和環境因子對東南太平洋智利竹筴魚漁場的影響[J].應用生態學報,2010,21(4):1049-1055.
[30] Olden J D,Jackson D A.Illuminating the“black box”:a randomization approach for understanding variable contributions in artificial neural networks[J].Ecological Modelling,2002,154(1):135-150.
[31] ?zesmi S L,?zesmi U.An artificial neural network approach to spatial habitat modelling with interspecific interaction[J].Ecological Modelling,1999,116(1):15-31.
Application of BP neural network based on principal component analysis in fishing grounds of chilean jack mackerel (Trachurus murphyi)in the southeast Pacific Ocean
Wang Jintao1,4,Gao Feng1,2,3,4,Lei Lin1,2,3,4,Zou Xiaorong1,2,3,4Guan Wenjiang1,2,3,4,Chen Xinjun1,2,3,4
(1.College of Marine Sciences of Shanghai Ocean University,Shanghai 201306,China;2.The Key Laboratory of Sustainable Exploitation of Oceanic Fisheries Resources,Shanghai Ocean University,Ministry of Education,Shanghai 201306,China 3.National Distant-water Fisheries Engineering Research Center,Shanghai Ocean University,Shanghai 201306,China;4.Collaborative Innovation Center for Distant-water Fisheries,Shanghai 201306,China)
Chilean jack mackerel(Trachurusmurphyi)is an important target species for Chinese factory trawler fleet in the southeast Pacific Ocean,and the accurate forecasting of fishing ground can provide better scientific guidance for fishing operation.In this paper,we built the forecasting models by using the methods of principal component analysis(PCA)and BP neural networks according to the catch data from the logbooks and fishing yield statistics from Chinese factory trawler fleets,the sea surface temperature(SST)and sea surface height(SSH)obtained by satellite remote sensing from 2003 to 2009.Based on the PCA,we got the principal components of different factors.We also determined the two suitable model structures by using the original-samples and PCA-processed-samples combined with the accuracy of models,respectively.It is found that the model used by PCA-processed-samples is better than that model used by original-sampled based on the results of training and test,and their accuracy rates were 67%and 60%respectively.
southeast Pacific;Trachurusmurphyi;BP neural network;principal component analysis;fishing ground forecasting
A
0253-4193(2014)08-0065-07
2013-05-07;
2014-01-11。
國家863計劃(2012AA092301);國家發改委產業化專項(2159999);上海市科技創新行動計劃(12231203900)和國家科技支撐計劃(2013BAD13B01)。
汪金濤(1987-),男,安徽省安慶市人,博士生,研究方向為漁業資源學。E-mail:wangjintao0510@163.com
*通信作者:陳新軍(1967-),男,教授。E-mail:xjchen@shou.edu.cn
汪金濤,高峰,雷林,等.基于主成分和BP神經網絡的智利竹筴魚漁場預報模型研究[J].海洋學報,2014,36(8):65—71,
10.3969/j.issn.0253-4193.2014.08.007
Wang Jintao,Gao Feng,Lei Lin,et al.Application of BP neural network based on principal component analysis in fishing grounds of Chilean jack mackerel(Trachurusmurphyi)in the southeast Pacific Ocean[J].Acta Oceanologica Sinica(in Chinese),2014,36(8):65—71,doi:10.3969/j.issn.0253-4193.2014.08.007