徐立萍 ,門雅彬
(1.上海出版印刷高等專科學校,上海 200093;2.上海理工大學,上海 200093;3.國家海洋技術中心,天津 300112)
基于數據挖掘算法的WCPO金槍魚圍網漁情預測研究
徐立萍1,2,門雅彬3
(1.上海出版印刷高等專科學校,上海 200093;2.上海理工大學,上海 200093;3.國家海洋技術中心,天津 300112)
利用數據挖掘方法對1990年1月—2001年7月10余年的WCPO金槍魚圍網作業生產數據以及該時段的18個與WCPO金槍魚圍網產量相關的海洋環境因子進行分析,將信息增益分析技術和基于粗糙集的屬性化簡方法相結合用以確定影響WCPO金槍魚圍網產量的關鍵因子集。利用多元回歸分析方法建立基于關鍵因子集的預測模型,經過大量試驗對比選擇較佳的預測模型,達到了理想的效果。同時,驗證了所確定關鍵因子集的可靠性,有效性。首次利用多種數據挖掘方法相結合的方式對多種影響因子進行分析,開展漁情預報研究,達到了較好的效果,為漁情預報研究提供了一種新思路,同時為漁業生產提供了可靠的依據。
中西太平洋;金槍魚圍網;信息增益;粗糙集;漁情預報
中西太平洋海域WCPO(Western and Central Pacific Ocean)是世界金槍魚圍網漁業最主要的漁區,其年產量在100萬t左右[1]。在金槍魚圍網作業中,尋找魚群是最為重要的步驟,除了靠目視偵察等傳統方式外,還有依靠溫度、鹽度和葉綠素濃度分布及其變化情況來進行漁情預報,漁情預報所需的海洋環境信息主要來自于國外,一艘圍網船只每年約需支付4萬美元[1]。因此對該海域進行漁情預報,對我國金槍魚圍網漁業的發展有著極為重要的意義。
漁情預報研究中,確定關鍵的影響因子是極為重要的一步,傳統的預測方法所涉及因子較少,其結論具有一定的局限性。而數據挖掘算法的優點就是從海量數據中找到潛在有用的信息,目前也得到了一些應用,如沈新強[2],陳新軍[3]等在該領域做了大量研究。歷年來對金槍魚分布情況的研究,以及對金槍魚漁業的漁情研究,主要涉及的環境因子就是水溫,而其它環境因素如鹽度、溫躍層、營養物等與金槍魚分布的關系則研究較少。本研究旨在將數據挖掘方法應用于中西太平洋海域金槍魚圍網漁業漁情預報研究,通過對1990—2001年金槍魚圍網生產數據以及海洋環境因子數據進行分析,確定影響產量的關鍵因子集,進而利用多元線性回歸方法建立基于關鍵因子集的預測模型。
在影響中西太平洋海域金槍魚圍網產量的眾多環境因子中,水溫是個非常關鍵的影響因素,而且構成也非常復雜,包括了海洋表面溫度、各水層的水溫以及不同水層的溫躍層等。本研究選取了18個水溫因子作為研究對象(表1)。由于金槍魚圍網主捕對象為鰹魚,約占總產量的70%~80%,因此以鰹魚產量作為代表進行分析。研究海域為中西太平洋海域(20°N~25°S,175°W以西),時間段為 1990 年 1 月—2001年7月。在數據分析中,以1990年1月—1998年12月期間數據作為試驗樣本,1999年1月—2001年7月間數據作為檢驗樣本。
由于生產統計數據和水溫數據的空間分辨率不同,分析之前統一轉化為5°×5°。采用了算術平均值方法計算5°×5°區域的海水垂直溫度、表溫及歷史平均值,公式如下:

式中:T(m,n)表示以經度為m,緯度為n的點為中心的5°區域的平均屬性值(表示海水垂直溫度、表面溫度或歷史平均值),T(i,j)表示包含在這 5°區域里的相應屬性值,N 為求和屬性值的個數。
在分析過程中,采用數據挖掘方法。為避免一種算法對某種數據的傾向性,同時為了確保試驗結果的可靠性,試驗過程中,將信息增益分析技術和基于粗糙集的屬性化簡方法相結合,確定影響WCPO金槍魚圍網產量的關鍵因子集。利用多元回歸分析方法構建預測模型,同時反向檢驗關鍵因子集的可靠性。分析過程如下:

表1 18個水溫因子及其來源
(1)利用面向屬性歸納的思想對數據進行預處理。
(2)通過信息增益分析技術對1990年1月—1998年12月的數據進行分析,計算各個屬性的信息增益值確定各屬性對產量的影響強度,確定與產量強相關的屬性集。
(3)為避免只依賴某一種工具,選取多種工具是非常必要的。同時采用了面向粗糙集的屬性化簡方法(利用Skowron提出的可辨識矩陣得到屬性的最佳化簡)[4],同樣對上述18個因子及產量數據進行分析,找出影響WCPO金槍魚圍網作業產量的關鍵屬性集。

表2 信息增益分析技術的結果
(4)結合上述兩種方法的結果,確定影響WCPO金槍魚圍網產量的關鍵因子集。
(5)利用多元回歸方法構建預測中西太平洋海域金槍魚圍網產量的數據模型。
通過信息增益分析技術對1991年7月—1998年12月數據進行分析,得到表征對WCPO金槍魚圍網產量影響強度的信息增益值(表2)。
利用面向粗糙集的屬性化簡方法得到的核屬性集為:

從試驗結果看,信息增益大于0.02的影響因子均包含在用面向粗糙集的屬性歸約算法找出的核屬性集中,同時信息增益分析技術分析的結果表明,12.5DeepTemp和37.5DeepTemp的信息增益值總是非常相近,即對總產量的影響程度差不多。面向粗糙集的屬性化簡結果:12.5DeepTemp和37.5DeepTemp只需包含一個就可以構成核屬性集。因此我們確定了信息增益分析技術中確定的關鍵因子的可靠性。
兩種方法實驗結果表明各有優點,面向粗糙集的屬性歸約算法可以找出核屬性集,并且可區分出有些影響強度差不多的屬性只擇其一就可以了,但無法區分各因子的影響強度。當核屬性集較大時,我們就無法進一步決定應去除哪些屬性了。信息增益分析技術恰恰能解決這個問題,信息增益值表征出各屬性對對比類的影響能力。試驗結果表明兩種方法相結合可以達到非常好的效果。
(1)確定屬性集I
選取信息增益值大于閾值0.03的關鍵因子287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,37.5Deep Temp,SeaSurfaceTemp,結合面向粗糙集的屬性歸約算法的試驗結果,僅需選12.5DeepTemp,37.5DeepTemp兩者之一,此處選擇12.5DeepTemp,同時考慮到溫躍層對產量具有一定的影響力,因此加進信息增益值最大的溫躍層屬性187.5TempDiff(137.5~187.5 m水層每米平均溫度變化),構成屬性集I:
{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SST,187.5TempDiff}
(2)確定屬性集II
為了避免人為因素的影響,取187.5TempDiff信息增益值0.022 2為閾值,將大于此閾值的屬性全部確定為關鍵因子。這樣,構成屬性集II:

(3)利用多元回歸分析方法建立模型對比兩個屬性集
通過多元回歸分析方法建立模型,檢驗屬性集I與屬性集II的預測效果。試驗中發現利用屬性集II建立的模型與用屬性集I建立的模型預測效果相仿。因此,在此確定屬性集I為影響WCPO金槍魚圍網產量的關鍵因子集,建立預測模型。
用SPSS軟件中的多元分析方法,用強相關因子建立中西太平洋金槍魚圍網產量預測模型,經過多種建立模型方式,確定了一種預測效果較好的考慮因子交互效應的預測方程(NetNum為投網次數):
預測產量=-17252.6+2394.849*[287.5DeepTemp]

試驗結果證明預測效果較好,基本可以反映出相應產量信息。用1999年1月—2001年7月數據進行檢驗,預測效果如圖1;對1990年1月—2001年7月數據進行預測。當僅對總產量大于500 t進行預測時平均誤差為2.89%;對總產量大于300 t進行預測時平均誤差為19.3%;對總產量大于100 t進行預測時平均誤差為61.9%,當對總產量大于50 t的進行預測平均誤差就非常大了,由此看到此模型對于產量大于300 t的漁區預測效果還是非常好的。

圖1 預測模型預測結果圖
在研究過程中利用數據庫技術對原始數據進行了清理、集成、選擇。利用面向屬性的歸納方法將數據進行預處理,變換成所選數據挖掘算法可用的數據。采用了信息增益技術和一種面向粗糙集的屬性化簡方法相結合從選定的18個海洋環境因子中確定出與中西太平洋海域金槍魚圍網產量強相關的因子,利用多元回歸方法建立預測模型。從一系列的試驗中得到以下結論:
(1)各因子的影響強度
從關鍵屬性集{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SeaSurfaceTemp,187.5TempDiff}來看,對WCPO金槍魚圍網產量影響強度較大的是較深水層的海水溫度,海水表溫,影響強度較大的溫躍層是137.5~187.5 m水層的溫度變化值。
(2)預測模型
在確定了關鍵屬性集之后,采用了多種方式構建預測模型,從試驗結果得出,考慮交互效應的預測模型要優于不考慮交互效應的取自然對數的預測模型。
采用數據挖掘方法對海量數據進行分析,獲取信息量遠大于用傳統方法進行預報,擺脫了數據量小,效率低的約束,避免了信息的局部性,增強了結論的可靠性;采用信息增益技術與基于粗糙集屬性化簡兩種方法相結合的手段,避免數據對單一方法的依靠。對數據進行多種方式預處理,以適應分析方法所需數據的形式,確保研究技術路線的科學性與合理性;根據關鍵影響因子集,經過由簡到繁的一個過程,綜合對比不同建模方法構建模型的預測效果,確定最終的預測模型。從獲取方法上保證了結果的科學性,而實際生產的檢驗表明結果的可靠性,為漁業生產提供了可靠的依據。
[1]林龍山,丁峰元,程家驊.中西太平洋金槍魚圍網漁獲物組成分析[J].海洋漁業,2005,27(1):10-14.
[2]沈新強,葉施仁.中國漁場智能預報系統的設計與實現[J].中國水產科學,2000,7(2):69-72.
[3]陳新軍,俞存根,盧伙勝,等.漁業資源與漁場學[M].北京:海洋出版社,2004.
[4]陳文偉,黃金才,趙新昱.數據挖掘技術[M].北京:北京工業大學出版社,2002:1-48.
[5]楊松.中西太平洋金槍魚圍網漁業資源豐度、漁場變動及其與表溫關系研究[D].上海:上海水產大學,2005.
[6]David Hand,Heikki Mannila,Padhraic Smyth.Principles ofData Mining[M].機械工業出版社、中信出版社,2003:233-255.
[7]Han jiawei,Micheline Kamker.Data MiningConcepts and Techniques[M].北京:機械工業出版社,2001.
[8]苗振清,嚴世強.模糊類比分析法在漁業數值預報中的應用研究[J].青島海洋大學學報.2003,33(4):540-546.
[9]Pawlak Z.Rough sets[J].Intemational Journal ofComputer and Information Sciences,1982,1(11):341-356.
[10]Pawlak Z,et a1.Rough sets:probabilistic versus deterministic approach[J].International Journal ofMan-Machine Studies,1988,29(1):81-95.
[11]Joseph J,Miller F R.El Ninoand the surface fisheryfor tunas in the eastern Pacific.Bull.Jap.Soc.Fish[J].Oceanography,1989,53:77-80.
[12]苗振清,嚴世強.模糊類比分析法在漁業數值預報中的應用研究[J].青島海洋大學學報,2003,33(4):540-546.
[13]Lee MA,Lee KT,Shiah GY.Environmental factors associated with the formation oflarval anchovyfishingground in coastal waters ofsouthwest Taiwan[J].Mar Biol,1995,121:621-625.
[14]袁紅春,湯鴻益,陳新軍.一種獲取漁場知識的數據挖掘模型及知識表示方法研究[J].計算機應用研究,2010,12:4443-4446.
[15]徐立萍,張健,陳新軍.基于信息增益及粗糙集的屬性化簡算法[J].微型電腦應用,2007(10):62-64.
Study of WCPO Tuna Purse Seine Fishery Prediction Based on Data Mining
XU Li-ping1,2,MEN Ya-bin3
(1.Shanghai Publishing and Printing College,Shanghai 20093;China 2.University of Shanghai for Science and Technology,Shanghai 200090,China;3.National Ocean Technology Center,Tianjin 300112,China)
In order to find the key influence attributes set to tuna purse seiner output in WCPO,the attained data of tuna purse seiner output from Jan 1990 to Jul 2001,and eighteen environmental factors associated with tuna purse seiner output in the same period were analyzed with the information gain analysis method and rough set theory.Several fishery prediction models were established by multiple regression analysis based on the key attributes set and then were compared to confirm the best one.The good prediction effect of that model proved that the key attribute set contains the main information of those influence attribute data.Two data mining methods were combined to analyze multiple factors,which could be a new analyzing method of fishery prediction study.The prediction model based on the key influence attributes set improves the fishery prediction precision and provide the important information to fishery industry.
western and central Pacific Ocean;tuna purse seine fishery;information gain;rough set;fishery forecast
S973.1
A
1003-2029(2012)01-0103-04
2011-09-20
國家高技術研究發展計劃(863)資助項目(2003AA637030)
徐立萍(1977-),女,講師,博士在讀,主要研究方向為數據挖掘與預測。Email:xlp20010609@gmail.com