應(yīng)用于物種分布模型的多種算法

2016-06-20 06:21:06楊若男盛炎平

大學(xué)教育 2016年5期

楊若男+盛炎平

[摘要]回顧了物種分布比較了常用的11種模型，包括回歸模型、分類(lèi)模型和復(fù)雜模型。給出了各模型的優(yōu)缺點(diǎn)、特性和適用范圍，并且提供模型應(yīng)用導(dǎo)向。模型應(yīng)用導(dǎo)向主要包括三個(gè)步驟：模型選擇、模型建立和參數(shù)評(píng)估。

[關(guān)鍵詞]模型建立；模型選擇；物種分布模型

[中圖分類(lèi)號(hào)] G642.0 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437（2016）05-0120-02

物種分布模型也稱(chēng)為生態(tài)模型[1]，用算法來(lái)預(yù)測(cè)特定地區(qū)內(nèi)的物種分布，依賴(lài)物種和環(huán)境變量之間的統(tǒng)計(jì)關(guān)系。衡量生態(tài)模型的3個(gè)目標(biāo)是：真實(shí)性、廣泛性和準(zhǔn)確性，一般情況下，只能達(dá)到期望目標(biāo)的三分之二。物種分布模型是靜態(tài)實(shí)證模型，而非機(jī)械模型。物種分布模型將觀測(cè)到的物種-環(huán)境的現(xiàn)象與指定區(qū)域的環(huán)境變量聯(lián)系起來(lái)。它們之間的關(guān)系非常復(fù)雜。[2]在過(guò)去的30年中，學(xué)者們已經(jīng)創(chuàng)建了很多模型去預(yù)測(cè)物種-環(huán)境之間的關(guān)系。但是，不同的模型做出的預(yù)測(cè)是不同的。[3]下面介紹比較常見(jiàn)的11種物種分布模型。

一、模型種類(lèi)

基于物種和環(huán)境變量之間的聯(lián)系預(yù)測(cè)物種分布，有很多物種分布模型。下面介紹幾種常用的模型。

廣義線性模型是一般線性模型的擴(kuò)展，包括線性回歸、邏輯回歸和泊松回歸。廣義線性模型的自變量包括交互項(xiàng)和高階項(xiàng)，所以該模型更適用于物種和環(huán)境變量之間的非線性關(guān)系，且所有的參數(shù)都有統(tǒng)計(jì)學(xué)意義。使用時(shí)，應(yīng)注意精度問(wèn)題，移除無(wú)關(guān)變量。

廣義可加模型是廣義線性模型的非參數(shù)推廣，適用性更強(qiáng)。其使用光滑函數(shù)建立物種-環(huán)境之間的非線性關(guān)系。光滑函數(shù)的自變量都是相互獨(dú)立的，并且構(gòu)建最終的模型。使用時(shí)，應(yīng)適當(dāng)減少，以避免過(guò)擬合。

多元自適應(yīng)回歸樣條是線性回歸模型的推廣，能夠自動(dòng)模擬非線性和交互作用。使用時(shí)，系數(shù)是可變的，并且不同級(jí)的變量，其參數(shù)有不同的最優(yōu)化值。當(dāng)自變量較多且交互項(xiàng)的階數(shù)較低時(shí)，多元自適應(yīng)回歸樣條效果良好。

混合判別分析是線性判別分析的推廣，是基于混合模型的一種分類(lèi)方法，具體是一個(gè)因變量可寫(xiě)成一些自變量的線性組合。假設(shè)每一類(lèi)環(huán)境變量均服從正態(tài)分布，用混合的正態(tài)分布獲取每個(gè)分類(lèi)的密度估計(jì)。

廣義線性模型用一個(gè)簡(jiǎn)單的模型擬合物種和環(huán)境變量之間的關(guān)系，而廣義助推法是把很多簡(jiǎn)單模型的預(yù)測(cè)結(jié)果組合起來(lái)給出物種分布和環(huán)境變量之間的更為精確的估計(jì)。即使預(yù)測(cè)變量和因變量之間的關(guān)系比較復(fù)雜，廣義助推法最終也會(huì)產(chǎn)生與觀測(cè)值非常接近的估計(jì)值。

人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元組成的一個(gè)復(fù)雜的模型系統(tǒng)，能夠描述復(fù)雜的全局行為。人工神經(jīng)網(wǎng)絡(luò)的關(guān)鍵特性就是包含一個(gè)隱元。每一個(gè)隱元得到信息，輸入，求和，增加常量，然后通過(guò)一個(gè)固定函數(shù)轉(zhuǎn)換結(jié)果。

分類(lèi)回歸樹(shù)使用遞歸分區(qū)把數(shù)據(jù)分割成越來(lái)越小的同質(zhì)的子集，直到達(dá)到終止條件。在決策樹(shù)中，每一類(lèi)數(shù)據(jù)都可以表示成一個(gè)“節(jié)點(diǎn)”，只能被分成兩部分。相比于傳統(tǒng)的方法，分類(lèi)回歸樹(shù)能夠揭示復(fù)雜的預(yù)測(cè)因子之間的相互作用。

隨機(jī)森林應(yīng)用Breimans的隨機(jī)森林算法，稱(chēng)為預(yù)測(cè)物種分布最準(zhǔn)確的模型之一。它通過(guò)對(duì)大量的分類(lèi)樹(shù)的計(jì)算來(lái)進(jìn)行分類(lèi)和回歸，是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器。當(dāng)有新的樣本進(jìn)入的時(shí)候，就讓森林中的每一棵決策樹(shù)進(jìn)行判斷，觀察哪一類(lèi)被選擇最多，就預(yù)測(cè)這個(gè)樣本為哪一類(lèi)。

預(yù)測(cè)規(guī)則遺傳算法是基于遺傳算法，建立限制物種分布的規(guī)則集的一種物種分布模型。它是一組隨機(jī)的數(shù)學(xué)規(guī)則，每個(gè)規(guī)則被確定為一個(gè)基因，這些基因隨機(jī)的組合起來(lái)去形成可能的模型描述潛在的物種分布。

最大熵方法是預(yù)測(cè)物種地理分布的萬(wàn)能機(jī)器學(xué)習(xí)方法，無(wú)需調(diào)整參數(shù)，直接使用默認(rèn)值即可，得到比較精確的預(yù)測(cè)結(jié)果。它的基本原理是通過(guò)最大熵的概率分布預(yù)測(cè)目標(biāo)概率分布。

分層模型將不同的物種分布模型組合起來(lái)。分層模型已發(fā)展到環(huán)境科學(xué)研究領(lǐng)域，對(duì)觀測(cè)成分或過(guò)程成分進(jìn)行組合，適用于預(yù)測(cè)數(shù)據(jù)記錄和物種、環(huán)境之間的不確定性。

二、模型比較

物種和環(huán)境變量之間的關(guān)系是復(fù)雜多變的。物種分布模型可分成三大類(lèi)，回歸模型、分類(lèi)模型和復(fù)雜模型。

廣義線性模型用經(jīng)典的方法量化物種-環(huán)境變量之間的聯(lián)系。當(dāng)物種和環(huán)境變量是多元的關(guān)系時(shí)，廣義相加型更適宜。物種選擇對(duì)廣義可加模型或者廣義線性模型影響較大。

多元自適應(yīng)回歸樣條函數(shù)，與廣義可加模型很相似，這兩者性能優(yōu)于廣義線性模型。多元自適應(yīng)回歸樣條比廣義可加模型速度快。分層模型通常將2種或3種回歸進(jìn)程組合到一起。從本質(zhì)上來(lái)講，分層模型就是一系列的廣義線性模型。混合判別分析、分類(lèi)回歸樹(shù)、廣義助推法都是分類(lèi)模型，但是都嵌入了回歸算法。與回歸模型相比，分類(lèi)模型在處理數(shù)據(jù)集的異常方面更精確。混合判別分析是改進(jìn)的判別分析。分類(lèi)樹(shù)分析與傳統(tǒng)的判別分析、聚類(lèi)分析很相似。同廣義可加模型相比，分類(lèi)樹(shù)不需要依賴(lài)物種-環(huán)境變量之間的先驗(yàn)假設(shè)。廣義助推模型將很多簡(jiǎn)單樣本模型組合在一起，可以給出更精確的預(yù)測(cè)結(jié)果。混合判別分析、分類(lèi)回歸樹(shù)和廣義助推法都是沒(méi)有參數(shù)的，所以比較適合相對(duì)復(fù)雜的物種與環(huán)境關(guān)系。

分類(lèi)回歸樹(shù)和廣義助推法用遞歸分割完成模型預(yù)測(cè)。

人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、最大熵和預(yù)測(cè)規(guī)則遺傳算法都是復(fù)雜模型。分類(lèi)回歸樹(shù)、廣義助推法、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、最大熵都做了遞歸參數(shù)優(yōu)化，所以這些模型都被稱(chēng)為機(jī)器學(xué)習(xí)技術(shù)。復(fù)雜模型能準(zhǔn)確地提出輸入數(shù)據(jù)的隱藏特性，能捕捉到所給數(shù)據(jù)的細(xì)節(jié)部分，這樣通常會(huì)導(dǎo)致數(shù)據(jù)過(guò)擬合，一般會(huì)造成模型預(yù)測(cè)的偏差。在機(jī)器學(xué)習(xí)工具中，分類(lèi)回歸樹(shù)比人工神經(jīng)網(wǎng)絡(luò)算法更有效。最大熵和預(yù)測(cè)規(guī)則遺傳算法將實(shí)際生態(tài)位細(xì)致劃分到每一個(gè)地理空間，同隨機(jī)森林、廣義助推法相比，最大熵和預(yù)測(cè)規(guī)則遺傳算法與當(dāng)前的分布適應(yīng)度更差。

一般而言，最大熵方法的預(yù)測(cè)精度優(yōu)于預(yù)測(cè)規(guī)則遺傳算法。

一些研究比較了回歸模型、分類(lèi)模型和復(fù)雜模型的準(zhǔn)確度。所有的物種分布模型都使用數(shù)值型和分類(lèi)型的環(huán)境變量。廣義線性模型和廣義可加模型的回歸特點(diǎn)決定了它們適用于數(shù)值型變量。多元自適應(yīng)回歸樣條比分類(lèi)回歸樹(shù)更適合數(shù)值變量。而復(fù)雜模型對(duì)于數(shù)值變量和分類(lèi)變量都能處理得很好。以分類(lèi)樹(shù)為基礎(chǔ)的機(jī)器學(xué)習(xí)方法更適合那些無(wú)序的、非線性的、維數(shù)高的數(shù)據(jù)。預(yù)測(cè)鳥(niǎo)的分布，效果最好的是隨機(jī)森林，其次是分類(lèi)回歸樹(shù)，最后是人工神經(jīng)網(wǎng)絡(luò)。

三、模型應(yīng)用

在應(yīng)用模型的時(shí)候要注意一些關(guān)鍵步驟，比如檢驗(yàn)、標(biāo)定、數(shù)據(jù)驗(yàn)證（數(shù)據(jù)評(píng)估）、可信度和資格評(píng)定。簡(jiǎn)單來(lái)講就是：模型選擇，模型建立，參數(shù)評(píng)估。研究人員需要根據(jù)他們的研究對(duì)象和研究目標(biāo)來(lái)選擇合適的模型。盡管復(fù)雜的模型有更高的預(yù)測(cè)精度，但是簡(jiǎn)單的模型也有自己獨(dú)特的優(yōu)勢(shì)。廣義線性模型淺顯易懂，所有變量的回歸系數(shù)都可以清楚的表達(dá)和解釋。相反，其他的模型有太多的參數(shù)，以至于無(wú)法做出有實(shí)際意義的生態(tài)解讀。研究人員應(yīng)該熟悉每一種模型的特性。廣義可加模型適用于多峰連續(xù)變量的數(shù)據(jù)；多元自適應(yīng)回歸樣條適合于高階交互作用的數(shù)據(jù)；廣義助推法和分類(lèi)回歸樹(shù)適用于伴隨有離群觀測(cè)的大量分類(lèi)變量的情況；人工神經(jīng)網(wǎng)絡(luò)適合于較為復(fù)雜的物種與環(huán)境關(guān)系的情況。對(duì)于自變量和交互項(xiàng)項(xiàng)數(shù)較多時(shí)，隨機(jī)森林是一種理想模型。

統(tǒng)計(jì)模型的建立是指為物種分布選擇一個(gè)合適的算法，定義具體的因變量類(lèi)型并評(píng)估模型系數(shù)，從而在建模環(huán)境下選擇最優(yōu)的統(tǒng)計(jì)路徑。在本文中，我們縮小了模型建立的范圍，重點(diǎn)在于模型結(jié)構(gòu)的確定。在此，模型建立包括自變量、模型參數(shù)、變量的交互項(xiàng)和多項(xiàng)式的選擇。模型參數(shù)的不同將會(huì)引起模型表現(xiàn)的巨大不同。模型參數(shù)的評(píng)估通常是由統(tǒng)計(jì)軟件自動(dòng)執(zhí)行的，這是模型發(fā)展的關(guān)鍵步驟。變量系數(shù)可以由最小二乘法、極大似然法、馬可夫鏈蒙特卡洛法、卡爾曼濾波器，引導(dǎo)程序以及機(jī)器學(xué)習(xí)技術(shù)中的算法來(lái)評(píng)估。變量的選擇也通過(guò)變量的“貢獻(xiàn)程度”來(lái)進(jìn)行，然后由信息準(zhǔn)則來(lái)測(cè)量。目前，大多數(shù)的物種分布模型為系數(shù)評(píng)估與模型評(píng)價(jià)提供了充足的工具。

四、討論

在這篇綜述中，比較了11種物種分布模型的特性以及這11種模型的適用范圍，并且說(shuō)明了如何使用這些模型。本文旨在給出當(dāng)前用于預(yù)測(cè)物種分布的模型的技術(shù)指導(dǎo)。無(wú)論使用哪種模型，研究者們首先要做的就是仔細(xì)觀察數(shù)據(jù)；之后，認(rèn)真構(gòu)造模型公式，應(yīng)當(dāng)慎重選擇自變量，檢查是否有必要加入多項(xiàng)式和交互項(xiàng)；另外，也需要考慮模型參數(shù)。模型評(píng)估過(guò)程也很重要，但當(dāng)前模型并沒(méi)有提供足夠的數(shù)據(jù)來(lái)檢查模型的性能。為了提升結(jié)果的準(zhǔn)確性，一般對(duì)特定的數(shù)據(jù)集使用多種物種分布模型。

[ 注釋 ]

[1] 張文駒，陳家寬.物種分布區(qū)研究進(jìn)展[J].生物多樣性， 2003（5）.

[2] 李國(guó)慶，劉長(zhǎng)成，劉玉國(guó)，楊軍，張新時(shí)，郭柯.物種分布模型理論研究進(jìn)展[J].生態(tài)學(xué)報(bào)，2013（16）.

[3] 劉芳，李晟，李迪強(qiáng).利用分布有/無(wú)數(shù)據(jù)預(yù)測(cè)物種空間分布的研究方法綜述[J].生態(tài)學(xué)報(bào)，2013（22）.

[責(zé)任編輯：鐘嵐]

大學(xué)教育2016年5期

大學(xué)教育的其它文章: 基于現(xiàn)代學(xué)徒制的高職基礎(chǔ)會(huì)計(jì)課程改革探討; 高職應(yīng)用電子技術(shù)專(zhuān)業(yè)學(xué)生職業(yè)溝通能力培養(yǎng)研究; 應(yīng)用型本科院校如何加大與高職高專(zhuān)的全方位合作力度; 高職學(xué)生對(duì)“雙證融通”和“以賽促學(xué)”認(rèn)知度與參與度的現(xiàn)狀研究; 研究生國(guó)際化培養(yǎng)途徑研究; 大學(xué)生科技創(chuàng)新團(tuán)隊(duì)協(xié)同創(chuàng)新能力培養(yǎng)研究