鄒永潘,王儒敬,李 偉
1(中國科學(xué)院 合肥物質(zhì)科學(xué)研究院 合肥智能機械研究所,合肥 230031)
2(中國科學(xué)技術(shù)大學(xué),合肥 230026)
隨機森林算法在小麥育種輔助評價中的應(yīng)用①
鄒永潘1,2,王儒敬1,李 偉1
1(中國科學(xué)院 合肥物質(zhì)科學(xué)研究院 合肥智能機械研究所,合肥 230031)
2(中國科學(xué)技術(shù)大學(xué),合肥 230026)
為了提高育種領(lǐng)域選種的準確率同時縮短品種培育年限,利用改進的隨機森林算法根據(jù)小麥育種歷史數(shù)據(jù)構(gòu)建評價模型. 在訓(xùn)練分類器之前,利用改進的SMOTE算法來改善訓(xùn)練樣本集中的非平衡現(xiàn)象; 在基分類器訓(xùn)練完成后,測試單個分類器的性能并剔除性能較差的基分類器,實現(xiàn)隨機森林中基分類器的篩選. 實驗結(jié)果表明,文中提出的算法在小麥種質(zhì)評價方面取得了不錯的效果,可以輔助育種工作者進行品種選育.
小麥育種評價; 非平衡數(shù)據(jù)集; 隨機森林; 改進的 SMOTE 方法
建國以來,我國在小麥育種領(lǐng)域取得了卓越的成就,選育出了數(shù)以千計的優(yōu)良品種. 在先后經(jīng)歷了20世紀50-60年代以提高抗病穩(wěn)產(chǎn)為主的育種階段和70-80年代以矮化與高產(chǎn)為主的育種階段之后,從上世紀90年代開始,我國小麥育種已進入了高產(chǎn)品種和優(yōu)質(zhì)品種并進的階段[1]. 小麥育種是一個需要涉及多要素、受多方面因素綜合影響的過程,育種過程中各要素之間的相互關(guān)系以及各要素對育種結(jié)果的影響難以精確衡量,因此科學(xué)有效的種質(zhì)評價方法對于尋找優(yōu)質(zhì)品種顯得至關(guān)重要.
傳統(tǒng)的作物育種評價方法多是基于育種專家多年的育種經(jīng)驗對一個品種做出主觀評價,再通過來年種植下一茬作物來進行驗證. 這種方法延長了品種的選育時間,在多性狀綜合評價時由于人為因素干預(yù)過多,往往導(dǎo)致評價的結(jié)果不甚理想. 部分育種工作者引入了層次分析法、模糊綜合評價、灰色關(guān)聯(lián)評價等方法來對品種進行綜合評價,這些方法在評價效果上各有優(yōu)勢,有效提升了作物育種評價技術(shù)的數(shù)據(jù)化、信息化程度[2,3]. 但這些方法往往需要育種專家人為設(shè)置指標的權(quán)重來顯性描述相關(guān)的專家經(jīng)驗,進而來指導(dǎo)育種評價的相關(guān)工作,無法解釋育種經(jīng)驗的合理性,且模塊化應(yīng)用這些評價方法時難以實現(xiàn). 劉忠強[4]將決策樹算法應(yīng)用到作物育種結(jié)果評價當中,利用歷史的育種數(shù)據(jù)記錄,建立對應(yīng)的評價模型,該模型綜合考慮了各個育種性狀和育種目標之間的關(guān)系,同時體現(xiàn)了育種專家的歷史選育經(jīng)驗,可以輔助育種工作者進行育種評價. 但是,基于決策樹的評價方法需要進行大量的數(shù)據(jù)預(yù)處理工作,且容易出現(xiàn)過擬合[5,6]. 隨機森林算法(RF)[7]通過重采樣技術(shù)構(gòu)建多個弱分類器來對結(jié)果進行預(yù)測,最終的評判結(jié)果取決于多個分類器的投票結(jié)果. RF具有較強的容錯能力且能很好的避免出現(xiàn)過擬合,作為機器學(xué)習(xí)領(lǐng)域主流算法之一,已經(jīng)得到了十分廣泛的應(yīng)用[8-10].
小麥選種決策過程是從大量的已培育品種中選擇出綜合性能較好的品種,可看做是一個非平衡數(shù)據(jù)集分類問題. 如果直接對原始數(shù)據(jù)進行建模,難以得到理想的模型[11],可以通過改造訓(xùn)練數(shù)據(jù)來提升訓(xùn)練數(shù)據(jù)的不平衡率,主要實現(xiàn)方式包括隨機過采樣和隨機欠采樣. 隨機過采樣可能會導(dǎo)致最終的分類器過分的擬合訓(xùn)練數(shù)據(jù),而隨機的欠采樣則可能導(dǎo)致分類器在訓(xùn)練過程中失去一些多數(shù)類的信息,從而使得分類結(jié)果對多數(shù)類不利. 針對過采樣出現(xiàn)的問題,Chawla等人于2002年提出了SMOTE算法[12],該方法假設(shè)少數(shù)類樣本的附近仍然是少數(shù)類,為每個少數(shù)類樣本確定其K個相鄰的樣本,然后在該樣本與其近鄰樣本連線上構(gòu)造“人造樣本”. 該方法解決了隨機過采樣中的過擬合問題,但是在選取近鄰樣本時,難以確定K的大小,具有一定的盲目性,此外改造后的數(shù)據(jù)集容易出現(xiàn)分布邊緣化問題[13].
本文將一種改進的隨機森林算法應(yīng)用到小麥育種的種質(zhì)評價階段. 針對歷史評價數(shù)據(jù)的不平衡現(xiàn)象,在預(yù)處理階段使用改進的SMOTE算法對訓(xùn)練數(shù)據(jù)進行改造,使得訓(xùn)練數(shù)據(jù)中的正負類分布達到平衡; 在隨機森林的決策階段,利用OOB數(shù)據(jù)計算每個基分類器的分類性能,并剔除較差的分類器,進一步提升分類器的綜合性能. 實驗結(jié)果表明,該評價方法能夠取得較準確的評價效果,可以輔助育種工作者進行優(yōu)質(zhì)品種的選擇.
隨機森林算法是由Breiman于2001年提出的一種機器學(xué)習(xí)算法[7],實質(zhì)上是由多個決策樹構(gòu)成的組合分類器,其分類結(jié)果是由各個子分類器的結(jié)果共同決定,通常是通過投票將決策票數(shù)最多的類別作為樣本的最終所屬類別. 隨機森林的構(gòu)建過程: 首先,通過Bagging(Bootstrap aggreating)方法產(chǎn)生多個有差異的訓(xùn)練樣本子集; 然后,利用隨機子空間劃分(Random subspace method)方法選擇部分屬性采用CART算法無剪枝地構(gòu)建多棵分類決策樹.
自主抽樣法是從含有n個樣本的初始訓(xùn)練集中有放回的隨機抽取n個樣本形成新的訓(xùn)練樣本子集的過程,此處新的訓(xùn)練樣本集大小和初始樣本集相等. 因為初始訓(xùn)練樣本集中的每個樣本未被抽中的概率為(1?1/n)n,當n趨向于無窮大時有:

由上式,初始訓(xùn)練樣本中大約36.8%的樣本不會出現(xiàn)在新訓(xùn)練樣本集中. 初始樣本集中未被抽取到的樣本集合稱為袋外數(shù)據(jù) (Out of bag,簡稱 OOB). 通過自助抽樣法保證了子分類器之間訓(xùn)練樣本的差異.
隨機子空間的劃分策略: 從擁有M個屬性的數(shù)據(jù)集中隨機抽取m個屬性(m?M)作為候選屬性. 在隨機森林中,m的建議取值為sqrt(M)、1/2sqrt(M)或2sqrt(M)[7].
對于數(shù)據(jù)集D,其純度可以用基尼值來衡量:

pk表示在數(shù)據(jù)集D中第k類樣本占有的比例.Gini(D)反映了從數(shù)據(jù)集D中隨機抽取兩個樣本類別不一致的概率,值越小,表明數(shù)據(jù)集的純度越高.
在生成決策樹的過程中,根據(jù)屬性的基尼指數(shù)進行結(jié)點的分類,屬性a的基尼指數(shù)定義為:

在構(gòu)建CART決策樹時,選擇屬性集合A中那個使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性,即:

SMOTE 算法 (Synthetic minority over-sampling technique)其本質(zhì)上是隨機向上抽樣算法的改進.SMOTE算法假設(shè)與少數(shù)類樣本較近的樣本也屬于少數(shù)類,通過在樣本和其近鄰樣本連線上構(gòu)造新的樣本來提升訓(xùn)練數(shù)據(jù)的平衡率. 構(gòu)造樣本的過程根據(jù)公式(5)來完成:

其中,Xi(i=1,2,…,n)為少數(shù)類樣本;Yij(y=1,2,…,K)表示與Xi的K個近鄰樣本中的第j個;Pij為Xi與第j個近鄰樣本合成的新樣本;rand(0,1)表示一個0到1的隨機數(shù). 假設(shè)數(shù)據(jù)集中少數(shù)類樣本的個數(shù)為N+,多數(shù)類樣本的個數(shù)為N-,采樣率為N.
SMOTE算法的實現(xiàn)步驟如下:
Step 1. 計算并挑選出每個少數(shù)類樣本的K近鄰樣本;
Step 2. 將每個少數(shù)類樣本與其近鄰樣本隨機地進行組合,利用公式(5)產(chǎn)生新樣本;
Step 3. 判斷是否達到目標采樣率,若沒有則轉(zhuǎn)Step2,否則將所有產(chǎn)生的新的樣本加入訓(xùn)練數(shù)據(jù)集中,程序結(jié)束.
本文嘗試將隨機森林分類算法應(yīng)用在小麥育種領(lǐng)域,輔助育種工作者選擇優(yōu)質(zhì)品種. 利用歷史育種數(shù)據(jù)來訓(xùn)練分類模型,并根據(jù)該模型實現(xiàn)對新培育材料的分類預(yù)測,具體的步驟包括數(shù)據(jù)預(yù)處理、建立模型、新品種評價,流程如圖1所示.

圖1 小麥種質(zhì)評價流程
針對小麥育種記錄數(shù)據(jù),本文進行的數(shù)據(jù)預(yù)處理包括規(guī)范化、異常值檢測、缺失值填充、數(shù)據(jù)合成.
(1) 規(guī)范化
由于訓(xùn)練數(shù)據(jù)集可能是來自不同的育種機構(gòu),對于同一個性狀的記錄可能會出現(xiàn)不同的描述形式,因此需要首先對記錄數(shù)據(jù)進行規(guī)范化. 主要包括計量單位的統(tǒng)一和表示形式的統(tǒng)一. 例如,對于性狀千粒重,以克計量; 對于抗病性,針對反應(yīng)型以1、2、3…表示等.
(2) 異常值檢測
在實驗過程中的異常檢測主要是利用現(xiàn)有的育種記錄經(jīng)驗來判斷記錄中是否存在不科學(xué)的記錄結(jié)果,由于育種數(shù)據(jù)來源于嚴謹?shù)目蒲袡C構(gòu),異常記錄較少,故直接刪除含有異常值的記錄.
(3) 缺失值填充
對于存在缺失的記錄,本文使用與給定元組屬于同一類別的所有樣本的均值進行填充.
(4) 數(shù)據(jù)合成
由于小麥育種數(shù)據(jù)集中的非平衡問題,利用改進的SMOTE算法合成新的少數(shù)類樣本,改善訓(xùn)練樣本集中得類別分布狀況.
SMOTE算法假設(shè)少數(shù)類樣本的周圍仍然是少數(shù)類,并且在選擇k近鄰時存在一些盲目性. 事實上,大多數(shù)情況下的樣本分布并不滿足上述假設(shè),這會導(dǎo)致經(jīng)過SMOTE合成的樣本集會出現(xiàn)樣本重疊現(xiàn)象. 為了能夠解決訓(xùn)練數(shù)據(jù)集中的非平衡問題,同時使新合成的樣本集能更加真實的反映初始數(shù)據(jù)集的分布,本文提出了一種改進的SMOTE算法. ISMOTE算法思路如下: 首先,利用k-均值聚類算法對少數(shù)類樣本進行聚類,得到k個聚類中心以及對應(yīng)的簇; 然后,利用每個樣本和其對應(yīng)的聚類中心合成新的樣本. 具體實現(xiàn)流程如下:
Step 1. 對少數(shù)類樣本利用聚類算法求得k個聚類中心X_centerj(j=1,2,…,k),將少數(shù)類樣本集分成k簇樣本Sub_Xj(j=1,2,…,k);
Step 2. 任意抽取Xi,根據(jù) Step 1 可得到對應(yīng)的聚類中心,利用如下公式合成新樣本:

式(6)中,Pij表示少數(shù)類樣本Xi與它對應(yīng)的聚類中心合成的新樣本.
Step 3. 判斷是否達到目標采樣率,若沒有則轉(zhuǎn)Step 2,否則將所有產(chǎn)生的新的樣本加入訓(xùn)練數(shù)據(jù)集中,程序結(jié)束.
經(jīng)過ISMOTE算法處理之后,整個預(yù)處理過程結(jié)束,將使用新的樣本集來訓(xùn)練分類模型.
在隨機森林分類中,最終的分類結(jié)果是由基分類器投票類別數(shù)最多的類,沒有考慮每個基分類器的分類性能. 隨機的抽取樣本和屬性可能會導(dǎo)致某些基分類器的分類性能不理想甚至很差,因此本文在利用RF進行分類決策之前先使用OOB數(shù)據(jù)對基分類器性能進行測試,剔除性能相對較差的基分類器達到提升組合分類器性能的目的. IRF的具體構(gòu)造流程如圖2所示.

圖2 改進的隨機森林構(gòu)造流程圖
文中實驗所用的原始數(shù)據(jù)來自于中國種業(yè)商務(wù)網(wǎng)的1112條小麥育種記錄數(shù)據(jù),其中正類樣本數(shù)為115(假設(shè)好的品種為正類). 屬性包括成熟期、株高、千粒重、畝穗數(shù)、硬度、容重、沉淀值等24個小麥育種過程中的常見性狀,這些性狀在不同程度上反映了小麥品種的產(chǎn)量、抗病性和籽粒品質(zhì).
本文在預(yù)處理中的規(guī)范化主要包括計量單位的統(tǒng)一和量化方式的統(tǒng)一. 計量單位的統(tǒng)一針對的性狀有:株高(cm)、千粒重(g)、畝產(chǎn)(Kg)和容重(g)等. 量化方式的統(tǒng)一主要是針對枚舉型數(shù)據(jù),根據(jù)性狀的實際意義使用數(shù)值來進行量化表示. 例如,銹病的反應(yīng)型包括{免疫,高抗,中抗,中感,高感},可以使用{1,2,3,4,5}來進行量化表示. 實驗中關(guān)于異常值檢測和缺失值處理參照文中2.2節(jié)中的方法進行處理.

由于小麥育種中更多的關(guān)注優(yōu)質(zhì)品種,故在實驗中只考量正類(少數(shù)類)有關(guān)的指標. 算法的性能評估是通過準確率P(Precision)、召回率R(Recall)、以及綜合考慮指標F1來衡量.

上式中,TP表示正確分類的正例數(shù)目,FN表示錯分為負例的正例數(shù)目,FP為錯分為正例的負例數(shù)目.
利用Java語言在eclipse平臺通過改進weka的庫函數(shù)分別實現(xiàn)了RF、SMOTE+RF、ISMOTE+RF和ISMOTE+IRF. 實驗采用十折交叉驗證的方式對樣本集進行分析,并基于準確率、召回率和F1值來對分類結(jié)果進行評估. 表1為利用四種方法進行實驗的結(jié)果.

表1 四種方法實驗結(jié)果對比
從表1可以看出,由于小麥育種數(shù)據(jù)集存在非平衡問題,直接使用RF算法進行處理得到的分類模型準確率很差,也驗證了隨機森林算法在處理非平衡數(shù)據(jù)集分類問題上的局限性. 利用SMOTE+RF和ISMOTE+RF實驗之后的結(jié)果在各項指標上均有不小的提升,在一定程度上緩解了數(shù)據(jù)非平衡帶來的影響. 但是后者相對前者的分類效果更好,說明利用ISMOTE算法對少數(shù)類進行改造后的數(shù)據(jù)集比經(jīng)SMOTE算法改造后的數(shù)據(jù)集更符合訓(xùn)練數(shù)據(jù)的原始分布情況. 在利用IRF算法考慮基分類器單獨性能后,算法的各項性能指標均得到了小幅的提高,證明了在隨機森林中考慮基分類器的性能、剔除不好的基分類器有助于提高隨機森林的整體分類效果.
本文嘗試將隨機森林分類算法應(yīng)用于小麥種質(zhì)評價中,利用歷史的選育評價數(shù)據(jù)訓(xùn)練分類器,得到的組合分類器中可將每一個基分類器看做一個“專家”,對新培育材料的最終評價結(jié)果由多個“專家”共同決定.實驗結(jié)果表明,該評價方法能夠取得較好的評價效果,可以輔助育種工作者進行優(yōu)質(zhì)品種的選擇. 然而本文的評價方法依然存在著不足,主要體現(xiàn)在兩個方面: 首先,算法中的參數(shù)有待進一步優(yōu)化,從而提升算法的性能; 其次,訓(xùn)練數(shù)據(jù)集的樣本數(shù)量不夠、屬性集過小.為了建立穩(wěn)定的、具有代表性的分類評價模型,需要進一步優(yōu)化參數(shù),同時增加訓(xùn)練樣本數(shù)據(jù)以及考慮包括基因型和表現(xiàn)型在內(nèi)的更多的品種性狀.
1 李振聲. 我國小麥育種的回顧與展望. 中國農(nóng)業(yè)科技導(dǎo)報,2010,12(2): 1–4.
2柏流芳,呂黃珍,朱大洲,等. 農(nóng)作物育種中的綜合評判方法. 農(nóng)業(yè)工程,2013,3(3): 112–119.
3Smith AB,Lim P,Cullis BR. The design and analysis of multi-phase plant breeding experiments. The Journal of Agricultural Science,2006,144(5): 393–409. [doi: 10.1017/S0021859606006319]
4劉忠強. 作物育種輔助決策關(guān)鍵技術(shù)研究與應(yīng)用[博士學(xué)位論文]. 北京: 中國農(nóng)業(yè)大學(xué),2016: 27–34.
5Kubal C,Haase D,Meyer V,et al. Integrated urban flood risk assessment—adapting a multicriteria approach to a city.Natural Hazards and Earth System Sciences,2009,9(6):1881–1895. [doi: 10.5194/nhess-9-1881-2009]
6Liu XP,Li X,Liu L,et al. An innovative method to classify remote-sensing images using ant colony optimization. IEEE Trans. on Geoscience and Remote Sensing,2008,46(12):4198–4208. [doi: 10.1109/TGRS.2008.2001754]
7Breiman L. Random forests. Machine Learning,2001,45(1):5–32. [doi: 10.1023/A:1010933404324]
8賴成光,陳曉宏,趙仕威,等. 基于隨機森林的洪災(zāi)風(fēng)險評價模型及其應(yīng)用. 水利學(xué)報,2015,46(1): 58–66.
9雷震. 隨機森林及其在遙感影像處理中應(yīng)用研究[博士學(xué)位論文]. 上海: 上海交通大學(xué),2012.
10馬玥,姜琦剛,孟治國,等. 基于隨機森林算法的農(nóng)耕區(qū)土地利用分類研究. 農(nóng)業(yè)機械學(xué)報,2016,47(1): 297–303.[doi: 10.6041/j.issn.1000-1298.2016.01.040]
11職為梅,郭華平,范明,等. 非平衡數(shù)據(jù)集分類方法探討. 計算機科學(xué),2012,39(6A): 304–308.
12Chawla NV,Bowyer KW,Hall LO,et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research,2002,16: 321–357.
13曹正鳳. 隨機森林算法優(yōu)化研究[博士學(xué)位論文]. 北京: 首都經(jīng)濟貿(mào)易大學(xué),2014.
Application of the Random Forest Algorithm in Wheat Breeding Evaluation
ZOU Yong-Pan1,2,WANG Ru-Jing1,LI Wei1
1(Institute of Intelligent Machines,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China)
2(University of Science and Technology of China,Hefei 230026,China)
In order to improve the accuracy of seed selection and shorten the cultivation period of cultivars,the improved random forest algorithm is used to construct the evaluation model of the history data of wheat breeding. Before training the classifiers,the improved SMOTE algorithm is used to improve the non-balance of the training samples. After the training of the base classifiers,we test every classifier’s performance and delete bad classifiers to realize the screening of the base classifier in random forest. The experimental results show that the proposed algorithm has achieved good results in wheat germplasm evaluation,which can help to breed varieties.
wheat breeding evaluation; imbalanced datasets; random forest; improved SMOTE
鄒永潘,王儒敬,李偉.隨機森林算法在小麥育種輔助評價中的應(yīng)用.計算機系統(tǒng)應(yīng)用,2017,26(12):181–185. http://www.c-sa.org.cn/1003-3254/6162.html
中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(XDA08040110)
2017-03-20; 修改時間: 2017-05-09; 采用時間: 2017-05-11