◎ 韓建軍,南少偉,郭呈周,李建平
(河南工業(yè)大學(xué)土木建筑學(xué)院,河南 鄭州 450001)
糧倉的氣密性是確保安全儲糧的關(guān)鍵,但受倉型類別、墻體結(jié)構(gòu)類型、墻體結(jié)構(gòu)層厚度和機械通風(fēng)口個數(shù)等因素的影響,其氣密性不能滿足安全、綠色儲糧的要求。因此,對糧倉氣密性影響因素的研究具有重要的現(xiàn)實意義。
針對糧倉的氣密性問題,學(xué)者們進行了大量的研究。丁江濤[1]提出采用排除法查找倉房漏氣的原因,通過空倉氣密性測試、墻壁掛膜氣密性測試及地面用塑料薄膜密封后氣密性測試來對比500 Pa的壓力半衰期,找出了所研究倉房漏氣部位及比例,并對漏氣部位進行改造,以提高倉房氣密性,達(dá)到綠色儲糧的要求。劉佳等[2]通過分析糧食平房倉氣密性對糧溫、糧食含水量及熏蒸效果的影響,闡述了糧食平房倉氣密性對實現(xiàn)安全儲糧至關(guān)重要,且指出了影響糧食平房倉氣密性的主要因素是門窗、屋面、墻體及工藝孔洞等。崔棟義等[3]研究了高大平房倉氣密性改造對環(huán)流熏蒸效果的影響,在保證外部條件相同的情況下,定時檢測倉房氣體濃度,并對檢測數(shù)據(jù)比較分析,表明經(jīng)過氣密性改造的倉房能有效的保持熏蒸濃度。張來林等[4]針對當(dāng)前我國新建糧倉氣密性差的原因,從合理選用倉房結(jié)構(gòu)、嚴(yán)把施工安裝質(zhì)量關(guān)等方面,提出了從根本上改變倉房密閉方式,達(dá)到新倉建設(shè)提質(zhì)、增效、降耗的目的。閔炎芳等[5]對不同儲糧、儲糧年限、風(fēng)道型式的高大平房拱板倉進行了糧堆單面封負(fù)壓法氣密性測定,通過分析測定結(jié)果得出了糧堆氣密性好壞與倉房配置風(fēng)道型式關(guān)系緊密,而與儲存年限、糧堆高度的關(guān)系不是太顯著的結(jié)論,并且探明了影響倉房糧堆負(fù)壓氣密性因素。以上研究主要分為兩類:①通過糧倉氣密性檢測,分析找出氣密性差的原因,并提出改善糧倉氣密性的措施。②通過分析糧倉氣密性對綠色儲糧的影響,闡明了糧倉氣密性的重要性。但他們的研究對影響糧倉氣密性的因素與氣密性之間的定量評價不曾涉及。因此,建立糧倉氣密性評價模型對有效地提高糧倉氣密性能具有重要意義。
基于此,采用隨機森林算法建立糧倉氣密性評價模型,并結(jié)合相關(guān)調(diào)研數(shù)據(jù)來驗證模型的準(zhǔn)確性和適用性,以期為糧倉的氣密性評價提供新思路。
隨機森林(RFR)是由Leo Breiman于2001年提出的將決策樹中CART算法和Bagging算法相結(jié)合的一種新算法[6],它利用bootsrap重采樣方法從原始樣本中抽取多個樣本,對每個bootsrap樣本進行決策樹建模,再通過多棵決策樹的組合,最終以投票的方式得出預(yù)測結(jié)果[7]。大量的研究證明,隨機森林算法具有很高的預(yù)測能力,且較傳統(tǒng)的預(yù)測算法,不容易出現(xiàn)過擬合現(xiàn)象。同時,對于小樣本非線性、高維模式的識別等問題有著其特有的優(yōu)勢。隨機森林主要應(yīng)用于分類問題和回歸問題,對于分類問題,以最終的投票數(shù)決定最后的預(yù)測結(jié)果;而對于回歸問題,將所有回歸決策樹輸出值的平均值作為最終的預(yù)測值[8]。
(1)對N組樣本數(shù)據(jù)采用bootstrap抽樣法進行有放回的隨機抽樣,抽取出M個樣本,以取出的M個樣本形成M顆能夠進行模型訓(xùn)練的決策樹,剩余的N-M個樣本作為袋外數(shù)據(jù)(out of bag,OOB)用來測試模型的準(zhǔn)確性。
(2)假設(shè)原始數(shù)據(jù)樣本有P個變量,則在每顆決策樹的每個節(jié)點隨機抽取K個變量作為備選分枝變量,依據(jù)分枝優(yōu)度準(zhǔn)則選擇最佳分枝。
(3)每顆決策樹開始自頂向下進行遞歸分枝,葉節(jié)點的最小尺寸設(shè)定為5,以此作為決策樹生長的終止條件且確保模型建立的準(zhǔn)確性。
(4)將生成的M顆決策樹組成隨機森林回歸模型,模型的回歸效果采用袋外數(shù)據(jù)(OOB)預(yù)測的殘差均方進行評價。
本文樣本數(shù)據(jù)來源于廣東省、湖南省等地糧倉的實地調(diào)研,通過整理共得45組有效數(shù)據(jù)。糧倉的氣密性評價由輸入變量和輸出變量組成。其中,輸入變量為糧倉倉型、門窗密封措施、單倉自然通風(fēng)口個數(shù)、單倉軸流風(fēng)機口個數(shù)和單倉環(huán)流熏蒸孔個數(shù)等16個影響因素;輸出變量為500 Pa壓力半衰期。從50組數(shù)據(jù)中隨機抽取45組作為訓(xùn)練樣本,剩余5組作為測試樣本。為了避免不同變量之間量級差異的影響,對樣本的輸入和輸出量運用以下公式歸一化處理到[0,1]區(qū)間:

式(1)中,xmax、xmin分別為xi的最大值和最小值;為標(biāo)準(zhǔn)化后的輸入量;xi為第i個輸入量。
本文模型的建立采用了科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開發(fā)的randomforest-matlab開源工具箱[11],依托MATLAB R2009b軟件作為操作平臺,通過編程調(diào)用工具箱函數(shù),建立糧倉氣密性評價模型。
由于本文數(shù)據(jù)樣本的影響因素較多,為了防止相關(guān)性低的因素影響模型準(zhǔn)確度,首先對16個自變量運用SPSS進行篩選,其篩選方法為:將歸一化后的45組樣本數(shù)據(jù)載入SPSS軟件,采用逐步回歸的方法篩選出與因變量顯著性高的自變量。其結(jié)果見表1。

表1 影響因素篩選結(jié)果表
由表1可知,單倉容積、墻體結(jié)構(gòu)層類型、墻體結(jié)構(gòu)層厚度等6個因素是影響糧倉氣密性的主要因素,且6個因素對因變量均有顯著的預(yù)測作用(Sig≤0.05),常量為逐步回歸的截距項,B為自變量對應(yīng)的偏回歸系數(shù),對其進行標(biāo)準(zhǔn)化,可比較不同自變量對因變量的作用大小,其結(jié)果為:單倉進(卸)糧口個數(shù)>單倉容積>墻體結(jié)構(gòu)層厚度>墻體結(jié)構(gòu)層類型>單倉機械通風(fēng)口個數(shù)>單倉環(huán)流熏蒸孔個數(shù),正負(fù)號表示自變量與因變量的正相關(guān)和負(fù)相關(guān),其符號與實際相符;t表示偏回歸系數(shù)檢驗的統(tǒng)計量,其對應(yīng)的P值Sig≤0.05,表明所選擇的6個自變量均滿足條件。所以本文建模采用以上6個影響因素作為最終模型的輸入變量。隨機森林中決策樹顆數(shù)ntree及分裂特征集中的特征個數(shù)mtry對隨機森林回歸模型預(yù)測精度及泛化能力影響較大[12]。所以,在建模過程中,通過對兩個參數(shù)反復(fù)調(diào)試,最終設(shè)定決策樹顆數(shù)ntree為1 500,分裂特征集中的特征個數(shù)mtry為3,將其帶入模型建立糧倉氣密性評價模型,該模型的預(yù)測效果以均方誤差根(RMSE)和相關(guān)系數(shù)R2來評價,其測試樣本回歸擬合曲線如圖1所示。

圖1 測試樣本回歸擬合曲線圖
由圖1可知,模型對測試樣本的預(yù)測精度較好,真實值與預(yù)測值曲線吻合也較好,其均方誤差根(RMSE)為5.244 5(最小為0),相關(guān)系數(shù)(R2)為0.984 66(最大為1),說明該模型泛化性能較好且具備了一定的預(yù)測能力,將其對應(yīng)的真實值與預(yù)測值按下式計算相對誤差(RE):

式(2)中,Yi為真實值,為預(yù)測值,i為樣本序號。通過(2)式計算的對比結(jié)果見表2。

表2 真實值與預(yù)測值對比結(jié)果表
在表2中,真實值和預(yù)測值為500 Pa壓力半衰期,其單位為秒;通過分析上表可得,隨機森林預(yù)測模型對糧倉氣密性的預(yù)測值相對誤差最大值為8.71%,最小值為0.94%,平均相對誤差值為3.52%,表明該模型具有一定的可靠性。
(1)隨機森林算法對小樣本的非線性數(shù)據(jù)具有良好的適應(yīng)性,且可調(diào)參數(shù)較少,對數(shù)據(jù)的分析更具客觀性,本文基于隨機森林算法建立的糧倉氣密性評價模型,通過真實值與預(yù)測值的對比,表明了該模型預(yù)測精度較高,魯棒性較好,可以應(yīng)用于糧倉氣密性的評價。
(2)通過智能化的算法建立模型來評價糧倉氣密性問題,可以為已建倉型的改良提供一定的參考,對新倉型的建設(shè)具有指導(dǎo)意義,這也為糧倉的氣密性評價問題提供了新思路。