




摘要:我國公路、隧道等規(guī)模的增加給公路施工帶來更高的危險系數(shù),因此亟需進(jìn)行安全管理系統(tǒng)的建設(shè)。利用決策樹約簡對隨機(jī)森林算法進(jìn)行優(yōu)化,然后采用聚類方法得到高精度的隨機(jī)森林,并將其應(yīng)用于安全平臺的數(shù)據(jù)層進(jìn)行數(shù)據(jù)挖掘。實驗結(jié)果表明:改進(jìn)算法的平均準(zhǔn)確率86.28%、精確率85.62%、召回率87.62%和F值86.58%。改進(jìn)模型預(yù)測結(jié)果的相對誤差均小于傳統(tǒng)的算法,在數(shù)據(jù)集4中,改進(jìn)模型的誤差值最小為2.2%。實驗結(jié)果表明,基于改進(jìn)隨機(jī)森林算法的安全平臺模型具有較好的準(zhǔn)確性,且該模型的分類性能高、規(guī)模低、資源消耗少,適用于公路安全智能管控云平臺中。
關(guān)鍵詞:大數(shù)據(jù);工程安全;智能管控;云平臺;隨機(jī)森林;決策樹
0 " 引言
在公路工程中,由于施工流動性大、施工難度系數(shù)高,以及復(fù)雜的施工地形等因素,導(dǎo)致公路工程安全管理的難度增高[1-2]。
隨著信息技術(shù)的快速發(fā)展,基于大數(shù)據(jù)的安全管理得到了廣泛應(yīng)用,人工智能技術(shù)等為安全管理的改革創(chuàng)新提供了新的思路[3]。借助數(shù)據(jù)挖掘等先進(jìn)的信息技術(shù),可以提高安全管理的水平,對可能存在的安全事故進(jìn)行預(yù)警,從而降低安全事故的發(fā)生率[4]。此次研究中,利用隨機(jī)森林算法建立了以大數(shù)據(jù)為基礎(chǔ)的安全智能管控云平臺,希望可以借助該平臺保障公路工程的安全實施。
1 " 基于大數(shù)據(jù)挖掘的安全智能管控云平臺
1.1 " 基于決策樹約簡的隨機(jī)森林算法
數(shù)據(jù)挖掘技術(shù)中的隨機(jī)森林算法以決策樹作為基本分類模型,可以減少模型的偏差與方差[5-6]。構(gòu)建過程中,將樣本數(shù)據(jù)集的抽取,作為訓(xùn)練決策樹的樣本集。然后是特征的選擇,將決策樹分裂時產(chǎn)生的最優(yōu)特征作為模型的根節(jié)點,采用遞歸法生成信息增益、信息增益比和基尼指數(shù)3種不同特征的決策樹。在樣本訓(xùn)練時,不同的決策樹會生成不同的分類結(jié)果,選擇票數(shù)最高的類別作為最終的分類結(jié)果。隨機(jī)森林算法的整體結(jié)構(gòu)見圖1。
隨機(jī)森林算法中,決策樹節(jié)點的增多可能會導(dǎo)致某些節(jié)點信息的記錄減少,同時可能存在模型過擬合問題,因此需要對決策樹進(jìn)行剪枝操作[7]。在本次實驗中,采取一種改進(jìn)的隨機(jī)森林算法對決策樹進(jìn)行特征約簡,以降低模型預(yù)測的時間,并減小模型存儲。
利用分類精度和多樣性度量標(biāo)準(zhǔn),選擇性能較優(yōu)的決策樹,其中分類精確度的指標(biāo)可以采用準(zhǔn)確率、召回率和曲線下的面積(Area Under the Curve, AUC)等。AUC表示接收器工作特性曲線下的面積,在[0,1]取值范圍內(nèi),AUC的值與模型區(qū)分能力成正比。AUC可以用于二元分類問題。在本次實驗中,選擇將其作為分類性能的衡量指標(biāo)。在對多元分類問題進(jìn)行評估時,需要先將其拆分,求取平均值來評估模型的分類性能,如公式(1)所示。
(1)
式(1)中,K表示樣本的分類數(shù)量,i類和j類樣本的集合分別用Di和Dj來表示。假設(shè)有分類器hi和hj分類器,對于樣本xk,可以得到公式(2)中的輸出結(jié)果hi(xi)。
(2)
式(2)中,c表示維度向量,pi,c(xk)表示樣本xk在c維中屬于j類樣本的概率。定義分類器hi預(yù)測樣本xk為類標(biāo)記s的程度為Ci,其計算見公式(3)。
(3)
式(3)中,pi,s(xk)=maxhi(xk)。將待測數(shù)據(jù)集X分為輸出類標(biāo)記相同與不相同的數(shù)據(jù)集X1和X2,見公式(4)和(5)。
(4)
(5)
在公式(4)和(5)的基礎(chǔ)上,定義分類器hi和分類器hj的多樣性度量方法,見公式(6)。
(6)
式(6)中,Mi,j∈[0,1],其值越接近1,表明分類器hi和分類器hj間的差異越大。當(dāng)Mi,j =0時,分類器hi和分類器hj預(yù)測類標(biāo)記一致;當(dāng)Mi,j=1時,分類器hi和分類器hj預(yù)測類標(biāo)記不一致。
1.2 " 基于決策樹約簡和聚類分析算法的隨機(jī)森林算法
利用分類精度和多樣性度量標(biāo)準(zhǔn)進(jìn)行決策樹數(shù)量的約簡,可以得到分類性能較優(yōu)的決策樹,接下來利用聚類算法對子森林進(jìn)行聚類,將其組合成新的隨機(jī)森林。改進(jìn)隨機(jī)森林算法TRRF的流程如圖2所示。
利用驗證數(shù)據(jù)集對原始隨機(jī)森林中決策樹的AUC值進(jìn)行計算,作為其分類精度。由于數(shù)據(jù)集的特征維度、噪聲數(shù)據(jù)等有差異,導(dǎo)致在利用分類精度篩選決策樹時,高精度決策樹的比例不一致。因此此次實驗采取決策樹數(shù)量不固定的辦法,利用公式(7)找到比原始隨機(jī)森林F分類精度更高的子森林SubF。
(7)
式(7)中,F(xiàn)={ti,i=1,2,...,K},A表示F中分類精度的均值,決策樹ti的AUC值為Auci。如果子森林SubF中的決策樹超過F中2/3的數(shù)量,則該子森林SubF可以作為需要進(jìn)行聚類處理的子森林。如果子森林中的SubF決策樹未超過2/3的數(shù)量,則計算F中所有Auc的標(biāo)準(zhǔn)差值σ,選擇符合Auc≥A-σ條件的決策樹作為待聚類子森林。
將SubF進(jìn)行聚類處理,把該子森林中所有決策樹的分類結(jié)果作為數(shù)據(jù)集,假設(shè)子森林SubF中包含的決策樹數(shù)量為P,那么可以得到P個需要進(jìn)行聚類處理的樣本。聚類處理的初始聚類中心從數(shù)據(jù)集中隨機(jī)選取K個數(shù)據(jù),然后計算樣本x與聚類中心的最短距離D(x),利用公式(8)計算樣本被選為聚類中心的概率。
(8)
利用公式(8)進(jìn)行重復(fù)計算,直至聚類中心保持不變,最后可以得到K個聚類中心。利用公式(9)計算不同K值下每個類簇的輪廓系數(shù)。
(9)
式(9)中,類簇中所有樣本到樣本i的平均距離可以用ai來表示,最近類簇中所有樣本到樣本i的平均距離可以用bi來表示。假設(shè)數(shù)據(jù)集中存在n個樣本,則數(shù)據(jù)集整體的輪廓系數(shù)可以利用公式(10)得到。
(10)
數(shù)據(jù)集整體的輪廓系數(shù)值在[-1,1]之間,SC=1表示聚類結(jié)果最佳,SC=-1表示聚類結(jié)果最差。選取最佳類簇中具有代表性的決策樹,將這些決策樹進(jìn)行組合,生成精度高、相似度低的隨機(jī)森林。
1.3 "基于改進(jìn)隨機(jī)森林算法的公路工程安全智能管控云平臺構(gòu)建
在信息時代,可以借助科學(xué)技術(shù)對安全管理進(jìn)行改進(jìn)。在本次研究中以安全管理數(shù)據(jù)為基礎(chǔ),利用人工智能技術(shù)中的深度學(xué)習(xí)對大數(shù)據(jù)進(jìn)行挖掘,以此來構(gòu)建安全智能管控云平臺。
智能管控云平臺的建立主要包括4個邏輯步驟:首先,對安全風(fēng)險進(jìn)行識別并獲取數(shù)據(jù)信息;其次,對工作人員的行為、設(shè)備操作和設(shè)備運行等進(jìn)行數(shù)據(jù)集成與分析;再次,對收集到的安全信息進(jìn)行智能預(yù)警;最后,實現(xiàn)安全管理與應(yīng)用。安全管理智能云平臺的架構(gòu)如圖3所示。
在智能云平臺的設(shè)計中,將平臺分為了感知層、邏輯層、數(shù)據(jù)層、功能層和應(yīng)用層。人工智能技術(shù)是識別安全隱患和實現(xiàn)預(yù)警的關(guān)鍵技術(shù),主要應(yīng)用于智能平臺的數(shù)據(jù)層。人工智能分析模塊,對數(shù)據(jù)層中的安全管理信息進(jìn)行變量篩選,然后建立數(shù)據(jù)分析模型。通過模型性能的對比與優(yōu)化,可以得到準(zhǔn)確的分類結(jié)果,獲得最優(yōu)的分類模型。
深度學(xué)習(xí)技術(shù)作為人工智能中的重要組成部分,可以實現(xiàn)對圖像進(jìn)行自動識別和捕捉,并進(jìn)行安全隱患的分析及預(yù)警,從而避免安全公路施工過程中安全事故的發(fā)生。在上述研究中,數(shù)據(jù)層主要是利用改進(jìn)的隨機(jī)森林算法,對數(shù)據(jù)進(jìn)行挖掘分析,所得到的分析結(jié)果用于保證功能層和應(yīng)用層的正常運轉(zhuǎn)。
2 " 實驗結(jié)果和分析
實驗中選擇UCI公開數(shù)據(jù)集、Bank Marketing數(shù)據(jù)集、Sonar數(shù)據(jù)集和Income數(shù)據(jù)集,用于隨機(jī)森林改進(jìn)算法性能的檢驗。選用準(zhǔn)確率、精確率、召回率以及精確率和召回率的比值F值作為評價指標(biāo)。
2.1 " 兩種隨機(jī)森林算法各測試指標(biāo)對比
兩種隨機(jī)森林算法各測試指標(biāo)對比如表1所示。表1顯示了改進(jìn)的隨機(jī)森林算法和原始的隨機(jī)森林算法,在UCI公開數(shù)據(jù)集、Bank Marketing數(shù)據(jù)集、Sonar數(shù)據(jù)集和Income數(shù)據(jù)集中的各測試指標(biāo)結(jié)果。
由表1可知,在UCI公開數(shù)據(jù)集中,經(jīng)過改進(jìn)的隨機(jī)森林算法準(zhǔn)確率為88.07%,精確率為86.15%,召回率為88.27%,F(xiàn)值為87.16%,均高于原始的隨機(jī)森林算法。在Bank Marketing數(shù)據(jù)集中,經(jīng)過改進(jìn)的隨機(jī)森林算法準(zhǔn)確率為83.02%、精確率為81.91%,召回率為85.14%,F(xiàn)值為83.53%,均高于原始的隨機(jī)森林算法。在Sonar數(shù)據(jù)集中,經(jīng)過改進(jìn)的隨機(jī)森林算法準(zhǔn)確率為86.36%、精確率為86.25%,召回率為87.57%,F(xiàn)值為86.86%,均高于原始的隨機(jī)森林算法。在Income數(shù)據(jù)集中,經(jīng)過改進(jìn)的隨機(jī)森林算法準(zhǔn)確率為87.67%、精確率為88.17%,召回率為89.49%,F(xiàn)值為88.78%,均高于原始的隨機(jī)森林算法。
2.2 "不同數(shù)據(jù)集中兩種隨機(jī)森林算法各測試指標(biāo)對比
表2中展示了傳統(tǒng)的隨機(jī)森林算法和改進(jìn)的隨機(jī)森林算法的決策樹數(shù)量、多樣性度量值,以及各算法的運行時間。傳統(tǒng)的隨機(jī)森林算法和改進(jìn)的隨機(jī)森林算法的指標(biāo)對比結(jié)果,其中多樣性度量值采用了熵度量作為對比的標(biāo)準(zhǔn)。
2.3 " 真實數(shù)據(jù)集中安全管理模型性能測試結(jié)果
由上述結(jié)果可以看出,改進(jìn)算法的熵度量值較傳統(tǒng)算法均有所增長,且改進(jìn)算法的規(guī)模比傳統(tǒng)算法的規(guī)模低。但是對比傳統(tǒng)算法與改進(jìn)算法的運行時間,可以看到改進(jìn)的隨機(jī)森林算法由于引入了聚類算法,導(dǎo)致改進(jìn)隨機(jī)森林算法的運行時間高于傳統(tǒng)的隨機(jī)森林算法,時間開銷較高。利用7個的真實數(shù)據(jù)集,對安全管理模型進(jìn)行整體的算法性能測試,結(jié)果見圖4。
由圖4可以看出,不同算法建立的安全管理模型預(yù)測結(jié)果的相對誤差值,傳統(tǒng)隨機(jī)森林模型中的相對誤差,均大于改進(jìn)的隨機(jī)森林模型。在數(shù)據(jù)集4中,改進(jìn)的隨機(jī)森林模型誤差值最小為2.2%,驗證了基于改進(jìn)隨機(jī)森林算法的安全平臺模型具有較好的準(zhǔn)確性。
3 " 結(jié)束語
在公路工程施工的安全管理研究中,利用改進(jìn)的隨機(jī)森林算法構(gòu)建安全智能管控云平臺。利用決策樹約簡和聚類分析對隨機(jī)森林模型進(jìn)行優(yōu)化,在不同的數(shù)據(jù)集中的測試結(jié)果表明,改進(jìn)算法的平均準(zhǔn)確率86.28%、精確率85.62%、召回率87.62%和F值86.58%均高于原始的隨機(jī)森林算法。傳統(tǒng)隨機(jī)森林模型中的相對誤差均大于改進(jìn)的隨機(jī)森林模型。真實數(shù)據(jù)集中改進(jìn)的隨機(jī)森林模型誤差值最小為2.2%。改進(jìn)后的隨機(jī)森林算法的分類性能高,模型規(guī)模降低,資源消耗減少。但是改進(jìn)的隨機(jī)森林算法運行時間較長,后續(xù)研究中可以考慮通過并行設(shè)計來減少運行時間的消耗。
參考文獻(xiàn)
[1] 魏麗彬.基于BIM技術(shù)的高速公路隧道安全運營管理應(yīng)用研
究[J].公路交通科技:應(yīng)用技術(shù)版,2019,15(11):234-236.
[2] 吳翚,李昊,姜蘭蘭,等.山區(qū)公路安全風(fēng)險點研判與評價研
究[J].公路,2019,64(6):55-60.
[3] F Rodríguez,F(xiàn)lorez-Tapia A M, L Fontán, et al. Very short-
term wind power density forecasting through artificial
neural networks for microgrid control[J]. Renewable
Energy, 2020, 145(C), 1517-1527.
[4] Peth Z, Trk R, Szalay Z. A survey of new orientations in
the field of vehicular cybersecurity, applying artificial
intelligence based methods[J]. Transactions on Emerging
Telecommunications Technologies, 2021, 32(10):1-19.
[5] Lan T, Hu H, Jiang C, et al. A comparative study of decision
tree, random forest, and convolutional neural network
for spread-F identification[J]. Advances in Space Research,
2020, 65( 8):2052-2061.
[6] Tang, Zhipeng, MEI, et al. Identification of the key factors
affecting Chinese carbon intensity and their historical
trends using random forest algorithm[J]. Journal of
Geographical Sciences, 2020, 30(5):56-69.
[7] Xiang B, Zeng C, Dong X, et al. The Application of a Decision
Tree and Stochastic Forest Model in Summer Precipitation
Prediction in Chongqing[J]. Atmosphere, 2020, 11(5):
508-522.