王偉 謝耀濱 尹青



摘 要:針對異常檢測中異常數據與正常數據的比例嚴重不平衡導致決策樹性能下降的問題,提出了C4.5決策樹的三種改進方法——C4.5+δ、均勻分布熵(UDE)和改進分布熵函數(IDEF)。首先,推導了C4.5算法中屬性選擇準則會傾向于選擇偏斜劃分的屬性;然后,分析了偏斜劃分使得異常(少數類)檢測精度下降的原因;其次,分別通過引入緩和因子、均勻分布熵或替換分布熵函數改進了C4.5算法的屬性選擇準則——信息增益率;最后,利用WEKA平臺和NSL-KDD數據集對改進的決策樹進行驗證。實驗結果表明,三種改進方法均能提高異常檢測精度。其中,相比于C4.5,C4.5+7、UDE和IDEF算法在KDDTest-21數據集上的少數類檢測精度(靈敏度)分別提高了3.16、3.02和3.12個百分點,均優于采用Rényi熵和Tsallis熵作為分裂準則的方法。此外,利用三種改進的決策樹檢測工業控制系統中的異常,不僅可以提高異常的查全率還能減小誤報率。
關鍵詞:不平衡數據;異常檢測;決策樹;C4.5;信息增益率
中圖分類號: TP181
文獻標志碼:A
文章編號:1001-9081(2019)03-0623-06
Abstract: Focusing on the problem that serious imbalance between abnormal data and normal data in anomaly detection will lead to performance degradation of decision tree, three improved methods for C4.5 decision tree were proposed, which are C4.5+δ, UDE (Uniform Distribution Entropy) and IDEF (Improved Distribution Entropy Function). Firstly, it was deduced that the attribute selection criterion of C4.5 tends to choose the ones with imbalanced splitting. Secondly, why imbalanced splitting decreases the accuracy of anomaly (minority) detection was analyzed. Thirdly, the attribute selection criterion — information gain ratio of C4.5 was improved by introducing relaxation factor and uniform distribution entropy, or substituting distribution entropy function. Finally, three improved decision trees were verified on WEKA platform and NSL-KDD dataset. Experimental results show that three proposed improved methods can increase the accuracy of anomaly detection. Compared with C4.5, the accuracies of C4.5+7, UDE and IDEF on KDDTest-21 dataset are improved by 3.16, 3.02 and 3.12 percentage points respectively, which are better than the methods using Rényi entropy or Tsallis entropy as splitting criterion. Furthermore, using improved decision trees to detect anomalies in the industrial control system can not only improve the recall ratio of anomalies, but also reduce false positive rate.
Key words: imbalanced data; anomaly detection; decision tree; C4.5; information gain ratio
0 引言
異常檢測是指從某個系統的日常數據中識別非預期模式,即異常數據。異常通常由惡意行為或違規操作引發,因此異常檢測技術廣泛應用于網絡安全、故障檢測等領域[1-3]。
異常檢測可以視為一種特殊的分類問題,即分離目標數據集中的正常數據與異常數據。因此,絕大多數基于機器學習的分類方法,如神經網絡、支持向量機、決策樹等,都可以應用于異常檢測。然而異常檢測面臨數據不平衡問題,即目標數據集中異常數據與正常數據的分布是不平衡的,其中異常數據一般遠遠少于正常數據。數據不平衡問題在醫療診斷[4]、信用卡詐騙檢測[5]、銀行風險管控[6]、系統故障檢測[7]等應用中十分常見。在傳統分類問題中,整體準確度由不同類別的準確度加權組成,因此多數類的準確度對整體準確度的影響要遠大于少數類。在傳統方法中,分類器會傾向于保證多數類的準確度而犧牲少數類的準確度,導致少數類的漏報率較高。然而在很多異常檢測的現實應用中將異常(少數類)誤判為正常(多數類)的代價要遠遠高于相反的情況,因此需要盡可能地檢測出異常,降低漏報率。例如,在癌癥的診斷中,將癌癥(少數類)患者誤診為健康(多數類)的危害要遠大于將非癌癥患者誤診為癌癥的危害,所以要保證檢測結果為陽性時盡可能地覆蓋真正的癌癥患者。
對于不平衡分類問題,主要從數據和算法兩個層面來解決[8]。數據層面的方法首先通過數據預處理平衡數據分布從而消除多數類的影響,而后運用傳統方法進行分類;算法層面的方法通過修改學習算法來處理不平衡分類問題。這些方法保留原有方法的主體思想,通過調整決策閾值使其偏向于少數類或者在學習過程中引入錯誤分類代價提高少數類的重要性。除此之外,許多研究人員將數據層面和算法層面的方法相結合[9-10],為不平衡分類問題提供了全新的綜合性解決方案。
本文從算法層面入手,對C4.5決策樹的特征選擇準則進行改進。本文的主要貢獻在于:1)提出了三種針對不平衡數據的C4.5決策樹改進方法;2)運用改進的決策樹進行異常檢測并驗證了其有效性。
本文將在下一章中回顧近幾年來不平衡學習的相關方法。第二章介紹了決策樹并分析了特征選擇準則對不平衡分類的影響。針對第二章中分析的不平衡分布情況下性能下降的原因,第三章詳細描述了三種改進方法的細節。本文將所提的方法應用于異常檢測,檢測結果及分析將在第四章中進行展示。最后,第五章將對全文進行總結并提出下一步的研究目標。
1 相關工作
為了提升機器學習算法處理不平衡數據的性能,研究人員提出了許多解決辦法,大致可分為數據層面和算法層面。數據層面的方法獨立于分類器,具有較高的靈活性與普適性;算法層面的方法通過修改學習算法解決不平衡分類問題,具有較強的針對性。
數據層面包含過采樣法、欠采樣法、過采樣和欠采樣的綜合法。采樣方式分為啟發式和非啟發式,非啟發式采樣法通常由隨機過采樣和隨機欠采樣組成。合成少數類過采樣技術(Synthetic Minority Oversampling TEchnique, SMOTE)[11]是一種典型的啟發式過采樣方法,該算法的提出是為了解決隨機過采樣法增加過擬合風險的問題。另外,啟發式過采樣方法包括K近鄰規則(K-Nearest Neighbor, KNN)、鄰域清理規則(Neighborhood CLeaning rule, NCL)[12]、OSS(One-Sided Selection)[13]和IRUS(Inverse Random Under Sampling)[14]等。
MohammadImran等[15]提出了OSIBD(Over Sampling on Imbalance Big Data)算法提升不平衡分類的性能。該算法采用新型的過采樣策略對數據集進行預處理。首先,根據數據分布移除少數類樣本中的噪聲和邊緣點;隨后,在處理后的少數類樣本之間插入合成樣本實現混合過采樣;最后,利用C4.5算法進行分類。實驗結果證明,改進后的方案中精確度、召回率均有所提升。
在算法層面,不同算法的解決方法有所差異,下面將著重介紹關于決策樹算法的相關研究工作。在傳統的決策樹算法中,香農熵用于度量樣例集合的不純凈度,并作為樹節點的分裂依據。Lima等[16]針對熵的測量方法對決策樹進行改進,分別采用Rényi熵和Tsallis熵代替香農熵作為分裂準則。在KDD(Knowledge Discovery and Data mining)數據集上進行實驗,結果表明依據Rényi熵和Tsallis熵建立的決策樹模型更加緊湊與高效。
為了提升決策樹在不平衡數據集上的學習性能,Boonchuay等[17]提出了一種全新的不純凈度度量方法——少數類熵(Minority Entropy, ME)。首先,確定少數類分布的范圍并忽視范圍外的多數類樣本;隨后,計算并衡量少數類范圍內的香農熵。該方法通過排除純凈部分的多數類樣本,緩解了不平衡分布的問題。
Kirshners等[18]在熵函數的計算公式中引入了權重概念。其中,權重代表每一類樣本的重要性,且與分布概率成反比。改進的決策樹算法在學習階段之前計算初始的類分布概率,提高學習階段中對少數類的重視程度。實驗結果表明在不同的數據集上該算法的敏感度(即少數類的準確率)有顯著提升。
代價敏感學習是一種解決不平衡分類問題的有效途徑。Li等[19]提出了一種代價敏感決策樹算法,其中包含了兩種自適應機制。自適應分割點選擇機制將屬性的代價引入到信息增益率的計算公式中,代替原始的遍歷選擇機制;自適應屬性刪除機制在節點選擇過程中刪除冗余屬性。相比于C4.5,改進后的算法不僅降低了平均分類代價,而且縮短了算法的運行時間;鄭燕等[20]提出了一種代價敏感超網絡Boosting集成算法,首先將代價敏感學習引入超網絡模型,而后利用Boosting算法對代價敏感超網絡進行集成,以處理不平衡數據分類問題。
除此之外,集成法通過綜合多種方法為不平衡分類問題提供全新的綜合性解決方案,其優勢在于通過融合不同方面的優勢提高了算法的穩定性。文獻[21]中介紹了一種基于包裹式特征選擇的引導聚集(Bagging)框架,該框架包含數據預處理和Bagging兩個過程。數據預處理過程中,首先采用隨機欠采樣壓縮數據,而后利用包裹式特征選擇算法刪除冗余屬性;Bagging過程中,通過引導采樣生成多個子集,而后在多個子集上分別訓練決策樹,最終輸出由多個決策樹投票決定的結果。
2 問題分析
為了解決不平衡分類問題,本章對決策樹算法進行分析并尋找導致分類性能下降的原因。在2.1節中,介紹了決策樹算法的過程及相應的準則;在2.2節中,通過分析兩種數據分布情況探究C4.5算法中屬性選擇對不平衡數據分類的影響。
2.1 決策樹算法
1)根據分裂準則,在數據集D上選擇一個最優分裂屬性;
2)在最優分裂屬性上選擇最優分裂點,將數據集D分為DL和DR兩個子節點;
3)在子節點上重復上述步驟,直到所有葉節點滿足停止準則。
在每次迭代過程中,決策樹隨著子節點的分裂不斷生長。當所有的葉節點均滿足停止準則時,決策樹停止生長。停止準則通常由純凈度、葉節點數和樹深度等條件組成。
分裂準則通過計算不純凈度決定葉節點如何分裂。最常用的分裂準則是基于香農熵的信息增益:
其中IG表示分裂前后的信息增益(即熵的衰減值)。香農熵的定義如式(2)所示,其值域范圍為[0,lb n],當p(yi)相等時達到極大值,當p(yi)等于0或1時達到最小值。因此,最大化信息增益準則將引導節點向純凈分類。
常用的決策樹算法有ID3、C4.5[22]等。ID3算法根據最大化信息增益準則選擇最優分裂屬性,導致其傾向于選擇取值多的屬性; C4.5算法對ID3算法進行改進,根據最大化信息增益率準則選擇最優分裂屬性。為了濾除虛高的信息增益率——低信息增益、低分布熵,C4.5算法涵蓋一種啟發式規則——首先濾除信息增益低于平均值的屬性,而后比較剩余屬性的信息增益率。本文將在下一節中分析C4.5決策樹建立過程中選擇不同的屬性對不平衡數據的影響。
2.2 C4.5處理不平衡數據的不足
C4.5算法根據信息增益率選擇最優分裂屬性,信息增益率公式計算如下:
其中H(X)表示同級子節點的分布熵。隨著子節點數量的增多,H(X)相應增大,從而抑制子節點數量對信息增益的影響。
由于理想子節點數量未知,C4.5算法在處理連續型數值屬性時,采取迭代二元分裂的方式實現多元分裂。在每次迭代過程中,節點分裂出兩個子節點,此時的信息增益不受子節點數量影響;而子節點權重的差異導致H(X)在[0,1]之區間波動。當數據分布不平衡時,子節點的權重存在嚴重偏斜的情況。當P(X>x)-P(X 3 改進方法 為了緩和或消除分布熵對信息增益率的影響,本章結合上文的分析,提出了三種信息增益率的改進方法。 1)引入緩和因子δ。 信息增益率計算公式(式(3))中,分布熵H(X)在0到1之間變化。在極端情況下,信息增益率是信息增益的無窮倍,此時信息增益明顯起不到主導作用。因此,在信息增益率的計算公式中引入緩和因子δ。改進后的信息增益率計算公式如下: 2)用均勻分布熵代替分布熵。 為了消除枚舉型屬性的子節點數量對信息增益的影響,C4.5算法引入分布熵。而在處理連續數值型屬性時,采取迭代二元分裂的方式實現多元分裂。在每一次迭代過程中,節點分裂數為2,此時信息增益不受子節點數量的影響。但在面對不平衡數據時,分布熵抑制了信息增益的主導作用。因此,本方法采用均勻分布熵(Uniform Distribution Entropy, UDE)代替分布熵,改進后的信息增益率計算公式如下: 其中n為樣例子集的數量。 改進后的信息增益率不僅抵消了子節點數量對信息增益的影響,而且消除了子節點的分布情況對信息增益的影響。 3)改進分布熵函數。 二元香農分布熵函數的圖像如圖3中虛線部分所示。二元分布從[0.5,0.5](即平均分布)到[0.1,0.9]的過程中,香農熵衰減超過50%。此時,分布熵在信息增益率中占據主導地位,因此,可通過改進分布熵函數(Improved Distribution Entropy Function, IDEF)削弱分布熵的影響,即采用從平均分布到偏斜分布的過程中衰減緩慢的函數代替分布熵函數。 新函數需滿足熵函數的部分性質,如對稱性、確定性、非負性、連續性、上凸性和極值性等。本方法采用如下函數代替香農分布熵函數: 其中:k為系數,α為可調參數,且α<1。為了使峰值與原函數保持一致,將k設為nnαlb n。C(X)的圖像如圖3中紅色最上方曲線所示,當α=1/3時,二元分布從[0.5,0.5]到[0.1,0.9]的過程中,衰減減少至30%以內。 4 實驗與評估 本章將通過兩部分實驗對所提方法的有效性進行驗證。4.1節將展示在NSL-KDD數據集上評估提出的方法處理不平衡數據的性能,并與采用Rényi熵和Tsallis熵的方法進行對比;4.2節將利用改進的決策樹進行工業控制系統中的異常檢測;本文實驗依托由新西蘭懷卡托大學開發的公開數據挖掘工作平臺——懷卡托智能分析環境(Waikato Environment for Knowledge Analysis, WEKA)[23],通過修改WEKA 3.8.2中的J48(即C4.5)決策樹實現。實驗采用十折交叉驗證方式,并開啟剪枝過程。 4.1 NSL-KDD測試 NSL-KDD數據集[24]是一個面向網絡入侵檢測系統的公開數據集,共包含41維特征屬性以及1維目標屬性。KDDTest-21數據集包含2152個正常樣本與9698個異常樣本;KDDTrain+數據集包含67343個異常樣本、58630個正常樣本。為了使偏斜率多樣化并且降低數據規模,本文對KDDTrain+數據集中的異常樣本和正常樣本隨機抽樣,構造了5個不同偏斜率的數據集。本節實驗中使用的數據集如表1所示。 在不平衡數據的情況下,準確率和錯誤率不足以衡量分類算法的性能。因此,本文額外引入兩項衡量指標——靈敏度(又稱為召回率或查全率)和特異度。靈敏度表示分類算法正確預測正樣本數量占實際正樣本數量的百分率,其公式表述如式8所示。其中,真陽性(True Positives, TP)表示預測為正的正樣本數,假陰性(False Negatives, FN)表示預測為負的正樣本數。 特異度表示分類算法正確預測負樣本數量占實際負樣本數量的百分率,其公式表述如式(9)所示。其中,真陰性(True Negatives, TN)表示預測為負的負樣本數,假陽性(False Positives, FP)表示預測為正的負樣本數。 本文提出的方法在KDDTest-21及KDD101~105數據集上的結果對比如表2所示。 第一列表示數據集名稱,第二列為決策樹及其改進方法的簡稱,其中C4.5+δ表示方法(一)引入緩和因子δ、UDE表示方法(二)用均勻分布熵代替分布熵、IDEF表示方法(三)改進分布熵函數。此外,文獻[16]中提出的基于Rényi熵和Tsallis熵的決策樹作為本文的比對方法,作者針對不純凈度的度量方法對決策樹進行改進,分別采用Rényi熵和Tsallis熵代替香農熵作為分裂準則。Rényi熵和Tsallis熵的計算公式如式(10)和式(11)所示: 在KDDTest-21數據集上,C4.5+δ、UDE、IDEF相對于C4.5均有所提升,且C4.5+δ提升幅度最大,如表2所示(加粗部分表示最佳性能)。當δ=7時,C4.5+7的準確率達到97.76%。與C4.5算法相比, C4.5+7的靈敏度(少數類的分類精度)提升了3.16個百分比,且特異度(即多數類的分類精度)也有小幅提升。而Rényi熵和Tsallis熵在提升靈敏度的同時,特異度有所下降。此外,葉節點數與決策樹大小代表模型的復雜度(后續分析中以決策樹大小代表模型復雜度)。與C4.5算法相比,C4.5+7算法生成的決策樹減小了51.53%。因此,三種改進方法在提升檢測效果的同時,又大幅度降低了模型的復雜度。 接下來,利用KDD101~105數據集對三種改進方法進行驗證與對比,以探究在不同偏斜率的情況下三種算法的適用性。在KDD101數據集上,C4.5+δ、UDE、IDEF相對于C4.5均有所提升。其中,UDE算法在準確率、錯誤率和靈敏度上均取得了最優值。相比于C4.5算法,C4.5+5、UDE、IDEF算法的靈敏度分別提升了1.4%、1.5%、0.3%;在特異度指標方面,UDE算法略遜色于IDEF算法。雖然三種改進方法均不同程度上增加了模型的復雜度(UDE模型復雜度相對于C4.5算法提高了19.55個百分點),但仍優于Rényi熵和Tsallis熵(Rényi熵和Tsallis熵分別提高了40.6和26.32個百分點)。因此,可理解為由于KDD101數據集偏斜嚴重,提高模型復雜度是提升決策樹性能的必要條件。 在KDD102上,C4.5+δ、UDE、IDEF相對于C4.5算法均有所提升。當δ增至11時,C4.5+δ的各項性能指標達到最優值,其中靈敏度從97.8%提升至98.75%;盡管Tsallis熵方法的特異度達到了99.86%,但靈敏度相對于原始算法有所下降。在此數據集上雖然Tsallis熵方法提高了準確率,但其顯然不是解決不平衡分類問題的有效方法。 從KDD101至KDD104,數據集趨于平衡,C4.5+δ性能最優時對應的參數δ逐漸增大。當δ大于最優值后,性能趨于穩定,但隨著δ增大模型趨于簡單化。除此之外,隨著不平衡情況的減緩,改進方法的提升幅度逐漸降低,而Rényi熵和Tsallis熵方法逐漸失效。例如,在KDD104數據集上,雖然基于Rényi熵的方法準確率高于C4.5算法,但其靈敏度相對于C4.5算法有所降低。與KDD104類似,Rényi熵和Tsallis熵方法在KDD105數據集上(即面臨輕微不平衡的情況時)失去效果。 表2展示了幾種方法在面臨不同偏斜率的數據集時的性能。總體而言,C4.5+δ在解決不平衡分類問題時表現出了突出的性能;而UDE與IDEF也擁有解決不平衡分類問題的能力,并且相對于C4.5+δ而言,具有更好的泛化性能。 4.2 工業控制過程的異常檢測 工業控制過程的異常檢測常常也面臨數據不平衡問題,因為工控系統中正常狀態明顯多于異常狀態。本節利用改進的決策樹算法進行工業控制領域的異常檢測,進而證明所提方法的實用價值。 水處理安全測試平臺(Secure Water Treatment, SWaT)[25]是現實工業中水處理工廠的模型,其處理過程共分為6個階段,如圖4所示。 SWaT數據集[26]共記錄了該系統11天的運行數據。前7天系統正常運行,后4天對該系統不定時發動36次攻擊。 本節實驗在SWaT后4天記錄的數據上進行,共包含396019個正常數據與53900個異常數據。檢測結果通過混淆矩陣直觀展示,混淆矩陣定義如表3所示。 C4.5算法及三種改進方法關于SWaT的異常檢測結果如表4所示。原始的C4.5算法檢測結果中,異常數據的漏報數量為119,誤報數量為90。此時,C4.5算法向正常類偏斜。當δ=7時,C4.5+δ算法的檢測效果最佳。其中,異常的漏報數量為92,而誤報數量為82。與C4.5算法相比,C4.5+7算法的漏檢率減小了22.69%、誤報率減小了8.89%。從實驗結果來看,兩類數據的錯誤分類數量基本持平。因此,C4.5+δ基本上解決了不平衡分類問題。另外,UDE與IDEF的檢測結果相同。相對于C4.5而言,異常的漏報數量從119減少至103,而誤報數量從90減少至97。從實驗效果來看,UDE和IDEF算法在一定程度上緩解了不平衡分類問題。 由表4可知,三種改進方法均能改善工控異常檢測中的不平衡分類問題。其中,UDE與IDEF提高了異常的檢測效率,但未徹底解決不平衡問題;而C4.5+δ提升效果明顯優于UDE與IDEF,經過改進,異常數據和正常數據的錯誤分類數量基本持平,基本上解決了異常檢測的不平衡問題。 5 結語 在平衡數據的分類任務中,決策樹因其簡單高效且具有強解釋性而備受矚目。然而,當面臨不平衡數據時,決策樹算法偏向于多數類使其性能大打折扣。同時,在異常檢測任務中,盡管異常數據遠遠少于正常數據,但異常數據的檢測率尤其重要。因此,本文分析了C4.5決策樹的不平衡原因,并提出了屬性選擇準則的三種改進方法——C4.5+δ、UDE、IDEF。 對改進的決策樹算法在不同偏斜率的KDD數據集上進行測試,三種方法的靈敏度和特異度均有明顯提升。與Rényi熵和Tsallis熵相比,本文提出的方法在提升少數類準確率的同時,還保證了多數類的準確率。最后,改進的決策樹應用于工業控制系統的異常檢測過程中,實驗結果證明本文提出的方法能改善不平衡分類問題。 計劃從數據層面開展下一步工作,提出適用于異常檢測的人工合成少數類方法,結合本文的方法形成綜合性解決方案,進一步提升異常檢測的性能。 參考文獻 (References) [1] ESKIN E, ARNOLD A, PRERAU M, et al. A geometric framework for unsupervised anomaly detection [J]. Applications of Data Mining in Computer Security, 2002, 6: 77-101. [2] ISERMANN R, BALLE P. Trends in the application of model-based fault detection and diagnosis of technical processes [J]. Control Engineering Practice, 1997, 5(5): 709-719. [3] KOU Y, LU C T, SIRWONGWATTANA S, et al. Survey of fraud detection techniques [C]// Proceedings of the 2004 IEEE International Conference on Networking, Sensing and Control. Piscataway, NJ: IEEE, 2004: 749-754. [4] 王莉莉,付忠良,陶攀,等.基于主動學習不平衡多分類AdaBoost算法的心臟病分類[J].計算機應用,2017,37(7):1994-1998.(WANG L L, FU Z L, TAO P, et al. Heart disease classification based on active imbalance multi-class AdaBoost algorithm [J]. Journal of Computer Applications, 2017, 37(7): 1994-1998.) [5] FU K, CHENG D, TU Y, et al. Credit card fraud detection using convolutional neural networks [C]// Proceedings of the 2016 International Conference on Neural Information Processing. Berlin: Springer, 2016: 483-490. [6] DANENAS P, GARSVA G. Selection of support vector machines based classifiers for credit risk domain [J]. Expert Systems with Applications, 2015, 42(6): 3194-3204. [7] MARTIN-DIAZ I, MORINIGO-SOTELO D, DUQUE-PEREZ O, et al. Early fault detection in induction motors using AdaBoost with imbalanced small data and optimized sampling [J]. IEEE Transactions on Industry Applications, 2017, 53(3): 3066-3075. [8] 趙楠,張小芳,張利軍.不平衡數據分類研究綜述[J]. 計算機科學,2018,45(S1):22-27.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification [J]. Computer Science, 2018, 45(S1): 22-27.) [9] IRTAZA A, ADNAN S M, AHMED K T, et al. An ensemble based evolutionary approach to the class imbalance problem with applications in CBIR [J]. Applied Sciences, 2018, 8(4): 495. [10] GALAR M, FERNANDEZ A, BARRENECHEA E, et al. EUSBoost: enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling [J]. Pattern Recognition, 2013, 46(12): 3460-3471. [11] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2011, 16(1): 321-357. [12] LAURIKKALA J. Improving identification of difficult small classes by balancing class distribution [C]// Proceedings of the 8th Conference on Artificial Intelligence in Medicine in Europe. Berlin: Springer, 2001: 63-66. [13] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection [C]// Proceedings of the 14th International Conference on Machine Learning. New York: ACM, 1997: 179-186. [14] TAHIR M A, KITTLER J, MIKOLAJCZYK K, et al. A multiple expert approach to the class imbalance problem using inverse random under sampling [C]// Proceedings of the 8th International Workshop on Multiple Classifier Systems. Berlin: Springer, 2009: 82-91. [15] IMRAN M, RAO V S, AMARASIMHA T, et al. A novel technique on class imbalance big data using analogous over sampling approach [J]. International Journal of Computational Intelligence Research, 2017, 13(10): 2407-2417. [16] LIMA C F L, de ASSIS F M, de SOUZA C P. Decision tree based on Shannon, Rényi and Tsallis entropies for intrusion tolerant systems [C]// Proceedings of the 5th International Conference on Internet Monitoring and Protection. Piscataway, NJ: IEEE, 2010: 117-122. [17] BOONCHUAY K, SINAPIROMSARAN K, LURSINSAP C. Decision tree induction based on minority entropy for the class imbalance problem [J]. Pattern Analysis and Applications, 2017, 20(3): 769-782. [18] KIRSHNERS A, PARSHUTIN S, GORSKIS H. Entropy-based classifier enhancement to handle imbalanced class problem [J]. Procedia Computer Science, 2017, 104: 586-591. [19] LI X, ZHAO H, ZHU W. A cost sensitive decision tree algorithm with two adaptive mechanisms [J]. Knowledge-Based Systems, 2015, 88: 24-33. [20] 鄭燕,王楊,郝青峰,等.用于不平衡數據分類的代價敏感超網絡算法[J].計算機應用,2014,34(5):1336-1340.(ZHENG Y, WANG Y, HAO Q F, et al. Cost-sensitive hypernetworks for imbalanced data classification [J]. Journal of Computer Applications, 2014, 34(5): 1336-1340.) [21] LEE S J, XU Z, LI T, et al. A novel bagging C4.5 algorithm based on wrapper feature selection for supporting wise clinical decision making [J]. Journal of Biomedical Informatics, 2018, 78: 144-155. [22] QUINLAN J R. C4.5: Programs for Machine Learning [M]. San Francisco, CA: Morgan Kaufmann, 1993:17-26. [23] FRANK E, HALL M A, WITTEN L H. The WEKA workbench. online appendix for “Data mining: practical machine learning tools and techniques” [EB/OL]. (2016-11-22) [2018-05-04]. https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf. [24] DHANABAL L, SHANTHARAJAH S P. A study on NSL-KDD dataset for intrusion detection system based on classification algorithms [J]. International Journal of Advanced Research in Computer and Communication Engineering, 2015, 4(6): 446-452. [25] ADEPU S, MATHUR A. An investigation into the response of a water treatment system to cyber attacks [C]// Proceedings of the 17th IEEE International Symposium on High Assurance Systems Engineering. Washington, DC: IEEE Computer Society, 2016: 141-148. [26] GOH J, ADEPU S, JUNEJO K N, et al. A dataset to support research in the design of secure water treatment systems [C]// Proceedings of the 11th International Conference on Critical Information Infrastructures Security. Berlin: Springer, 2016: 88-99.