基于TF-IDF 進(jìn)化集成分類器的鐵路安全故障文本分類*

2021-04-24 11:36:52王富章趙俊華李高科

電子技術(shù)應(yīng)用 2021年4期

高凡，王富章，張銘，趙俊華，李高科

(1.中國鐵道科學(xué)研究院，北京 100081；2.北京經(jīng)緯信息技術(shù)有限公司，北京 100081)

0 引言

安全問題歷來是鐵路運輸?shù)闹攸c關(guān)注問題，在鐵路安全監(jiān)控體系中，為減少運營過程中可能存在的安全隱患，減少設(shè)備故障，保障系統(tǒng)穩(wěn)定運行，安全人員根據(jù)日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產(chǎn)故障隱患，并將問題記錄為文本形式存儲。管理人員依據(jù)這些問題記錄，分析、總結(jié)與整改問題。在長期形成的海量的安全問題文本文件中，采用文本分類技術(shù)將安全問題自動歸類，輔助管理人員更好地掌握與處理安全問題，在鐵路安全領(lǐng)域的重要性日漸凸顯。

一般來說，文本分類過程有以下3 個步驟[1]：預(yù)處理、文本表示和文本分類。其中，文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計算機(jī)可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency，TF-IDF)，以及基于深度學(xué)習(xí)的Word2vec 表示方法等[2]。在構(gòu)造分類器時使用的技術(shù)大體包括單個的基分類器、集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging 和Boosting 兩種，Bagging 的主要算法是隨機(jī)森林，Boosting 的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域，有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。

目前，國內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測模型和自適應(yīng)增強(qiáng)算法(Adaptive Boosting，AdaBoost)的預(yù)測模型實現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測[7]；趙陽等以故障文本信息為依據(jù)，針對高鐵信號車載設(shè)備，提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8]；李佳奇等將面向Agent 的分布式人工智能技術(shù)引入到信號設(shè)備故障診斷系統(tǒng)中[9]；楊連報針對信號故障不平衡數(shù)據(jù)，采用SVM-SMOTE 算法對TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機(jī)生成，分別采用基分類器和集成分類對數(shù)據(jù)進(jìn)行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風(fēng)險、隱患內(nèi)容，通常包括安全問題發(fā)生的時間、地點、問題描述等關(guān)鍵要素[11]，所以針對每一類安全問題，存在特定的關(guān)鍵詞，本文在文本特征抽取上采用TF-IDF 表示，針對Bagging集成分類器的基礎(chǔ)上，采用遺傳算法優(yōu)化，提升分類準(zhǔn)確性[12]。

1 進(jìn)化集成分類器模型

安全問題文本分類屬于文本挖掘中的分類問題，應(yīng)用文本分析的處理流程，進(jìn)化集成分類器模型分為3層：數(shù)據(jù)預(yù)處理層、進(jìn)化優(yōu)化層以及智能決策層[13]，如圖1 所示。基于TF-IDF，數(shù)據(jù)預(yù)處理層對安全問題描述文本進(jìn)行特征提取和特征向量化表示，通過基分類器決策樹(Decision Tree)對上述文本進(jìn)行分類并建立相應(yīng)的基模型，再基于Bagging 集成分類器對預(yù)處理結(jié)果進(jìn)行采樣訓(xùn)練，產(chǎn)生集成分類器分類模型[14]。在數(shù)據(jù)預(yù)處理層Bagging 訓(xùn)練過程中產(chǎn)生的每個基模型的解的基礎(chǔ)上，進(jìn)化優(yōu)化層使用遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合。最上層智能決策層為用事先定義好的指標(biāo)評價模型，經(jīng)調(diào)整和改進(jìn)后的模型直接用于文本自動分類[15]。

2 TF-IDF 法數(shù)據(jù)處理

安全問題中存在的大量鐵路專用術(shù)語，如低壓過流、閉鎖、紅光帶等，本文采用基于字典的結(jié)巴分詞工具，構(gòu)建了包括通用語料及專業(yè)語料的鐵路安全問題語料庫，以便對安全問題準(zhǔn)確分詞。

圖1 進(jìn)化集成分類器模型整體框架

表1 鐵路信號安全問題表述

安全問題以文本形式記錄在信息系統(tǒng)中。表1 列舉了鐵路領(lǐng)域各類別安全問題的典型實例，根據(jù)對安全問題的表述，可見雖然鐵路安全問題類別較多，但在各類別中都有各自特征的高頻詞，同時在其他安全問題類別中呈低頻出現(xiàn)，如圖2 所示。

在本文的模型中，應(yīng)用TF-IDF 將經(jīng)過分詞的詞語過濾低頻詞后再計算詞頻。

詞頻(Term Frequency，TF)和逆向文件頻率(Inverse Document Frequency，IDF)均表示搜索關(guān)鍵詞在所有文檔中出現(xiàn)的頻率，前者頻率越高，證明該關(guān)鍵詞與文檔相關(guān)性越高；后者頻率越高，表示該關(guān)鍵詞與文檔相關(guān)性越低。所以，為了對文檔中某一詞語的出現(xiàn)次數(shù)進(jìn)行歸一化處理，可以通過分析該詞語的詞頻。對于詞語ti，在某個文檔中的重要程度可表示為：

式中，TFi，j為詞頻，ni，j是詞語ti在dj文件中檢索到的次數(shù)，是dj中所有字、詞出現(xiàn)的次數(shù)之和。

逆向文件頻率由總文件數(shù)據(jù)除以包含某詞語的文件數(shù)據(jù)取對數(shù)得到，用于度量一個詞語普遍重要程度，其公式如下：

式中，IDFi為逆向文件頻率，|D|為總文件數(shù)，為包含某一詞語的文件數(shù)。

高權(quán)重wi，j=TFi，j×IDFi，由文檔內(nèi)的高詞語頻率乘以該詞語在整個文檔集合的低文件頻率。

圖2 安全問題內(nèi)容特征分析

數(shù)據(jù)預(yù)處理流程如圖3 所示。首先在既有語料庫的基礎(chǔ)上，根據(jù)不同的安全問題進(jìn)行分詞，同時統(tǒng)計特征詞語所在的文檔及其出現(xiàn)次數(shù)，然后通過TF-IDF 方法計算該特征詞語的詞頻并過濾低頻詞，最終形成矩陣X和矩陣Y，其中矩陣X 代表文檔特征的權(quán)重，矩陣Y 代表分類類別。

圖3 數(shù)據(jù)預(yù)處理流程

3 基于遺傳算法的進(jìn)化集成分類器

3.1 決策樹基分類器

決策樹分類器是訓(xùn)練一棵大規(guī)模的樹結(jié)構(gòu)，對該樹進(jìn)行減枝，直到達(dá)到合適的規(guī)模和分類效率。本文采用ID3算法，ID3 依據(jù)信息增益選擇屬性。其中屬性TF-IDF 過濾后的單詞，若屬性w 的值將樣本集T 劃分成T1，T2，…，Tm，共m 個子集，其信息增益表示為：

式中，|T|為T 的樣本個數(shù)，|Ti|為子集Ti的樣本個數(shù)。其中inf o(T)的計算公式為：

式中，freq(Cj，T)為T 中的樣本屬于Cj類別的頻率，s 是T 中的樣本的類別數(shù)量。

3.2 Bagging 集成分類器

本文采用決策樹作為基分類器。假設(shè)原始訓(xùn)練數(shù)據(jù)量是n。在原始數(shù)據(jù)集隨機(jī)抽取訓(xùn)練數(shù)據(jù)，抽取的數(shù)據(jù)量為n′(n′≤n)，用抽取的數(shù)據(jù)訓(xùn)練第一個決策樹，用同樣的方法做m 次有放回抽取，訓(xùn)練m 個決策樹，將測試集放到每一個決策樹中預(yù)測，最后通過最優(yōu)分類器與其他分類器的加權(quán)投票組合，選出表現(xiàn)性能最優(yōu)的組合集成分類器，其學(xué)習(xí)過程如下：

(1)輸入訓(xùn)練集

(2)過程：

其中，ξ 為基分類器算法；T 為訓(xùn)練輪數(shù)。

(3)輸出：

3.3 進(jìn)化集成分類器

遺傳算法是一種自適應(yīng)全局優(yōu)化的搜索算法，通過對初始解進(jìn)行遺傳迭代，每一次迭代通過適應(yīng)度函數(shù)對當(dāng)前解進(jìn)行優(yōu)劣進(jìn)行評價，在評價的基礎(chǔ)上產(chǎn)生優(yōu)秀的下一代。進(jìn)化集成分類器是建立在給定的某個Bagging集成分類器上，通過遺傳算法優(yōu)化該集成分類器并最終得到的具有更高分類準(zhǔn)確度的基分類器組合。進(jìn)化集成分類器的核心主要為基因編碼及種群繁殖過程。

3.3.1 基因編碼機(jī)制

進(jìn)化集成分類器搜索最優(yōu)解的目標(biāo)為得到基分類器的最優(yōu)組合。根據(jù)這一原則，本文設(shè)定50 個基分類器，種群(個體)規(guī)模為25，為了模擬基分類器是否被選擇，設(shè)定個體大小(基因長度)與基分類器數(shù)量一致，采用0、1 編碼基因，0 表示基分類器未選擇，1 表示被選擇。所以初始個體基因由0、1 隨機(jī)編碼長度為50 的二進(jìn)制符號串組成。

3.3.2 種群繁殖過程

種群繁殖過程是將種群內(nèi)個體不斷地經(jīng)過選擇、交叉、變異的操作，把適應(yīng)度較高的個體遺傳到下一代，通過這一迭代過程最終得到一個優(yōu)良個體的過程。可以認(rèn)為，這一最終得到個體的表現(xiàn)型是最接近該問題的最優(yōu)解。本文中迭代次數(shù)G=100。

(1)初始適應(yīng)度計算：初始適應(yīng)度計算以每個基分類的準(zhǔn)確度為準(zhǔn)，準(zhǔn)確度越高的其適應(yīng)度越高。pi(0＜i＜50)代表每個基分類器(決策樹)的準(zhǔn)確度，pˉ代表全部基分類器的均值，σp代表全部基分類器的方差，個體適應(yīng)度公式為：

(2)選擇：選擇過程即根據(jù)個體適應(yīng)度，選擇優(yōu)秀的個體遺傳到下一代。本文以個體靈敏度隨機(jī)選擇要交叉的兩個個體，個體初始靈敏度ps=0.95，個體靈敏度計算過程如下：

①s=min((ps+c×0.010)，ps)

②for i=1，2，…，n do

③ps=((s-1)/(s×len(a))2-(1))×((s×len(a))2-(i))

其中，c 反映經(jīng)過迭代后其準(zhǔn)確度是否有提升，如果有提升加1。經(jīng)過計算，準(zhǔn)確度越高的個體其靈敏度就越低，越不容易被選擇變異。a 為個體總數(shù)。

通過上述計算，本文將適應(yīng)度最大的精英個體保留下來。

(3)交叉：對于種群中的所有個體，以隨機(jī)原則將其兩兩搭配成對，對于每一對個體組合，設(shè)定一定的概率來交換兩個個體間的部分染色體，本文設(shè)定交叉概率Pc=0.75。

(4)變異：針對個別滿足變異的個體，進(jìn)行隨機(jī)變化。變異過程可產(chǎn)生新的個體，不僅增加了種群的多樣性，也為尋找最優(yōu)解提供了潛在的可能，本為的變異概率Pm=0.05。

(5)評價函數(shù)：經(jīng)過變異后的種群用評價函數(shù)來評價個體的好壞，每個個體為一個基分類器組合（0 為選擇，1 為不選擇），通過評價函數(shù)式(6)計算該基分類器組合的準(zhǔn)確度，從而得到最優(yōu)解，按照準(zhǔn)確度從大到小的原則篩選出準(zhǔn)確度最大的個體，并將其作為精英個體保留下來。

本文設(shè)置的終止條件為總的進(jìn)化代數(shù)ng 超過設(shè)定代數(shù)G。

4 實驗結(jié)果與分析

為分析本文提出的進(jìn)化集成分類器進(jìn)化過程，以某鐵路局供電接觸網(wǎng)安全問題為實例，采用精準(zhǔn)率(Precision)、召回率(Recall)和精確值和召回率的調(diào)和均值(F-score)作為模型評價和對比的指標(biāo)驗證分類結(jié)果。實現(xiàn)數(shù)據(jù)包括6 種問題類別2 400 條數(shù)據(jù)。

精準(zhǔn)率(Precision)：

式中，TP 代表被正確檢索到的樣本，F(xiàn)P 代表被誤檢索到的樣本，F(xiàn)N 代表屬于此類而被誤檢索為其他類的樣本。

圖4 中顯示了模型進(jìn)化過程中種群的多樣性(Diversity)、種群分類的平均值(AverageScore)、方差(StandardScore)以及最優(yōu)值(BestScore)。由實驗結(jié)果可見，當(dāng)種群迭代次數(shù)達(dá)到45 次時，種群繁殖過程中的平均值、方差和分類最大值均達(dá)到最大值，種群多樣性保持在80%～100%之間。

為了對比不同類型分類器對同一安全問題的分類結(jié)果，本文在以TF-IDF 方法表示安全問題文本的基礎(chǔ)上，分別采用基分類器、Bagging 集成分類器及進(jìn)化集成分類器對同一安全問題進(jìn)行分類，最終結(jié)果如表2 所示。從表2 中可以看出，進(jìn)化集成分類器分類指標(biāo)最高，Bagging 集成分類器分類指標(biāo)次之，基分類器分類指標(biāo)最差。

表2 分類模型結(jié)果對比

圖4 種群繁殖過程

5 結(jié)論

本文采用TF-IDF 方法表示安全問題文本，通過遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合，提出了Evolutionary Ensemble Classifier文本分類模型，應(yīng)用某路局安全接觸網(wǎng)問題進(jìn)行驗證，實驗證明Evolutionary Ensemble Classifier 模型在安全接觸網(wǎng)問題具有較高的準(zhǔn)確性，也可以為處理鐵路其他文本分類問題提供參考模型。