999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF 進(jìn)化集成分類器的鐵路安全故障文本分類*

2021-04-24 11:36:52王富章趙俊華李高科
電子技術(shù)應(yīng)用 2021年4期
關(guān)鍵詞:分類文本模型

高 凡 ,王富章 ,張 銘 ,趙俊華 ,李高科

(1.中國鐵道科學(xué)研究院,北京 100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京 100081)

0 引言

安全問題歷來是鐵路運輸?shù)闹攸c關(guān)注問題,在鐵路安全監(jiān)控體系中,為減少運營過程中可能存在的安全隱患,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運行,安全人員根據(jù)日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產(chǎn)故障隱患,并將問題記錄為文本形式存儲。管理人員依據(jù)這些問題記錄,分析、總結(jié)與整改問題。在長期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯。

一般來說,文本分類過程有以下3 個步驟[1]:預(yù)處理、文本表示和文本分類。其中,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計算機(jī)可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學(xué)習(xí)的Word2vec 表示方法等[2]。在構(gòu)造分類器時使用的技術(shù)大體包括單個的基分類器、集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging 和Boosting 兩種,Bagging 的主要算法是隨機(jī)森林,Boosting 的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。

目前,國內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測模型和自適應(yīng)增強(qiáng)算法(Adaptive Boosting,AdaBoost)的預(yù)測模型實現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測[7];趙陽等以故障文本信息為依據(jù),針對高鐵信號車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8];李佳奇等將面向Agent 的分布式人工智能技術(shù)引入到信號設(shè)備故障診斷系統(tǒng)中[9];楊連報針對信號故障不平衡數(shù)據(jù),采用SVM-SMOTE 算法對TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機(jī)生成,分別采用基分類器和集成分類對數(shù)據(jù)進(jìn)行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風(fēng)險、隱患內(nèi)容,通常包括安全問題發(fā)生的時間、地點、問題描述等關(guān)鍵要素[11],所以針對每一類安全問題,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF 表示,針對Bagging集成分類器的基礎(chǔ)上,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12]。

1 進(jìn)化集成分類器模型

安全問題文本分類屬于文本挖掘中的分類問題,應(yīng)用文本分析的處理流程,進(jìn)化集成分類器模型分為3層:數(shù)據(jù)預(yù)處理層、進(jìn)化優(yōu)化層以及智能決策層[13],如圖1 所示。基于TF-IDF,數(shù)據(jù)預(yù)處理層對安全問題描述文本進(jìn)行特征提取和特征向量化表示,通過基分類器決策樹(Decision Tree)對上述文本進(jìn)行分類并建立相應(yīng)的基模型,再基于Bagging 集成分類器對預(yù)處理結(jié)果進(jìn)行采樣訓(xùn)練,產(chǎn)生集成分類器分類模型[14]。在數(shù)據(jù)預(yù)處理層Bagging 訓(xùn)練過程中產(chǎn)生的每個基模型的解的基礎(chǔ)上,進(jìn)化優(yōu)化層使用遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合。最上層智能決策層為用事先定義好的指標(biāo)評價模型,經(jīng)調(diào)整和改進(jìn)后的模型直接用于文本自動分類[15]。

2 TF-IDF 法數(shù)據(jù)處理

安全問題中存在的大量鐵路專用術(shù)語,如低壓過流、閉鎖、紅光帶等,本文采用基于字典的結(jié)巴分詞工具,構(gòu)建了包括通用語料及專業(yè)語料的鐵路安全問題語料庫,以便對安全問題準(zhǔn)確分詞。

圖1 進(jìn)化集成分類器模型整體框架

表1 鐵路信號安全問題表述

安全問題以文本形式記錄在信息系統(tǒng)中。表1 列舉了鐵路領(lǐng)域各類別安全問題的典型實例,根據(jù)對安全問題的表述,可見雖然鐵路安全問題類別較多,但在各類別中都有各自特征的高頻詞,同時在其他安全問題類別中呈低頻出現(xiàn),如圖2 所示。

在本文的模型中,應(yīng)用TF-IDF 將經(jīng)過分詞的詞語過濾低頻詞后再計算詞頻。

詞頻(Term Frequency,TF)和逆向文件頻率(Inverse Document Frequency,IDF)均表示搜索關(guān)鍵詞在所有文檔中出現(xiàn)的頻率,前者頻率越高,證明該關(guān)鍵詞與文檔相關(guān)性越高;后者頻率越高,表示該關(guān)鍵詞與文檔相關(guān)性越低。所以,為了對文檔中某一詞語的出現(xiàn)次數(shù)進(jìn)行歸一化處理,可以通過分析該詞語的詞頻。對于詞語ti,在某個文檔中的重要程度可表示為:

式中,TFi,j為詞頻,ni,j是詞語ti在dj文件中檢索到的次數(shù),是dj中所有字、詞出現(xiàn)的次數(shù)之和。

逆向文件頻率由總文件數(shù)據(jù)除以包含某詞語的文件數(shù)據(jù)取對數(shù)得到,用于度量一個詞語普遍重要程度,其公式如下:

式中,IDFi為逆向文件頻率,|D|為總文件數(shù),為包含某一詞語的文件數(shù)。

高權(quán)重wi,j=TFi,j×IDFi,由文檔內(nèi)的高詞語頻率乘以該詞語在整個文檔集合的低文件頻率。

圖2 安全問題內(nèi)容特征分析

數(shù)據(jù)預(yù)處理流程如圖3 所示。首先在既有語料庫的基礎(chǔ)上,根據(jù)不同的安全問題進(jìn)行分詞,同時統(tǒng)計特征詞語所在的文檔及其出現(xiàn)次數(shù),然后通過TF-IDF 方法計算該特征詞語的詞頻并過濾低頻詞,最終形成矩陣X和矩陣Y,其中矩陣X 代表文檔特征的權(quán)重,矩陣Y 代表分類類別。

圖3 數(shù)據(jù)預(yù)處理流程

3 基于遺傳算法的進(jìn)化集成分類器

3.1 決策樹基分類器

決策樹分類器是訓(xùn)練一棵大規(guī)模的樹結(jié)構(gòu),對該樹進(jìn)行減枝,直到達(dá)到合適的規(guī)模和分類效率。本文采用ID3算法,ID3 依據(jù)信息增益選擇屬性。其中屬性TF-IDF 過濾后的單詞,若屬性w 的值將樣本集T 劃分成T1,T2,…,Tm,共m 個子集,其信息增益表示為:

式中,|T|為T 的樣本個數(shù),|Ti|為子集Ti的樣本個數(shù)。其中inf o(T)的計算公式為:

式中,freq(Cj,T)為T 中的樣本屬于Cj類別的頻率,s 是T 中的樣本的類別數(shù)量。

3.2 Bagging 集成分類器

本文采用決策樹作為基分類器。假設(shè)原始訓(xùn)練數(shù)據(jù)量是n。在原始數(shù)據(jù)集隨機(jī)抽取訓(xùn)練數(shù)據(jù),抽取的數(shù)據(jù)量為n′(n′≤n),用抽取的數(shù)據(jù)訓(xùn)練第一個決策樹,用同樣的方法做m 次有放回抽取,訓(xùn)練m 個決策樹,將測試集放到每一個決策樹中預(yù)測,最后通過最優(yōu)分類器與其他分類器的加權(quán)投票組合,選出表現(xiàn)性能最優(yōu)的組合集成分類器,其學(xué)習(xí)過程如下:

(1)輸入訓(xùn)練集

(2)過程:

其中,ξ 為基分類器算法;T 為訓(xùn)練輪數(shù)。

(3)輸出:

3.3 進(jìn)化集成分類器

遺傳算法是一種自適應(yīng)全局優(yōu)化的搜索算法,通過對初始解進(jìn)行遺傳迭代,每一次迭代通過適應(yīng)度函數(shù)對當(dāng)前解進(jìn)行優(yōu)劣進(jìn)行評價,在評價的基礎(chǔ)上產(chǎn)生優(yōu)秀的下一代。進(jìn)化集成分類器是建立在給定的某個Bagging集成分類器上,通過遺傳算法優(yōu)化該集成分類器并最終得到的具有更高分類準(zhǔn)確度的基分類器組合。進(jìn)化集成分類器的核心主要為基因編碼及種群繁殖過程。

3.3.1 基因編碼機(jī)制

進(jìn)化集成分類器搜索最優(yōu)解的目標(biāo)為得到基分類器的最優(yōu)組合。根據(jù)這一原則,本文設(shè)定50 個基分類器,種群(個體)規(guī)模為25,為了模擬基分類器是否被選擇,設(shè)定個體大小(基因長度)與基分類器數(shù)量一致,采用0、1 編碼基因,0 表示基分類器未選擇,1 表示被選擇。所以初始個體基因由0、1 隨機(jī)編碼長度為50 的二進(jìn)制符號串組成。

3.3.2 種群繁殖過程

種群繁殖過程是將種群內(nèi)個體不斷地經(jīng)過選擇、交叉、變異的操作,把適應(yīng)度較高的個體遺傳到下一代,通過這一迭代過程最終得到一個優(yōu)良個體的過程。可以認(rèn)為,這一最終得到個體的表現(xiàn)型是最接近該問題的最優(yōu)解。本文中迭代次數(shù)G=100。

(1)初始適應(yīng)度計算:初始適應(yīng)度計算以每個基分類的準(zhǔn)確度為準(zhǔn),準(zhǔn)確度越高的其適應(yīng)度越高。pi(0<i<50)代表每個基分類器(決策樹)的準(zhǔn)確度,pˉ代表全部基分類器的均值,σp代表全部基分類器的方差,個體適應(yīng)度公式為:

(2)選擇:選擇過程即根據(jù)個體適應(yīng)度,選擇優(yōu)秀的個體遺傳到下一代。本文以個體靈敏度隨機(jī)選擇要交叉的兩個個體,個體初始靈敏度ps=0.95,個體靈敏度計算過程如下:

①s=min((ps+c×0.010),ps)

②for i=1,2,…,n do

③ps=((s-1)/(s×len(a))2-(1))×((s×len(a))2-(i))

其中,c 反映經(jīng)過迭代后其準(zhǔn)確度是否有提升,如果有提升加1。經(jīng)過計算,準(zhǔn)確度越高的個體其靈敏度就越低,越不容易被選擇變異。a 為個體總數(shù)。

通過上述計算,本文將適應(yīng)度最大的精英個體保留下來。

(3)交叉:對于種群中的所有個體,以隨機(jī)原則將其兩兩搭配成對,對于每一對個體組合,設(shè)定一定的概率來交換兩個個體間的部分染色體,本文設(shè)定交叉概率Pc=0.75。

(4)變異:針對個別滿足變異的個體,進(jìn)行隨機(jī)變化。變異過程可產(chǎn)生新的個體,不僅增加了種群的多樣性,也為尋找最優(yōu)解提供了潛在的可能,本為的變異概率Pm=0.05。

(5)評價函數(shù):經(jīng)過變異后的種群用評價函數(shù)來評價個體的好壞,每個個體為一個基分類器組合(0 為選擇,1 為不選擇),通過評價函數(shù)式(6)計算該基分類器組合的準(zhǔn)確度,從而得到最優(yōu)解,按照準(zhǔn)確度從大到小的原則篩選出準(zhǔn)確度最大的個體,并將其作為精英個體保留下來。

本文設(shè)置的終止條件為總的進(jìn)化代數(shù)ng 超過設(shè)定代數(shù)G。

4 實驗結(jié)果與分析

為分析本文提出的進(jìn)化集成分類器進(jìn)化過程,以某鐵路局供電接觸網(wǎng)安全問題為實例,采用精準(zhǔn)率(Precision)、召回率(Recall)和精確值和召回率的調(diào)和均值(F-score)作為模型評價和對比的指標(biāo)驗證分類結(jié)果。實現(xiàn)數(shù)據(jù)包括6 種問題類別2 400 條數(shù)據(jù)。

精準(zhǔn)率(Precision):

式中,TP 代表被正確檢索到的樣本,F(xiàn)P 代表被誤檢索到的樣本,F(xiàn)N 代表屬于此類而被誤檢索為其他類的樣本。

圖4 中顯示了模型進(jìn)化過程中種群的多樣性(Diversity)、種群分類的平均值(AverageScore)、方差(StandardScore)以及最優(yōu)值(BestScore)。由實驗結(jié)果可見,當(dāng)種群迭代次數(shù)達(dá)到45 次時,種群繁殖過程中的平均值、方差和分類最大值均達(dá)到最大值,種群多樣性保持在80%~100%之間。

為了對比不同類型分類器對同一安全問題的分類結(jié)果,本文在以TF-IDF 方法表示安全問題文本的基礎(chǔ)上,分別采用基分類器、Bagging 集成分類器及進(jìn)化集成分類器對同一安全問題進(jìn)行分類,最終結(jié)果如表2 所示。從表2 中可以看出,進(jìn)化集成分類器分類指標(biāo)最高,Bagging 集成分類器分類指標(biāo)次之,基分類器分類指標(biāo)最差。

表2 分類模型結(jié)果對比

圖4 種群繁殖過程

5 結(jié)論

本文采用TF-IDF 方法表示安全問題文本,通過遺傳算法優(yōu)化集成分類器并最終得到具有更高分類準(zhǔn)確度的基分類器組合,提出了Evolutionary Ensemble Classifier文本分類模型,應(yīng)用某路局安全接觸網(wǎng)問題進(jìn)行驗證,實驗證明Evolutionary Ensemble Classifier 模型在安全接觸網(wǎng)問題具有較高的準(zhǔn)確性,也可以為處理鐵路其他文本分類問題提供參考模型。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 漂亮人妻被中出中文字幕久久| 欧美日本中文| 国产午夜看片| 国产第三区| 国产三区二区| 九九九国产| 亚洲男人的天堂视频| 免费看美女毛片| www欧美在线观看| 操操操综合网| 中文成人无码国产亚洲| 免费无码又爽又黄又刺激网站| 国产手机在线小视频免费观看| 国产色婷婷视频在线观看| 成人国产精品网站在线看| 国产剧情伊人| 国产一国产一有一级毛片视频| 国产好痛疼轻点好爽的视频| 欧美成人精品高清在线下载| 成人国产精品网站在线看| 国产欧美日本在线观看| 欧美午夜理伦三级在线观看| 欧美a在线视频| 三上悠亚精品二区在线观看| 天天色综网| 国产情精品嫩草影院88av| 久久婷婷色综合老司机| 亚国产欧美在线人成| 精品无码国产自产野外拍在线| 天天色天天操综合网| 久久精品无码一区二区国产区| a级毛片一区二区免费视频| 欧美精品色视频| 日本道中文字幕久久一区| 国产一级视频在线观看网站| 2021国产精品自产拍在线观看| 福利国产在线| 亚洲AV成人一区二区三区AV| 亚洲精品无码抽插日韩| 欧美一区二区啪啪| 久久国产精品影院| 国产在线精品99一区不卡| 国产精品网拍在线| 亚洲人成网址| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 久久综合色天堂av| 日本中文字幕久久网站| 亚洲有无码中文网| 亚洲精品无码久久毛片波多野吉| 国产美女免费网站| 一级毛片中文字幕 | 国产黄色片在线看| 亚洲第一视频网| 91精品最新国内在线播放| 国产午夜人做人免费视频中文| 国产精品一老牛影视频| a级毛片免费播放| 日本黄色不卡视频| 69国产精品视频免费| 久久精品中文字幕免费| 国产亚洲欧美日韩在线一区二区三区| 91精品国产综合久久香蕉922| 97视频在线精品国自产拍| 99久久精品国产自免费| 国产性精品| 色悠久久综合| 欧美69视频在线| 久久精品最新免费国产成人| 香蕉国产精品视频| 精品国产美女福到在线直播| 99久久精品免费看国产电影| 精品少妇人妻一区二区| 国产精品人莉莉成在线播放| 亚洲天堂免费| 精品久久高清| 久久99国产综合精品女同| 夜夜拍夜夜爽| 国产理论精品| 激情乱人伦| 自慰网址在线观看| 中文字幕人成乱码熟女免费|