999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本分析的高鐵技術(shù)規(guī)章優(yōu)化研究

2021-01-19 14:28:18楊連報(bào)劉新董興芝李新琴薛蕊東春昭徐貴紅
中國鐵路 2020年11期
關(guān)鍵詞:分類文本模型

楊連報(bào),劉新,董興芝,李新琴,薛蕊,東春昭,徐貴紅

(1.中國鐵道科學(xué)研究院集團(tuán)有限公司電子計(jì)算技術(shù)研究所,北京100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司運(yùn)輸及經(jīng)濟(jì)研究所,北京100081;3.中國鐵道科學(xué)研究院集團(tuán)有限公司鐵路基礎(chǔ)設(shè)施檢測中心,北京100081)

隨著我國高速鐵路的迅猛發(fā)展和新技術(shù)、新設(shè)備的投入使用,對(duì)高速鐵路的行車安全和技術(shù)規(guī)章管理提出了更高的要求。高速鐵路技術(shù)規(guī)章是指高速鐵路技術(shù)設(shè)備在交付運(yùn)營后,涉及行車組織、信號(hào)顯示、技術(shù)設(shè)備的運(yùn)用、管理、維修等方面的規(guī)章制度。我國已經(jīng)形成國鐵集團(tuán)—鐵路局集團(tuán)公司—站段的三級(jí)技術(shù)規(guī)章體系[1-2]。

制定有效、合理、有針對(duì)性的技術(shù)規(guī)章是我國高鐵安全運(yùn)營的重要基礎(chǔ)保障。目前國內(nèi)關(guān)于高鐵技術(shù)規(guī)章的制定和優(yōu)化進(jìn)行了很多研究,郭錦[3]提出我國技術(shù)規(guī)章體系中國鐵集團(tuán)和鐵路局集團(tuán)公司級(jí)技術(shù)規(guī)章內(nèi)容重復(fù)、抵觸等問題的優(yōu)化建議;王宇嘉等[4-5]提出應(yīng)用層次分析法的模糊綜合評(píng)價(jià)模型評(píng)價(jià)鐵路局集團(tuán)公司級(jí)鐵路技術(shù)規(guī)章編制和修訂前后對(duì)行車組織和安全的影響,并從目標(biāo)、原則、方法及步驟3個(gè)方面對(duì)客運(yùn)專業(yè)的技術(shù)規(guī)章進(jìn)行優(yōu)化;保魯昆等[6]提出利用詞頻和共詞統(tǒng)計(jì)定量分析鐵路技術(shù)規(guī)章中內(nèi)容和條款適應(yīng)性;孫耿杰等[7]則應(yīng)用系統(tǒng)工程理論實(shí)現(xiàn)工務(wù)專業(yè)技術(shù)規(guī)章目錄的構(gòu)建。

不同于既有技術(shù)規(guī)章的定性或定量的分析,以下提出一種新的基于歷史非結(jié)構(gòu)化文本數(shù)據(jù)分析的高鐵技術(shù)規(guī)章優(yōu)化方法,即根據(jù)技術(shù)規(guī)章修訂專家制定的技術(shù)規(guī)章分類標(biāo)準(zhǔn)和標(biāo)注的訓(xùn)練數(shù)據(jù),應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型實(shí)現(xiàn)海量高鐵安全巡檢記錄數(shù)據(jù)的智能分析和推理。其中,高鐵安全巡檢記錄數(shù)據(jù)可以為技術(shù)規(guī)章的制定提供實(shí)際的數(shù)據(jù)參考,從而使技術(shù)規(guī)章的制定能更加符合現(xiàn)場作業(yè)的要求,具有實(shí)際的指導(dǎo)和約束作用。

1 高鐵安全巡檢記錄數(shù)據(jù)

高鐵安全巡檢記錄是鐵路局集團(tuán)公司安監(jiān)室以及車務(wù)、機(jī)務(wù)、工務(wù)、供電等各專業(yè)安全科人員在現(xiàn)場巡檢時(shí)發(fā)現(xiàn)現(xiàn)場安全問題而形成原始和處理的非結(jié)構(gòu)化文本記錄,是鐵路生產(chǎn)作業(yè)最直接的體現(xiàn)。既有的安全巡檢記錄分類主要是從業(yè)務(wù)角度來區(qū)分,并沒有和技術(shù)規(guī)章進(jìn)行很好對(duì)應(yīng)(見表1)。

表1 高鐵安全巡檢記錄樣例數(shù)據(jù)

高鐵安全巡檢記錄每年產(chǎn)生的記錄數(shù)達(dá)到千萬余條,傳統(tǒng)通過人工手段對(duì)海量原始文檔進(jìn)行提取、處理和分類,不僅費(fèi)時(shí)費(fèi)力,而且達(dá)不到理想效果,已經(jīng)無法適應(yīng)當(dāng)前對(duì)海量數(shù)據(jù)進(jìn)行快速深度分析的需要。通過應(yīng)用集成學(xué)習(xí)LightGBM文本分類模型,可實(shí)現(xiàn)巡檢記錄的智能多級(jí)分類。

2 高鐵安全巡檢記錄多級(jí)分類

實(shí)現(xiàn)非結(jié)構(gòu)化高鐵安全巡檢記錄的多級(jí)分類主要包含學(xué)習(xí)和推理階段。其中,學(xué)習(xí)階段主要通過制定多級(jí)分類標(biāo)準(zhǔn),并隨機(jī)選取2008—2018年的安全巡檢記錄中的部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。標(biāo)注后的數(shù)據(jù)通過正則表達(dá)式進(jìn)行數(shù)據(jù)中特殊字符、標(biāo)點(diǎn)和英文符號(hào)的濾除,應(yīng)用融合鐵路領(lǐng)域詞典的中文分詞工具Jieba進(jìn)行分詞,并通過Word2Vec和TF-IDF分別生成特征向量,最后應(yīng)用LightGBM模型實(shí)現(xiàn)模型的調(diào)參,形成訓(xùn)練好的模型。

2.1 多級(jí)分類標(biāo)準(zhǔn)

高鐵安全巡檢記錄按照技術(shù)規(guī)章的維度分為2級(jí)分類,其中一級(jí)包含設(shè)備問題、作業(yè)人員違規(guī)、管理人員違規(guī)、信息資料違規(guī)4大類,二級(jí)包含設(shè)備故障或損傷、作業(yè)人員出現(xiàn)管理問題、管理人員出現(xiàn)管理問題、信息資料管理違規(guī)等18小類(見表2)。

表2 高鐵安全巡檢記錄技術(shù)規(guī)章分類標(biāo)準(zhǔn)

2.2 數(shù)據(jù)預(yù)處理與特征向量表示

高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理主要是實(shí)現(xiàn)有關(guān)巡檢記錄中常用詞的去除以及標(biāo)點(diǎn)符號(hào)的濾除,此外通過對(duì)樣本數(shù)據(jù)的觀察,發(fā)現(xiàn)有很多日期、時(shí)間和地點(diǎn)描述,對(duì)于實(shí)現(xiàn)文本向量的表示會(huì)造成干擾。因?yàn)楦哞F技術(shù)規(guī)章分類的特征向量與日期、時(shí)間和地點(diǎn)都無關(guān),最主要的是檢查發(fā)現(xiàn)的問題和經(jīng)過。因此采用了正則表達(dá)式將日期、時(shí)間和地點(diǎn)等干擾詞進(jìn)行了濾除。

在實(shí)現(xiàn)高鐵安全巡檢記錄數(shù)據(jù)預(yù)處理之后,需要進(jìn)行中文文本分詞。采用融合鐵路領(lǐng)域詞典的分詞方法和Jieba分詞工具實(shí)現(xiàn)文本分詞[8]。針對(duì)分詞后的文件,可以使用TF-IDF和Word2Vec實(shí)現(xiàn)特征向量表示。其中,Word2Vec是2013年Google開源的可以在百萬數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行訓(xùn)練的詞向量分布式表示算法,成為目前文本向量分布式表示的主要方法[9-10]。

Word2Vec算法的實(shí)質(zhì)為一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包含CBoW(Continuous Bag-of-Words Model)模型和Skip-gram模型。CBoW模型主要是利用上下文來預(yù)測某一個(gè)目標(biāo)詞的向量表達(dá)。Skip-gram模型則是根據(jù)目標(biāo)詞預(yù)測上下文,從而獲得目標(biāo)詞的詞向量。假設(shè)文本序列集為C={w1,w2,w3,…,wN},對(duì)于一個(gè)給定詞wt,在選取窗口大小為j時(shí),此時(shí)的Skip-gram模型主要是通過構(gòu)建神經(jīng)網(wǎng)絡(luò),使得在所有給定的詞的情況下,能夠最大可能預(yù)測出周圍的詞,模型的損失函數(shù)采用最大似然估計(jì):

文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型的整體架構(gòu)見圖1。

圖1 文本詞向量表示Skip-gram神經(jīng)網(wǎng)絡(luò)模型架構(gòu)

Skip-gram模型最終目標(biāo)就是通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)隱含層中的權(quán)重,使得根據(jù)給定詞one-hot詞向量預(yù)測出輸出詞的概率最大。在這一計(jì)算過程中,神經(jīng)網(wǎng)絡(luò)的隱含層實(shí)際上就是像1個(gè)word embedding查找表,其輸出的1×V維的向量就是詞向量。

2.3 多級(jí)分類模型訓(xùn)練

高鐵安全巡檢記錄文本按照技術(shù)規(guī)章標(biāo)準(zhǔn)分類是1個(gè)2級(jí)分類問題,針對(duì)多級(jí)分類問題可以按照多標(biāo)簽分類的模式進(jìn)行劃分,也可以按照分類器串聯(lián)的方式,即先選擇1個(gè)分類模型實(shí)現(xiàn)一級(jí)分類的識(shí)別,然后在一級(jí)分類的基礎(chǔ)上進(jìn)行二級(jí)分類。多級(jí)分類結(jié)果與普通分類結(jié)果的表示沒有區(qū)別,均是直接為文本打上分類標(biāo)簽。直接選用集成學(xué)習(xí)框架LightGBM[11],對(duì)二級(jí)分類進(jìn)行識(shí)別,之后根據(jù)分類關(guān)系獲得一級(jí)分類標(biāo)簽。LightGBM是一個(gè)基于決策樹的梯度Boosting框架,比傳統(tǒng)的支持向量機(jī)、樸素貝葉斯分類等可以有更快的訓(xùn)練效率、更高的準(zhǔn)確率,并且可以處理大規(guī)模數(shù)據(jù),支持并行化學(xué)習(xí)。

LightGBM主要采用直方圖算法實(shí)現(xiàn)連續(xù)的浮點(diǎn)特征值離散化為k個(gè)整數(shù)離散值,并構(gòu)造寬度為k的直方圖,這樣可以較大減少內(nèi)存的消耗,減少運(yùn)算的復(fù)雜度。此外,LighGBM使用帶有深度限制的按葉子生長(leaf-wise)算法,即每次從當(dāng)前所有葉子中找出增益最大的葉子節(jié)點(diǎn)進(jìn)行分類,從而避免產(chǎn)生過多的誤差,為防止產(chǎn)生過擬合增加了最大深度的限制。上述算法的關(guān)鍵參數(shù)可以在模型訓(xùn)練中指定和進(jìn)行調(diào)試。Light?GBM主要包含核心參數(shù)、控制參數(shù)、IO參數(shù)、目標(biāo)參數(shù)、度量參數(shù)、網(wǎng)絡(luò)參數(shù)等,在模型訓(xùn)練中常修改的便是核心參數(shù)、控制參數(shù)等(見表3)。

表3 LightGBM主要參數(shù)說明

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)選取某鐵路局集團(tuán)公司近10年的安全檢查數(shù)據(jù)共計(jì)6億多條,訓(xùn)練數(shù)據(jù)選取共計(jì)6 198條,主要采取準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1)作為模型評(píng)價(jià)指標(biāo)。

訓(xùn)練數(shù)據(jù)主要是首先根據(jù)多級(jí)分類標(biāo)準(zhǔn)進(jìn)行標(biāo)注,即為每條高鐵安全巡檢記錄增加技術(shù)規(guī)章分類的二級(jí)標(biāo)簽,然后針對(duì)標(biāo)注后的數(shù)據(jù)中的高鐵安全巡檢記錄進(jìn)行融合鐵路詞典的中文文本分詞和基于Word2Vec的文本向量轉(zhuǎn)換,同時(shí)將技術(shù)規(guī)章分類標(biāo)簽數(shù)據(jù)進(jìn)行編碼,最終將所有文本轉(zhuǎn)換為數(shù)字表示的向量形式。

訓(xùn)練通過GridSearchCV進(jìn)行網(wǎng)格訓(xùn)練和調(diào)優(yōu),其中采用80%的訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,最終得到最優(yōu)的模型參數(shù)為:LightGBM設(shè)置樹的應(yīng)用類型application=multiclasss,模型使用算法boosting=gbdt,度量函數(shù)metric=multi_logss,最大深度max_depth=15,分類數(shù)量num_class=18,葉子節(jié)點(diǎn)數(shù)num_leaves=64,學(xué)習(xí)速率learning_rate=0.01,隨機(jī)特征設(shè)置比列feature_fraction=0.8,重采樣比例bag?ging_fraction=0.9,重采樣頻率bagging_freq=5,正則化系數(shù)lambda_l1=0.6。最后在測試集上得到訓(xùn)練結(jié)果(見表4)。

表4 模型訓(xùn)練結(jié)果

由表4可見,在學(xué)習(xí)階段得到的模型整體的準(zhǔn)確率、召回率和F1值都比較高,可以應(yīng)用推理階段,即實(shí)現(xiàn)剩余數(shù)據(jù)自動(dòng)分類預(yù)測,為技術(shù)規(guī)章的優(yōu)化提供支撐。

4 結(jié)束語

在我國高鐵快速發(fā)展和走出去的關(guān)鍵時(shí)期,高鐵技術(shù)規(guī)章的科學(xué)合理制定和優(yōu)化關(guān)系到高鐵的安全生產(chǎn)作業(yè)和運(yùn)營。基于集成學(xué)習(xí)LightGBM的文本智能分類模型,以非結(jié)構(gòu)化高鐵安全巡檢記錄文本數(shù)據(jù)為分析對(duì)象,基于現(xiàn)場車務(wù)、機(jī)務(wù)、工務(wù)、供電等專業(yè)的實(shí)際作業(yè)中常見的作業(yè)違規(guī)問題,來進(jìn)行有針對(duì)性的技術(shù)規(guī)章制定和優(yōu)化,并可以進(jìn)行有針對(duì)性的培訓(xùn)和重點(diǎn)的獎(jiǎng)懲。如對(duì)于現(xiàn)場作業(yè)中常見的培訓(xùn)管理違規(guī)問題,可從在技術(shù)規(guī)章中增加培訓(xùn)次數(shù)、培訓(xùn)時(shí)長和培訓(xùn)考核的限制,以有效規(guī)避高鐵運(yùn)營中由于技術(shù)規(guī)章制定的疏漏、模糊和不具備針對(duì)性等造成現(xiàn)場作業(yè)不到位,從而從技術(shù)規(guī)章制定和優(yōu)化角度規(guī)避風(fēng)險(xiǎn)隱患,避免故障乃至事故的發(fā)生,保障高鐵的安全運(yùn)行。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: av一区二区无码在线| 精品成人一区二区| 国产欧美日韩在线在线不卡视频| 亚洲天堂免费| 久久国产黑丝袜视频| 国产日韩丝袜一二三区| 一级爆乳无码av| 国产成人91精品免费网址在线| 狠狠色噜噜狠狠狠狠色综合久| 精品国产乱码久久久久久一区二区| 波多野结衣一区二区三区四区| 欧美一区二区三区国产精品| 成人午夜视频网站| 亚洲第一成年免费网站| 在线视频97| 日本国产精品一区久久久| 国产成人综合亚洲欧美在| 欧美五月婷婷| 99精品热视频这里只有精品7| AV老司机AV天堂| 亚洲全网成人资源在线观看| 综合色区亚洲熟妇在线| 国产在线无码一区二区三区| 国产素人在线| 国国产a国产片免费麻豆| 国产一级毛片网站| 亚洲日本中文字幕天堂网| 国产精品手机在线播放| 亚洲男人天堂2018| 久久这里只有精品66| 国产精品吹潮在线观看中文| 国产产在线精品亚洲aavv| 午夜福利视频一区| a级毛片网| 免费在线色| 最新国语自产精品视频在| 天天综合网站| 国产美女久久久久不卡| 超薄丝袜足j国产在线视频| 精品国产Av电影无码久久久| 午夜不卡福利| 国产一区二区免费播放| 亚洲第一黄色网| 91一级片| 女同久久精品国产99国| 国产喷水视频| 色哟哟精品无码网站在线播放视频| 亚洲品质国产精品无码| 一级毛片a女人刺激视频免费| 波多野结衣久久高清免费| 波多野结衣在线se| 思思99思思久久最新精品| 天堂成人在线视频| 老司机精品99在线播放| 免费人成网站在线高清| 青青青视频91在线 | 国产区在线观看视频| 国产精品丝袜视频| 欧美在线中文字幕| 精品福利视频网| 无码中字出轨中文人妻中文中| 日本福利视频网站| 国产亚洲视频在线观看| 色婷婷综合在线| 自拍欧美亚洲| 国产一区二区三区在线精品专区| 美女内射视频WWW网站午夜 | 在线观看精品国产入口| 欧美三级日韩三级| V一区无码内射国产| 丝袜美女被出水视频一区| 亚洲 成人国产| 五月婷婷精品| 国产欧美日韩另类| 国产手机在线ΑⅤ片无码观看| 日本欧美一二三区色视频| 日韩天堂网| 欧美天堂在线| 国产精品网曝门免费视频| 国产在线麻豆波多野结衣| 中文字幕久久波多野结衣| 亚洲精品无码抽插日韩|