999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的Aprior算法改進及其在動車組運維的應用

2018-11-09 02:03:06任廣強
鐵路計算機應用 2018年10期
關鍵詞:數據挖掘關聯規則

任廣強,舒 敏

(1.中車青島四方機車車輛股份有限公司,青島 266111;2.北京交通大學 計算機與信息技術學院,北京 100044)

當今中國高鐵發展位居世界之巔[1],鐵路網的建設迅速拓寬,列車調度密度增大,維修間隔變短,安全問題日益重要。列車在實際運行過程中,由于外部環境的影響或者零部件磨損以及欠維修等因素,會導致各類不同故障發生[2],因此提高動車組運行維修效率迫在眉睫。由于傳感器技術快速發展,保留了大量的動車組運維以及故障數據,通過對這些數據的分析和挖掘,可以探索出運維或者故障規律,從而有助于指導運維決策。但是當今數據增長速度快,存儲成本高、流動性大等特點,制約著動車組數據挖掘效率的提高[3]。

隨著大數據技術的出現和發展,基于Hadoop的動車組故障數據關聯規則挖掘算法顯示出巨大的優勢,相對于傳統挖掘算法,效率更高,耗時更少,對動車組故障數據分析效率和動車組故障診斷實時性有大幅提升。高子喆通過改進的傅里葉變換(FFT)算法加快高鐵信息變化過程[4]。趙成兵等人設計實現了基于Hadoop平臺的高鐵振動數據的預處理實現系統[5]。數據挖掘算法中最經典的當屬Apriori算法[6],但是該算法耗時較長,面對日益增長的數據,數據挖掘算法的并行化將有效地提高挖掘效率[7]。Agrawal R.提出了諸如計數分布和數據分布等方法來改進Apriori算法,但是該算法在通信和同步過程中也存在明顯的缺點[8]。

因此,本文在分析解決大數據問題的Hadoop技術以及傳統關聯分析挖掘算法Apriori算法的基礎上,將兩者進行有效的結合,使其進一步提升挖掘效率。

1 理論及相關技術介紹

1.1 Hadoop概述

Hadoop是一個專門為離線和大規模數據分析設計的開源框架,通過分布式來處理海量數據。大數據處理框架,它主要包括分布式文件系統(HDFS)、并行處理框架(MapReduce)和多種不同的組件,可以以原生格式存儲任意數據、進行擴展以支持大數據更高的可用性。Hadoop生態圈的基本組成[9],如圖1所示。

圖1 Hadoop相關項目

1.2 Apriori算法

數據挖掘的本質是通過分類、聚類、關聯等方法從一堆雜亂多樣、模糊復雜的數據中尋找一個可應用的模式或者規律,識別未知的、有價值的知識過程[10]。關聯規則挖掘領域的經典代表算法為Apriori算法,基本原理是通過逐層搜索的迭代方法獲得頻繁集[11],然后發現強關聯規則。

2 基于Hadoop的Apriori算法研究與改進

傳統的Apriori算法缺點之一是無法滿足大數據集下的挖掘要求[12],因此,Apriori算法在分布式環境下的并行化方案已成為新的研究方向。

2.1 算法的改進

Hadoop的核心組件MapReduce對存儲在分布式文件系統中的文件進行分布式計算的過程[13]可以很好地擴展應用到Apriori算法中,可以完成基于大數據量下關聯規則的快速挖掘。

基于MapReduce的Apriori算法的核心思想是每次頻繁項集調用Map并減少進程,即頻繁k項集的挖掘稱之為k次MapReduce。該算法生成頻繁k項集的時候經常會在頻繁k-1項集迭代時候遇到如下兩個問題。

(1)Map中每個節點的計算非常不同,存在負載不平衡問題。

(2)重復讀取原始數據在大數據量的情況下導致的資源消耗,算法性能降低的問題。

因此,本論文在上述算法基礎上提出一種改進的新算法T-MR-Apriori,改進后的算法只需要兩個MapReduce過程,所有k個頻繁項集都可以計算出來。算法執行流程圖,如圖2所示。

圖2 T-MR-Apriori算法運行流程

改進后算法的第1次MapReduce過程如圖2中的實線所示,對每個Map輸入的所有數據作為一個完整數據集運用傳統的Apriori算法,對局部頻繁k項集進行挖掘。其中,min_support_count(最小支持度)、partial_min_support_count(Map節點的局部最小支持數)與該Map節點的事務數量trans_count的關系如下:

partial_min_support_count = min_support_count /trans_count 。

Map端和Reduce端實現的改進后的偽代碼,如下所示:

Map輸入:Si //每一行是一個事務:

Map輸出一個鍵值對<key,value>,/ *鍵key是k個本地頻繁項集元素,值value是在split中計數的.*/

Reduce端輸入得到的鍵值對<key1,value2>:/ * 鍵值key2是局部頻繁項集k的元素,value2是key2在當前split中的輸出:/*

其中,每一個輸出鍵值對<key,value>中的Key都是局部頻繁“k項集”中的元素,而value則是該元素在切割片段中的數量統計。Reduce將Map節點計算得到的局部頻繁k項集保存在LP中。

如圖2虛線所示,為MapReduce過程的第2次執行。在第2次過程中,Map端輸入的是第1次計算結果中的全部局部頻繁k項集LP以及各項事務數據集。在該過程中,Map函數的作用是計算每個本地頻繁k項集元素在每個分片中的數量,而Reduce函數則是將Map端計算得到的元素的次數進行求和,利用min_support_count,計算全局頻繁k項集,并將結果保存在Lg中。Map端和Reduce端實現偽代碼如下所示:

2.2 由頻繁項集產生關聯規則

根據最小支持度的頻繁項集,滿足最小信任度即min_conf的關聯規則可以直接生成。在MapReduce計算模型下,頻繁項集被分割成不同的分割,可以將它們分配給不同的映射節點,同時生成關聯規則。MAP端和Reduce端實現程序的偽代碼,如下所示:

其中,key是字符串,為生成的關聯規則,而value是該關聯規則的置信度。

2.3 算法性能評估

為了說明算法的性能,文中還對算法進行了對比實驗,并比較了改進算法的有效性。在這個實驗中,使用6臺普通電腦實現一個Hadoop集群,安裝配置CentOS 6.5系統[14]和Hadoop2平臺的搭建。每臺機器配置為8 G內存、4核2.5 GHz CPU。其中,1臺計算機作為主節點和JobTracker節點,另外5臺機器作為Hadoop集群的Slave和TaskTracker節點。本文所選取的實驗數據為動車組牽引電機運維數據,均來自動車組運行維護的實際數據,并且根據大數據處理規則,進行了符合動車組規則的數據ETL處理,剔除重復的數據、填補缺少的數據、改正不合法的數據。處理后的動車組故障數據的主要字段,如表1所示。

6個節點的Hadoop集群下,實驗分別使用了25 GB、125 GB、250 GB、350 GB數據在運行,其中50 G數據包含了約一億條事務。圖3表示的本次實驗結果,其中,支持度為1%,結果如下。

由圖3可知,數據集在成倍增長的情況下,傳統的基于MapReduce的Apriori算法時間消耗始終大于改進算法的時間消耗,并且數據量越大,改進后的算法性能越明顯。在本實驗所使用的動車組故障數據集及硬件環境條件下,T-MR-Aprior算法在挖掘速率上提高約35%。

表1 數據字段說明

圖3 不同數據規模算法性能

3 動車組牽引電機運維數據挖掘系統實現

3.1 動車組運維數據

當前我國鐵路信息技術飛速發展,在運行過程中會積累大量的結構化的狀態數據,它包含很多有價值的信息。動車組數據挖掘的目的是有效地挖掘隱藏故障信息,提前做出運維決策。動車組運維數據主要分為以下3類。

(1)實時監測數據

實時監測數據是指在實際運行過程中產生的各種狀態數據,包括:累計功率、距離數據、電機數據、受電弓數據和空載數據等。

(2)運行狀態數據

運行狀態數據記錄了動車組在行駛過程中的狀態數據。動車組司機可以通過運行狀態數據來監控動車組的實時運行狀態,該數據是在動車組運維過程中不斷累積產生的,隱含了對動車組運維決策的指導意義。

(3)畫面故障數據

電視是指動車組司機信息數據可以在屏幕的駕駛室看到,不管這些數據動車組電流故障,定期發送到地面,包括圖片資料,主要的故障數據、故障記錄數據和其他信息,其中,畫面故障數據包括列車運行的基本信息以及基本環境信息,主要包括速度、里程、經緯度等信息。

牽引電機是動車組牽引傳動系統的關鍵部件,控制著列車安全運行的命脈,它的運維效率高低直接關系到整個鐵路運維成本的大小,因此,本文以研究牽引電機關聯規則挖掘為代表,著重介紹動車組牽引電機挖掘系統的實現。牽引電機在制造、運行、維修、報廢等階段的全生命周期數據主要分為6個部分。

(1)基礎數據,即牽引電機的靜態生產數據,包括額定電流電壓、生產廠家、批次編號等;

(2)部件工作數據,即牽引電機部件的運行數據,包括定子、轉子、外圈、內圈等不見得溫度、轉速等數據;

(3)列車運行數據,即列車運行速度、加速度、牽引電流、反饋牽引力等數據;

(4)維修履歷數據,即該牽引電機所有的運行維護數據,包括維修時間、地點、原因以及維修方式等;

(5)線路數據;

(6)環境數據。

3.2 動車組牽引電機故障數據挖掘

故障數據挖掘系統由數據預處理、數據挖掘系統和可視化展示3部分組成。數據預處理是大數據挖掘的關鍵步驟,直接決定著數據挖掘效率。如圖4所示數據預處理步驟進行數據處理,得到干凈有效的實驗使用數據。

Hadoop集群搭建完成以后,使用牽引電機運維數據進行關聯規則的挖掘。對動車組故障數據通過使用改進后的T-MR-Apriori算法進行挖掘,挖掘步驟為:

圖4 數據預處理流程圖

(1)利用上述數據預處理技術將牽引電機運維數據清理干凈;

(2)將清洗之后的結果數據存放在分布式文件系統HDFS中,設置好輸入輸出文件的路徑以及格式;

(3)利用現有的專家經驗值,初步設定min_support(最小支持度)以及min_confi(最小置信度),計算頻繁項集;

(4)利用改進后的T-MR-Aprior算法進行牽引電機運維效率關聯規則挖掘,得到關聯強規則;

(5)分別對每條規則進行支持度與置信度的重新計算。

部分關聯規則挖掘結果,如表2所示。

表2 部分挖掘結果

對 于 關 聯 規 則“CRH3,1305C, 90~ 120萬km=>牽引電機故障[support = 2.53%,conf =8.25%]”,表示CRH3型編組編號1305C列車在達到90~120萬km的時候運維效率比較低,且容易產生牽引電機故障。根據專家經驗和修程修制可得,當動車組的行駛總里程達到90~120萬km的時候便會進行一輪大修,在此之前的牽引電機故障率會比較高,同時導致故障的因素變得更為復雜,使得檢修和運維過程變得麻煩而緩慢,導致運維效率變低,因此該條挖掘結果是有意義的。

對于關聯規則“某地點,3月=>通風系統異常[support=2.08% conf=11.93%]”表示該地區內,每年的3月份風閥系統和通風系統故障比較多,后續驗證該條規則是準確的。因為查資料可得,此處區域在春夏交際之間風沙較多,因而導致通風系統故障率高。

高鐵運行數據量頗大,積累下來的數據經過一定的處理能反映出許多特別的信息,關聯關系,如圖5所示,表示故障類型與各因素之間的關聯關系。圖中的圓形區域代表故障發生次數的大小,與之相連的則是故障因素,包含車型、車次、配屬局以及制造方等因素,通過該圖圓形區域的大小則可以獲得故障大小的信息,從而獲得故障發生因素關聯,進一步推出故障原因,從而做出準確的運維決策。

圖5 故障關聯規則圖

如圖6所示,為不同類故障發生時間的伴隨關聯關系圖,它可以展示不同類型故障之間發生先后順序的關聯關系,根據置信度可以找到先發故障和后發故障之間的聯系,從而在先發故障發生后采取運維策略阻止后發故障的產生,降低故障率。

圖6 故障伴隨關系關聯圖

一般情況下,故障的發生是有規律的,隨著時間的推移,積累的數據量很大,數據中的這種規律很難被直接發現。在大數據背景下,在分布式環境下,對傳統的數據挖掘算法進行改進,挖掘故障數據的關聯規則,從故障歷史數據中發現隱含規則。這將指導動車組運維決策,實現基于預測的維修策略,可以有效地提高動車組運用和維修效率,增強動車組的安全性,降低檢修成本,提高經濟效益。

4 結束語

本論文在分析數據挖掘算法基礎上,結合Hadoop框架,完成了對傳統Apriori算法的改進,使其在海量數據挖掘上具有較高的挖掘效率。并且結合動車組實際運維數據進行驗證,表明了改進后算法的可用性。基于該算法實現了動車組牽引電機運維數據挖掘功能,并進行可視化的展示,以提高運維效率,降低經濟成本,提高安全性能。后期希望進一步進行研究,使該算法可以應用于其他動車組關鍵部件,并且需要繼續改進,使其在“剪枝效率”上得到更進一步的提高,以實現更好的挖掘效率。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲欧美日韩成人在线| 国产黄色视频综合| 亚洲无码91视频| 国产亚洲精品在天天在线麻豆| 青青操视频在线| 伊人久综合| 欧美高清日韩| 99热免费在线| 亚洲日韩久久综合中文字幕| 国产情侣一区二区三区| 久久 午夜福利 张柏芝| 国产美女91视频| 国产女人在线观看| 亚洲国产成人精品一二区| 人妻无码一区二区视频| 亚洲成年人网| 亚州AV秘 一区二区三区| 麻豆精品久久久久久久99蜜桃| 中国一级特黄视频| 综合人妻久久一区二区精品| 欧美日韩精品一区二区视频| 国产成人精品视频一区视频二区| 中日韩一区二区三区中文免费视频 | 久久精品波多野结衣| 亚洲国产精品不卡在线| 国产微拍精品| 国产精品一区不卡| 最新国产在线| 免费网站成人亚洲| 午夜爽爽视频| 国产伦精品一区二区三区视频优播 | 国产第一页免费浮力影院| 中文国产成人精品久久一| 97国产精品视频自在拍| 国模粉嫩小泬视频在线观看| 免费高清毛片| 在线日韩日本国产亚洲| 亚洲成A人V欧美综合天堂| 久久综合丝袜日本网| 91美女视频在线观看| 91成人在线免费视频| 久久成人国产精品免费软件| 一区二区三区高清视频国产女人| 97色婷婷成人综合在线观看| 欧美日韩精品一区二区在线线 | 多人乱p欧美在线观看| yjizz国产在线视频网| 亚洲va欧美va国产综合下载| 伊人久久大香线蕉影院| 91极品美女高潮叫床在线观看| 久久一级电影| 国产欧美一区二区三区视频在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| 伊人五月丁香综合AⅤ| 国产黄色免费看| 亚洲第一黄片大全| 久久99这里精品8国产| 2021最新国产精品网站| 乱系列中文字幕在线视频| 亚洲高清无在码在线无弹窗| 国产亚洲精品yxsp| 国产精品夜夜嗨视频免费视频| 日韩免费毛片| 丁香婷婷久久| 免费不卡在线观看av| 91久久国产热精品免费| 久久中文电影| 永久免费无码日韩视频| 免费激情网址| 黑人巨大精品欧美一区二区区| 欧美日在线观看| 日韩国产无码一区| 特级毛片免费视频| 欧美在线精品一区二区三区| 亚洲无码精彩视频在线观看 | 中文字幕无码电影| 亚洲欧美综合精品久久成人网| 国产精品亚洲精品爽爽| 午夜天堂视频| 超薄丝袜足j国产在线视频| 日韩欧美国产另类| 最近最新中文字幕在线第一页|