999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的工業時序數據質量管理方法

2022-06-24 13:37:08尤祺袁堂曉汪惠芬
機械制造與自動化 2022年3期
關鍵詞:評價分析方法

尤祺,袁堂曉,汪惠芬

(南京理工大學 機械工程學院,江蘇 南京 210094)

0 引言

在積累的工業大數據中,時間序列數據是最基本和最普遍的數據形式。對工業大數據進行信息提取和價值發現,前提是要擁有可靠準確的高質量數據。然而,由于數據來源的多樣性、機器設備本身的局限性、工業現場環境因素的干擾等情況,工業數據可能存在異常或缺失,致使無法滿足進一步分析應用的需要。因此,建立可行的數據質量評價、檢測、治理與持續改善的管理機制,是工業大數據的重要研究方向。

在數據質量管理的研究領域,國外學者更關注管理框架和管理流程的研究。WANG R Y[1]提出的全面數據質量管理方法,通過定義、測量、分析和改進4個階段實現數據質量的循環管理。JEUSFELD M A等[2]提出的數據倉庫質量方法,考慮到質量概念的主觀性,根據不同的使用群體提供不同類別的質量目標。BATINI C等[3-4]提出完全數據質量方法,可以應用于結構化、半結構化和非結構化數據。國內對于數據質量管理的研究更偏重于實際應用。方幼林等[5]提出了數據倉庫中數據質量的度量和評價指標,并提出了數據質量成熟度模型。楊青云等[6]基于數據可信性和可用性提出了一個數據質量評估模型。顏宏文等[7]提出了一種基于云模型的電網統計數據質量評估方法,以避免傳統方法的主觀隨意性。袁滿等[8]針對數據質量維度與框架進行了對比分析,為具體應用提供了科學依據。周艷紅[9]以數據生命周期為研究視角,基于層次分析法和專家打分法建立大數據質量評估模型。

雖然國內外研究學者針對數據質量管理提出了多種方法論和框架,強調數據清洗過程的自動化和一次成功率,但在實際應用中缺乏具體的執行手段;不同領域內數據質量問題存在差異,對于工業時序數據質量管理缺乏針對性的研究;數據清洗過程過于追求通用性,沒有將工業領域知識與之融合。本文針對工業時序數據特點進行分析,對數據質量評價和控制方法進行集成與改進,給出了提升工業時序數據質量的管理方法,最后通過實際數據集驗證了質量管理和提升的效果。

1 工業時序數據質量問題分析

1.1 工業時序數據質量問題的主要表現

工業時序數據主要來自于工業現場的物聯網絡、生產制造裝備和各類自動化系統等采集的數據,具有來源廣泛、體量大、價值密度低等特點。由于器件系統故障、現場惡劣工況等影響,數據質量問題廣泛存在,主要表現在以下幾個方面[10]。

1)數據失真和失準。由于工業現場復雜環境因素的影響以及設備運維保養不當、缺乏有效的管理機制等原因,可能造成各類工業運行數據出現數據失真和失準問題。

2)時間序列周期異常。當供電出現故障時,元件功率的變化會影響數據采集頻率,造成時間序列周期發生短暫變化。

3)數據錯列。當數據采集器出現故障或是控制器發生收錄錯誤時,會出現部分數據與其原本屬性無法對應的錯列問題。

此外,常見的工業時序數據質量問題還包括數據冗余、數據誤采、數據不可識別、數據缺失、數據一致性差等。

1.2 工業時序數據質量問題的風險評估

不同的數據質量問題具有不同的嚴重性和發生的可能性,本文為這些數據質量問題建立了風險評估矩陣,如圖1所示。該評估矩陣是在綜合分析各類數據質量問題的出現頻次、檢測和修正難度以及對后續數據分析應用造成的影響的基礎上設計的。需要指出的是,風險評估矩陣中質量問題的排列順序是基于經驗和判斷,可能會因為案例或應用對象的不同而略有差異。

圖1 工業時序數據質量問題風險評估矩陣

1.3 工業時序數據質量的評價標準

對數據質量維度進行定義和分析,是建立數據質量評價模型的前提和基礎。根據工業時序數據的特點和存在的質量問題,結合相關研究[4],本文總結了適用于工業時序數據的數據質量維度,如表1所示。其中,時效性和及時性是與時間相關的主要維度,表征了數據在有效性、更新頻率和穩定性等方面的表現;風險性則是依據風險評估矩陣對數據進行評價。

表1 工業時序數據質量維度

1.4 工業時序數據質量問題的解決思路

1)交互式數據清洗。原始數據中往往存在多種異常,過于追求并依靠自動分析并不能很好地解決問題,由專業人員參與決策的交互式數據清洗模式才是符合實際的努力方向。

2)持續性數據管理。過于追求完美和一次成功率往往適得其反,原有的數據質量問題解決了,還會有新的問題出現。應當把數據質量管理視為數據生命周期內的一項經常性工作。

3)領域級數據修正。在數據質量提升環節,需要將數理知識與工業領域知識深度融合,依托工業知識推理決策進行離群值和異常值的修正。

2 工業時序數據質量管理方法

針對工業時序數據的特點,結合目前的數據質量管理架構和方法,本文給出如圖2所示的工業時序數據質量管理方法,從定義、評價、分析、提升和監控5個流程環節持續改善數據質量。

圖2 工業時序數據質量管理方法

數據質量定義通過需求分析和問題定義,明確對數據的質量要求和檢測標準,進行風險評估和問題分級,為評價環節提供方向和參考。數據質量評價對每個質量維度進行定義與分析,從而建立完整的評價模型,通過綜合數據質量在各維度的計算值得到評價結果,評價結果是數據質量分析和提升的基礎。數據質量分析針對不同特點和應用場景的工業時序數據選擇合適的異常數據檢測方法,在參考評價結果的基礎上,檢測出數據中的重復值、缺失值、離群值和異常值。數據質量提升通過與工業領域知識的深度融合,實現知識與數據混合驅動的全方位數據清洗。數據質量監控通過對各個環節的可視化呈現和質量問題的示蹤定位,達到輔助決策的目的。在提升數據質量的過程中,隨著時間推移和數據演化,可能會有新的數據質量問題出現,因此需要持續的數據質量管理,不斷發現和解決數據中的問題。

2.1 工業時序數據質量評價

在數據質量評價過程中,數據質量維度權重的計算直接影響到評價模型的準確度以及最終的評價結果。本文提出了一種基于層次分析法和熵值法相結合的主客觀組合賦權法,組合后的權重既能體現數據信息,又能反映專家意愿,兼顧了主觀權重和客觀權重的優點。計算過程如下。

1)基于熵值法計算客觀權重:

(1)

式中:n為評價維度數;ei表示第i個維度的熵值,計算公式為

(2)

式中:m為待評價樣本數;pij表示第i個維度中第j個樣本值的比重,計算公式為

(3)

式中xij為第i個維度中第j個樣本的數值。

2)基于層次分析法計算主觀權重:

(4)

式中tij表示維度i對維度j的重要度,使用1~9比率標度法進行定義。

3)對以上兩種方法得出的權重計算綜合權重,對于某一維度i,其綜合權重為

(5)

最后結合數據在各維度的得分Si,計算出該數據集的總得分:

(6)

2.2 工業時序數據質量分析

目前主流的時間序列異常檢測方法包括:基于統計的方法、基于距離的方法、基于密度的方法、基于約束的方法以及基于機器學習的方法[11-12]。基于統計的方法根據數據在概率分布模型中的擬合情況來評估和提取時序趨勢,但對于分布特征未知的數據,這種先驗假設存在較大的局限性。基于距離的方法通過計算數據點之間的距離來檢測孤立點,由于使用全局閾值,時間復雜度較高且不能處理不同密度區域的數據集。基于密度的方法克服了不同密度區域的數據集混合造成的檢測錯誤,但也具有較高的時間復雜度。基于約束的方法根據數據變化的規則以及序列間的相關性來建立約束,通過約束規則來檢測和修復異常點,但是對于規則變化較大的數據效果不理想。基于機器學習的方法將機器學習和深度學習的相關模型與工具應用于異常數據檢測,模型復雜度更高,對于數據的預處理也有更高的要求。本文根據數據的不同應用場景及其業務需求,給出推薦的異常數據檢測方法及其使用效果,見表2。

本文結合鄭州市的要素稟賦、區位特點、產業特征等內部環境因素及國家戰略、宏觀經濟發展等外部環境因素,深入探究鄭州市創新型社會建設的現狀和面臨的問題,并基于投入-產出視角建立一個相對全面的創新型城市建設評價指標監測系統,從而為鄭州市有關決策部門制定和實施創新戰略與政策提供支持。

表2 工業時序數據異常檢測方法及效果分析

2.3 工業時序數據質量提升

原始數據在經過數據質量分析之后,除了異常數據被檢測出來、正常數據被過濾出去以外,可能會出現如表3所示的正常數據被誤測為異常的假異常以及異常數據被誤測為正常的假正常的情況。此時,在算法提升效果有限的情況下,可以融入領域專家知識對以上兩種情況進行糾正,以免造成數據質量的損失。

表3 數據質量分析結果混淆矩陣

圖3所示的是知識與數據混合驅動的數據質量提升過程。混合驅動模型包括兩大部分:由專家知識的表達與約束規則界定融合成的領域知識庫以及基于同類型歷史數據進行特征抽取得到的數據特征庫。當接收來自上游模塊的異常數據時,對異常特征進行基于知識庫的模式分析和基于特征庫的查找匹配,然后針對異常數據中的重復值、缺失值、離群值和異常值進行相應的處理操作,從而實現修正真異常和假正常、糾正假異常的目標。經過質量提升的數據將被抽取補充到該類數據的特征庫中,使得混合驅動模型可以不斷學習新的經驗,以增強模型的數據處理能力。

圖3 知識與數據混合驅動的數據質量提升過程

2.4 基于LSTM的數據質量分析方法

本文基于長短期記憶網絡(long short-term memory network,LSTM)建立了工業時序數據質量分析方法。LSTM具有控制遺忘的結構設計,非常適合處理時序任務[13]。首先基于歷史數據對LSTM進行訓練,然后利用LSTM進行時序數據預測,最后使用預測結果與實際數值的差值進行異常區間的判斷。其中的關鍵步驟主要包括:

1)數據預處理。將原始數據按照公式(7)進行歸一化,使處理后的數據映射到0~1之間。

(7)

式中:Xscaled為歸一化后的數據;X為待處理數據;Xmin為樣本的最小值;Xmax為樣本的最大值。

2)確定時間步長。時間步長是LSTM模型的一個關鍵參數,會對模型運算速度和預測精度產生影響,可以結合數據量大小和模型表現確定其大小。

3)確定節點數。根據經驗公式(8)和模型實際表現確定輸入層和隱藏層節點數。

(8)

式中:m為隱藏層節點數;n為輸入層節點數;l為輸出層節點數;a為1~10之間的常數。

訓練好模型之后,對數據進行預測,并對預測值進行歸一化的還原。最后,在專家知識與約束規則的界定分析下,確定異常數據點并修正。

3 數據質量提升效果分析及驗證

在對數據質量管理效果進行分析驗證的過程中,除了需要比較處理前后的數據質量在評價模型中的得分表現,還需要考量質量提升后的數據是否提高了分析應用的成功率。

本文以某地區的水泵系統數據集為例進行分析。該數據集由52組傳感器數據和水泵系統狀態標簽數據組成,每分鐘記錄一組數據,共計141120組數據。傳感器數據記錄了水泵系統的壓力、溫度、流量等信息,水泵系統狀態標簽包括正常與不正常兩種狀態。

選取部分傳感器數據,依據領域知識和約束規則事先進行異常數據的甄別和標記,然后采用本文基于LSTM神經網絡的方法對其進行數據質量分析與提升。圖4所示為部分數據分析過程,圖中實線表示實際值,虛線表示預測值,將二者作差并結合專家知識以確定出異常值。

圖4 數據質量分析過程示意圖

將分析結果與傳統的基于密度和基于統計的方法進行對比,并設置對比項為精度(數據被正確識別的比例)、查準率(識別為正常數據中真正正常數據的比例)以及查全率(數據中正常數據被正確識別的比例)。結合表3對于檢測結果的定義,給出各對比項的計算公式:

(9)

(10)

(11)

式中:A為精度;P為查準率;R為查全率。

實驗結果如表4所示。通過對比可以發現,本文的方法在精度、查準率和查全率等方面都具有不錯的表現,特別是精度和查全率,相較于傳統方法有了較大提升。

表4 不同方法對數據質量分析結果的對比 單位:%

為了驗證數據質量管理的效果,本文基于Keras搭建神經網絡模型,對該水泵系統進行故障預測。如表5所示,經過數據質量分析與提升后,模型對于系統故障的預測準確率由80.18%提升至90.38%,模型損失(二元交叉熵)由0.1982下降至0.0206,從而證明了數據質量管理的有效性。

表5 數據質量管理效果對比驗證

4 結語

本文梳理了工業時序數據質量問題的主要表現,引入風險評估機制以完善數據質量評價標準,給出了工業時序數據質量管理方法。提出了一種基于LSTM神經網絡的數據質量分析方法,并通過實際數據集進行了驗證。后期研究需要將工業時序數據質量管理方法模塊化、系統化,提高實用性,使其真正服務于工業大數據。

猜你喜歡
評價分析方法
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學習評價
保加利亞轉軌20年評價
多維度巧設聽課評價表 促進聽評課的務實有效
體育師友(2012年4期)2012-03-20 15:30:10
主站蜘蛛池模板: 欧美在线视频不卡第一页| 中文字幕在线观| 亚洲日韩AV无码一区二区三区人| 99这里只有精品在线| a级毛片免费网站| 四虎亚洲国产成人久久精品| 亚洲精品动漫| 很黄的网站在线观看| 成人欧美日韩| 57pao国产成视频免费播放| 国产成人一区二区| 青草国产在线视频| 亚洲日韩久久综合中文字幕| 一级福利视频| 免费啪啪网址| 日韩欧美国产精品| 久久精品丝袜高跟鞋| 国产一区二区三区在线观看免费| 99国产在线视频| 最新国语自产精品视频在| 日韩av电影一区二区三区四区| 无码福利视频| 麻豆国产原创视频在线播放| 国产综合无码一区二区色蜜蜜| AⅤ色综合久久天堂AV色综合| a亚洲视频| 一本一道波多野结衣一区二区| 久久情精品国产品免费| 亚洲av无码久久无遮挡| 国产区免费精品视频| 精品伊人久久久久7777人| 五月婷婷激情四射| 国模极品一区二区三区| 国产人前露出系列视频| 亚洲无码91视频| 97狠狠操| 亚洲中文字幕久久无码精品A| 亚洲人成网站日本片| 亚洲欧洲日韩综合色天使| 国产黄在线免费观看| 久久一本日韩精品中文字幕屁孩| 一本无码在线观看| a网站在线观看| a在线观看免费| 综1合AV在线播放| 国产剧情国内精品原创| 亚洲中文字幕在线一区播放| 亚洲天堂网2014| 国产一级视频在线观看网站| 新SSS无码手机在线观看| 成年午夜精品久久精品| 91热爆在线| 青青草一区| 久久伊伊香蕉综合精品| 欧美精品三级在线| 国内精品伊人久久久久7777人| 欧美在线国产| 波多野结衣久久高清免费| 亚洲AV电影不卡在线观看| 国产在线98福利播放视频免费| 成人国产精品网站在线看| 欧美在线精品怡红院| 本亚洲精品网站| 精品一区二区三区四区五区| 亚洲精品无码日韩国产不卡| 亚洲欧美一级一级a| 99热这里只有精品免费| AV无码无在线观看免费| 在线日韩日本国产亚洲| 国产99视频在线| 在线免费看黄的网站| 狠狠色狠狠色综合久久第一次| 青青草国产在线视频| 啪啪啪亚洲无码| 国产黄色片在线看| 国产无码制服丝袜| 天天色综合4| 国产青榴视频| 国产综合在线观看视频| 国产尤物在线播放| 无套av在线| 国产永久在线视频|