


摘 要:工業(yè)物聯(lián)網(wǎng)(IIoT)的快速發(fā)展帶來了大量的傳感器數(shù)據(jù),這些數(shù)據(jù)在監(jiān)測和控制工業(yè)生產(chǎn)過程中起著至關(guān)重要的作用。然而,由于環(huán)境噪聲的影響和傳感器本身的限制,傳感器數(shù)據(jù)常常會受到各種類型的噪聲污染,從而削弱了其可靠性和準(zhǔn)確性。因此,噪聲消除成為了工業(yè)物聯(lián)網(wǎng)應(yīng)用中一個重要的研究方向。針對工業(yè)物聯(lián)網(wǎng)傳感器數(shù)據(jù)的噪聲消除問題,提出了一種基于上下文和鄰居的噪聲檢測方法。針對突然跳躍或尖峰形態(tài)的噪聲可以根據(jù)它們與周圍的對比度差異識別出來;相比之下,那些變化較為平緩的異常值由于具有較小的對比度分?jǐn)?shù),因此可以將其視為預(yù)期范圍內(nèi)的異常而進行保留。將該噪聲監(jiān)測方法應(yīng)用于基于工業(yè)物聯(lián)網(wǎng)的故障診斷系統(tǒng)中,能夠減輕噪聲的負(fù)面影響并產(chǎn)生更好的異常檢測結(jié)果。
關(guān)鍵詞:工物聯(lián)業(yè)網(wǎng);傳感器;噪聲消除;異常檢測;噪聲檢測;噪聲得分
中圖分類號:TP277;TH133.33 文獻標(biāo)識碼:A 文章編號:2095-1302(2025)05-00-03
0 引 言
隨著工業(yè)物聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,越來越多的傳感器被應(yīng)用于工業(yè)生產(chǎn)過程的監(jiān)測和控制中。這些傳感器能夠?qū)崟r采集到大量的數(shù)據(jù),為工業(yè)生產(chǎn)過程的優(yōu)化和智能化提供重要的數(shù)據(jù)支持[1]。然而,由于環(huán)境噪聲的影響和傳感器本身的限制,傳感器數(shù)據(jù)常常受到各種類型的噪聲污染,導(dǎo)致數(shù)據(jù)的可靠性和準(zhǔn)確性降低。噪聲消除是工業(yè)物聯(lián)網(wǎng)應(yīng)用中一個重要的研究方向[2]。傳統(tǒng)的噪聲消除方法主要基于濾波和去噪算法,如卡爾曼濾波、小波去噪等。然而,這些方法對于復(fù)雜工業(yè)場景下的傳感器數(shù)據(jù)的噪聲消除效果不盡人意,且缺乏適應(yīng)性和擴展性。
工業(yè)物聯(lián)網(wǎng)的出現(xiàn)與大數(shù)據(jù)密切相關(guān)。在傳統(tǒng)的工業(yè)生產(chǎn)場景中,生產(chǎn)設(shè)備和工廠系統(tǒng)多為孤立的狀態(tài),數(shù)據(jù)難以獲取和共享,對生產(chǎn)過程難以進行有效地監(jiān)控和管理[3]。而工業(yè)物聯(lián)網(wǎng)通過將各類傳感器、設(shè)備、產(chǎn)品等智能化,實現(xiàn)了各個節(jié)點之間的互聯(lián)互通,使得設(shè)備和系統(tǒng)之間的數(shù)據(jù)可以自動采集、處理和傳輸,極大地提高了數(shù)據(jù)的獲取和共享效率[4]。
另外,工業(yè)物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的結(jié)合還可以帶來更多的應(yīng)用場景和商業(yè)模式。例如,通過對設(shè)備和產(chǎn)品的追蹤,可以實現(xiàn)物流和供應(yīng)鏈的智能化管理;通過對生產(chǎn)過程的監(jiān)控和預(yù)測,可以實現(xiàn)智能制造和可持續(xù)發(fā)展等[5]。因此,工業(yè)物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的結(jié)合不僅可以提高生產(chǎn)效率和質(zhì)量,還可以促進工業(yè)轉(zhuǎn)型升級、推動數(shù)字經(jīng)濟發(fā)展,具有重要的戰(zhàn)略意義。
為了進行準(zhǔn)確的數(shù)據(jù)分析,首先必須清洗嘈雜的傳感器數(shù)據(jù),如果不先去除噪聲,異常檢測過程中很可能會產(chǎn)生大量誤報。然而,傳感器數(shù)據(jù)中可能有噪聲和顯著的異常同時存在的情況,直接使用傳統(tǒng)的異常值檢測方法進行處理會使得噪聲和異常數(shù)據(jù)同時被清理,導(dǎo)致異常數(shù)據(jù)丟失,不能及時識別故障[6]。
本文在基于工業(yè)物聯(lián)網(wǎng)的故障診斷系統(tǒng)中引入了一種新的解決方案,該方案能夠在消除噪聲的同時保留IIoT數(shù)據(jù)中的異常數(shù)據(jù)。該方案通過測量變化率和偏差來計算噪聲得分,采用滑動窗口技術(shù)來定義對比度測量的分析單元。此外,本方案將對比度測量與統(tǒng)計技術(shù)結(jié)合使用,以實現(xiàn)更高效的檢測。實驗表明,相較于其他最先進的噪聲檢測方法,本方案不僅能夠提供一個干凈的數(shù)據(jù)集,還能確保異常數(shù)據(jù)得以保留,從而為后續(xù)異常檢測技術(shù)的實施奠定了堅實的基礎(chǔ)。
1 異常檢測和噪聲檢測
1.1 異常檢測
設(shè)備的異常檢測是指識別出與大多數(shù)觀測結(jié)果有明顯偏差或者不符合預(yù)期的正常行為的觀測結(jié)果。異常值的定義模糊且與應(yīng)用場景有關(guān),它既包括無意義的且應(yīng)該被移除或校正的噪聲,也包括設(shè)備處于不健康狀態(tài)時的異常數(shù)據(jù)。 目前對于異常檢測的相關(guān)研究多種多樣,一些研究致力于探索各種類型的異常值檢測方法,還有一些研究則專注于異常檢測本身。然而,關(guān)于在異常檢測之前進行嘈雜數(shù)據(jù)清理的研究卻非常稀少。對于通用的異常檢測,有幾種常用的方法,包括統(tǒng)計異常檢測、基于模型的異常檢測、基于偏差的異常檢測、基于距離的異常檢測、基于密度的異常檢測和基于聚類的異常檢測。文獻[7]對異常檢測進行了更為詳細(xì)的闡述。但值得注意的是,這些方法產(chǎn)生的噪聲檢測和異常檢測結(jié)果并沒有明確區(qū)分它們之間的差異。
1.2 噪聲檢測
有少數(shù)研究建議應(yīng)區(qū)分噪聲和異常,并研究它們對檢測結(jié)果產(chǎn)生的影響。文獻[8]指出異常檢測所面臨的挑戰(zhàn)是噪聲的存在,并提出了一種抗噪聲的方法,但其提到的噪聲與本文中研究的噪聲完全不同。該文獻認(rèn)為,通過考慮樣本的群體行為而不是個體行為可以解決噪聲問題,然而這一方法對于傳感器數(shù)據(jù)中的噪聲并不適用。此外,該文獻提出的方法只能在基于聚類的異常檢測方法中使用,并不能作為通用的清洗方法單獨使用。
2 物聯(lián)網(wǎng)中的噪聲數(shù)據(jù)清理
在現(xiàn)代物聯(lián)網(wǎng)范例中,數(shù)據(jù)質(zhì)量成為影響系統(tǒng)整體性能的非常重要的因素。文獻[9]指出,IIoT數(shù)據(jù)的一個特征是原始數(shù)據(jù)的質(zhì)量較低,對于先進的數(shù)據(jù)分析算法來說,數(shù)據(jù)清洗是不可或缺的環(huán)節(jié)。然而,大多數(shù)現(xiàn)有的物聯(lián)網(wǎng)相關(guān)工作主要關(guān)注物聯(lián)網(wǎng)架構(gòu)設(shè)計和實施,以及特定層的優(yōu)化,如數(shù)據(jù)收集、數(shù)據(jù)存儲或云計算。在這些工作中,很少有研究人員關(guān)注傳感器數(shù)據(jù)的清洗。文獻[10]提供了在工業(yè)環(huán)境中部署物聯(lián)網(wǎng)架構(gòu)的API實施指南,并指出將噪聲濾波節(jié)點嵌入架構(gòu)的重要性。
本文分析了傳感器數(shù)據(jù)噪聲檢測的問題,特別是針對基于工業(yè)物聯(lián)網(wǎng)的智能制造系統(tǒng),其與傳統(tǒng)的異常檢測問題完全不同。新的挑戰(zhàn)在于在存在顯著異常的情況下精確提取噪聲。噪聲和異常都與正常數(shù)據(jù)點不同,但在制造業(yè)中它們在概念和含義上是相同的。文獻[11]指出噪聲和異常的主要區(qū)別在于數(shù)據(jù)分析師的興趣。異常對于數(shù)據(jù)分析師來說是有意義的,因為它們可能是重大事件或情況的潛在指標(biāo),而噪聲則通過混淆正常數(shù)據(jù)的真實模式來阻礙數(shù)據(jù)分析。圖1提供了從真實制造工廠收集的現(xiàn)場數(shù)據(jù)的可視比較。從技術(shù)上講,噪聲點是那些遠(yuǎn)離正常數(shù)據(jù)模式的點,遠(yuǎn)遠(yuǎn)超出異常點的范圍。從另一個角度來看,嘈雜的數(shù)據(jù)看起來像是突然的尖峰,要么向上急劇變化,要么向下急劇變化;而異常則變化緩慢。
對于非工業(yè)物聯(lián)網(wǎng)環(huán)境下的傳感器數(shù)據(jù),噪聲和異常有不同的定義,在這些數(shù)據(jù)中可能會出現(xiàn)代表有價值信息的尖峰,比如文獻[12]中提到的ECG數(shù)據(jù),其中的異常可能以尖峰的形式出現(xiàn)。然而,基于工業(yè)物聯(lián)網(wǎng)的智能制造系統(tǒng)通過監(jiān)測零部件的健康狀況進行預(yù)測性維護,從而預(yù)測零部件發(fā)生故障的可能性。這些零部件的性能會逐漸惡化,因此與可能由測量誤差或網(wǎng)絡(luò)錯誤導(dǎo)致的尖峰噪聲相比,它們與正常數(shù)據(jù)的逐漸偏離現(xiàn)象更為明顯。這種機制揭示了上述傳感器噪聲和異常之間的差異。本文的方法正是基于它們的行為差異而設(shè)計的,因此對于制造環(huán)境中的工業(yè)物聯(lián)網(wǎng)傳感器數(shù)據(jù)處理是有效的。
嘈雜的數(shù)據(jù)通常可以分為兩種類型,即點噪聲和連續(xù)噪聲,如圖2所示。實驗中收集的數(shù)據(jù)集主要包含后者,這更難處理。正如前面所提到的,在定義了兩個對比線索后,計算每個滑動窗口的得分,以區(qū)分噪聲和異常。基于這些得分,可以利用基于分位數(shù)-分位數(shù)(Q-Q)圖的閾值技術(shù)來檢測嘈雜的數(shù)據(jù)。
3 噪聲消除
為解決工業(yè)物聯(lián)網(wǎng)傳感器數(shù)據(jù)噪聲檢測過程中存在的新問題,提出了一種新穎的解決方案,以區(qū)分由設(shè)備故障引起的傳感器噪聲和異常模式。在文獻[13]中提出的IoT架構(gòu)的基礎(chǔ)上,本文利用噪聲清理技術(shù)來解決數(shù)據(jù)質(zhì)量問題。它可以被嵌入為數(shù)據(jù)預(yù)處理層中的過濾器模塊,如圖3所示,以改善傳感器數(shù)據(jù)質(zhì)量,在大數(shù)據(jù)和實時環(huán)境中均可使用。
根據(jù)定義,異常值是偏離正常值的數(shù)據(jù)點。偏差的大小可以通過當(dāng)前點與正常點之間的距離來衡量,距離較大的點是異常值。這就是基于距離的異常檢測方法受歡迎的主要原因。與以前的計算工作點級距離的方法不同,本文采用滑動窗口技術(shù)增加嘈雜數(shù)據(jù)和正常數(shù)據(jù)之間的距離,并減小異常數(shù)據(jù)與正常數(shù)據(jù)之間的距離,以便更輕松地提取噪聲。此外,提出了兩個基于對比的線索,使用上下文距離來定義每個窗口的噪聲得分。
3.1 以鄰域?qū)Ρ茸鳛樽兓屎饬繕?biāo)準(zhǔn)
與異常點相比,噪聲數(shù)據(jù)表現(xiàn)出不同的模式,并且偏離得更加明顯,而不是緩慢變化。基于此,計算滑動窗口與其相鄰窗口之間的差異性,以捕捉變化的模式。較小的差異值表示沒有發(fā)生噪聲,而較大的值則表明檢測到噪聲。具體而言,每個滑動窗口的噪聲得分是通過其與相鄰窗口的對比來定義的,表達(dá)式為:
3.2 以背景對比作為偏差度量
基于卡方距離的鄰域?qū)Ρ葘τ诩夥逍驮肼曅Ч芎茫珜τ谂R時變化類型的噪聲數(shù)據(jù)則效果較差。在這種情況下,構(gòu)建一個包含正常窗口的背景模型,以便通過其與背景模型的對比來檢測此類噪聲。首先,根據(jù)該領(lǐng)域?qū)I(yè)工程師的專業(yè)知識,選擇一段沒有噪聲或異常的干凈數(shù)據(jù),并將其轉(zhuǎn)換為一組滑動窗口wi。
4 結(jié) 語
噪聲數(shù)據(jù)清理的主要目標(biāo)是抑制噪聲,同時保留重要信息,如由潛在問題或?qū)嶋H設(shè)備故障導(dǎo)致的異常,以供數(shù)據(jù)分析師使用。雖然噪聲和異常具有某些相似性,但從物理的角度來看,它們是完全不同的。許多廣泛使用的方法中未能注意到這個問題,導(dǎo)致檢測結(jié)果不佳。為了解決這些問題,本文重點關(guān)注噪聲和異常之間的差異,基于這一差異使用卡方距離和滑動窗口技術(shù)來衡量變化率,將偏差作為不相似度。這些度量方式擴大了正常數(shù)據(jù)和噪聲數(shù)據(jù)之間的差異,而正常數(shù)據(jù)和異常數(shù)據(jù)之間的差異被縮小,在這種情況下真實的異常數(shù)據(jù)可以被保留,因此不會影響噪聲檢測結(jié)果。
在基于IIoT的智能系統(tǒng)中,通過從歷史服務(wù)器收集數(shù)據(jù)來估計閾值,可以在生產(chǎn)中訓(xùn)練和在過程中部署噪聲檢測模型。當(dāng)流數(shù)據(jù)到達(dá)時,可以通過比較預(yù)先訓(xùn)練的鄰域?qū)Ρ鹊梅趾捅尘皩Ρ鹊梅值脑肼暀z測模型來識別噪聲。
參考文獻
[1]陶洋,祝小鈞,楊柳.基于皮爾遜相關(guān)系數(shù)和信息熵的多傳感器數(shù)據(jù)融合[J].小型微型計算機系統(tǒng),2023,44(5):1075-1080.
[2]李響,李一兵,湯春瑞,等.具有深度閾值噪聲消除的多尺度分析調(diào)制識別網(wǎng)絡(luò)(英文)[J]. Frontiers of information technology electronic engineering,2023,24(5):742-759.
[3]謝鵬志,楊威,司守鈺.分布式高可用工業(yè)消息中間件數(shù)據(jù)采集模型[J].計算機集成制造系統(tǒng),2023,29(2):372-384.
[4]賀耀宜,劉麗靜,趙立廠,等.基于工業(yè)物聯(lián)網(wǎng)的智能礦山基礎(chǔ)信息采集關(guān)鍵技術(shù)與平臺[J].工礦自動化,2021,47(6):17-24.
[5]劉晶,張喆語,董志紅,等.基于工業(yè)物聯(lián)網(wǎng)的區(qū)塊鏈多目標(biāo)優(yōu)化[J].計算機集成制造系統(tǒng),2021,27(8):2382-2392.
[6]黃宴委,吳登國,李竣.基于極限學(xué)習(xí)機的結(jié)構(gòu)健康監(jiān)測數(shù)據(jù)恢復(fù)[J].計算機工程,2011,37(16):241-243.
[7] DOMINGUES R, FILIPPONE M, MICHIARDI P, et al. A comparative evaluation of outlier detection algorithms: experiments and analyses [J]. Pattern recognition, 2018, 74: 406-421.
[8] BIGDELI E, MOHAMMADI M, RAAHEMI B, et al. A fast and noise resilient cluster-based anomaly detection[J]. Pattern analysis and application, 2017, 20(1): 183-199.
[9] HE Y, GUO J C, ZHENG X L. From surveillance to digital twin: challenges and recent advances of signal processing for industrial internet of things [J]. IEEE signal processing magazine, 2018, 35(5): 120-129.
[10] YU W, DILLON T, MOSTAFA F, et al. Implementation of industrial cyber physical system: challenges and solutions [C]// International Conference on Pervasive Services(ICPS). London, UK: IEEE, 2019.
[11] CHANDOLA V, BANERGEE A, KUMAR V. Anomaly detection: a survey[J]. ACM computing surveys (CSUR), 2009, 41(3): 1-58.
[12] ZHANG A, SONG S, WANG J,et al. Time series data cleaning: from anomaly detection to anomaly repairing [J]. Proceedings of the VLDB endowment, 2017, 10(10): 1046-1057.
[13] KEOGH E, LIN J, FU A D. Hot sax: efficiently finding the most unusual time series subsequence [C]// Proceedings of the 5th IEEE International Conference on Data Mining(ICDM). Houston, Texas, USA: IEEE, 2005.