999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相關系數與決定系數的數據去重方法研究

2019-10-10 03:58:04田申琳唐夢南
數字制造科學 2019年3期
關鍵詞:方法

田申琳,陳 濤,唐夢南,楊 立

(武漢理工大學 機電工程學院,湖北 武漢 430070)

隨著大數據、物聯網和云計算等新興技術在制造業的應用不斷深入,加快了制造業自動化進程,促進了各種遠程監測方法的產生,推動了制造業智能化的發展,人類已經由以機械化為特征的工業化社會走向以智能制造為特色的工業4.0時代[1]。這也導致數據的規模以驚人的速度不斷增長。因此,為了促進更好、更智能的生產,研究人員必須獲取蘊藏在這些數據中有價值的信息。然而,實際加工生產過程中的信息多以正常狀態為主,這往往會造成冗余數據,不利于研究人員的分析,造成存儲成本的增加。因此,需要通過一個“劇烈”的過程將大數據轉換為小數據[2],探索一個數據處理的創新方法以降低對存儲空間的依賴,提高去重率,緩解分析壓力。

針對去重問題,國內外學者進行了大量研究。羅恩韜[3]等設計了多維數據去重的聚類算法。Wegener等[4]等利用Web數據挖掘技術獲取有用信息,依靠數據分組和表間關聯性對數據進行分組,降低數據冗余度。Kang[5]等提出結合函數依賴和多值依賴來解決數據冗余性問題。但是,目前仍缺少針對機械領域特性的監測數據去重方法研究。

1 相關系數與決定系數

大數據時代的到來使統計學得到了創新與發展,在進行數據處理與一些模型評估時,相關系數和決定系數得到了廣泛的應用。

相關系數由英國統計學家Pearson首創,因此稱為Pearson相關系數,它是依據積差方法計算的,因此又稱為積差相關系數或積矩相關系數,一般以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間的相關程度[6],其計算公式(二元相關)為:

(1)

相關系數的絕對值越大,相關性越強:相關系數越接近于1或-1,相關度越強,相關系數越接近于0,相關度越弱。通常認為0.8~1.0極強相關,0.6~0.8強相關,0.4~0.6中等程度相關,0.2~0.4弱相關,0.0~0.2極弱相關或無相關。

決定系數與相關系數相比除掉|r|=0和1的情況,決定了相關的密切程度,同時也可以防止對相關系數所表示的相關做夸張的解釋。它構造一個不含單位,可以相互進行比較,而且能直觀判斷擬合的優劣。因此,在判斷模型擬合效果中應用廣泛。其計算公式為:

(2)

2 數據去重方法流程設計

2.1 常用數據清洗方法

數據清洗的主要任務就是對缺失值的處理和噪聲數據的過濾[7]。

目前,缺失值處理方法分為4種:①刪除法,即將缺少的記錄刪除。該方法簡單、易行,但是會造成樣本量損失,容易丟棄隱藏信息,削弱統計功效。②均值插補法。當數據為數值型,用平均值插補缺失值,當數據為非數值型時,用眾數插補缺失值。該方法簡單,快捷,但前提是建立在完全隨機缺失的假設上,會造成變量的方差和標準差變小。③回歸插補法。利用回歸函數擬合數據從而對缺失值進行插補。該方法利用盡可能多的信息,得到的缺失值可信度高,但是必須假設缺失值所在變量與其他變量存在線性關系,大多數這種關系是不存在的[8]。④極大似然估計法。通過觀察數據邊際分布推出未知參數。該方法的估計值具有一致性和有效性,但是很大情況下難以求解或寫不出有限形式的解。

噪聲數據過濾方法分為4種:①回歸法。用函數擬合數據,通過回歸后的函數值替換原始數據值。需建立在穩定數據變量基礎上,在分析多因素模型時去噪效果好,但易產生“偽回歸”。②均值平滑法。針對具有序列特征(正弦時序列)的變量,通過鄰近的數據均值來替換原始數據。該方法簡單、快速,但易導致信號的細節和邊緣模糊。③離群點分析。通過聚類的方法篩選離群點,并將其刪除。在數據和檢驗類型充分的條件下才檢驗有效,不能確保所有離群點被發現。④小波法。運用函數逼近問題,根據標準找出對原始數據的最佳逼近。具有較好的時頻特性,去相關性,并能很好地展示信號的非平穩特征[9]。

2.2 數據去重流程

在實際運用中,由于生產設備會長期處于正常工作狀態,導致監測數據蘊含的信息重復率高,數據價值密度低,對存儲設備的消耗大,難以保證數據處理的時效性。并且機械大數據不僅僅具有大數據的共性,更有本領域的專業性,因此,設計了一種新的數據去重處理流程,如圖1所示。在進行數據冗余量去重前,先進行缺失值和噪聲數據的處理。在信號采集過程中運用低通濾波技術,可以很好地除去噪聲數據,而采集的數據是機床主軸振動信號,數據間的線性關系差,故選均值插補法對缺失值進行填充。

圖1 數據去重流程框圖

而通過決定系數R2對數據進行初步清洗與提取所獲得的新數據集Tfi仍有很高的重復性。因此,先利用生成新數據的R2值對各個數據集進行降序排序,然后選出最優數據集Tfa(Tfa為R2最大的數據集),使最優數據集Tfa依次與其他數據集Tfi(i≠a)進行相關系數r計算,其判定值設為0.8,r>0.8表示測試數據集與該數據集重復性過高,則刪除數據集Tfi。再選擇第二優的數據集Tfb與余下的數據集Tfi(i≠a,b)進行相關系數r的計算,重復以上步驟,直至最后一個數據集。這樣通過R2被保留的大量數據中最優的被選擇出來,重復性多的被剔除,同時需要進一步觀察研究的數據集也一并篩選出來。

2.3 應用案例

某機械制造公司在生成過程中需要監測機床、刀具及其他設備的運行狀態,迫切需要一個壓縮、篩選數據的預處理方法,為完成產業升級做準備。為了解決該企業數據預處理問題,采用筆者提出的基于決定系數與相關系數相結合的數據處理方法,為驗證該方法的可行性,按采集單位時間對機床主軸空轉振動數據進行切片,并提取其中的6組數據進行試驗分析,具體數據如表1所示。其中:T11∽T16為1號傳感器數據集,T21∽T26為2號傳感器數據集。

對6組數據分別進行決定系數R2值計算,試驗結果如表2所示,從整體結果上看均滿足新數據的生成條件,但是第二組與第三組的R2值較低,是因為在切片處理時對其采用了均值填充法,補充的缺省值過多。這類方法是通過把完整數據的算術平均值作為缺失數據的值,原理是在正態分布下,樣本均值是估算出的最佳的可能取值。而應用均值填充法將會影響缺失數據與其他數據之間的相關性,進而導致決定系數R2值的下降。

利用T1i和T2j原始數據集的均值生成新的數據集Tfi,如表3所示。將生成的新數據集分別對原數據集進行決定系數R2值計算,從表2可和新數據集與原數據集的相關性很高,可以替代原始數據集。實現了將兩組數據合并成一組數據,同時節省了存儲空間。

表2 R2值計算結果

表3 生成的新數據集

通過決定系數R2值對6組數據進行降序排序,如表4所示。發現第一組的數據Tf 1為最優數據,作為相關系數式(1)中的x值,依次按順序將Tf 6,Tf 5,Tf 4,Tf 3,Tf 2作為式(1)中的y值。通過計算得出,Tf 1與Tf 6、Tf 3的相關系數r值約為1,Tf 1與Tf 5、Tf 4、Tf 2的相關系數r值約為0.9,均大于設定值0.8,因此可以用數據集Tf 1代替其他5組數據集,從而將2 880條數據降低到480條。原始數據集1與原始數據集2在6個連續單位時間內的均值分別為0.045 009與0.044 991,而新數據集擴展6個連續單位時間后的均值為0.045 003,偏差量很小,該方法可行性強。

表4 排序結果

應用實例表明,基于相關系數與決定系數相結合的監測數據去重方法針對特定條件下監測數據冗余情況,可高效地解決數據去重、篩選問題,進一步減少了對存儲空間的依賴,降低數據篩選難度,減少分析壓力。

3 結論

為了解決機械生產過程中監測數據冗余,重復性高的問題,提出了基于相關系數與決定系數相結合的監測數據清洗方法,并以某機械制造企業數據去重問題實例進行試驗驗證。結果表明,在機械生產監測特定的條件下,基于相關系數與決定系數相結合的數據篩選方法能夠高效地解決數據去重、篩選的難題,減少對存儲空間的過分依賴,降低分析壓力。由于該方法對監測環境以及數據采集系統的精確度要求苛刻,因此,在將來的工作中,將對該方法進行完善,使其面向更廣泛的應用場景。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国产成人福利在线视老湿机| a级毛片在线免费| 亚洲成a人片在线观看88| 噜噜噜综合亚洲| 成人中文在线| 永久在线精品免费视频观看| 色婷婷在线播放| 欧洲高清无码在线| 91在线视频福利| 亚洲女同一区二区| 黄色网页在线播放| 九九精品在线观看| 亚洲妓女综合网995久久| 国产精品永久免费嫩草研究院| 天天躁夜夜躁狠狠躁躁88| 国产成人AV综合久久| 国产门事件在线| 精品三级网站| 中国国产一级毛片| 国产午夜福利片在线观看| 国产成人欧美| 69视频国产| 久久综合九九亚洲一区| 国产亚洲精久久久久久久91| 这里只有精品在线| 久久亚洲国产视频| 亚洲精品第一页不卡| 国产精品男人的天堂| 青青操视频在线| 日韩国产黄色网站| 日本午夜精品一本在线观看| 一级做a爰片久久免费| 欧美自慰一级看片免费| 激情六月丁香婷婷四房播| 亚洲中文精品久久久久久不卡| 天天干天天色综合网| 一区二区三区成人| 亚洲天堂久久| 高清欧美性猛交XXXX黑人猛交| 99久久精品视香蕉蕉| 午夜精品久久久久久久99热下载| 九九免费观看全部免费视频| 久久影院一区二区h| 高清色本在线www| 国产在线第二页| 中国黄色一级视频| 亚洲天堂网视频| 国产欧美在线视频免费| 亚洲欧美精品日韩欧美| 永久免费精品视频| 福利在线一区| 国产在线欧美| 全色黄大色大片免费久久老太| 久久香蕉国产线看观看式| 97在线观看视频免费| 91久久夜色精品国产网站| 五月天在线网站| 亚洲国产精品无码久久一线| 亚洲欧洲AV一区二区三区| 亚洲色图欧美| 精品無碼一區在線觀看 | 亚洲视屏在线观看| 大香伊人久久| 一区二区三区四区日韩| 欧美啪啪精品| AV天堂资源福利在线观看| 欧美日韩va| 色吊丝av中文字幕| 好吊妞欧美视频免费| 国产一在线| 亚洲视频在线观看免费视频| 欧美日韩中文国产| 中文字幕欧美日韩| 国产视频你懂得| 免费高清自慰一区二区三区| 五月婷婷综合网| 成人国内精品久久久久影院| 热这里只有精品国产热门精品| 999在线免费视频| 在线看片免费人成视久网下载| 国产一区二区人大臿蕉香蕉| 亚洲av片在线免费观看|