(西南科技大學 四川 綿陽 621000)
在互聯(lián)網技術、物聯(lián)網技術、云計算技術、大數據技術等高新技術持續(xù)發(fā)展的背景下,工業(yè)生產領域逐步實現了智能制造,在此背景下,數據逐步成為工業(yè)生產制造企業(yè)的核心價值之一。數據分析利用度越高,則企業(yè)的運營發(fā)展就越高效,從而實現生產效率的提升。在智能制造背景下,大數據正在逐步改變著生活方式和生產方式,也在一定程度上改變了工業(yè)制造企業(yè)的運作模式。基于此,開展智能制造背景下工業(yè)大數據的數據質量控制對策研究就顯得尤為必要。
智能制造背景下工業(yè)大數據所具有的特征主要體現在以下幾個方面:
第一,數量大。在智能制造背景下工業(yè)生產中很多設備感知數據被廣泛接入生產系統(tǒng)中,一些工業(yè)制造企業(yè)生產數據量可達到EB級別。
第二,生成速度快。在智能制造背景下企業(yè)生產速度非常快,無論是數據生產,還是采集頻率,甚至可以達到毫秒級別。
第三,模態(tài)多樣化。在生產制造中,大數據種類豐富多樣化,包括:結構化、半結構化、非結構化等數據。
第四,價值密度比較低。就目前我國工業(yè)大數據發(fā)展現狀而言,價值密度的分布還不夠均勻,總體而言存在“二八定律”,也就是20%的結構化大數據,占80%的價值密度,而80%的非結構化大數據,占20%的價值密度。這就使得我國工業(yè)大數據存在很大的價值[1]。
在智能制造背景下,工業(yè)大數據和傳統(tǒng)數據有很大區(qū)別,主要體現在數據采集速度、數據分析過程、數據存儲及數據質量管理都造成了極大的挑戰(zhàn),工業(yè)大數據和傳統(tǒng)數據對比分析表如表1所示:

表1 工業(yè)大數據和傳統(tǒng)數據對比表
從表1中可以看出,相比于傳統(tǒng)數據,工業(yè)大數據的結構更加復雜,涉及到的范圍更加廣泛,因此,在具體管理中非常容易發(fā)生數據質量問題,主要體現在以下幾個方面:
第一,在數據收集方面,工業(yè)大數據來源更加廣泛,結構各異,不同數據源之間存在一定的沖突和矛盾,如何保證數據管理的完整性和管理質量的可靠性極為重要。
第二,工業(yè)大數據的規(guī)模非常大,且大數據獲取、存儲、計算等環(huán)節(jié)存在錯誤,傳統(tǒng)人工檢錯方法,根本無法適應海量的數據檢查,無法快速找到存在問題的數據,而言無法及時提取出有效、有價值的數據。
第三,由于數據生產速度快,且復雜多變,也更加容易形成不一致的數據。
第四,數據源頭種類多樣化,并且存在多種結構形式的數據。致使不同的數據源之間,相同數據源之間,可能存在沖突和不一致現象,再加上數據質量管理需要多個部門協(xié)調完成,大大增加了數據處理中發(fā)生問題的概率。
(一)構建數據質量評價體系。完善系統(tǒng)的質量評價體系是保證大數據質量管理水平的關鍵,愛智能制造背景下工業(yè)大數據的數據質量評價體系的構建需要同時從三個方面進行考慮,包括:完整性、一致性、準確性。
第一,完整性是衡量工業(yè)大數據是否滿足生產實際運行條件的關鍵,在智能制造背景下,工業(yè)大數據呈現指數式增長,每天都會形成大量數據,這些數據可能在某一范圍中波動。如果發(fā)生突然激增或者土壤激減,則要及時找到那個環(huán)節(jié)發(fā)生變動,對發(fā)生變動范圍比較大的數據進行系統(tǒng)研究,找到發(fā)生變化的根源,為調整生產工藝和生產方法提供數據支持。
第二,一致性是檢查工業(yè)大數據采集數據和實際生產數據是否相同的主要方法,由于工業(yè)大數據數量比較大龐大,逐步檢查根本不現實,采用合規(guī)記錄來檢查工業(yè)大數據是否滿足生產要求。比如:工業(yè)大數據多為集合數據,但在實際生產中,經常發(fā)生超出范圍之內的數據,此時就需要通過一致性檢驗來對一些工業(yè)大數據的豎向,比如:如果甲數據屬性為一個確定的數值,乙屬性的值需要在有一個特定的數據范圍中,衡量乙屬性的主要方法為合規(guī)率。
第三,準確性多用于分析和記錄一些個別數據,和一致性有一定的差異,比如:準確性比較關注工業(yè)大數據的數據錯誤情況,而一致性則比較關注合規(guī)率。所以,如果企業(yè)生產數據的實際值不再定義范圍中,此時此數據就好毫無價值,是一個錯誤數據。但如果某個數據,是工業(yè)生產數據,具有實際意義,可能是數據范圍定義發(fā)生差錯,此時不能認為數據錯誤,而是要重新修補實際定義[2]。
(二)全面落實數據質量信息的采集、分析與監(jiān)控。對采集到的數據來源進行質量分析,就可以充分了解及掌握生產數據的質量。再通過和歷史數據的對比,就可以對數據質量控制質量進行評估,針對存在的問題,制定有效的解決方法,從而逐步提升工業(yè)大數據的數據質量控制水平。
(三)建立數據質量的持續(xù)改進工作機制。影響工業(yè)大數據引起數據質量問題的來源包括四大問題域,信息問題域、技術問題域、流程問題域及管理問題域。無論那個方面發(fā)生問題,都會引起數據質量問題。因此,一旦發(fā)現數據質量問題,必須對問題形成的根源進行系統(tǒng)化分析[3]。
綜上所述,本文結合理論實踐,分析了智能制造背景下工業(yè)大數據的數據質量控制對策,分析結果表明,在工業(yè)制造生產中,數據質量控制貫穿數據全生命周期,涉及到的內容也比較多,包括:數據質量評估、數據監(jiān)控、數據清洗、數據診斷等多方面內容。在智能制造背景下,工業(yè)大數據呈現爆炸式增長,對數據質量控制技術和方法,提出了更高的要求,針對目前工業(yè)生產中大數據數據質量控制管理中面臨的挑戰(zhàn)。需要從都方面同時入手,既要構建完善系統(tǒng)數據質量評價體系,也要對工業(yè)數據的采集過程、分析過程等進行全面監(jiān)控,并按照工業(yè)生產實際情況,合理改進工作技術。才能保證數據質量時刻處于平穩(wěn)狀態(tài),促使企業(yè)持續(xù)健康的發(fā)展。