王顯貴,陳祖漢,田留勝
(柳州五菱汽車工業有限公司信息部,廣西 柳州 545007)
在高等數學的數據集里經常存在一些數據對象,它們不符合數據的一般規律或者數據模型,這樣的數據也就成為孤立點(outlier),比如一家公司CEO 的薪酬收入,自然遠高于公司內其他雇員的收入,這就是孤立點的最直接的一種感官概念。
多年以來,為了監測產品工藝過程和優化產品質量,企業中部署的各類質量信息管理系統積累了巨大而復雜的質量數據,隨著硬件和數據挖掘算法的迭代,對大量數據信息的管理和處理成為了可能。數據挖掘技術是通過算法搜索隱藏于大量的數據中有價值信息的過程。數據挖掘通常通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來價值模式發掘,非常適合用來作為分析質量信息的工具,通過挖掘質量管理信息系統(QMS)中存在的各種控制模型,企業質量知識發現系統和產品質量評價決策系統就建立起來了,將有效解決專家決策系統中的知識瓶頸問題。在當下,零部件制造行業面臨著產品交付周期短,節拍快,批量少的大環境挑戰,傳統的質量檢驗分析工具正越來越跟不上這種節奏,在逐步提高檢驗水平,引入更多數字化質量檢驗監測裝備的同時,也需要同步建設對應的結果分析平臺,才能將得到的監測數字進行快速的分析,保證產品質量始終處在可控范圍之內。
質量數據貫穿于質量管理體系涵蓋的整個制造過程,形式多種多樣,具有重復性、可預見性、歷史性、詳細性和形式結構化(表式)這幾個顯著特征。制造業的質量信息系統(QMS)記錄了大量質量信息,比如產品的技術水平、性能、質量指標、可靠性、安全性、可維修性、耐用性等指標,合格率、廢品率、返修率等指標,成本及消耗資料,產品的技術改造規劃,市場調查、銷售服務及客戶反饋的資料,零部件及外協外購件的實用質量資料,產品設計圖紙、各種技術文件、檔案、使用說明書,新產品、新工藝開發計劃,新產品試制、實驗、檢測、鑒定、小批及批量生產資料等與產品質量有關的信息[1]。
質量系統的質量數據具有異構和層次性的特點,從低到高可以劃分為現場級信息、過程級信息、產品級信息和體系級信息4 個層次。按時間順序采樣得到的一系列數值型數據序列,構成了質量管理系統中最重要的信息流。
數據準備、數據挖掘過程、知識評估與表示這3個步驟組成了數據挖掘的一般形式。數據挖掘可描述為如下幾個階段的反復過程,如圖1 所示。

圖1 數據挖掘的過程
數據準備階段可進一步分為3 個步驟:數據集成、數據選取、數據預處理和轉換。在數據挖掘中,數據準備階段大約需要占據整個工作量的80%的時間。
(1)質量數據集成是從不同性質的現場質量數據倉庫、文件或記錄中提取數據信息再合并處理。
(2)數據選取是指根據數據分析結果所需要的特征信息(比如產品油漆外觀凹凸點分布),建立數據分析模型,使用適合的收集方法建立數據倉庫,數據選擇的重要性甚至超過了算法。
(3)數據的預處理和轉換是指在實施挖掘前,對收集到的特征數據進行縮減、降維和轉化,剔除冗余數據,保證數據的邏輯一致性等。進行過處理和轉化的數據,將有助于提高數據挖掘的效率和質量[2]。
將收集和處理后的數據通過特定的分析工具進行處理,得到有用的分析信息的過程。
通過商業智能BI 的各類報表提供的圖形化、可視化的工具將數據挖掘所得到的分析結果呈現給用戶,也可以將分析結果存入知識庫中,供其他應用程序使用。
這幾個步驟又被稱為ETL 過程,即抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load),按照預定義好的數據模型,將數據加載到質量數據倉庫中去,再選擇應用挖掘算法,執行相應的挖掘操作,最終得到對應的數據模式。經過數據挖掘呈現的結果一般多是發展趨勢,比如顧客問題趨勢、合格率趨勢等,如圖2 所示。實際工作中往往需要鉆取發現造成趨勢波動影響的因素,需要引入對這些差異點的檢測方法。

圖2 QMS 中的各類趨勢分析圖表
在統計學,孤立點已被廣泛應用,但基于距離的孤立點定義,即使是對等距離的量度函數,對孤立點也有著多種解釋,本研究探討以下幾種。
(1)在數據集S中,O是一個孤立點,僅當S中至少有P部分對象與O的距離大于d,這里的距離就是用上面介紹的距離量度函數計算出來的距離。換句話說,如果在d范圍內有不多于M 個的數據點,則O是一個帶參數P和d的DB(P,d)孤立點。這里M =n×(1 -P)。n為數據對象的個數。
(2)孤立點是數據集中n個到Sth最近距離最大的對象。對于對象P和參數k,令Dk(P)表示k個與P最近的到P點的距離之和。則具有最大值Dk的頭n個對象就是孤立點。
(3)孤立點是數據集中n個與其k個最近鄰居的平均距離最大的對象。
這里的距離度量函數一般使用絕對距離或歐幾里得距離(Euclidean Distance 簡稱歐式距離)。假定數據對象為區間標度變量類型,則絕對距離可定義為:
歐式距離是最常見的距離量度,其定義為:
數據對象的維數(屬性)若定義為m,則表示第i個對象第j屬性的值。這兩個距離可統一為:
通過分析數據個體間特征差異的大小,評估得到數據的類別和相似性。
使用同樣的距離函數,例如絕對距離或者歐氏距離,但并不根據p和d來判定孤立點,而是首先計算數據集中對象兩兩之間的距離,然后計算每個對象與其他對象的距離之和,設M為用戶期望的孤立點個數,則距離之和最大的M個對象即被認為是孤立點。
基于距離和的孤立點檢測可以描述如下:
對原始數據集進行標準化后,計算n個對象兩兩之間的距離dij,形成距離矩陣R:
根據距離和的概念和孤立點的檢測算法,可以依據如圖3 所示的流程步驟實現。

圖3 基于距離和的孤立點檢測算法實現流程
質量管理信息系統(QMS)提供了檢驗批次合格率、單個質量特性合格率、單個質量特性實測數值、批次不合格品處置意見、檢驗不合格批次分布、不合格批次占比對比、不合格項匯總信息、不良項目柏拉圖、不良供應商柏拉圖等多累分析工具,引入孤立點檢測算法對各類分布和趨勢可以進行再深入的數據鉆取,得到各類趨勢的分布范圍,可以制訂針對的應對措施,有效控制制造過程中出現的質量缺陷。比如,QMS已經對采集到的質量特性過程能力進行了量化,為工藝參數CPK 過程能力考評提供支持。通過結合孤立點檢測對過程能力量化就可以發現過程控制能力薄弱環節。
通過設立數據采集點,動態地實時采集質量信息數據,將質量管理的各個過程用信息化的手段數字化串聯起來,成為進行大數據分析的數據池,再對里面的數據進行標準化和分析,最終發現有價值的數據模式,這就是質量管理信息系統(QMS)中的數據挖掘。該企業充分利用QMS 收集到的海量信息為基礎,以數據和業務驅動的方式分析在質量管理領域的PDCA 過程(即計劃、實施、檢查和改進)中記錄的質量狀況,找出產品質量變化的趨勢,發現造成波動的孤立點,從而可以有針對地集中資源進行質量攻關,并將成果應用到制造過程的實時控制,提高了產品的一次性下線合格率,得到了客戶方良好的評價。