*騰克 王震
(1.內蒙古自治區市場監督管理審評查驗中心 內蒙古 010010 2.滿洲里海關技術中心 內蒙古 021400)
近些年來我國經濟水平快速發展,大量的進口食品涌現在人們的飯桌之上。隨著進口食品的日益豐富,隨之而來會產生各種各樣的問題,使得人們開始對進口食品質量安全問題越來越重視。這些進口食品所存在的眾多食品安全問題,對于我國目前食品監督和檢測機構而言面臨著巨大挑戰。一方面是進口食品越來越豐富,種類越來越多,另一方面是我國食品監督檢測機構還沒有完全適應互聯網時期進口食品發展的新趨勢。這就使得采用現代化的技術手段,尤其是數據挖掘技術作為傳統的進口食品質量安全檢測的重要補充,成為必然選擇。作為進口食品質量安全檢測工作者,要能夠應用現代化的科學技術手段,尤其是數據挖掘技術對進口食品質量安全進行檢測,能夠通過科學有效的甄別那些不符合我國衛生標準的進口食品,從源頭上把握與控制,使其最終不能進入我國的市場流通環節,這樣才能夠更好的促進我國對于進口食品質量安全檢測工作的實效性。
數據挖掘技術最早源于計算機技術發展領域。二十世紀九十年代,伴隨著科學技術的快速發展,尤其是數據庫技術在各個領域之中的廣泛運用。各個領域之中的大量數據被以數據存儲的形式存儲在各種各樣的數據庫之中。這些數據的存儲形式與傳統的數據存儲形式不同,它包括了大量的圖片、視頻、電子數據等等。同時,計算機的快速發展也使得檢索技術變得越來越便捷,這為數據挖掘提供了重要的硬件條件。大量的分門別類的圖片視頻,電子等各類電子數據,伴隨著互聯網的無限擴張,出現了“數據大爆炸”現象。如何合理的運用這些大量的數據?使這些大量的數據能夠服務于人們的生產活動與生活活動。大量的學者與專家進行了深入的研究。在研究過程之中,部分專家與學者認為簡單的通過計算機對于海量數據進行輸入、查詢與匯總并不能夠得到有效的信息。但是,如果能夠對這些信息進行統計與研究則可以達到部分預測未來發展趨勢作用。由此,數據挖掘技術得到了普遍的認知并廣泛傳播。
從進口食品質量安全檢測數據的挖掘過程來看,可以大致分為以下幾個具體步驟。
(1)數據挖掘目標。數據挖掘目標的確定是最終實現進口食品質量安全檢測準確與否的重中之重。明確數據挖掘目標能夠使進口食品質量安全檢測數據更為精準。數據挖掘目標的確立,要明確進口食品質量安全檢測的基本工作流程、進口食品質量安全檢測的影響因素、采用何種數據挖掘手段與算法、構建明確的數據模型、采用何種手段來保證數據挖掘的成功。
(2)數據的具體收集。對于進口食品質量安全檢測之中所需要的數據進行有意識、有目的的具體收集工作將是提高進口食品質量安全檢測工作時效性的重要環節。從數據挖掘的具體收集工作來看,進口食品質量安全檢測數據所要發掘的數據目標是指按照《國家食品安全監督抽檢實施細則》,熟悉細則之中對于食品安全抽檢工作所涉及到的食品安全監督抽檢要求,同時,數據收集時可以結合國家質量監督檢驗檢疫總局所公布的進口食品檢驗信息表進行引入與運用(例如,可以將相關數據導入SQL server數據管理系統進行分析),作為數據挖掘目標的重要補充和分析標準。同時,要能夠的充分結合在自己單位、部門關于進口食品質量安全檢驗檢測之中所涉及到的各項安全指標數據的分析,完成數據的具體收集工作。例如,在具體的數據收集工作過程之中,可以按照食品安全檢測指標進行分類型(食品添加劑、微生物、理化指標、食品中非法添加物,等等)收集。
(3)數據的選擇。由于進口食品安全檢測之中所涉及到的數據量較大,同時分類較為復雜。不同的工作人員所收集到的進口食品安全檢測數據各不相同。進口食品安全檢測數據的選擇過程其目標在于能夠為下一環節的數據深入挖掘提供充分準備條件。大量分散、零散的數據,不利于后續對于進口食品安全檢測進行分析。那么如何有針對性的進行數對選擇呢?首先,要能夠對于現有的數據進行分門別類的收集與統計。對于涉及到的相對數的較少的統計數據可以進行全部收錄,并且輸入SQL server數據管理系統進行數據分析。如果數據量巨大,很難在較短的時間之內或者分析所采用的計算機設備不能夠全部統計時,這可以采用抽樣統計的方法進行數據選擇。通過結合訓練—測試—建?!炞C等環節來進行數據挖掘與數據抽樣分析,通過特定數據的選擇與驗證,尤其是一些具有特殊特性的部分數據抽樣,可以很快的了解特定數據集的數據抽樣特性。這對于那些巨量數據的數據挖掘與分析具有重要意義。其次,與進口食品安全檢測所涉及到的數據選擇之中要能夠兼顧數據選擇的樣本數量與樣本質量。所選擇的數據樣本數量要能夠反映其特征,不能夠選擇過少或者不足代表整體特性的數據。所謂樣本的質量特征則是指,所選擇的數據要能夠反映出進口食品安全檢測中所涉及到的具體數據。第三,進口食品安全檢測數據選擇,在具體選擇過程之中,要能夠確定數據源的可靠性。在具體數據挖掘工作過程之中,要能夠對進口食品安全檢測數據源的可靠性采用多項指標確定,進而保證數據的安全性、完整性、準確性、有效性。
(4)挖掘數據的質量篩選。在樹立數據挖掘目標數據,經過數據的具體收集以及數據的選擇過程后,針對進口食品質量安全檢測的數據,無論是質量還是準確性,都得到了較大提升。如果想要達到深入挖掘相關數據的內在目標,這必須對挖掘數據的整體質量進行針對性的篩選。具體而言,在進口食品質量安全檢測之中會形成大量的數據,這些相對分散的來源于不同的數據源的數據,例如,來源于具體一線檢測人員的數據、來源于以前檢測人員的歷史數據、其他地區相同工作人員的參考數據、同一標準的國家統一公布數據,等等。這些來源于不同的數據源數據,都必須經過高級別的挖掘數據的質量篩選后,才能夠將這些數據運用于指導進口食品質量安全檢測的實踐之中。從進口食品質量安全檢測一線檢測人員收集的數據來看,雖然經過前面三個步驟的選擇后,會得到整體質量的提升。但是,往往收集的數據會存在著兩個重要問題。第一個問題就是數據的完整性問題。第二個問題就是數據整體收集的質量性問題。進口食品質量安全檢測一線檢測人員收集的數據存在著存儲格式不同、存儲設備不同、設置的變量數據填寫不清(誤填、錯填),就會導致檢測數據的不完整性。如果對這些數據不能夠進行很好的質量篩選,那么再導入SQL server時就會出現大量的運行錯誤,進而很難得到準確的預測效果。由此可見,挖掘數據的質量篩選過程尤為重要。對于挖掘數據的質量篩選一般可以采用頻數分析、均值分析或者數值變量分位數分析等等。
(5)數據的轉換與模型構建。在模型構件之間要進行挖掘數據的轉換。挖掘數據的轉換需要運用各類的數據轉換方法。在進口食品安全檢測過程之中,基于數據挖掘技術所運用到的數據轉換主要包括兩大部分。第一部分,數據挖掘相關的工具軟件。第二部分,數據挖掘技術。經過前面四個步驟的數據收集以及數據篩選之后,要對這些數據進行特征選擇。對于這些數據進行特征選擇的目標在于遴選出對于整體數據的預估變量。對那些影響整體數據預估變量的冗余變量數據進行排除。在對進口食品安全檢測數據的數據轉換過程之中可以采用單變量分析,通過對單一變量進行分析,逐漸的分離出哪些變量是用于變量,哪些變量是較強的預估能力變量。進而為模型的構建提供充分的條件。從某種程度上來說,通過對于進口食品質量安全檢測數據的收集、數據的清理以及數據的轉換之后進行的模型構建是數據挖掘的核心部分。在數據模型構建過程之中以及具體的分析時需要專業的分析員進行合理參與,通過與專業的分析員進行溝通與交流后,設計與進口食品質量安全檢測數據相適的科學的算法,這樣才能夠達到良好的分析結果。需要注意的是,進口食品質量安全檢測數據模型的構建并非拘泥于一種模型的構建。即可以通過設計不同目標的數據挖掘之后采用不同的算法進行多重模型構建。而每一個模型的構建都會反映出具體的預測數據。通過不同模型的構件所反映出來的預測數據,可以確定最終數據預測的精準程度。
(6)驗證過程?;谶M口食品質量安全檢測數據的模型建立后,在運用于實際工作之前,要能夠對其進行驗證,去評估整個模型所產生的數據預判性、準確性,進而去判斷該模型,或者該模型組對于整體進口食品質量安全數據的特征性與質量性分析程度。在此驗證過程之中,可以通過使用各種度量值輸入模型、劃分定型集、測試集等方法來確定模型的有效性。需要注意的是,這些驗證的方法不僅僅可以運用于模型建立之后,在模型建立的各個過程之中,為了能夠更好的提高模型的準確性,均可以采用相關的驗證。
采用數據挖掘技術以及數據挖掘方法可以對影響進口食品安全質量的各個影響因素進行分析,確定影響進口食品安全質量的各個風險節點(國家、地域、時間、種類,等等),通過對于進口食品所涉及到的數據進行有目的性的收集、選擇、篩選、轉換、模型構建,加之必要的驗證過程是形成進口食品質量安全檢測科學模型的必要流程。也是提升進口食品質量安全檢測工作的實效性的必要手段。