宋良輝 婁新愛 楊 中 鄭健琨 阿力甫 高 杰
(1.新疆維吾爾自治區分析測試研究院,新疆 烏魯木齊 830011;2.貴州大學,貴州 貴陽 550025;3.貴州省分析測試研究院,貴州 貴陽 550002)
食品安全問題與人民生活息息相關,必然成了各國政府密切關注的問題。政府對于開展食品安全監測和預警系統的研究[1],提高食品安全監管效率進行積極的探索。隨著實驗室信息化管理建設不斷深入推進,國內不少第三方檢測實驗室都積累了大量的食品安全檢測數據資源。而其中一些被人忽略的、有價值的重要信息就隱藏在這些海量的檢測數據中。如何利用這些檢測數據,進而實現數據可視化,使食品行業的相關企業或者監管機構能夠根據這些數據做出預測性的判斷,都是值得探討的。數據倉庫技術,為進一步挖掘數據資源、有效利用數據資源、協助管理決策奠定了基礎。
本文主要以新疆、貴州兩地流通環節食品檢測實驗室的檢測數據為分析對象,研究分析數據倉庫模型的設計,為構建流通環節食品安全檢測數據的挖掘與分析平臺做準備。
數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,用以支持管理決策[2]。因此,數據倉庫具有以下幾個主要特征:①面向主題的。主題是對數據進行綜合歸類的抽象概念,是數據倉庫用戶進行決策分析所關心的方面。②集成的。數據倉庫中的數據從企業的數據庫中提取出來,然后經過清洗處理。因此數據倉庫一般是將多個異種數據源集成在一起的。在數據整合過程中使用數據清洗技術和數據集成技術,確保命名規范、編碼結構的一致性等。③時變的。數據倉庫中數據有時間維度。數據倉庫記錄了系統數據各個時間的狀態。④非易失的。正因為數據倉庫只有數據的初始化裝載與數據訪問功能,所以它是非易失的。
在構建數據倉庫時,食品安全檢測的數據會存在著數據源眾多、數據類型繁雜以及數據格式不規范等特征。因此,可能有以下兩種情況存在于這些數據中[3]:第一種是無意義的數據,使得其不具有太高的數據分析價值;第二種是對那些有意義的數據,存在數據零碎化、片面化與數據冗余等情況。數據分析的結果,也必將會因為這些缺失的、不規范的數據產生負面的影響。新疆、貴州兩地檢測實驗室的食品安全檢測結果是構建本數據倉庫的數據源。由于食品檢測項目多,國家標準、地方標準、企業標準都有差異,使得檢測結果數值,檢測項目,判定依據存在較多不統一的地方。由于食品檢測本身的復雜性和原始數據錄入的不規范,導致數據源較為雜亂,因此建立一整套針對性的規則對于檢測數據清洗是很有必要的[4]。對于新疆、貴州兩地的食品安全檢測數據來說,需要考慮的影響因素有:食品類型、檢測項目、檢測標準、分析方法、檢測結果等。要實現這些不同層次的挖掘分析都需要對屬性進行概念分層。科學的概念分層的意義:一是可以為構建數據倉庫提供支持;二是要考慮與限量標準專家知識庫有效關聯;三是要反過來對生產數據庫(實驗室管理系統)的基礎分類設置提供參考建議。
該實驗室有一套比較成熟的實驗室管理系統(簡稱LIMS)。該實驗室的現有業務流程如下圖:

圖1
LIMS是按照業務流程的順序記錄數據。LIMS讓實驗室檢測工作流程化、規范化,提高了實驗室的工作效率。但是LIMS中保持的有價值的數據沒有被充分挖掘、有效利用。
在接收樣品的過程中,收集的數據有樣品(指從流通市場中抽取的信息)的基本信息、被檢測人(指抽取樣品的場所企業/個人)信息以及生產企業(樣品生產企業)信息。實驗任務制定中確定的商品類別中的檢測項目(包括判斷標準、檢測依據以及技術指標)信息。實驗室檢測人員檢測出的檢測結果。
根據對實驗室流程的調研以及各部分人員的調查分析得到以下需求:①能夠實現對某一類商品的檢測數據進行分析。②對某一生產企業的檢測數據進行分析。③對某一被檢測人的檢測數據進行分析。④對某一檢測項目的檢測數據進行分析。⑤對整體樣品檢測數據的分析。因此數據倉庫設計要從生產企業、檢測項目、樣品類別、被檢測人和時間五個維度分析。時間維度有年和月兩個層次,包括樣品抽樣的時間和樣品生產的時間[5]。
概念模型的設計包含了兩個方面:一是界定系統的邊界;二是確定主題域及其內容。概念模型設計主要確定每個決策主題與屬性以及主題之間的關系。結合食品的特性,依據實驗室具體工作的需求可以容易地得到如下主題:樣品、商品類別、生產企業、被監測人、檢測項目[6-7]。
通過對食品安全檢測數據主題進行分析,邏輯模型設計主要包括:①模型轉換;②粒度層次劃分;③關系模式定義和定義記錄系統。作為數據倉庫設計中的重要環節,邏輯模型直接展示用戶的具體需求,同時對數據倉庫的物理實施有著重要的指導作用。根據維度設計,該數據倉庫的邏輯模型可以設計為以下形式:
食品檢測事實表包含了五個維度表,食品檢測數據在事實表中維護,維度數據在維度表中維護。每個維度表通過一個關鍵字直接與事實表關聯。
通過在數據倉庫中實現食品安全檢測數據的邏輯模型,成功建立了數據倉庫的物理模型,而數據倉庫中的維表與事實表對應的索引可以依據前面邏輯模型設計出的各種數據表的存儲結構。下圖給出了模型中部分邏輯模型與物理模型的對應關系。

圖2
以數據倉庫基礎的食品安全檢測數據分析預警,將作為風險信息中最為基礎和關鍵的一環,也會從側面加強與完善整個食品安全監管系統,從而保障人民的食品安全,因此數據倉庫在食品安全方面的應用也得到了更多的研究與重視。本文所設計的流通環節食品安全檢測數據倉庫模型就是對這一技術的具體研究。基于食品安全檢測數據分析的數據倉庫模型的建立,主要服務于食品監管部門以及實驗室決策人員。進一步為食品安全預警分析提供了支持。
[1]王海明,鄭培,潘海虹.食品安全風險監測預警系統研究[J].中國衛生監督雜志,2010(6):12-15.
[2]李雄飛,杜欽生,吳昊.數據倉庫與數據挖掘[M].北京:機械工業出版社,2013.
[3]郭曙超,龔方,昃向君,等.食品安全檢測數據倉庫技術的應用于研究[J].食品研究與開發,2013,34(17):125-128.
[4]何玉潔,張俊超.數據倉庫與OLAP實踐教程[M].北京:清華大學出版社,2008.
[5]宋國杰,楊冬青,林子雨,等.實時主動數據倉庫的概念、問題及應用[J].計算機研究與發展,2007.
[6]Guo Shuchao,Gong Fang,Ze Xiangjun.Applied Study on Food Test Data Warehouse Technology[J].Food Research and Development,2013,34(17):125-128.
[7]Song Guojie,Yang Dongqing,Lin Ziyu et al.Concept,Issues and Applications of Real Time Active Data Warehouse[J].Journal of Computer Research and Development,2007,44(z3).