楊亞琦,楊東霞,劉 燕
(1.云南省市場監督管理局信息中心,云南昆明 650100;2.云南省信息技術發展中心,云南昆明 650228)
隨著大數據、區塊鏈等新一代信息技術在食品安全追溯領域的廣泛應用,食品安全追溯領域進入了大數據時代[1]。從企業生產、流通到政府監管,涉及食品鏈的各個環節擁有著龐大的數據資源。通過信息技術對這些數據進行有效采集、匯集、共享和分析應用,既可實現食品安全信息追溯,又可提高監管效率,為探索新的食品安全智能化監管機制、破解食品安全問題提供重要依據。然而,受制于數據標準和數據質量等問題,目前大多數食品安全追溯平臺并未能實現數據的有效匯集、共享和應用。大數據時代,數據治理被認為是能提升數據質量、促進數據共享應用的有效手段而受到業界的廣泛關注。眾多國內外專家學者就食品安全追溯平臺的建設及大數據技術應用和數據治理等方面進行了大量的研究。艾亮東等[2]在我國食品安全檢測監管人員有限的條件下,面對食品領域存在的點多、線長、面廣的實際情況,提出將物聯網和大數據技術應用于食品安全智能監管中,以實現對食品領域全方位、全過程及全天候的監管;劉奉巖等[3]對大數據時代背景下食品安全監管過程中所使用的各類大數據技術進行分析,通過研究大數據技術,為我國食品安全提供保障。殷夢姿[4]從背景分析、設計原則、架構設計等6個方面介紹基于大數據的食品安全信息追溯平臺實現方式及實際用途。李引等[5]設計了基于分布式架構的食品追溯平臺,實現了嬰幼兒配方食品、食用油和酒類等重點監管品種的追溯,公眾可通過掃描二維碼查詢到食品生產許可證信息、抽檢信息、流通環節等信息。
綜上,目前對食品安全追溯平臺的研究和探討主要側重于大數據技術應用方面,對數據治理的探討還不多。因此,本文基于食品安全追溯平臺發展現狀,在借鑒其他學者研究成果的基礎上,對基于食品安全追溯平臺的數據治理體系進行了研究。
近年來,在市場、政策以及技術的驅動下,各種由政府主導或企業自建的食品安全追溯平臺加快建設。食品安全追溯平臺通過信息化技術提取生產、加工、流通、消費等供應鏈環節消費者關心的公共追溯要素,建立食品安全信息數據庫,一旦發現問題,能根據溯源進行有效的控制和召回,從源頭上保障消費者的合法權益,提高食品安全的監管能力[6]。同時,將各類海量數據聚合在一起,將離散的數據需求聚合成數據長尾,可以產生很多有價值的應用。
通過網上文獻調研了解到,目前食品安全追溯平臺的數據應用更多局限于單一系統或單一部門內數據的分析應用,還未真正實現食品安全追溯數據的匯集融合應用,主要存在以下問題。①食品安全追溯數據因分散在架構不統一、開發語言不一致、數據庫多樣化的系統中,而存在零散、異構、低質等特征。②數據共享存在壁壘、渠道不暢,表現為各部門業務系統存在信息孤島,各自獨立、無有效數據交換。其原因從技術層面來講主要涉及各部門各系統的數據標準不統一、數據質量有待完善等因素。急需基于食品安全追溯平臺加快構建數據治理體系,以有效解決上述問題,促進食品安全追溯數據匯集、共享交換和應用。
數據治理是大數據時代組織中涉及數據使用的一整套管理行為。數據治理基于元數據管理、數據標準、主數據管理等技術和工具,通過標準化的數據定義,營造規范和一致性的數據環境,能夠促進組織改善數據質量、提升業務處理效率和賦能管理決策,近年來在金融、互聯網等行業有了一些示范應用[7]。為實現對食品安全追溯數據的有效匯集、共享交換與應用,基于數據治理相關知識,在借鑒其他行業領域數據治理經驗的基礎上,構建基于食品安全追溯平臺的數據治理體系。
食品安全追溯平臺包括數據源、數據治理、數據資源管理、數據共享交換和大數據應用,如圖1所示,實現數據采集、治理、共享交換和分析應用等功能。通過建立包括數據治理、數據資源管理等功能的食品安全追溯數據匯集與共享平臺,實現重點食品安全精準溯源,以及跨層級、跨地域、跨系統、跨部門、跨業務的數據融合。通過深入挖掘數據價值,實現靈活數據開發、高效的數據查詢、數據共享和交換等功能,為食品追溯、政務服務、宏觀調控等大數據應用提供數據支撐。

圖1 系統總體架構
數據的接入范圍包括與食品安全相關的企業數據、政府部門監管數據及互聯網相關數據,包括企業的生產和流通數據、營業執照數據,食品生產經營許可數據、海關數據、農業數據、商務數據及互聯網輿情數據等。具體涉及從已建的系統或共享接口服務中獲取食品生產企業數據、追溯數據、日常監管數據、檢測數據和稽查辦案等數據;同時與其他食品安全領域信息系統對接,進行數據共享共建、互聯互通和數據交換。信息來源包括結構化和非結構化(包括文本、圖形、圖像、視頻和音頻等)信息資源,信息采集需要支持數據庫、系統接口、文件等多種采集方式。
數據治理部分通過數據標準管理、元數據管理、主數據管理、數據模型管理、數據質量管理和數據安全管理,實現數據生命周期管理,不斷提升食品安全追溯數據質量,通過將數據治理的成果應用于實踐,滿足所有利益相關者的信息需求,提高數據使用價值[8]。
2.3.1 數據標準管理
圍繞業務工作需求和業務系統建設目標,確立數據標準建設目標,即食品安全追溯數據標準體系是一個可參考的、面向未來數字化管理的標準體系框架,用于指導食品安全追溯數據規劃、數據治理和數據共享應用;運用一定的數據管理應用程序完成業務規則的梳理和數據定義的統一,包括數據編碼標準、數據元和數據接口標準等,為系統互聯互通提供標準支撐,為數據存儲、統一管理、共享交換和應用奠定基礎。
2.3.2 元數據管理
食品安全追溯元數據管理是使用元數據管理工具,對平臺接入的各個系統的數據信息、服務信息與業務信息進行采集,自動化抽取所有的業務元數據、技術元數據、管理元數據,實現平臺所有食品安全追溯信息資產梳理、展示及管理,并對業務系統和數據分析平臺的開發、維護過程提供支持,以滿足用戶的業務需求。其中,技術元數據包括庫表結構、字段約束、數據模型、ETL程序和SQL程序等;業務元數據包括業務指標、業務代碼、業務術語等;管理元數據包括數據所有者、數據質量定責、數據安全等級等。
通過元數據管理,構建完善的食品安全追溯數據說明書,提高數據的查找效率和可理解性,并通過可視化的方式展現數據上下游關系圖,降低數據問題定位的難度。
2.3.3 主數據管理
食品安全追溯主數據管理是通過主數據管理系統,運用相關的流程、技術和解決方案,創建并維護核心數據一致性、完整性、關聯性和正確性的有效管理過程,主要包括主數據標準管理、主數據生命周期管理和主數據應用管理。在識別食品安全追溯主數據時,先初步擬定主數據的范圍,再反向進行數據的梳理與調研,根據數據實體的歸屬業務,識別其在各業務系統的分布情況、數據結構組成以及理清其來源去向、質量情況等并進行評分,最后依據評分情況識別、驗證、確認出主數據[9]。
通過主數據管理,基于主數據管理標準和流程,識別食品安全追溯主數據,建立統一的主數據代碼庫,對主數據共享應用進行有效管理,確保主數據被準確、便捷地使用,采用源頭集中共享方式,為主數據在應用環節的一致性提供保障。
2.3.4 數據模型管理
數據模型管理主要完成對食品安全追溯數據的邏輯組織方式(數據的基本結構和結構的語義)管理。基于食品安全追溯數據的來源、類型、使用等方面的特點,在數據架構設計上,食品安全追溯數據中采用關系型數據庫與非關系分布式數據庫相結合的混合存儲模式。結構化數據(關系型數據)存儲針對各類結構化關系型數據采用傳統關系型數據庫和MPP架構的新型數據庫集群進行存儲。采用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐。非結構化數據存儲針對半結構化數據和非結構化數據,主要采用分布式文件系統進行存儲和計算。
2.3.5 數據質量管理
食品安全追溯數據質量管理是指按照數據質量要求監測和提高數據質量的過程,主要涉及數據質量規則制定及核查;建立及落實數據質量考核評價機制和數據質量問責的閉環機制。其中數據質量規則制定及核查包括建立數據標準和主要源系統的數據映射規則,設計編寫數據標準項的質量檢驗規則及核查等相關內容。建立及落實數據質量考核評價機制和數據質量問責的閉環機制包括數據質量考核評價指標設立、評估、反饋、整改及問責等內容。
2.3.6 數據安全管理
構建以數據與應用為中心,圍繞數據采集、傳輸、共享,到最終銷毀的全生命周期,由管理規范、安全技術等支撐的食品安全追溯數據安全防護體系,形成完備的數據安全技術策略和落地措施,對實際業務場景中數據泄漏以及敏感信息非授權訪問等風險形成有效的安全防護,保護數據安全。
圍繞提升食品安全追溯的業務質量和業務效率,開展食品安全追溯數據資源體系建設,主要涉及食品安全追溯數據資源庫建設和管理。食品安全追溯數據資源庫分為基礎庫、業務庫、主題庫和分析庫。
2.4.1 基礎庫
基礎庫一般指的是核心實體數據庫,基礎庫按來源可分為食品安全追溯內部數據和外部數據兩大類。內部數據(追溯基本信息)包括食品名稱、條碼、類型、規格、單位、保質期和生產企業等食品基本信息,以及生產日期、生產批次、生產數量和質檢報告等食品生產信息。外部數據包括營業執照信息、企業信用信息等行政審批信息,以及企業備案信息、食品備案信息、進貨信息、銷貨信息、食品追溯鏈條、從業人員信息等食品安全監管信息。
2.4.2 業務庫
業務庫主要是在業務開展過程中形成的生產庫數據,記錄和存儲業務處理的原始信息,是對重點食品追溯環節和監管環節處理過程所涉及信息的全面反映,是整個食品追溯的核心數據,主要包括支持食品追溯及其他相關平臺涉及的各類業務表和數據項。
2.4.3 主題庫
主題庫一般指的是某個業務主題數據,基于業務需求,構建用于決策支持的食品安全追溯主題數據,包括食品的生產、銷售、流通、質量監督檢查及企業綜合監管等相關的追溯和監管信息主題,為通過大數據、云計算等方式實現查詢分析、報表統計、數據展示、決策支持等提供數據支撐。
2.4.4 分析庫
分析庫指的是基于業務主題數據進行各類數據分析建模后形成的分析數據庫,按照用戶選擇的時間,對各類市場監管情況進行還原和切片,進行統計和分析,展現數據總體情況、分布情況以及規模分布情況,并采用多樣化的形式進行展現,如企業綜合評價、產業區域分布、高危企業分布等。
匯集各相關單位各類業務系統所產生的各類數據,如食品生產許可、食品經營許可、食品基本信息、食品生產信息、企業進貨信息、企業銷貨信息、生產企業信息、供貨企業信息和分銷企業信息等,通過數據治理和數據資源庫建設,為大數據應用提供數據支撐。
將各類業務數據與市場主體信息進行關聯,經科學分類、深度挖掘分析,支撐食品追溯、政務服務等大數據應用。同時,為保證大數據應用的信息資源具有良好的鮮活性,需要建立數據雙向同步更新機制[10]。為確保共享利用的信息資源準確有效,各部門需要及時將更新的業務信息同步到大數據應用系統,同時大數據應用系統還要將得到更新的業務應用信息及時同步到共享平臺,從而實現數據雙向同步互動。
本文將數據治理技術應用于食品安全追溯平臺建設,通過數據標準管理、元數據管理、主數據管理、數據模型管理、數據質量管理和數據安全管理為中心的數據治理體系建設,旨在提升數據質量、促進數據匯集共享和交換應用。但數據治理是一個復雜的系統工程,以數據治理為手段促進食品安全追溯數據的價值創造,還需要今后持續深入研究探索。