應軒宇 蔡強 紀偉



摘 要:為了探索數據可視化技術在食品生產經營主體風險分級中的應用,本文基于R語言及ggplot2、plotly、shiny等擴展包構建食品生產經營主體風險分級數據可視化系統,實現區域整體狀況、主體風險信息、風險識別、時間趨勢比較等的全面展示與人機交互。該數據可視化技術有助于動態、快速、直觀地開展食品生產經營主體的風險評價,強化風險表征,輔助監管決策。
關鍵詞:食品安全;風險分級;數據可視化;R語言
Application of Visualization Technology in Risk Classification of Food Operators Based on R Language
YING Xuanyu, CAI Qiang*, JI Wei
(Yangtze Delta Region Institute of Tsinghua University, Zhejiang, Jiaxing 314006, China)
Abstract: In order to explore the application of data visualization technology in the risk classification of food production and management entities, this paper builds a risk classification data visualization system for food production and management entities based on R language and ggplot2, plotly, shiny and other extension packages. To realize the comprehensive display and human-computer interaction of the overall situation of the region, subject risk information, risk identification, time trend comparison, etc. The data visualization technology is helpful to dynamically, quickly and intuitively carry out the risk assessment of food production and management entities, strengthen the risk characterization, and assist the regulatory decision-making.
Keywords: food safety; risk classification; data visualization; R language
食品生產經營主體風險分級是指市場監督管理部門結合食品生產經營者的食品類別、業態規模、管理能力、記錄情況等,按照指標量化評價,動態劃分食品生產經營者風險等級,統籌監管資源與能力,對食品生產經營者實施差異化、精準化監督管理,有助于強化食品生產經營風險管理,優化監管資源配置,科學有效地實施監管,落實食品安全監管責任,保障食品安全[1-2]。但食品安全風險因素復雜、生產經營主體數量多、情況參差不齊,導致食品安全數據量大、更新快、覆蓋面廣,分析難度較大。同時,地方監管部門專業人力相對有限,存在現有的信息呈現方式較為單一低效、食品安全后評價缺失等問題。2020年8月出版的《中國食品安全現狀、問題和對策戰略研究(第二輯)》中提到:要強化食品安全風險信息采集、統計、挖掘與應用,推動食品安全風險分級管理[3]。
近年來,數據科學與可視化技術的發展為風險分級數據的分析提供了新的思路和手段。在數理統計的基礎上,借助可視化技術加強信息呈現,直觀、快速、交互地對多維度、高復雜度、大數據量的風險分級數據進行生動、豐富、高效的展示,以深入探索單因素的分布及多因素間的關系[4]。
1 R語言與可視化技術
在公共衛生學界,R是一種流行的開源編程語言[5]。R語言提供數據科學工作的交互式環境,是各領域應用最廣的數理統計工具。得益于ggplot2等知名的數據可視化包,R語言的一個重要特征在于強大的數據可視化能力,可實現基于圖形語法(Grammar of Graphic,GoG)的數據展示[6]。利用可視化技術,將食品生產經營主體風險分級數據通過坐標軸、顏色、透明度、形狀以及大小等特征進行展示,可以直觀全面地描述風險的特征及分布、變化及相關關系,實現地方重點區域、重點行業、重點企業、重點風險項的識別、排序和自定義情景的風險比較,簡化風險評價的難度。通過動態數據可視化,可以更加有效地進行交互式數據分析。動態讀取數據并自由選擇所需展示的圖例類別以及所選用的可視化形式,更符合風險評價工作中探索性數據分析的需求。此外,通過R語言內嵌的數學模型還可以支持地方監管部門針對轄區內產生的生產經營檢查數據進一步開展數據挖掘,如主成分分析、關聯分析、差異顯著性比較等。這響應了原國家食品藥品監管總局于2016年印發的《食品生產經營風險分級管理辦法(試行)》[1]的信息化倡議,契合國家市場監督管理總局于2022年起草的《食品生產企業風險分級管理辦法(征求意見稿)》[2]的信息化工作要求。
2 方案設計
2.1 可視化方案
根據基層監管需求和分級評價經驗,設計區域整體狀況、主體風險信息、風險識別、時間趨勢比較共4個模塊,每個模塊均包括豐富的靜態圖形和基于HTML的動態交互式圖形兩種實現方式[7],以快速、動態、直觀地反映區域各類風險信息。此外,在各模塊中設計若干基于數據識別和用于自動數據篩選的選項按鈕,以實現自定義數據范圍的可視化。
2.2 軟件實踐
根據設計方案,基于R 4.3.0及RStudio 2023.03.0集成開發環境(Integrated Development Environment,IDE),結合ggplot2、plotly、shiny、rmarkdown等擴展包,開發支持風險等級自動計算的食品生產經營主體風險分級數據可視化系統并進行應用。
3 基于R語言的可視化技術在食品生產經營主體風險分級數據上的應用
根據原國家食品藥品監督管理總局于2016年印發的《食品生產經營風險分級管理辦法(試行)》[1]中用于各類業態靜態風險和動態風險量化評分表的數據結構,模擬生成同一縣域內食品生產企業、食品銷售主體、一般餐飲、中央廚房、學校食堂、單位食堂共6類業態92家主體在2019—2023年連續
5年的檢查和量化評分結果,并建立模擬數據庫,以支持實時數據的可視化。部分主體一年內還有多次檢查結果,以模擬不同風險等級主體每年不同的檢查頻次。
靜態圖形提供了特定的信息。例如,散點圖和地理空間分布圖中的點的大小反映了生產經營者的規模。交互圖則能在光標移動到特定位置時顯示名稱、評分等額外信息,并支持整體圖像或選定圖像區域的縮放。此外,點擊不同的圖例還可在交互圖中隱藏或顯示對應的類別,以幫助篩選和更直觀地傳遞信息。
3.1 區域整體狀況界面
食品生產經營主體風險分級數據可視化系統區域整體狀況界面見圖1,反映了縣域內各業態中不同風險等級生產經營者的占比情況及其隨年度的變化,并可選擇不同的自然年以切換數據。交互圖還顯示了不同業態或風險評分的生產經營者在縣域內的空間分布,比較了縣域內各生產經營者的靜態風險與動態風險,在時間維度上自動尋找風險評分變化最大的生產經營者并顯示其歷次檢查的變化情況。
3.2 主體風險信息界面
除了整體的狀況,還可以查看記錄內單一生產經營者單次檢查的風險信息,包括一級風險因子、主要二級風險因子。食品生產經營主體風險分級數據可視化系統主體風險信息界面見圖2。交互圖還記錄了所選生產經營者在歷次檢查中的得分變化。
3.3 風險識別界面
風險識別界面(圖3)利用交互的箱型圖整理了各風險項在區域內生產經營者中的評分均值、四分位數等,據此劃分嚴重項、重點項和非重點項,從而識別主要風險。交互式熱圖也顯示了各生產經營者在各風險項上的評分情況,便于用戶直觀地發現主要風險項和高風險主體。由此,可以觀察高風險項在區域內的空間分布和可能的集中情況。此外,該界面還提供探索性的相關性分析,包括可用于觀察高風險項與主要統計項關系的自定義散點圖、風險因子的自動主成分分析和相關矩陣等。
3.4 時間趨勢比較界面
時間趨勢比較界面實現了兩不同年度間數據的比較(圖4)。系統首先自動篩選出指定業態在指定兩年度間評分差異顯著的風險項,并以列表的形式給出。此時,交互式的密度圖和克利夫蘭點圖便可以分別比較指定風險項(如差異顯著項)在兩年度間的評分數據分布和各生產經營者的評分變化。各生產經營者風險項兩次評分的差值通過交互的排序柱狀圖進行統計,也反映在交互的空間分布圖上。
4 結語
數據可視化技術可以動態、快速、直觀地開展食品生產經營主體風險分級數據的多維度分析和展示,有助于強化風險表征、輔助監管決策,為解放地方監管人力、提高監管效能、強化食品安全風險管理提供技術和工具支撐。下一步,可以構建和應用更多的數學模型以支持數據分析,如機器學習,還應針對每一種分級信息的展示方式進行規范化及標準化研究,建立統一的數據字典和可視化標準。
參考文獻
[1]食品藥品監管總局.《食品生產經營風險分級管理辦法》(試行)[EB/OL].(2016-09-05)[2023-07-14].https://www.gov.cn/xinwen/2016-09/12/content_5107510.htm.
[2]國家市場監督管理總局.《食品生產企業風險分級管理辦法(征求意見稿)》[EB/OL].(2022-02-17)[2023-07-14].https://www.samr.gov.cn/hd/zjdc/art/2023/art_5d83a5a019fe45d7b2a2ee033995d277.html.
[3]龐國芳,孫寶國,陳君石,等.中國食品安全現狀、問題及對策戰略研究(第二輯)[M].北京:科學出版社,2022.
[4]崔堯,李建軍,叢芳,等.基于R語言的數據可視化技術在脊髓損傷康復中的應用[J].中國數字醫學,2020,15(10):85-87.
[5]CORE TEAM R.R: a language and environment for statistical computing[J].Science and Education,2015,3:121-130.
[6]HADLEY W.ggplot2[J].Wiley Interdisciplinary Reviews: Computational Statistics,2011,3(2):180-185.
[7]H?JSGAARD S.Graphical independence networks with the gRain package for R[J].J Stat Softw,2012,46:1-26.