陳紅倩 溫玉琳 楊倩玉 李 慧
1(北京工商大學計算機與信息工程學院食品安全大數據技術北京市重點實驗室 北京 100048)2(北京聯合大學管理學院 北京 100101)
食品安全問題目前是中國最重要的問題之一,食品安全主要由生物因素和化學因素引起,其中化學因素便涉及到農產品中的農藥化學污染殘留,簡稱為農殘。目前市面上公布的蔬菜農殘檢測結果主要來自于政府、第三方檢測機構和媒體等相關部門。現有的Excel、Tableau等數據分析軟件,雖然可以很好地通過數學運算與圖形結合的方式完成數據分析工作,但對于沒有專業知識的人來說難以迅速上手,屬性較多操作復雜,且數據量不夠大。采用數據挖掘的方式需要在前期對數據預處理做大量的工作,但大部分分析都只是針對一種MRL進行分析,無法進行綜合比較和數據評價。此外,針對不同地區,對采樣策略、快速采樣決策,以及實現整體性食品安全管控,還未有詳盡的支持。
本文針對專業人員和非專業人員設計了一個基于分類統計的多視圖聯動農殘可視分析系統。采用了地理數據可視化技術和層次數據可視化技術,直觀地展示了農產品的所屬地區、產品分類,可以對大量數據進行概覽,提高數據分析的效率。并利用多重放射環的方法快速將農產品按照毒性進行分類,設計了一系列交互手段去支持用戶根據選擇年份、地區來查看農殘污染情況,實現多MRL標準對比。同時可以進行綜合分析和數據評價,快速獲知哪些地區的農藥殘留量普遍超標或有高劇毒農藥檢出,獲知哪些地區的農產品需要重點關注,為市場管理機構提供決策支持。
本文的主要分析任務如下:
(1) 能夠顯示某一地區的采樣農產品種類及超標樣例數,并進行多國MRL標準對比。
(2) 能夠得知某一毒性下的采樣農產品種類及樣例數,并顯示特定采樣農產品殘留農藥的品種、檢出頻次等。
(3) 能夠根據篩選,對多地區高效進行農藥殘留對比分析。
在食品安全研究領域中,國內外很多專家學者在食品安全領域進行了不懈的努力,并取得了很多重要的成果。目前針對農殘檢測數據的分析,主要有以下幾類研究:(1) 借鑒領域上專家學者的經驗知識來進行數據分析,這種手段雖然具有快速性,但是無法保證其準確性和充分性。(2) 一些領域專家通過統計分析方法進行數據分析,但這種分析數據量小,只能分析概況,無法針對特殊內容進行細節分析。(3) 一些專家學者使用一些經典的數據挖掘方法來對食品安全數據進行檢測與分析,但由于食品安全數據的特殊性,這些方法有時會得出一些錯誤結論。
數據可視化以更直觀的方式表達數據信息,已被可視化領域眾多專家證明其為一種高效獲取信息的方法,文獻[1]指出“可視化技術是數據分析與信息獲取的重要手段”。文獻[2]指出將專家知識引入數據挖掘過程,從而在可視化結果中尋找數據可能存在的模式。而在可視化技術方面,文獻[3]提出目前數據可視化主要集中于層次數據和高維數據的研究。本文結合可視化技術,提出了一種高效的針對農殘檢測數據的多MRL分析系統,農殘檢測數據具有顯著的層次結構,如農產品的分類、農藥的分類等。同時農藥檢出分布在國家不同區域,還需考慮地理數據可視化技術。因此將從兩個方面討論與該可視化系統的相關工作。
層次數據是一種常見的數據類型,注重表達數據間的層次關系。層次關系主要分為包含和從屬兩類,也可以表示邏輯上的承接關系。層次數據可視化主要分為三類:
(1) 節點-鏈接法 這種方法清晰直觀,擅長表達層次結構,但不利于廣度和深度相差較大時的布局,代表技術有徑向樹[4]等。
(2) 空間填充法 空間填充法相對節點-鏈接法弱于層次結構的表達,提高了空間利用率。空間填充法主要分為樹圖[5]和徑向布局[6]兩類典型方法。樹圖采用矩形表示節點,通過矩形的嵌套表達父子關系;徑向布局類似于節點-鏈接法里面的徑向樹,但其采用放射環填充的形式改善了空間利用率,并且比樹圖更注重層次關系。
(3) 混合布局 節點-鏈接法和空間填充法各有優缺點,將兩者組合可以結合雙方的優勢。這種組合設計的方法實現了可視化的多樣性,將方法的優勢最大化,但也會造成可視化結果的復雜化。如文獻[7]提出的顯性+隱性的布局方法、文獻[8]提出的Flexible Trees布局。
地理數據描述了一個對象在真實空間中的位置,目前最傳統最常用的地理數據可視化技術分為以下三類[9]:
(1) 點數據可視化 常用的點數據可視化方法是將對象根據坐標直接標識在地圖上,例如文獻[10]面向世界各國貿易數據設計了基于點的地理數據可視化,文獻[11]設計熱力圖展示美國冠軍在Twitter上發布的推文數量信息等。點數據可視化可以在有限的空間中展示大量的信息。
(2) 線數據可視化 繪制連線的時候通常采用不同的可視化方法來達到最好的效果,減少線段之間的重疊和交叉,增加可讀性。當數據量太大時,會造成嚴重的視覺混淆,如果是為了理解數據整體模式,則可以采用適當的簡化方法,例如文獻[12]面向大量的船舶運輸軌跡利用捆綁技術設計了基于線的地理數據可視化。
(3) 區域數據可視化 可視化區域數據的目的是為了表現區域的屬性,最常見的方法就是顏色映射值。文獻[13]針對傳統地圖的缺陷設計了貝葉斯可視化方法,分析了加拿大各省的犯罪情況。
農殘檢測數據主要包含采樣點、農產品、農藥、農殘檢測值四大類數據,是典型的層次地理型數據。從分析各采樣點農產品中是否檢測出農藥的實際需求出發,需要針對各個采樣點采集的農產品,每種農產品采樣的多個樣本,每個樣本的農藥檢出情況和農藥的檢出頻次,檢出農藥殘留值與農藥毒性等相關信息進行深入的對比分析。除此之外,應使用不同國家或地區組織的MRL標準數據對采樣點的各項數據進行統計對比,判定劃分出超標與未超標的農產品,以提高判定的全面性。
單區域數據可視化方法原理如圖1所示,它將根節點設計為餅圖置于中心圓環,用以區分無檢出、中低毒檢出和高劇毒檢出三大類,分別映射為A、B、C三個區域。外射的同心環以圓環向外輻射的方式逐級表達層次關系而并非同級關系,采用堆疊圖的形式表示未超標/超標數據的占比。

圖1 單區域數據可視化示意圖
檢測結果分為無檢出、中低毒檢出和高劇毒檢出三大類,在本文中通過圖1中的A、B、C三個區域進行展示。
2.1.1 內徑映射與計算
A、B、C區域半徑為整個區域內徑,內徑映射為單采樣點的采樣樣例數,根據本文數據集,內徑映射如下所示:

(1)
首先將全部采樣點的樣例數作為一個集合Num,計算集合最大值Num.max和最小值Num.min;然后根據實際繪制效果,自定義映射區間[min,max];最后根據式(1)將內徑映射為數值radius.in。A、B、C三區分別代表了無農藥檢出、中低毒農藥檢出和高劇毒農藥檢出。
2.1.2 角度映射與計算
將無農藥檢出類、中低毒農藥檢出類、高劇毒農藥檢出類映射為圖1中的A、B、C三區,并依次計算占比。圓心角的計算如下所示:
(2)
式中:n為檢測種類數;xi為第i種檢出類的樣例數。θi為起始角度開始到第i個區間的結束角度,i取值范圍為[1,n],起始角度默認為0。
餅圖A、B、C區外的映射圓環,根據根節點餅圖的區間數,各分區餅圖外圈圓環的環寬度值映射為三種情況:
(1) 無農藥檢出類(圖1 A區)無承接屬性,所以對應外圈環寬度為0。
(2) 中低毒農藥檢出類(圖1 B區),按其評估值映射為B1區的單層環寬值,該評估值選擇為農藥殘留量的平均值。B1區的計算如下所示:
(3)
式中:[min/2,max/2]為B1區的單層環寬值,其值根據內徑映射區間決定,將全部采樣點中低毒農藥類評估值作為一個集合Low,Low.max為集合最大值,ring.width為B1區單個環寬值,radius.out為多重放射環外徑。
(3) 高劇毒農藥檢出類(圖1 C區),將外圈圓環的環寬映射為檢出頻次,根據檢出頻次所在區間決定C1區環寬。映射方法為將B1區的外徑由內到外劃分為6個分段,每個分段映射為一個檢出頻次區間(具體細節見2.3節)。
為可視化多種MRL檢測標準下的超標/未超標判定結果,將中低毒農藥檢出分類(圖1 B1區)的外徑由內到外劃分為6段:第一分段對應的單層圓環表示中國的MRL標準下的判定結果;第二分段對應的單層圓環表示歐盟的MRL標準下的判定結果;第三分段對應的單層圓環表示日本的MRL標準下的判定結果;第四分段對應的單層圓環表示中國香港的MRL標準下的判定結果;第五分段對應的單層圓環表示美國的MRL標準下的判定結果;第六分段對應的單層圓環表示CAC的MRL標準下的判定結果。判定結果中未超標/超標占比將對應圓環逆時針分割。分割計算如下所示:
(4)
式中:m為分割區間數,只有超標與未超標兩種情況,因此范圍為[1,2];yj代表第j個分割區間的樣例數,取值范圍為[1,m];φj為起始角度到第j個分割區間的結束角度;θi-θi-1為中心餅圖中第i個扇區的圓心角。
將餅圖的未檢出類、中低毒農藥檢出類、高劇毒農藥檢出類分別對應不同顏色,第二重環采取24顏色環的著色方式,同一圓環采用同一色系。在同一圓環中,為增強可讀性,超標部分使用深色著色,未超標部分不著色。
基于分類統計的農殘檢測數據可視分析方法能從信息可視化的角度將各采樣點、樣品農產品、檢出農藥和檢出農殘限量值展現在同一頁面中,并通過設計的交互手段輔助用戶進行深入式的探索分析。在對傳統可視化方法進行比對后,本文基于多重放射環的標準對比方法,結合層次數據可視化方法和地理數據可視化方法針對這四大類數據進行分類統計,設計并實現了該農殘可視分析系統。系統界面圖如圖2所示。

圖2 系統界面圖
(1) A區 數據篩選包括時間篩選、地點篩選、點篩選等。本文農殘檢測數據集包含了2012年到2016年5個批次的采樣數據,每年都將對不同地區的各大超市進行采樣。針對地區的篩選,系統提供從全國到各城市再到具體市縣的選擇,方便用戶快速指定感興趣區域。點篩選功能提供對地圖層采樣點的篩選,可以在地圖層繪制多邊形或矩形選擇點數據,通過點篩選可實現多采樣點農殘污染評估對比。
(2) B區 地圖層是為了輔助地理位置信息的展示,結合人類的認知習慣,方便用戶使用。地圖層通過Arcgis提供地圖底層,并且由leaflet插件提供API實現點數據的交互功及功能控制。功能控制按鈕與視圖協同展示,極大地利用了空間。
(3) C區 餅圖是該系統的輔助視圖。當用戶與地圖層點數據交互時,系統將會過濾出該位置點的農殘檢測數據集,通過選擇C區某一采樣農產品類別,將顯示該類別下采樣農產品分類樣例數占比,從而輔助用戶了解基于農產品分類的采樣情況。當數據集無某一采樣農產品采樣時,將提示用戶無對應農產品類采樣,當用戶未與地圖層點數據交互時,將提示用戶選擇感興趣的采樣點。
(4) D區 當與地圖層點數據交互后,將過濾數據集通過多重放射環布局顯示在D區。由于單采樣點屬性展示不涉及多點對比,應將冗余屬性去除,簡化可視化編碼。多重放射環的內徑和外徑不再映射采樣量和中低毒農藥檢出的評估值,而是固定值。其次A1區不再通過顏色映射高劇毒農藥的評估值,而是固定顏色。B1區原本采用堆疊圖展示兩類判定結果,考慮該部分重點關注我國超標農藥檢出樣例數占比與其他國家的差異,因此去除了未超標農藥檢出樣例數占比結果,從而提高了用戶分辨率。同時D區對應的圖例部分將根據交互選擇的結果更改樣例圖標,幫助用戶記憶交互過程。
(5) E區 該部分同C區,是系統的輔助視圖,也是D區交互的結果。顯示某檢出類下采樣的采樣農產品類別,通過選擇某一類別,用玫瑰圖展示該類別下各類農產品采樣樣例數占比。
(6) F區 該部分支持用戶進行單采樣點圈選和多采樣點圈選兩種方式。當進行單采樣點圈選時,通過與玫瑰圖的交互,用散點圖加直方圖顯示某類農產品下具體采樣的農產品項、檢出農藥物、農藥殘留值屬性、農藥檢出頻次。其布局效果如圖2中F區所示,其中坐標軸橫軸方向表示某一類檢出類別下的檢出農藥名,坐標軸縱軸方向表示某一檢出類別下采樣的農產品名,軸上的氣泡表示該位置點對應農藥的檢出,通過氣泡半徑映射農藥殘留值。疊加在氣泡圖上方的直方圖表示對應氣泡圖橫軸農藥的檢出頻次。
(7) G區 顏色圖例。
(8) H區 各部分快捷菜單。
本案例通過A區篩選出2016年全國農殘檢測數據集,針對該數據集分析結果如下:
當用戶選取多個采樣點時,通過F區展示多采樣點對應的多重放射環矩陣視圖,效果圖如圖3所示。此處多重放射環為有對比展示,需要加上采樣量、中低毒農藥平均檢出含量、高劇毒農藥平均檢出含量。該部分主要用于多采樣點的數據對比及農殘污染評估。

圖3 多重放射環矩陣視圖
通過圖3可以看出,本案例共選8個采樣點,均為北京市地區。從多重放射環半徑代表的采樣量看,超市2和超市8相對其他要少;從多重放射環外徑代表的中低毒農藥平均殘留量看,超市6較少;從餅圖部分看各檢出類樣例數占比,發現大部分超市農產品都有農藥殘留,其中超市3和超市8無農藥檢出樣例數占比較其他要多,超市8高劇毒農藥檢出樣例數占比相對較少。從多國MRL標準超標情況來看,歐盟、日本均有超標農藥檢出,且超標檢出樣例數占比均較大,而超市2、超市4、超市5、超市7大部分MRL標準下均有超標。從高劇毒農藥平均檢出含量值來看,超市5較少,從高劇毒農藥檢出頻次來看,大體一致。
D區高劇毒檢出樣例數大約占據總樣例數的25%,中低毒檢出樣例數偏多,只有較少的農產品樣例未檢出農藥。如圖4所示。

圖4 單采樣點放射環
通過C區餅圖發現該采樣點蔬菜類有9種采樣,其中葉菜類蔬菜占比較大,其他相對均衡。如圖5所示。

圖5 采樣農產品采樣樣例
通過點擊D區中低毒農藥檢出類發現E區只有蔬菜類有中低毒農藥檢出,而蔬菜類中有9種含有中低毒農藥檢出,其中葉菜類蔬菜檢出占比較大,其他相對均衡。如圖6所示。

圖6 中低毒農藥檢出類采樣農產品
通過案例分析,本系統很好地完成了預期的分析任務,極大地提高了分析效率。
本文針對農殘檢測數據集,利用層次數據可視化方法和地理數據可視化方法,實現了基于單采樣點的數據分類統計,并根據數據分層結構。針對不同的數據特征,呈現數據的層次關系、時間趨勢、分類對比,提出了針對多判定標準的對比可視化方法。同時設計并實現了基于分類統計的農殘檢測數據可視分析系統,幫助用戶篩選感興趣的數據集。針對目標區域引導用戶從整體到部分對數據進行全面、深入的分析,并根據可視結果評估農殘污染程度。設計了一個直觀可交互的農殘可視分析系統,利用多視圖協同的模式引導用戶概覽農殘檢測數據的檢測及判斷結果,并且還可針對具體的農產品、農藥的檢出細節查看,同時給出污染評估指標,評價地區污染程度。通過分類使人們更容易理解數據,通過簡單直觀的方式使更多的人能發現數據的潛在價值。
在未來的研究過程中,將引入焦點+上下文技術,輔助用戶展示重點關注的內容,凸顯用戶感興趣程度,展示更多信息。
注: 本文中所使用的農殘檢測數據內容已進行脫密混淆處理,非真實數據,請勿直接采信,但不影響闡述數據分析過程。