陳志軍 劉 艷 錢永忠
(1.中國農業科學院農業質量標準與檢測技術研究所,北京 100081;2.農業農村部農產品質量安全重點實驗室,北京 100081;3.國家農產品質量安全數據中心,北京 100081)
由于農獸藥殘留等潛在危害物在農產品中的含量水平往往低于儀器的檢出限,監測樣品的大多數檢測值被記錄為“未檢出”,農產品安全監測數據呈現出高度的稀疏性[1-2]。為避免因有效信息不足而無法獲取準確的決策參考信息,監測工作通常需要設置足夠大的樣品抽樣量[3-4]。然而,在國家層面上,受監測成本的限制,要保證品種、地區、季節等多個分析維度上都有足夠的抽樣量是十分困難的,往往需要將不同年份、不同地區、不同監測工作的多源數據融合在一起使用[5]。由于不同工作背景的差異性,多源監測數據是異構的,在產品、種類、檢測指標上一般有較大的差異,數據的融合使用需要一個有效的融合機制。
在安全性評價上,目前主要有兩種方法:一種是基于限量值進行定性判定,不論是微觀層面上對單個產品安全性進行評價,還是宏觀層面上對某一區域或某類產品總體安全狀況的評價,都基于合格率或超標率展開[6];另一種是引入膳食暴露評估模型,將監測數據與產品消費調查數據、居民健康調查數據進行關聯,通過計算機大規模模擬的方式對潛在危害物的健康風險作出評估[7-8]。上述兩種方法中,第一種方法的分析結果容易理解,但結果較為粗糙和保守,分析過程會有大量有效信息的損失,且消費者對定性評價結果高度敏感,容易引起消費恐慌;另一種方法需要跨部門數據的關聯應用,分析過程復雜,結果釋讀和理解困難,難以保證監管決策所需的時效性。
本文擬引入熵值的概念,嘗試構建一種以計算風險熵為目標的多源異構監測數據融合方法,并圍繞風險評估與預警的實際應用需求,并對基于風險熵的宏觀定量評價應用開展初步探討。
2.1.1 樣本矩陣
設某一監測工作共涉及N個樣本,k個農產品、p個指標,第i個農產品的抽樣量為。以單個樣本為行、指標為列,指標的檢測結果為元素,則某一農產品的監測數據可定義為如下監測矩陣:
上述Mi矩陣中的任意元素有2種可能的取值,一種為“ND”,意為“未檢出”;另一種為儀器檢測值。由于監測數據的高度稀疏性,Mi矩陣中元素取值的大多數甚至是全部為“ND”。
將所有產品的監測矩陣縱向拼接,則該項監測工作所得全部監測數據可定義為樣本矩陣M=(M1,M2,…,Mk)′N×p。為便于后續分析,可將M矩陣中的“ND”值替換為1/2 LOD 值(LOD 為儀器的檢出限)。為避免混淆,仍記替換后的矩陣為M。
2.1.2 多個樣本矩陣的融合
多源異構數據融合的目標是將多項監測工作的樣本矩陣融合為一個新的樣本融合矩陣M*。由于工作背景的不同,不同監測工作所關注的產品和指標有很大的差異,要構建新的樣本融合矩陣M*,需要從產品、指標兩個維度的融合入手,并考察融合后的產品抽樣量ni*。本文提出一種新的數據融合方法。
就產品而言,需要考慮一下三種情形:(1)產品名稱一致。這種情形下樣本數據可直接融合;(2)產品名稱有差異,但產品類別一致。對于這種情形可按特定分類標準將相同類別產品的樣本數據進行融合;(3)產品和類別均不相同。這種情況下可將小樣本產品歸類為“其他”,保留大樣本產品名稱。與情形(1)可以關注到具體產品不同,情形(2)和情形(3)在完成數據融合后,類別將作為后續數據分析與應用的關注點。按產品對數據進行融合后,需要考察抽樣量ni*。一般而言,需要根據分析層級確定最小抽樣量ns,并將ni*<ns的樣本數據歸入“其他”。這里的分析層級是指數據融合的工作層面,如在國家或省級層面開展監測數據的融合應用。關于這一問題,陳志軍等提出了一種最小抽樣量的設置方案[9]。對指標維度的融合,取各樣本矩陣中指標的合集作為樣本融合矩陣M*的列即可。但由于該合集的指標數p*≥p,樣本融合矩陣M*中的元素將出現第三種取值“NULL”,表示融合前的樣本沒有對該指標進行檢測。
上述數據融合過程完成后,總的抽樣量N*、農產品個數k*、指標數p*、單個產品的抽樣量ni*都將增大,這無疑大大增加了后續分析所需的有效信息量。但同時也不難發現,樣本融合矩陣M*仍然是稀疏性的,含有一定量的“NULL”值。為滿足分析的需要,我們需要構建一個以產品為行、指標為列、各行產品名稱具有唯一性的新矩陣。為實現這一目標,下文將討論特定“產品+指標”組合下風險熵的構建。
2.1.3 風險熵
熵(entropy)是一個熱力學概念,用于度量物理體系的混亂程度。熵值越低,體系內微觀粒子越活躍;熵值越高,體系內微觀粒子的運動越趨向靜止[10]。Shannon[11]借鑒了熱力學中熵的概念提出了“信息熵”,用以度量一個系統內信息的含量。本文擬基于熵與信息熵的基本概念,試述特定“產品+指標”組合下風險的度量問題。
為避免符號的混亂,仍設某一產品共采集了ni個樣本,每個樣本檢測p個安全指標,xlj為第l個樣本、第j個指標的檢測值(l=1,2,…ni;j=1,2,…p)。定義風險值:
(1)式中,slj為限量標準值,其量綱與xlj相同;rlj是無量綱的比值,是對第l 個樣本、第j 個指標潛在風險的定量度量。由此,可以定義風險熵:
上文中提及用1/2 LOD 值替換“ND”值,這是為了避免xlj和rlj取值為零,繼而根據(4)式計算的hlj取值為零,造成(2)式的計算無法繼續。
按照上述方法考察樣本融合矩陣M*中的所有“產品+指標”組合,即可獲得以風險熵值為元素組成的k*行、p*列風險熵矩陣E:
在上述矩陣E中,每一行代表一種監測產品(類別),每一列代表一個監測指標,所有元素都有明確的定量取值,可以很方便地對其進行進一步處理與分析。
2.1.4 風險熵的意義與基本性質
風險熵是基于風險值構建的,它反映的是某一安全指標在特定產品上的風險程度。由于大多數樣本的檢測結果是“未檢出”,大多數rlj的取值相同,這些相同的取值可作為背景值考察。當檢出樣本的數量增加、檢測數值增大時,取背景值元素的數量將減少,rlj的取值將增大,這時可視為該“產品+指標”組合中風險的混亂程度增加,有效的風險信息增加。由(2)式、(4)式可知,風險熵elj∈[0,1)。當“未檢出”樣本數越多時,風險熵的取值越小,越趨向于0;當全部樣本都為“未檢出”時,風險熵取最小值0,表示未發現有效風險信息,可認為該“產品+指標”組合處于絕對的安全狀態;當樣本間的風險值差異越大,該“產品+指標”組合的風險熵取值越大,更趨向于1。上述風險熵的意義與風險的基本認知是一致的,以農藥殘留為例:農藥施用量越大、施用的越頻繁,在單位時間內就越容易形成更大殘留量,造成風險熵的取值增大;反之,風險熵的取值將減小;若不對農產品施藥或是休藥期足夠長,則風險熵取值為0。
從上述風險熵的意義可以看出,風險熵與熱力學中熵的概念有很大相似性,兩者都是對體系混亂程度的度量。在對風險的定量方法上,風險熵對風險大小的定量與信息熵對信息量的定量也很類似。不難發現,與信息熵類似,風險熵也有三個基本性質:(1)單調性,未檢出的樣本越多,“產品+指標”組合攜帶的風險信息越低;(2)非負性,風險熵是一種較為宏觀的廣度量,非負性是一種合理的必然;(3)累加性,即考察多個安全指標時,總風險是可以用各個指標的風險熵之和來描述的,這也是一種宏觀的廣度量。
由上文可知,風險熵是基于融合數據對特定“產品+指標”組合的風險程度的度量,其本身的取值就可以用于該“產品+指標”組合安全性的定量評價,用以發現潛在的風險來源。此外,由于風險熵是可累加的宏觀廣度量,這為基于風險熵矩陣E開展農產品安全性的宏觀定量評價提供了可能。
綜合評價是一種提取對象主體(常為復雜系統)的本質屬性,對評價對象進行度量的方法,廣泛用于多屬性決策。郭亞軍[12]歸納了綜合評價的基本理論與方法,其評價過程主要包括評價指標的預處理、確定指標的權重、選擇和構造綜合評價集結函數等步驟。下文擬基于數據融合所得的風險熵矩陣E,按照綜合評價的流程嘗試在宏觀層面對農產品的安全性做出定量評價,并對各產品(類別)的風險值進行排序。
令Li為第i個產品的綜合評價值(可視為該產品安全性的宏觀評價指數),wij為第j個指標的權重,依照“線性加權綜合法”:
上式中,wij∈[0,1],且=1。權重wij取值的確定有多種方法,本文采用客觀賦權法中的熵權法[13]。
本研究所用的實例分析數據來源于農產品質量安全風險監測信息系統(www.lxjc.aqsdc.com),該數據涉及同一年度兩項國家層面的蔬菜中農藥殘留監測工作。按照NY/T 3177-2018的農產品分類規則[14],取最小抽樣量ns=500,數據融合前后的基本信息如下:

表1 監測數據與融合數據的基本信息Table 1 Basic information of monitoring and fusion data
設置P50、P80、P90、P95 百分位數為安全閾值劃分標準,圖2 展示了蔬菜中各農藥殘留風險熵取值的分布情況和安全閾劃分結果。從這一經驗分布可以看出,蔬菜中絕大多數農藥殘留處于相對安全的水平,約有95%左右的“蔬菜+農藥”組合其風險熵值在0.5以下。只有極少數比例的“蔬菜+農藥”組合的風險熵值接近于1,這為后續風險源的識別提供了便利。
由于風險熵值越大代表風險越高,故綜合評價值Li越高的蔬菜產品的總風險越高。表2 列出對所有農藥殘留進行加權后各蔬菜產品的綜合評價值及其風險排序結果。根據表的排序結果,芹菜、豇豆等產品的總風險較高,其風險值約比安全性較好的南瓜、金針菇等產品高出兩個數量級。
為探索潛在風險所在的具體“產品+指標”組合,可將風險熵值繪制成矩陣式熱力圖進行排查。圖3展示了蔬菜中各農藥殘留的風險熱力分布及其根據熱力分布獲得的產品聚類結果。由圖3 可知,通過聚類處理后,可將風險熵值和潛在風險較高的“產品+指標”組合集中聚攏在一起,這對風險管理上考察哪些產品中的哪些監測指標需要重點關注?單個產品中多個指標的混合問題是否嚴重?高風險指標主要分布在哪些產品中?等關鍵問題具有重要的參考價值。

表2 蔬菜中農藥殘留安全性的評價結果Table 2 Safety evaluation results of pesticide residues in vegetables
通過綜合評價值與超標率的比較可知,兩者在風險大小的識別上存在一定差異。圖4 展示了42 種蔬菜的綜合評價值與超標率之間的關系。按照常規的認知,如果綜合評價值與超標率對風險大小的識別能力較為一致,則圖4 中的點應該集中分布于灰色斜線附近。而圖4 中被圈出的點顯然離灰色斜線較遠。考察黃色圈中的蔬菜產品,發現這些產品中殘留的超標情況較為集中的分布與少數幾個農藥中,其他大多數農藥的風險值較低。考察紅色圈中的蔬菜產品,發現這些產品中殘留的超標情況較少發生,但是產品中多個農藥殘留檢出的情況較多。這說明,綜合評價值在宏觀水平上較好地克服了定性評價易受單個指標超標情況的影響、無法識別混合風險的不足,在對風險大小的識別上具有更高的準確性。
本研究提出了一種以計算風險熵為目標的數據融合策略,為多源異構監測數據的整合應用、解決單項稀疏型監測數據有效風險信息不足的問題提供了一個新的方案。風險熵是一種宏觀層面上對風險進行定量描述的指標,該指標的構建以限量標準為基礎,且指標值不帶量綱,可以避免將定性指標用于宏觀層面評價所帶來的風險識別不夠準確、評價結果容易引起消費恐慌等問題。但這一定量風險指標如何進一步論證與應用,是值得認真研究的問題。本文基于綜合評價理論與方法開展了農產品安全性宏觀定量評價研究,這僅是對風險熵分析應用的一種試探性嘗試,證明其分析過程在技術上有較好的可行性,尚有很多技術細節需要處理。如,風險熵是一個有值域的指標,對這類指標進行分析需要有合理的數據轉化方法,直接使用指標值進行分析可能會存在方法的適用性問題;綜合評價應用的關鍵是指標權重的確定和集結函數的選擇,近年來,DEA 法[15]、TOPSIS 灰色關聯分析法[16]、組合評價法[17]等方法不斷涌現,這些方法對農產品安全性評價的適用性如何,該如何評判和選擇,也需要深入開展論證。另外,風險熵矩陣E是一個信息完全的二維數組,對這類數組的統計分析方法很多,相信除綜合評價法外,尚有其他可用于農產品宏觀定量評價的方法。如何針對風險管理的需求,有針對性的設置分析主題,并在方法和信息化應用上有所創新,需要后續深入開展研究。
在工作層面上,農產品安全監測數據的融合與應用需要監管、抽樣、檢測等多個工作體系、多個工作層級的共同支撐,這對整個風險管理工作的組織性和協同性提出了更高的要求。在制度上建立一套可行的數據匯交、共享與應用的有效機制,應是開展農產品安全宏觀評價等風險大數據應用不可或缺的重要保障。
本文圍繞農產品安全風險管理需求,提出了一種以計算風險熵為目標的數據融合策略,并應用綜合評價理論與方法,開展了基于風險熵的農產品安全性宏觀定量評價研究。實例數據分析過程表明:風險熵能夠有效提取融合數據所包含的風險信息并對其進行定量;基于風險熵的安全性評價可以給出完整的風險閾值劃分與風險排序結果;風險熵對潛在風險的識別更為準確,可以避免定性評價對風險的過高或過低估計。這說明,圍繞風險熵的數據融合與宏觀定量評價在技術上是可行的,能夠為農產品安全風險管理工作提供更加準確的參考信息。