王小藝,李柳生,孔建磊,*,金學波,蘇婷立,白玉廷
(1.北京工商大學計算機與信息工程學院,北京 100048;2.北京工商大學 北京市食品安全大數據技術重點實驗室,北京 100048)
國以民為本,民以食為天。作為人類賴以生存的重要商品,糧食安全問題是關系國計民生的戰略問題,既影響著國家主權、經濟和社會的穩定發展,又影響著人民身體的健康。然而近些年糧食安全問題時有發生,糧食供應從原材料到最終商品,需要經過種植收購、生產加工、倉儲運輸、銷售消費等多個環節,是一個是多維、復雜、耦合的過程[1]。其中任何一個環節都存在不同類別和程度的危害物風險因素,且每個因素受到食品多樣性、數據多源異構、地區分布差異、時間變化性等影響,這直接導致糧食供應鏈安全得不到保障,自然產生和非法添加的食源性危害物如重金屬、農藥殘留、食品添加劑以及衛生條件控制不當造成的微生物、真菌毒素污染,嚴重威脅著群眾的身體健康和生命安全[2-3]。為有效控制糧食供應鏈中每個環節的潛在污染源,預防和減少食源性風險威脅,風險預警正逐漸成為強化糧食供應鏈安全體系的有力保障[4]。所謂預警是對潛在危害物及可能產生風險信息進行動態監控、風險評估和綜合分析判斷的結構化決策過程,在全面收集預警指標數據、匯總多因素風險信息基礎上,通過對相關數據分析、信息歸納、知識推演等處理,去偽存真,判斷事物發展的走勢,進行合理預測,提出不同警情的對策建議和反饋[5]。構建合理有效的糧食供應鏈風險監測與預警體系,在最大范圍內有效防控風險,降低食品安全事故的發生概率,已成為當前亟待解決的問題。
目前國內外學者在食品風險預警領域做了很多研究,總體而言,食品安全預警系統可分為信息采集系統、預警分析系統、應急防控系統3 個主要部分,其中預警分析系統是整個食品安全風險預警系統的關鍵和核心。典型如歐盟批準的食品飼料快速預警系統,在危害分析關鍵控制點標準下構建,重點注重最相關的高風險危害物。而世界衛生組織建立的全球環境食品污染監測和評估系統,對全球26 個國家進行長期不間斷微生物危害事件及疫情監控、動態監測和預警潛在危害風險[6]。近些年,我國食品安全監測和防控系統也在迅速發展。農業農村部通過無公害農業與食物安全預警系統對食源性農藥殘留、重金屬超標監測,向全國發布農產品警情。國家市場監督管理總局為有效應對食品安全問題建立了包括信息處理系統、預警分析系統和快速反應系統在內的預警體系[7]。國家食品安全風險評估中心構建了涵蓋全國31 個省份的全國食品風險監測和預警系統,涵蓋生物性危害(細菌、病毒和寄生蟲)、化學危害和微生物等各類危害物,開展食品暴露監測及食源性疾病監測和調查工作[8]。雖然目前中國已建立諸多食品安全風險監測與預警防范體系,但仍存在較多問題,如風險監測與預警脫節、供應鏈間危害因素遷移規律不清等,特別是預警方法不先進問題更為突出,導致難以做到與食品監測信息系統的連接,無法真正地做到對出現的食品安全風險提前預報[9]。
目前食品風險預警方法主要分為定性分析[10]與定量數據挖掘[11]兩種。定性分析方法依托從調查問卷、專家咨詢、政策與理論分析中得到數理統計數據,抽取關鍵危害因素及潛在關聯,在食品管制、食品安全風險態度分析、食品安全問題認知度等研究中很常見;但其依賴的數據存在主觀性,掩蓋了危害物在供應鏈環節內耦合作用,容易導出違背事實規律的偽結論。而基于定量數據挖掘的預警方法,從大量的食品安全監督抽檢數據入手,在生產、流通以及消費環節采集超標數值、不合格率等信息,實現食品安全隱患評價和預測預警[12]。常見數據挖掘方法有貝葉斯網絡[13]、關聯規則[14]、支持向量機[15]、決策樹[16]、誤差逆傳播(back propagation,BP)神經網絡[17]等。Wang Jing等使用模糊神經網絡模型來預測并描述食品在各環節中的微生物數量,并以此作為參考來預警微生物風險,實現食品安全動態可追溯監管[18]。Wang Xueli等根據國家食品安全風險評估公布的湖南省21 866 例食源性疾病,就診病例中確診病例21 226 例這一數據,構建了貝葉斯網絡模型預測每日真實患者數[19]。Zhu Changxing等為了克服傳統食品風險預警模型在假設、樣本量、泛化能力等方面的不足,將支持向量機分類理論與預警理論相結合,提出了一種食品安全預警模型[20]。王霞利用2010年食物攝入量數據構建了BP神經網絡風險預警模型,預測2011年的食物攝入量[21]。這些方法科學有效地把監督抽檢的數據轉化為風險的量化分級,但糧食供應鏈中環節眾多、危害物來源各異,現有數據挖掘方法需要依賴大量人工干預實現指標量化和權重分配,不利于日常食品安全預警應用和管理[22]。而且已有研究只是在當前數據出現超標、數據變動量超標時根據統計值做出預警,適用于小數據量預警處理,只在風險發展到臨界點或即將到臨界點時才呈現警示結果,不具備早期預測未來風險的預警本質,無法從海量多維異構數據中挖掘糧食供應鏈危害物風險預警作用機理,導致預警準確率低、人力工作量大、監管實施難等問題[23-24]。
相比傳統預警方法存在的受供應鏈環節、危害物遷移擴散等眾多因素的影響而經常呈現出非線性、波動性大等問題,深度置信網絡(deep belief network,DBN)應用多層次結構模擬大腦認知神經系統,將數據間復雜關系抽象為特征或屬性類別等高層表示[25],迅速得到了廣大學者的高度關注,其通過大樣本訓練獲得系統隱含規律,不需要嚴格的輸入值間、輸入輸出值間假設關系,同時能夠以區間數、模糊數等方式處理定性信息,目前DBN在產量預測[26]、水稻病害預警[27]、儲糧蟲害預警[28]、藥品鑒別[29]等方面應用也得到了充分的肯定,能夠在系統內部狀態未知條件下實現基于現有定量定性知識的狀態預測、預警。因此,針對糧食供應鏈危害物風險分級預警問題特點,本研究在分析中國質監部門實際抽檢數據及預處理方法基礎上,結合多類模糊支持向量機(multiclass fuzzy support vector machine,MFSVM)和DBN模型優勢,自適應分析糧食供應鏈中多維異構抽檢數據,構建基于DBNMFSVM的糧食供應鏈危害物風險分級預警模型,從而達到充分掌握供應鏈內各類危害因素遷移變化規律的目的,使危害物風險預警更加準確。
本研究以全國主要糧食生產地區的主要危害物進行實例分析,搜集整理國家糧食局、國家市場監督管理總局等網站公布的抽檢數據,按照重金屬、霉菌毒素、微生物、食品添加劑、農藥殘留等危害物類別及供應鏈環節來源進行分類整理和預處理,收集整理到2013—2018年的糧食及其加工品的抽檢數據,包括除港澳臺、西藏、新疆、內蒙古、寧夏和甘肅在外的26 個省份,涵蓋中國糧食食品的主要產區和消費大省,亦屬于人口密集地區。糧食食品種類由大米、大米加工品、小麥粉、小麥粉加工品、其他糧食加工品組成,這5 類產品涵蓋了中國消費者最主要的糧食結構。抽檢數據整體反映了各省份地區糧食供應鏈中危害物的類別、來源以及有關危害物的信息,每個數據樣本由多個因素組成,包括:產品名稱、標稱生產企業及被抽樣企業信息、抽樣環節及場所、生產及抽檢日期、食品分類、抽檢項目及結果、標準值等。
鑒于糧食供應鏈安全受到社會、經濟、監管、危害物毒性等眾多因素影響,且供應鏈涵蓋從種植、生產加工、倉儲物流等眾多環節,以及含各類商場、超市及其他消費場所在內的銷售消費環節,這些環節均可能出現安全隱患和風險因素。因此,本研究深入整理收集糧食供應鏈相關信息,通過對文獻、食品行業專業網站、新聞媒體信息的分析,得到匹配食品抽檢數據的糧食供應鏈主要危害物計量統計信息。其中,參考國家統計局的第六次全國人口普查結果和《中國統計年鑒》獲取糧食相關人口數據和消費數據;致病菌的污染情況、危害程度和流行病學數據則來源于《中國衛生統計年鑒》、《中國食品工業年鑒》。此外,其他信息還包括調研信息,包括統計中國食品安全網等網站公告的糧食安全事件情況,并采用調查問卷的方式,共邀請來自高等院校、食品藥品監管部門、食品行業的專家及從業人員進行調研論證,發出共回收有效問卷553 份,獲取蘊含專家綜合分析及預警知識的調研問卷信息。
本研究在分析不同省份、不同時間的食品抽檢數據基礎上,結合計量統計信息和調研問卷信息輔助評價,構建多維層次指標體系,對糧食供應鏈危害物進行分級量化分析,初步評定出各類危害物風險等級。本指標體系分為14 個一級指標和34 個屬性指標,如表1所示,每個一級指標由其多個屬性指標加權求和得到,而上層評價指標需通過下層評價指標的評價結果反映出來,即涵蓋定性指標,如社會關注度、危害程度、監管可及性等,同時兼顧定量指標,如全省年度總產量、糧食生產及消費價格、國家標準限定值等內容。各指標權重賦值由高等院校、食品藥品監管部門、食品行業的專家及從業人員綜合評價得出,伴隨調研及問卷實施過程獲得。根據專家們綜合評定,對各樣本數據中危害物進行風險分級,共細分出8 個等級:安全、較安全、預警、較低危險、中危險、較高危險、高危險和超高危險[30]。綜合抽檢數據、計量統計數據、調研數據等構建多維異構數據集合,本研究在分析多維異構食品抽檢數據的基礎上,將糧食供應鏈劃分為生產、流通、消費3 個主要環節,以糧食供應鏈中的重金屬(鎘、鉛、汞等)、霉菌毒素(黃曲霉毒素、脫氧雪腐鐮刀菌烯醇、赭曲霉毒素、玉米赤霉烯酮等)、農藥殘留(馬拉硫磷、戊唑醇等)以及其他主要危害物為研究對象,這些危害物反映了糧食供應鏈中主要危害物大類,會從各個方面影響人的身體健康。

表1 糧食供應鏈危害物數據結構Table 1 Hazard data structure sampled in cereal supply chain
經過上述過程,整合不同來源、不同類型的數據,形成糧食供應鏈危害物數據集,共有26 285 個數據樣本。將數據集劃分為訓練集合和測試集合,劃分比例為80%∶20%。所獲得數據呈現多源頭、多屬性、強關聯等特點,區別于圖像、視頻、文本等非結構化數據,每個數據樣本由一行多列形式記錄,存儲在二維表中,除了整數、浮點等數值型定量特征,還包含非數字型定性特征,比如中文、英文字母、特殊符號等,是典型的多源異構的數據,涵蓋了糧食供應鏈各環節中不同危害物潛在風險因素。
本實驗基于DBN-MFSVM的等級預警模型(圖1)架構,其包含3 個步驟:1)將糧食數據中的類別特征進行嵌入編碼,再對數值型特征進行歸一化處理,最終預處理為結構化數據。2)使用DBN對結構化數據進行特征提取,挖掘供應鏈危害物風險變化內在關聯,形成出高維度表征的特征集合。3)以高維特征為輸入,應用MFSVM進行分類器參數優化,準確、高效地實現各主要危害物風險分級預警。

圖1 DBN-MFSVM模型Fig. 1 DBN-MFSVM model
1.2.1 基于嵌入歸一化的數據預處理
輸入n個訓練數據Xn={x1,x2, ...,xm}預警等級yn。在多維異構食品非結構化數據中,特征有數值型特征和中英文類別型特征。但計算機只能處理數值型數據,沒法處理類別型數據。因此,需要對各種類別特征進行相應的編碼,進行定性指標的定量化處理,本實驗使用標簽編碼和獨熱編碼相結合的編碼方式,先應用標簽編碼將分類特征轉化成連續的數值型變量,繼而應用獨熱編碼有效增加額外列屬性,讓0和1出現在對應的列分別表示每個分類值有或無。將樣本中某個特征xm進行標簽獨熱編碼,如式(1)所示。

式中:δxmα是克羅內克函數,α與xm是兩個輸入,當α=xm時δxmα為1,不相等時δxmα為0。如果N是特征xm可能值的數量,則δxiα是長度為N的向量。舉例說明,如抽檢地分別為北京、山西、陜西,經過編碼后表示為“北京100,山西010,陜西001”,這樣消除了數值大小關系比較。但本數據中抽檢地有26 個省份地區,直接編碼會導致維度急劇增加,產生大量冗余的稀疏矩陣,加重了預警系統計算量。因此,在本實驗中采用嵌入方式進一步挖掘不同維度之間的內在關系,對特征進行神經網絡嵌入,如式(2)所示。

式中:ωαβ是連接獨熱編碼層與嵌入層的權重;β是嵌入層的索引,映射的嵌入只是這一層的權重。如此,所有特征被嵌入到一個低維空間,每一個n×m的矩陣M都定義了Rm到Rn的一個線性映射:對應矩陣M中的一行,如式(3)所示。

使用嵌入來表示所有類別特征之后,所有嵌入層和所有連續變量的輸入被連接起來,合并的圖層被視為神經網絡中的普通輸入圖層,可以使用標準反向傳播方法訓練整個網絡,如此可以了解每個類別的內在屬性,更深層地挖掘各特征組合的內在關聯。鑒于各個特征屬性定義及取值范圍均不同,為了消除屬性之間的量綱影響,需要對各屬性進行歸一化處理,使得不同屬性之間具有可比性。對數值類型的特征進行線性函數歸一化,將嵌入編碼的數據對進行線性變換,將所有特征值范圍定義在[0,1]內,實現對原始數據的等比縮放,為后續深度置信網絡訓練提供底層特征集合。歸一化公式如式(4)所示。

式中:X為原始樣本特征值;Xnorm為歸一化后的特征值,xmax和xmin分別為該特征中的最大值和最小值。
1.2.2 DBN特征提取
本實驗所使用的DBN是由多層RBM和一層BP神經網絡組成,訓練過程主要包含預訓練和微調2 個階段。
預訓練階段:使用對比散度算法,逐層來調整連接權重和偏置,首先訓練輸入層和隱藏層之間的參數,把訓練后得到的參數作為下一層的輸入,再調整該層與下一個隱藏層之間的參數,然后逐次迭代,完成多層RBM的訓練。RBM由可見層和隱藏層構成的兩層結構,可見層和隱藏層又分別由可見變量和隱藏變量構成。本實驗中的DBN由一個可見層v和兩個隱藏層h1、h2構成,相鄰的兩層即是一個RBM,則v-h1,h1-h2構成了兩個RBM,具體見圖1。
v表示所有的可見層單元,其輸入為嵌入歸一化后的數據特征;h表示所有隱藏層單元,模型的3 個參數包括權重矩陣W、可見層單元偏置A、隱藏層單元偏置B。對于一個有n 個可見單元m 個隱單元的RBM模型,vi表示第i個可見單元,hj表示第j個隱單元,它的參數形式為:Wij表示第i個可見單元和第j個隱單元之間的權值,ai表示第i個可見單元的偏置,bj是第j個隱單元的偏置。RBM是根據能量平衡原理的一種概率生成模型,利用無監督學習初始化權重值,從而學習出特征間的內在結構和關系。對于一組給定狀態下的(v,h)值,觀察數據得知可見層和隱藏層均服從伯努利分布,得到RBM的能量函數(公式(5))。

式中:θ=(Wij,ai,bj),為RBM模型的參數,能量函數表示在每一個可見層節點和每一個隱藏層節點之間都存在一個能量值。對該能量函數指數化和正則化后可以得到可見層節點集合和隱藏層節點集合分別處于某一種狀態下(v,h)聯合概率分布公式(式(6)),其中Z(θ)按公式(7)計算。

式中:Z(θ)為歸一化因子,表示對可見層和隱藏層節點集合的所有可能狀態的求和。由于RBM模型層間全連接、層內無連接,在給定可見單元的狀態時,各隱藏層單元的激活狀態之間是條件獨立的。此時,第j個隱單元的激活概率可按式(8)計算。相應地,當給定隱單元的狀態時,可見單元的激活概率同樣是條件獨立的。此時第i個可見單元激活的概率可按式(9)計算。

式中:f為激活函數,這里選用sigmoid作為激活函數。是因為它可以把(-∞,+∞)的值映射到[0,1]這個區間。也就是說,無論模型的可見層輸入節點數據處于一個多大的范圍內,都可以通過sigmoid函數求得它相應的函數值,即節點的激活概率值。
微調階段:把訓練RBM得到的輸入作為BP神經網絡的輸入,進行前向傳播,然后進行反向傳播,將頂層訓練的誤差從輸入層反向傳播至輸入層,微調各層的參數,使得誤差最小。最終將DBN特征提取后的特征作為MFSVM分類器的輸入,實現預警等級的分類。
1.2.3 多類模糊支持向量機
傳統的支持向量機的兩類性較強,但對本實驗涉及的多類安全等級問題則表現欠缺。因此本實驗使用模糊輸入和模糊輸出的支持向量機作為分類器,以徑向基函數描述核函數,優化隸屬度表現形式,并使用有向無環圖(directed acyclic graphs,DAG)的形式將雙模糊支持向量機推廣到多類問題,構建MFSVM,提升支持向量機的分類能力和泛化性。將DBN模型提取的高維特征作為MFSVM分類器的輸入,取n 個訓練樣本的高維特征及標簽構建集合{(hi2,yi),i=1,2,...,n},通過模型訓練在樣本空間中獲得劃分超平面,將不同類別的樣本分開,其目標函數見式(10)。

約束條件: yi(wTxi+b)≥1-ξi,i =1,…,n
式中:懲罰參數C是用來限制奇異點存在的程度;w和b分別為超平面的法向量和截距;松弛變量ξi對一些不能被超平面正確分類的樣本進行補償。之后,將拉格朗日算子ai引入公式,通過化簡和轉化,可以得到超平面的表達式(式(11))。

式中:K(xi,x)是為了解決非線性問題引入的核函數。選擇了常用的徑向基函數作為核函數,σ為核函數的帶寬,控制函數的作用范圍,其表達式見公式(12)。

實際應用中,每個訓練樣本對支持向量機所起的作用不同,邊緣數據最容易錯分且成為支持向量的機會較多,而中間數據成為支持向量的概率較小。因此在分類超平面求解過程中,需要引入模糊理論對不同的訓練樣本分布情況進行描述,定義了一個與分類超平面垂直的隸屬度函數si,表達每個樣本對分類超平面的重要性,將多個隸屬度函數組合在一起可減少不可分區域,如此構建模糊支持向量機,完成目標函數的懲罰參數C和松弛變量ξ的平衡,目標函數(式(10))可改寫為式(13)。

式中:si的取值區間為(0,1]表示了每個樣本屬于標簽的可能性,該變量的取值較小,從而對懲罰參數C的取值進行了一定程度的限制,防止其取值過大或過小對分類性能產生影響,使分類器的性能更加穩定。在模糊向量機中時,每個樣本的權值是通過隸屬度函數來求得的,那么隸屬度函數的選擇和設計是模糊向量機模型建立的關鍵。本實驗采用的隸屬模型是基于樣本到類中心之間的距離來度量其隸屬度的大小。隨后,在上述基礎上,將模糊支持向量機向多類問題的推廣,使用DAG方法將多個兩類分類器組合成多類分類器。在訓練階段,對于本研究k類安全等級預警問題,設計k(k-1)/2二類分類器。而在決策階段,使用從根節點開始的導向非循環圖,具有k(k-1)/2個內部節點以及k個葉子節點,每個內部節點都是一個二類分類器,葉子節點為最終的類值。對一個測試樣本,從根節點開始根據分類器的輸出值決定其走左側或右側路經,一直到葉子節點為止得到樣本所屬的類值,最終構建了MFSVM模型進行安全等級的預警。
1.2.4 模型參數選擇
DBN中的“深度”體現在有多個RBM層,隱藏層越多,網絡能更加深度挖掘數據,但也導致網絡計算耗時越大,效率越低。本實驗選擇由2 個RBM堆疊而成的DBN,以及一個MFSVM。DBN模型的節點數分別為83、70、50。其中,83 個輸入變量表示輸入的抽檢數據的維度,包含了各個屬性,RBM的神經元個數分別為70、50。訓練中為了避免過擬合,設置迭代次數為100,學習率為0.001。
懲罰參數C和松弛變量ξ的選取對MFSVM模型的性能影響較大,目前主要采用經驗確定法和網格搜索法,本實驗采用網格搜索法對MFSVM模型進行參數選擇,用優化后的MFSVM模型對危害物安全等級進行識別并輸出預警結果。懲罰參數C代表錯誤的容忍程度,核參數σ是核寬度。過高或過低的參數值會造成MFSVM模型的“過學習”或“學習不足”現象,造成MFSVM不能有效對安全等級進行分類。采用網格搜索法對參數進行優化,將C和σ的取值在一定范圍內劃分為網格,遍歷所有網格內的值,利用5折交叉驗證法(cross validation,CV)來驗證每一個C和σ,最終選取具有最佳分類精度的C=1,σ的取值空間為{0.001,0.01,0.11,10,100}。
本研究主要針對糧食供應鏈危害風險預警開展研究,需要將輸入的多維異構數據分類為安全等級、較安全等級、預警等級、較低危險等級、中危險等級、較高危險等級、高危險等級、超高危險等級8 個類別。因此實驗采用準確率、運行時間以及混淆矩陣3 個方面來進行預警模型的評價。對于分類任務,使用真正例(TP)、真負例(TN)、假正例(FP)和假負例(FN)來比較分類器的預測結果與專家評價的結果。其中,正例和負例指的是分類器結果,而真和假指的是專家評價的結果,如TP是指分類器預測的等級與專家評價的等級都是安全等級或者別的等級。計算得到的準確率是分類模型所有預測正確的樣本數占總預測樣本數的比值,其表達式見式(14)。

運行時間是模型訓練時間與模型測試時間的總和。準確率越高,運行時間越短,說明模型的性能越好?;煜仃囀呛饬糠诸愋湍P蜏蚀_度的直觀方法,可用以評判模型結果的指標好壞。
將2 1 0 2 7 個樣本當作訓練集,用于訓練整個預警模型,5 257 個樣本作為測試集,用于測試整個預警模型的準確性。實驗環境為Windows 1 064位系統,所用處理器為Intel(R)Core(TM)i5-4210M CPU@2.60GHz,運行內存為8 GB,數據加速器使用1 塊NVIDIA RTX 2080 Ti。實驗程序設計語言為Python及相關庫,訓練框架為PyTorch和Keras深度框架。為了驗證本模型的準確性,并將其與傳統的機器學習方法K最近鄰、樸素貝葉斯、邏輯回歸、支持向量機、決策樹、隨機森林以及DBN模型和BP神經網絡進行對比測試,在訓練集上進行訓練,之后在驗證集上執行評估以最小化過度擬合,當實現訓練過程和參數的最佳選擇時,在未知的測試集上進行最終評估,通過分析不同的性能指標,評估不同算法結果的可靠性。

表2 DBN-MFSVM與傳統機器學習方法性能對比結果Table 2 Comparative performance of DBN-MFSVM and traditional machine learning methods
表2比較了不同方法準確率和運行時間對比結果,可以看出,DBN-MFSVM的準確率達到98.44%,性能優于其他傳統機器學習方法,這表明DBN-MFSVM模型面對多維異構的食品抽檢數據集,能夠自適應處理數據,形成預警相關的高維度特征,并深入挖掘各危害因素在供應鏈環節中內在關聯,避免了手工提取選擇特征的繁重工作,提升危害物風險等級預警的準確率。而其他傳統方法預警精度較低,且運行時間稍微較長,進一步證明本實驗所采取的方法具備快速高效預警特性,可為糧食產品危害物監管實際應用提供參考。
為進一步說明本實驗方法在預警應用上的魯棒性,對比DBN和BP神經網絡在數據集上的損失函數變化趨勢,以訓練過程中的損失函數值為縱坐標,以訓練過程中向前迭代次數為橫坐標,得到圖2。
圖2中,損失函數值越小,表明模型的魯棒性越好,可以看出在迭代訓練過程中,3 個模型的損失函數值呈下降趨勢,均穩定了100 次迭代。其中,DBN-MFSVM模型的損失函數值下降最快,最終損失函數下降到0.016 2左右,表明該方法具有較強的穩定性能。而變化最慢的是BP神經網絡損失函數,只降至0.306 2左右,性能遠低于本實驗模型。為進一步對比說明,從測試數據中隨機選取100 個樣本進行分析,繪制DBN-MFSVM、DBN和BP的誤差曲線(圖3)

圖3 DBN-MFSVM、DBN和BP神經網絡的誤差曲線圖Fig. 3 Error graph of DBN-MFSVM、DBN and BP neural network
由圖3可知,本實驗方法的誤差范圍在0.10~-0.05之間,變化幅度較小,模型對不同樣本的分類準確率較高,且整體呈現穩定趨勢。而其他方法則存在較大誤差波動,意味對比方法在面對食品數據的分析預警時,容易出現誤報錯報的行為。

圖4 DBN-MFSVM模型的混淆矩陣Fig. 4 Confusion matrix of DBN-MFSVM model
混淆矩陣反映了模型預警結果的性能,行代表真實的安全等級,列代表模型預測的安全等級,對角線為被正確預測的樣本比例。由圖4可知,大部分預測正確的樣本都集中在對角線附近,說明本實驗模型對整個多維異構食品數據的分級預警效果很好,但在預警等級(III)、較低危險等級(IV)和中危險等級(V)中存在一定的混淆偏差,其混淆程度分別為0.95、0.96和0.98,其不正確分類實例多數被分配到較低危險類別(IV)和中危險類別(V),說明本模型在這兩個風險級別的存在預警偏差的情況,這就為供應鏈中重點監控提供了方向,可以起到節省監控成本的作用。

圖5 糧食食品供應鏈主要危害物風險預警系統Fig. 5 Risk pre-warning system of main hazards in grain supply chain
基于以上的結果,將基于DBN-MFSVM的糧食供應鏈危害物風險預警方法結合Web技術構建了糧食食品供應鏈主要危害物風險預警系統(圖5)。本系統旨在為廣大糧食消費者提供一個可靠的、直觀的糧食食品安全信息。本系統采用前后端分離的方式進行開發,其中前端使用React框架,版本為16.9.0;后端使用Django框架,版本為2.2。在本系統選擇某些抽檢數據時,前端會通過接口向后端發送請求,將選擇的數據帶到后端,后端通過調用本實驗的方法給出預警等級,并將查詢出的數據返回給前端,前端將數據轉換成所需的數據結構,將其渲染到表格中,讓用戶能清晰地查詢到每條數據的情況。為消費者提供更直觀快速的糧食食品安全評測結果以及為糧食安全監管機構提供針對性的糧食抽檢策略。
糧食供應鏈安全是多維、復雜、耦合的過程,受到食品多樣性、數據多源異構、供應鏈環節等因素影響,存在被食源性危害物如重金屬、農藥殘留、微生物、霉菌毒素等風險威脅?,F有風險預警受到監管目的性、數據可及性及全局聯動性等因素影響,存在一定應用局限性。本實驗在分析全國26 個省份的大量抽檢數據及關聯信息基礎上,建立了基于DBN-MFSVM的風險分級預警模型。首先采用嵌入歸一化的數據預處理方法將原始數據處理為結構化數據,然后輸入到DBN模型進行高維度特征提取,自適應地挖掘供應鏈中各危害因素間風險變化及內在關聯概率,最后將二分類模糊支持向量機擴展為多類性能,形成MFSVM分類器,經過模型訓練和參數優化,實現供應鏈中各主要危害物風險分級預警。對比結果顯示,本實驗模型綜合風險預警準確率達到98.44%,性能優于傳統機器學習模型,且對于糧食抽檢數據具有更好魯棒性和泛化性。建立的此風險預警方法能識別出糧食供應鏈中危害物風險程度和優先次序,科學分析我國糧食各供應鏈環節上各類危害物的風險分級情況,為監管部門制定有針對性的預警策略、確立優先監管領域和合理分配風險管理措施資源提供科學依據,也為廣大消費者在選擇糧食產品時減少食品安全風險隱患提供可行指導。