陶 啟, 李 偉, 丁紅衛, 崔曉暉*
(1. 武漢大學 空天信息安全與可信計算教育部重點實驗室,湖北 武漢430072;2. 武漢大學 國家網絡安全學院,湖北 武漢430072;3. 江南大學 人工智能與計算機學院,江蘇 無錫214122;4. 江南大學 江蘇省媒體設計與軟件技術重點實驗室,江蘇 無錫214122)
隨著計算機的發展,數據采集比以往任何時候更加便利快捷,由此帶來大量的、各種類型的數據。隨著大數據技術的興起,從數據中通過分析獲取多智能的、深入的、有價值的信息正深刻影響著現實生活中的各行各業,尤其是對于食品行業。 當前,我們國家對于食品要求已經從“吃的飽”轉變為“吃的健康”, 而傳統的食品科學技術已不能滿足人們日益增長的食品要求。 因此,將大數據技術應用到食品科學領域,為食品科學提供了一種全新的思維方式和科學分析方法,可以提升食品科學在食品追蹤溯源、食物配對、食譜推薦、食品安全,食品生產管控、用戶食品偏好、未來食品分析上的預測性以及準確性,使得食品科學更好地為人們服務。
作者首先闡述食品大數據的應用現狀,然后分析目前食品大數據面臨的挑戰,最后總結并展望食品大數據的未來發展趨勢。
食品行業是當今最具活力的行業之一,產品必須隨著消費者的需求而不斷發展。 食品大數據已在食品行業獲得廣泛應用,對消費者飲食健康、食品安全、行業拓展等領域影響較大,為行業創造了巨大經濟價值與社會效益。 下面分別從食物配對與風味設計、食譜推薦、食品安全管控、食品市場開拓、食品外賣應用和打造企業品牌6 方面對食品大數據的行業應用進行概述。
1992 年, 廚師Heston Blumenthal 和Francois Benzi 認為具有相似風味的原料烹調效果會很好,于是有廚師就實現了白巧克力和魚子醬的風味組合, 但由于白巧克力和魚子醬的化學性質差異大,導致組合后的食物味道非常特殊。 隨著食品科學的發展,我們現在掌握了大量的食物化學物質信息[1-4],這些物質使得不同的食物具有不同的氣味和味道。有了這些信息,Ahn 和Ahnert 等學者[5-6]開發了一個特色風味網絡(flavor network),一個由共享的風味化合物連接的原料網絡。由于Ahn 等學者收集的原材料有限,因此組合后的食材風味也有限。 鑒于此,Garg 等學 者開發了FlavorDB 數據庫[7],FlavorDB 數據庫比Ahn 等學者收集的食材更為豐富,但是其菜品組合網絡仍然是基于flavor network。 學者Simas等提升了flavor network, 并將其設計的網絡稱之為Food-bridging[8]。以上方法都是基于類似化學成分組合食物,很多著名的食物搭配(比如紅酒和牛肉)并沒有共同的化學成分或者風味化合物,但是搭配一起仍然廣受人們喜愛。因此需要在更大范圍內尋找食物配對,而不是僅僅基于風味化合物或者化學成分。
在未來食品風味設計方面, 香料公司McCormick 在2019 年與IBM 合作, 利用人工智能與大數據預測新的風味組合。 通過分析來自數百萬個數據源的數據以改進該公司的“風味預測”系統。該系統自動生成新的風味特征并吸引了消費者的關注。
食譜推薦(recipe recommendation)也是食品大數據分析領域中常見的應用場景。Teng 等學者提出利用食譜推薦算法來確定食物成分是否在菜譜中為必需品[9]。 Grace 和Maher 等學者結合基于案例(case-based)的推理和深度學習算法來生成新的菜譜[10-11]。 但是,由于深度學習的不確定性,后者可能會生成“黑暗料理”。 另外,在食譜推薦領域,有學者專門聚焦于“食療”。 Freyne 等學者針對肥胖癥來設計食譜推薦[12]。 他們根據醫學專業人士的建議和對肥胖人士的調研,設計旨在給肥胖癥人群個性化推薦食物。 Yoshida 等學者則聚焦于用戶食物偏好上,這是因為上述設計的食物推薦系統訓練數據來源于開放的食譜網站[13]。 這些食譜網站的特點是訪問頻繁,網站儲存的大部分食譜非常大眾化,部分人群則有自己的食物偏好。 他們利用人們的食譜瀏覽和烹飪歷史數據,提出了一種基于用戶食物偏好的個性化食譜推薦系統,用以滿足人們的食物偏好。
1976 年聯合國衛生組織(WHO)構建的全球環境監測系統(GEMS/Food),由各參與機構提交食品污染物濃度數據組建數據中心,結合數據處理與分析技術, 幫助各國政府、CAC 等機構評估食品污染物污染等級與發展趨勢[14],是各國用于評估與管理食源性風險的重要工具。 2015 年世界衛生組織(WHO) 整合農業、食品、公共衛生和經濟指數等領域多元化數據構建食品安全大數據服務平臺FOSCOLLAB,通過增強采集數據源維度提升對食品安全風險監控效果[15]。 2014 年貴州科學院整合省內各級政府、檢測機構及入駐企業的產品數據,建立食品安全與營養大數據云平臺, 實現食品防偽驗證、安全風險監測與預警[16]。
食品追溯系統中存在的數據關聯性弱、數據記錄不準確等問題,為食品召回與追溯問題源頭帶來挑戰。 Badia-Melis 等提出食品追溯本體應用(FTTO)模型,基于語意分析對異構數據庫數據進行整合建立歸一化的知識體系,基于唯一標識原則對整合后數據進行統一編碼處理,為溯源數據的電子交換提供一個國際、非專屬性統一標準[17]。
在食品市場中,產業鏈內外都蘊藏著龐大的食品相關數據,通過收集與分析能夠促進企業開拓市場[18]:1)通過收集商品及其零售信息進行分析能夠了解市場近況,把握競爭者的商業動態,明確產品的市場定位,從而掌握市場先機;2)通過收集消費者消費信息建立客戶大數據庫,通過對客戶進行用戶畫像獲取消費者的喜好、消費傾向、價值傾向及當前商品的市場口碑狀況,為企業制定高效的營銷策略提供科學指導建議,為消費者提供優質服務贏得消費者信賴,讓企業在市場競爭環境下能夠不斷壯大;3)通過收集社交平臺中各種食品的各類點評信息組建產品需求大數據,通過聚類、統計分析,發掘新的消費需求與產品的潛在質量問題,從而改進或研發新產品、量化價值并制訂合理產品價格提升服務質量。
我國線上外賣用戶量占網民總量44%以上,規模已超過3.98 億,且將繼續保持增長趨勢,外賣未來具有廣闊市場前景[19]。用戶體量大、高速增長的外賣市場產生了龐大的外賣數據,外賣大數據服務平臺的建設與應用將是未來發展趨勢,不僅有助于幫助政府對外賣餐飲業進行監管,而且能夠為外賣餐飲業創造巨大經濟價值與社會價值, 包括:1) 通過準確預測并告知客戶外賣送達時間,能夠避免對消費者日常計劃的影響, 幫助企業樹立良好品牌形象;2)幫助食品及其相關行業了解項目或商品的流行趨勢;3) 外賣大數據應用平臺促使外賣供應鏈的透明化,供應鏈的透明性有利于建立或改善客戶與外賣企業間的信任關系,同時有助于督促企業為客戶提供更高品質的產品及更優質的餐飲服務;4) 通過分析外賣數據集能夠清晰了解城市整體運行狀態[20]。
由于外賣數據直接或間接涉及客戶地理位置、偏好、銀行、身份、通信等敏感隱私信息,一旦泄露將對客戶財產及生命健康帶來安全隱患,因此外賣大數據平臺構建將面臨更為嚴格的大數據安全、效率等方面挑戰。
大數據技術在食品行業中的推廣普及,讓食品產業鏈中企業能夠更好地了解上下游客戶需求,預測食品行業發展趨勢,營造企業品牌形象。 可采取措施:1)基于市場分析結合客戶的購買歷史預測其下一步可能購買的產品,利用這些信息,食品企業可以制定優惠價格及商品組合,以提高客戶滿意度并確保重復業務;2)通過收集社交媒體中用戶對于食品的有關評價信息進行分詞、 聚類及情感分析,建立積極、消極或中立的態度,通過跟蹤這些不斷變化的行為和喜好,可以讓食品企業在發布負面新聞或不良反饋時采取行動;3)結合人工智能,大數據為企業提供了巨大的增長機會。 例如,以多傳感器信息融合為基礎,將機器視覺應用于保健酒的缺陷檢測中,可以實現外觀缺陷和可見異物的不合格產品檢測[21];4)大數據讓食品產業鏈更加透明,不僅能夠實現產品的全程監管,而且能夠以消費者眾包模式來監督食品品質、服務質量及食源性疾病或食品事件的爆發趨勢。
目前食品大數據應用系統中存在數據缺失、數據量不足、難以辨真偽等挑戰,研究食品大數據高效采集、可信校驗與跨部門共享具有重要意義。
大數據發展的前提條件是要有豐富的數據源,即使對于數據化程度比較高的IT 行業,依然缺少資源共享和信息交換機制,只能在企業內部探索和嘗試。 政府部門缺乏數據開放的動力,由于其掌握的數據有一定的敏感性,因此趨于保守態度。 各大企業不會隨便開放自身有價值的數據,因為它有巨大的商業價值,也關系到企業的生死存亡。 長此以往,不同的部門數據源獨立存在, 不能夠互相共享,形成了一個個數據孤島,無法實現行業跨部門全鏈條大數據體系。 大數據困境從早期的難以處理大數據到今天變為難以得到全鏈條大數據。 為解決該問題,政府期望采取強制手段,建立數據中心,整合管轄范圍的數據,但數據隱私保護難以解決。 阿里、騰訊等互聯網巨頭期望通過并購來構筑龐大的行業帝國實現行業全鏈條數據企業內部化。 但行業數據壟斷的大企業會利用自身壟斷地位阻礙創新,使壟斷地位更加堅固。
食品大數據覆蓋從“農田到餐桌”全過程,涉及到的部門眾多。 這種由于數據保密和隱私保護等造成的各數據擁有方不愿共享數據依然是食品大數據有效運用的主要障礙。 需要提出一種新型的去中心化數據采集、存儲、共享及智能分析機制來解決目前面臨的挑戰。 從目前來看,“區塊鏈+大數據”具備很大的潛力。 區塊鏈是一個公共賬本、一種集體維護的網上數據庫, 與傳統數據庫的主要區別在于:匿名性、去中心化、不可篡改、分布式存儲、多備份、隱私保護等。 從技術的角度來看,我們經常說“區塊鏈技術”,其實并不是一種單一的技術,而是多種技術整合的結果。 這些技術以新的結構組合在一起,形成了一種新的數據記錄、存儲和表達方式。但區塊鏈也存在新型基于區塊鏈-云計算的去中心化數據采集方法與存儲機制,允許數據擁有方將原始數據保存在私有云服務器端, 實現鏈下存儲,同時抽提少量數字水印和屬性數據,通過區塊鏈進行鏈上存儲。 通過在區塊鏈中設置校驗機制,保證鏈下存儲信息的真實性及防篡改;通過基于區塊鏈技術的多方計算架構,其他用戶可以在不直接訪問數據擁有方原始數據情況下運算數據,從而實現對數據的私密性進行保護,杜絕數據共享中的信息安全問題。 解決全鏈條跨部門數據采集融合困難,數據孤島、完整性與可信度差的難題。
隨著科技的發展,食品行業累積了大量、來源廣泛、增長速度快、價值密度低、應用價值大的數據。 如何使用大數據技術挖掘出食品數據中的潛在應用價值和促進食品行業的可持續發展,已經成為食品領域重點研究的問題。 食品大數據已經在食物配對與風味設計、食譜推薦、安全管控、市場開拓、外賣應用和打造企業品牌等領域獲得良好應用,促進了行業經濟發展。 針對目前食品大數據應用中存在的數據孤島、難辨真偽等問題,“區塊鏈+大數據”是解決數據擁有者間的數據共享、促進食品大數據智能分析應用的可行方案。 面對日益劇增的糧食需求與有限資源之間矛盾凸顯,進一步利用大數據人工智能等信息技術降低資源消耗并研發新一代食品生產技術將是未來食品科研工作者的重點方向之一。
資源浪費及食源性疾病暴發是制約食品產業健康可持續發展的關鍵因素,具體包括:1)食品種養植過程濫用化肥、農藥等,致使農產品中農殘超標、水土污染嚴重等問題[98];2)發展中國家易腐食品損失嚴重,發達國家消費者浪費的食物總量巨大[22];3)食品加工及運輸過程中能耗高、環境污染大;4)由于無法快速有效溯源食品污染源頭,通常將受影響食品作為病原體的潛在來源而全部丟棄。 物聯網、大數據、區塊鏈等信息技術將是促進食品產業可持續發展的核心要素。 物聯網能夠部署貫穿食品產業鏈的各個環節并采集數據。 通過對物聯網采集到的種植大數據與農田地理大數據進行綜合分析實現精準農業,構建優質、高產、高效的農業生產模式,提高種植戶經濟效益、降低資源浪費與水土污染;提高食品產業鏈透明度能夠減少食品產業鏈加工過程浪費、減少消費者的食品浪費數量。 區塊鏈與大數據結合可以使得食品供應鏈完全透明,實現:1)優化產業鏈結構減少加工浪費,優化產品調度策略降低運輸能耗,減少尾氣排放;2)食源性疾病暴發時,實現污染源精準溯源及污染品的快速找回,保障食品供應鏈上下游企業效益與品牌形象[23]?;诖髷祿嬒窦夹g對消費者的消費、飲食等數據進行分析,為消費者提供健康膳食建議,提升消費者生活品質,降低營養過剩食品損耗。
至2050 年,全球人口數量將超90 億,面對有限的資源,基于大數據、人工智能的未來食品開發也將提速增效。 未來食品的研發需要融合食品生物、食品大數據、組學大數據、深度學習醫療健康等學科知識,開發出健康美味、風味獨特、營養均衡的新一代食品,滿足日益增長的人口需求。 我國要把握未來食品研究進入生物組學大數據時代的重要戰略機遇,盡早布局,充分融合食品分子分析、電子信息、數據建模和分析等技術,根據食品營養組分和芳香分子特性, 通過食物配對和食品風味搭配,設計開發新一代食品。