張慧娟,黃千里,徐寶才
(合肥工業大學食品與生物工程學院,安徽合肥 230009)
貨架期建模是食品預測微生物學的一個新興領域。一般的貨架期模型通過詳細了解特定產品的腐敗動力學,根據供應鏈中的環境條件數據實時預測產品狀態。然而,肉制品貨架期模型的建立以試驗數據為主,只針對單一因素變化預測,無法判斷多種因素變化對貨架期的影響。現有的研究中,已有將機器學習算法或統計學習方法用于建立食品貨架期模型,例如薛建新等[1]以軟化為分類指標,分別采用非線性的最小支持二乘向量機(least square support vector machine,LSSVM)模型和線性的偏最小二乘回歸三層貝葉斯概率(probabilistic latent semantic-latent dirichlet allocation,PLS-LDA)模型建立不同貨架期沙果的分類模型;趙策等[2]以電子鼻設備對梨核進行采樣,結合機器學習算法對3 個等級黑核梨進行分類,為皇冠梨進行品質檢測。以上研究均需要通過開展wet-lab 試驗獲得原始數據。
肉制品科學發展過程中積累了大量研究數據,利用數據挖掘技術對這些數據進行分析和挖掘,進一步發現變化規律和趨勢,有助于制定更科學、精準的保鮮策略。文本挖掘是從文本數據中獲取有價值信息和知識,并通過計算機發現以前未知的新信息的方法,包括信息檢索、信息提取和數據挖掘等過程[3]。Thavorn 等[4]在Web of Science 數據庫中通過對生鮮農產品保質期延長技術進行科學計量和文本挖掘,以解決水果保藏問題。Luong 等[5]采用關鍵詞搜索、專家咨詢和文本挖掘相結合的方法研究肉制品的腐敗發生時間與儲藏條件、微生物因素、肉品類型等各個影響因素間的關系。
本文將機器學習算法和文本挖掘技術融入醬鹵肉制品貨架期預測研究中,基于原始數據收集,通過機器學習算法,以貨架期為目標變量,通過多種特征(包括包裝方式、儲藏溫度、保鮮劑種類和二次殺菌方式)來構建預測醬鹵肉制品的貨架期模型。首先通過比較各種編碼方法,并選擇效果較優的方法作為非數量特征的編碼方式。繼而比較多種分類算法,選擇性能最優的模型,并分析最優模型在不同貨架期分類中的表現。最后,對最優模型在實際產品(醬牛肉和鹽水鴨)中的性能進行測試,分析應用潛能,以期為食品生產、加工和銷售等領域提供有價值的指導。
牛腱肉、整鴨白條、鹵料、蔥、姜、八角、茴香:市售;生抽、老抽:佛山市海天調味食品股份有限公司。
乳酸鏈球菌素(Nisin)、聚賴氨酸(均為分析純):浙江新銀象生物工程有限公司;殼聚糖(分析純):阿拉丁生化科技股份有限公司;平板計數瓊脂(plate count agar,PCA)培養基:廣東環凱微生物科技有限公司。
潔凈工作臺(AlphaClean 1300):力康精密科技(上海)有限公司;微生物培養箱(DR-H20):廣東德瑞檢測設備有限公司。
醬鹵肉制品的文獻數據均來自于Web of Science核心數據庫和中國知網(China National Knowledge Internet,CNKI)。因醬鹵肉制品種類較多,單一檢索無法得到完全結果,建立復合檢索式:“stewed beef” OR “braised beef” OR “spiced beef” OR “sauce beef” OR “stewed chicken” OR “boiled chicken” OR “roast chicken” OR “braised chicken” OR “spiced chicken” OR “smoked chicken” OR “salted chicken” OR “stewed duck” OR “boiled duck” OR “roast duck” OR “braised duck” OR “spiced duck” OR “brine duck” OR “salted duck” OR “hemp duck” OR “stewed pork” OR “boiled pork” OR “braised pork” OR “spiced pork” OR “stewed meat” OR “boiled meat” OR “braised meat” OR “Yao meat”;時間跨度為2000 年至2022 年,文獻類型選擇“article”,一共檢索到6 384 篇文獻。在CNKI 數據庫中主題檢索:“醬鹵肉” OR “鹵牛肉” OR “醬牛肉” OR “燒雞” OR “鹽水鴨” OR “扒雞” OR “肉凍” OR “肴肉”,一共有328 個結果。繼而基于以下標準對所獲文獻進一步篩選:1)研究對象為醬鹵肉;2)明確醬鹵肉制品儲藏條件;3)研究包括儲藏期間細菌總數的測定;4)僅保留研究性論文。經整理,最終獲得119 篇與醬鹵肉制品貨架期研究相關的文獻,共收集樣本量271 例。肉制品微生物的生長和繁殖受多種因素的影響,包括貯藏溫度、包裝方式、保鮮劑種類和二次殺菌方式等,具體詳見表1。

表1 原始數據集中不同影響因素組成Table 1 Different influencing factors composition in original dataset
為便于運用機器學習構建醬鹵肉制品貨架期預測模型,需要對樣本數據進行整理。首先,將貨架期(微生物總數達到105CFU/g 的時間)設為目標變量,并將其分為8 個等級,其中貨架期在1~5 d 內為Ⅰ級,6~10 d 內為Ⅱ級,11~15 d 內為Ⅲ級,16~20 d 內為Ⅳ級,21~25 d 內為Ⅴ級,26~30 d 內為Ⅵ級,31~60 d 內為Ⅶ級,>60 d 為Ⅷ級。其次,考慮的影響因素為包裝方式、儲藏溫度、保鮮劑種類和二次殺菌方式,將這4 個因素設為特征變量。
由于很多機器學習算法要求輸入數據是數值型,因此需要將非數值型變量轉換為數值型變量[6]。分別采用5 種不同的編碼方式對特征變量賦值,包括JamesStein、BaseNEncoder、TargetEncoder、OrdinalEncoder、PolynomialEncoder。(https://www.kaggle.com/code/arashnic/an-overview-of-categorical-encoding-methods)。
為構建醬鹵肉制品貨架期預測模型,選用5 種機器學習算法,包括隨機森林算法(RandomForest)[7]、邏輯回歸(LogisticRegression)[8]、K 最近鄰算法(K-nearest neighbors,KNN)[9]、多層感知機分類器(multilayer perceptron classifier,MLPClassifier)[10]和XGBoost[11]。開發語言為Python 3.7.16,利用scikit-learn 庫的train_test_split 函數,將數據集按照70%用于訓練和30%用于測試的比例進行隨機劃分。為優化模型參數,采用網格搜索法(GridSearchCV)來在所有候選參數組合中選擇最佳參數[12]。此外,使用5-折交叉驗證法(Cross-Validation)來驗證模型準確度,這種方法將整個數據集分成5 份,每次選擇其中1 份作為測試集,剩余4 份作為訓練集;通過計算模型在測試集上的得分,并記錄每次迭代的分數,最后對這些分數求平均值。比較不同模型的平均交叉驗證得分,可以判斷哪種模型在預測醬鹵肉制品貨架期方面表現最佳[13]。
為評估、比較不同模型的綜合能力和性能,更好地為醬鹵肉制品行業提供有效的貨架期預測模型,選取準確度(Accuracy)、精確度(Precision)、召回率(Recall)和F1-score 為評價指標。此外,使用受試者工作特征曲線(receiver operating characteristic curve,ROC)來分析模型的預測效能,以及曲線下面積(area under curve,AUC)來判定預測能力的大小,AUC 值越大,表明模型的預測能力越強[14]。相關性能指標的定義和計算方法如下:
1)準確度(Accuracy):分類正確的樣本占總樣本個數的比例。
2)精確度(Precision,查準率):分類正確的正樣本個數占分類器判定為正樣本的樣本個數的比例。
3)召回率(Recall,查全率):分類正確的正樣本個數占總的正樣本個數的比例。
4)F1-score:精確度和召回率的調和平均值,兼顧了分類模型的準確率和召回率。
為驗證模型在預測不同類型醬鹵肉制品貨架期方面的準確性和穩定性,選擇兩種廣泛消費的醬鹵肉制品(醬牛肉和鹽水鴨)為對象,選取4 個影響因素(包裝方式、儲藏溫度、保鮮劑種類和二次殺菌方式)的不同水平,制作醬牛肉和鹽水鴨。通過對這些不同處理條件下制作的實際樣品的貨架期進行測試,能夠更好地了解模型在實際應用中的優缺點,從而為未來研究和模型改進提供方向。
1.6.1 醬牛肉制作
將5 kg 牛腱肉放入清水中浸泡3 h,每隔1 h 換一次水,去除血水和雜質。然后,把牛腱肉切成合適大小的塊狀,用適量生抽、老抽進行腌制,放入冰箱隔夜取出。腌制后的牛肉焯水,撇去浮沫。制備鹵料,把鹵料放入水中加熱,水溫升至65~70 ℃放入焯水后的牛肉,小火煮制時間為3~4 h。煮制完成后取出牛肉并于室溫下冷卻。將醬牛肉樣品分別浸泡在Nisin、ε-聚賴氨酸、殼聚糖溶液中20 min,撈出后瀝干,立即進行真空包裝和托盤包裝,分別在4 ℃和25 ℃下儲藏。
1.6.2 鹽水鴨制作
選擇市售的鴨肉,把八角、茴香炒制過的鹽涂擦在鴨體內腔和體表,堆碼腌制。然后,將干腌后的鴨肉放入制備好的鹵水中進行濕腌。將濕腌后的鴨胚放入4 ℃冷庫里滴掛12 h 后再進行煮制。煮制過程中加蔥、姜、八角,待水煮沸后,將鴨放入鍋中,加熱升溫至85 ℃時小火悶煮60 min,即可起鍋[15]。將鹽水鴨樣品分別浸泡在Nisin、ε-聚賴氨酸、殼聚糖溶液中20 min,撈出后瀝干,立即進行真空包裝和托盤包裝,分別在4 ℃和25 ℃下儲藏。
1.6.3 微生物數量測定
根據GB/T 4789.2—2022《食品安全國家標準食品微生物學檢驗菌落總數測定》方法測定保鮮劑處理后的醬鹵肉和鹽水鴨的菌落總數。
不同儲藏條件下,醬鹵肉制品的貨架期,即細菌總數達到105CFU/g 時間差異較大。所收集的數據顯示,醬鹵肉制品最長的儲存時間為270 d,而常溫條件下,大多數醬鹵肉制品在第1 天細菌總數就超過了規定值。根據前期收集的醬鹵肉制品貨架期數據,對其進行分析,結果如圖1 所示。

圖1 醬鹵肉制品的貨架期分布圖Fig.1 Shelf-life distribution chart of marinated meat products
由圖1 可知,醬鹵肉制品的貨架期主要集中在Ⅰ級至Ⅵ級。其中,Ⅱ級(6~10 d)的貨架期占比最高,共有75 個樣品。這表明大部分醬鹵肉制品的貨架期在10 d以內,這可能與醬鹵肉制品的保鮮方式和食品安全要求有關[16]。此外,從Ⅰ級到Ⅲ級的貨架期分布來看,隨著貨架期的延長,樣品數量逐漸減少。這可能表明,為了滿足市場需求和保證食品安全,生產商和經銷商傾向于選擇較短的貨架期。然而,也有一定數量的樣品具有較長的貨架期(Ⅶ級和Ⅷ級)。這些較長貨架期的產品可能采用了更為先進的保鮮技術或特殊的加工工藝,以確保產品在長時間內保持良好品質[17]。這部分產品可能適用于遠程運輸或長期儲存的場景,以滿足不同市場的需求。可見,大部分醬鹵肉制品的貨架期較短,且隨著貨架期的延長,樣品數量逐漸減少。這一現象可能與保鮮技術、市場需求和食品安全等多種因素有關。因此,在構建貨架期預測模型中,將考慮4 個主要影響因素,包括包裝方式、儲藏溫度、保鮮劑種類和二次殺菌方式。
2.2.1 不同特征編碼方法的效果比較
由于影響貨架期的4 個主要影響因素為分類特征,因此在建模之前需要對它們進行特征編碼,將分類特征轉換為數值特征,以便于模型的訓練和預測[18]。為了找到適合本研究的特征編碼方法,對5 種編碼方法進行比較,包括JamesStein、BaseNEncoder、TargetEncoder、OrdinalEncoder、PolynomialEncoder。這些編碼方法各自具有不同的特點和優勢,可以滿足不同的建模需求和數據特征[19]。不同特征編碼方式對模型訓練和預測的準確率影響見圖2。

圖2 不同編碼方法的效果比較Fig.2 Comparison of the effects of different encoding methods
從圖2 可以看出,JamesStein 編碼在多數機器學習方法中表現較好,特別是在隨機森林算法(Random-Forest)和KNN 中,準確率分別為0.91 和1.00(最高準確率)。TargetEncoder 編碼在MLPClassifier 和LogisticRegression 中表現較好,準確率分別為0.93 和0.75。OrdinalEncoder 和PolynomialEncoder 編碼在某些機器學習方法中表現較好,但在其他方法中準確率較低。BaseNEncoder 編碼在大多數情況下表現一般,但在隨機森林方法中的準確率為0.77,相對較高。可見,不同編碼方法的表現有明顯差異,選擇合適的特征編碼對于提高預測準確性至關重要。由于JamesStein 編碼在大多數情況下具有較高的準確率,在后續的機器學習過程中使用JamesStein 編碼作為特征編碼方法。
2.2.2 不同預測模型的性能比較
為比較不同機器學習算法在目標數據集上的表現,分析RandomForest、KNN、邏輯回歸(LogisticRegression)、多層感知機分類器(MLPClassifier)、XGboost在數據集上的預測性能,結果如圖3 所示。

圖3 不同預測模型的性能(準確度、精確度、AUC 值和F1-score)比較Fig.3 Comparison of performance(accuracy,precision,AUC and F1-score)of different prediction models
由圖3 可知,隨機森林在準確度(Accuracy)、精確度(Precision)、AUC 和F1-score 指標上的表現均優于其他方法,分別為0.95、0.97、0.99 和0.91,顯示出較好的預測性能。邏輯回歸和多層感知機分類器次之。K最近鄰算法的F1-score(0.71)相對較低。XGBoost 在本試驗中表現較差,準確度、精確度、AUC 和F1-score均較低,其精確率僅為0.23。
首先,RandomForest 表現出最佳的預測性能,這可能歸因于它的集成學習策略,通過組合多個決策樹來降低過擬合風險和提高預測準確性[20]。LogisticRegression 和多層感知機分類器(MLPClassifier)具有相似的較高準確度,表明它們在預測貨架期方面具有一定潛力。然而,邏輯回歸通常對線性可分問題有較好的處理能力,而貨架期預測可能涉及非線性關系。相較而言,多層感知機分類器(基于神經網絡的方法)可能更適合捕捉數據中的復雜模式[21]。KNN 在AUC 值上表現較好,但在準確度和F1-score 上相對較低。這可能與該方法對異常值和噪聲敏感有關[22]。KNN 的實際應用中,可能需要進一步優化K 值和距離度量方式以提高預測性能。XGBoost 在本試驗中表現較差,未來可以嘗試使用網格搜索或貝葉斯優化等技術對模型參數進行調優[23]。總之,不同機器學習算法在預測醬鹵肉制品貨架期方面有其獨特的優勢和局限性。綜合試驗結果,由于隨機森林算法(RandomForest;主要參數:n_estimators=500,min_sam-ples_leaf=1,random_state=200)在準確度、精確度、AUC 和F1-score 方面均表現出較好的性能,選其進行醬鹵肉制品貨架期的預測和后續的驗證試驗。
2.2.3 較優模型的性能分析
為進一步分析所構建的隨機森林模型在不同貨架期分類上的表現,基于不同類的預測結果構建混淆矩陣,如圖4 所示。

圖4 隨機森林模型在貨架期預測中各等級的表現(混淆矩陣圖)Fig.4 Performance analysis of random forest model on shelf-life prediction across different levels:A confusion matrix visualization
從圖4 對角線元素可以看出,模型在Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅷ類別上的預測準確性較高,這表明模型對這些貨架期分類的預測能力較強。然而,在Ⅴ、Ⅵ和Ⅶ類別上表現次之。觀察混淆矩陣的非對角線元素可見,在Ⅴ和Ⅵ類別上存在一定程度的預測誤差。例如,Ⅴ類別中有2 個樣本被錯誤地預測為Ⅵ類別,Ⅵ類別中有1 個樣本被錯誤地預測為Ⅴ類別。可能因為這些類別的樣本數量較少,模型在學習過程中未能充分捕捉到這些類別的特征[24];也可能是由于這兩類貨架期數據之間存在一定的相似性,導致模型在區分這些類別時出現困難。此外,醬鹵肉制品的貨架期也受到制作過程和制作環境的影響。例如,低溫真空包裝的醬鹵肉制品的貨架期主要集中在16~20 d,而低溫普通包裝的鹵牛肉貨架期在20 d 左右[25]。然而,針對燒雞的儲藏試驗表明,真空包裝低溫儲藏后僅1 d 細菌總數就超過了臨界值[26]。隨機森林模型在不同貨架期分類上的預測性能存在差異,這可能與研究中提到的貨架期與制作過程和制作環境之間的關系有關。基于這些可能的原因,未來可以嘗試相應策略,如采用過采樣或欠采樣方法來平衡各個等級的樣本數量,從而提高模型在這些等級上的預測性能[27];將與制作過程和制作環境相關的特征納入模型;進一步挖掘各個等級之間的差異,以便更好地理解模型在預測貨架期時可能遇到的挑戰。隨機森林模型在貨架期預測中的ROC 分析見圖5。

圖5 隨機森林模型在貨架期預測中各等級的ROC 分析Fig.5 ROC for random forest model in shelf-life prediction across different levels
從圖5 可以看出,隨機森林模型在8 個貨架期分類中的整體表現非常優秀。其中,除了Ⅳ和Ⅴ類別的AUC 值分別為0.99 和0.98 之外,其他類別的AUC 值均達到了1.00。AUC 值較高意味著模型具有較好的分類性能和預測能力[28]。結合前面的混淆矩陣結果,可以看出隨機森林模型在大部分貨架期分類上的預測準確性較高。然而,結合混淆矩陣結果,在Ⅳ和Ⅴ類別上,模型的預測性能略有下降。考慮到這兩個類別的貨架期為21~30 d(21~25 d 范圍內為Ⅴ級,26~30 d范圍內為Ⅵ級),這兩個類別之間的特征分布可能存在一定的重疊,導致模型難以區分這兩個類別[29]。可見,結合ROC 曲線的AUC 值和混淆矩陣結果,對于現有數據集,隨機森林模型在不同貨架期分類上的表現尚佳。
為測試所構建的隨機森林模型在實際產品的貨架期預測中的表現,選擇兩種廣泛消費的醬鹵肉制品(醬牛肉和鹽水鴨)為對象,選取4 個影響因素(包裝方式、儲藏方式、保鮮劑和二次殺菌)的不同水平,制作醬牛肉和鹽水鴨。對這些不同處理條件下制作的實際樣品的貨架期進行測定,并與預測值進行比較,結果見圖6。

圖6 醬牛肉實際貨架期與隨機森林模型貨架期預測對比Fig.6 Comparison for the actual shelf-life of marinated beef and the shelf-life prediction of random forest model
如圖6 所示,在醬牛肉中的測試結果顯示,在儲藏溫度為0~4 ℃的條件下,醬牛肉在普通包裝和真空包裝下的預測貨架期與實際貨架期一致,符合預測范圍。然而,當使用殼聚糖作為保鮮劑時,貨架期的實際值與預測值存在一定差異。這可能與殼聚糖作為一種天然的抗菌劑,在加工過程中對貨架期的影響更為顯著,導致模型的預測效果相對較差。在25~30 ℃的儲藏條件下,模型對貨架期的預測表現較為準確,實際貨架期與預測值基本相符。這說明,隨機森林模型在預測室溫條件下醬鹵肉制品的貨架期方面具有較高的準確性。
對鹽水鴨樣品進行的貨架期測試結果見圖7。

圖7 鹽水鴨實際貨架期與隨機森林模型貨架期預測對比Fig.7 Comparison for the actual shelf-life of salted duck and the shelf-life prediction of random forest model
由圖7 可知,除兩例外,隨機森林模型在其他情況下都能夠準確預測。在低溫儲藏條件下,保鮮劑的使用以及包裝方式都對貨架期產生了明顯影響,延長了鹽水鴨的保質期,這與文獻[30]中的研究結果相符。普通包裝下,加入保鮮劑可以顯著延長鹽水鴨的貨架期,而真空包裝進一步提高了貨架期。在室溫條件下,不論包裝方式和保鮮劑的使用,鹽水鴨的貨架期均顯著縮短,這表明環境溫度對貨架期具有重要影響。
在本研究基于原始數據收集,通過機器學習方法,構建了一個預測醬鹵肉制品的貨架期模型。此模型以貨架期為目標變量,基于多種特征(包括包裝方式、儲藏溫度、保鮮劑種類和二次殺菌方式等)來預測醬鹵肉制品的貨架期。通過比較多種編碼方法,選用"James-Stein"編碼作為特征數據的編碼方式,以便更好地應對分類變量的多樣性。在比較了多種分類算法的表現后,本研究選定了隨機森林作為最優模型。進一步法分析了隨機森林模型在8 個貨架期分類中的表現,證實了模型的優越性能,表明模型在預測醬鹵肉制品貨架期方面具有較高的可靠性。為驗證模型在實際產品中的表現,本研究選取了兩種廣泛消費的醬鹵肉制品(醬牛肉和鹽水鴨)作為試驗對象,通過對不同處理條件下制作的實際樣品的貨架期進行測定,并與預測值進行比較,發現隨機森林模型在預測醬牛肉和鹽水鴨的貨架期方面具有較高的準確性。