文│劉巍申(四川省彭州市動物衛生監督所)

自2015年起,四川省彭州市全面實施了養殖、屠宰環節病害畜禽集中無害化處置工作,養殖場、屠宰場病害畜禽尸體不再由業主自行無害化處置,而是按規定轉運至指定地點由專業機構進行集中無害化處置。3年多來,無害化處置工作開展卓有成效,對減少動物疫病傳播風險、確保畜牧業健康發展發揮了重要作用,但是,業務工作產生的數據量大、維度多,采用傳統圖表可視化分析手法已力有不逮,無法達到較精準定位目標群體,并無法達到針對性開展防控的目標。
對此,彭州市衛生監督所積極學習借鑒數據挖掘技術在其他行業的有效應用,積極探索數據挖掘技術和畜牧獸醫業務工作的有效結合途徑,將現代商業中的“客戶價值分析”理念引入到動物衛生監督工作中,對該市近3年來積累的6000余條工作數據,利用時下廣泛應用于工商業的python語言對數據進行了“聚類”分析。根據“死亡發生數、發生頻次、死亡發生率、首次死亡時間、末次死亡時間”重點字段特征,采用K-Means聚類算法分析,將全部數據聚為5類,有效甄別不同特征類別,從而為后續防疫工作開展提供支撐。
動物防疫工作質量高低,很大程度上取決于數據及數據分析。與工業、商業、服務業類似的,動物防疫工作同樣存在“數據驅動”,比如免疫抗體合格率、畜禽發病率、死亡率、病死率、發生頻次等,過往工作質量與后續工作愿景均需通過數據表達和驅動。那么,針對養殖環節病害畜無害化處置工作,收集、整理、分析相關數據就顯得尤為重要。以生豬無害化處置為例,工作數據關系到生豬死亡率,包含著大量動物疫病發生、傳播和流行的信息,相比畜禽群體抗體免疫合格率分析更具指導意義。因此,挖掘發現數據背后隱含的信息,關系到過往工作成果檢驗與后續工作思路擬定,影響深遠。
數據挖掘手法多樣,如分類、聚類、預測、關聯規則。對生豬無害化處置數據而言,從動物衛生監督工作角度出發,類比商業中的“客戶價值分析”理念,從全部數據中甄別一定時間窗口內表現出不同發生數量、頻次、時序特征的養殖場群體、進而調查分析其生豬是否存在異常死亡及原因,以針對性開展整改,促使其提高生物安全水平、降低發病死亡率,提升經濟效益,確保公共衛生安全。
1.資料來源。根據四川省成都市畜牧獸醫主管部門安排部署,自2015年彭州市實施病害畜禽集中無害化處置工作制度以來,對養殖、屠宰環節病害畜禽按國家規定進行無害化處置,歷年來積累了6000余條工作數據。根據本次分析工作需求,首先挑選出“場名、無害化處置頭數、無害化處置發生時間、生豬存欄量、死亡率”字段,形成本次數據挖掘的源數據。整理發現,源數據存在少量“異常值、缺失值、錯別字”,影響到后續分析工作。因此,對源數據進行“數據清洗”,包括修正異常值、填補缺失值,更正錯別字等。重點是補充完善源數據中少量遺漏的“生豬存欄量”字段信息。方法是通過查找最接近時間段內該場戶存欄量,估算遺漏的存欄量信息。對于多次事件中均空缺存欄量的,直接通過電話詢問填補。然后,將源數據通過Microsoft Excel“數據透視表”功能,形成以“場名”為主鍵、以“無害化處置頭數匯總、無害化處置頻次匯總、首次無害化處置距今月數、末次無害化處置距今月數、死亡率標準差”為字段的工作數據表。工作數據表即為本次數據挖掘資料來源。
2.分析方法。首先進行“數據變換”。整理發現,上述各字段數值數量級差異較大。因此,通過python語言中的panda庫“標準差標準化”功能將數據標準化至-1到1之間,便于算法分析,減少數值數量級差異對分析工作的不利影響。然后進行“導入模型分析”,通過python語言的sklearn.cluster庫,利用K-Means聚類算法進行分析。針對6000余條小規模數據,選擇聚類類別數為5。運行算法,將全部養殖場數據聚為5類,即為本次分析結果。
結果顯示,全部數據按病害生豬發生時間先后,發生量(率)高低等維度特征,聚為5類,5類數據分別對應了不同維度特征的養殖場戶。
重點表現為5類群體主要特征:第一,“死亡量低、發生時間距今較長”、占比25%;第二,“頻繁、大量死亡、死亡量波動大、發生時間距今很近”,占比3%;第三,“較頻繁死亡、死亡量較高”,占比3%;第四,“死亡間隔期長、死亡量低”,占比31%;第五,“死亡量較低、但波動大”,占比38%。
不難發現,針對上述第二、三類特征群體,應加大工作力度,通過開會約談、現場調查、流行病學調查、病原學監測等措施,有針對性開展防疫工作。

數據的獲得是有一定成本的,數據分析工作質量高低首先取決于數據質量。相較于問卷調查所獲得的數據,獸醫主管部門投入財政資金統一進行的病害畜禽集中無害化處置所獲得的數據質量更高,成本也相應提高。因此,更應有效利用工作數據,切實發揮信息支撐作用。
繪制事件-時序趨勢圖、計算平均值等手段對6000余條無害化處置數據進行分析,往往難以將大量、頻繁生豬死亡的重點關注養殖場對象和其他養殖場甄別出來。無差別、全面覆蓋的防疫工作策略無法達到“精準定位、有效甄別”的目標。因此,應通過數據挖掘技術,對不同特征的養殖場戶分類治理,對于頻繁、大量發生生豬病害現象的養殖場戶,重點關注、積極治理,從而達到降低養殖環節生豬死亡率、節約財政補助資金、深度發揮財政資金實效的目標。
數據挖掘技術還可應用于獸藥經營企業GSP監管、畜禽群體免疫抗體監測等防疫工作。比如,收集整理轄區內全部獸藥經營企業GSP規范經營數據,通過“關聯規則”分析技術,挖掘分析全部獸醫處方箋,探索獸用處方藥之間聯合使用或相互排斥的現象,分析獸醫處方箋背后隱含著的動物疫病發生、傳播、流行信息,對動物疫情預警分析將是極大的助力。
總之,將數據挖掘等工商業上廣泛應用的分析技術導入畜牧獸醫監管工作,幫助發掘多年來累積工作數據背后的信息,精確指導動物疫病監測、檢測、流行病學調查工作的開展,具有積極的現實意義。