戴美玲,杜秉華,樓平兒
(浙江天蓬集團有限公司,浙江 衢州 324100)
近年來隨著養豬規模化、現代化發展,種豬生長性能自動測定設備在我國的豬育種中使用越來越多,成為獲取大群體生長性能數據的不二選擇。自動測定設備是一種由多項現代科學技術合成的裝備,需要相應現代管理技術支持,才能得到正確性比較理想的測定數據。可能人們沒意識到如何對其設備進行現代化管理,所以很多國內豬場在場內測定的自動測定設備測定數據的正確性方面并不理想。2017年國家進一步推行全基因組選育技術,這個技術對各相應的表型值測定正確性提出了更高的要求。對于豬場來講,生長性能的表型值(如日增重和料比等)是降低豬場單位生產成本的重要途徑,但數據的正確性卻是不少人對此技術沒有信心的原因,所以現場表型數據的質量問題也越來越廣泛地引起大家的關注。
提高數據質量是一個系統的管理工作,對測定工作的運行進行監測,卻又是系統管理很重要和很基礎的工作之一。隨著社會的發展,國內畜牧業已經把測定工作從集中測定逐步轉移至場內測定,由場內測定人員直接管理測定數據,對數據的監測也成為他們管理的基礎工作內容。但目前,對該測定數據正確與否和對其監測方法的標準幾乎沒有,我國大多數豬場對運行自動測定設備的測定數據質量認識也不多,對運行監測的管理工作也基本沒有實行;國外雖有專著對自動測定設備的數據準確性和監測方法進行論述,但這些論文中所介紹的方法多以學術為主,對我國豬場場內測定的具體操作來講還是有相當大的困難。所以我國豬場的場內測定工作者要進行監管測定的運行,就需要系統的監管方法,而這個方法的要求是有效和易操作的實用方法。
種豬生長性能自動測定設備獲得的測定數據受到的影響因素除了測定設備的性能和測定管理之外,它在實際運行過程中還要受到被測定豬群行為的影響,以及這種動物行為與測定行為互動作用等諸多因素的影響。影響測定數據正確性的因素不僅復雜,數據正確的正確與否又意味著能否準確表述豬的行為,所以測定數據的特點和數據正確性的表現與其他行業又有不同之處。造成每個 異常 數據的結果并非與每一種影響因素呈必然的因果關系,但在大數據的情況下其數據的異常狀態與綜合影響原因會呈現一定的相關性。為此我們對實踐過程發現的幾種常見的異常測定數據的主要發生原因、原因的影響、以及在正常運行狀況下正常數據與異常數據的正態分布狀況進行分析,并以此測定數據出現的特點為依據對測定數據正確性問題進行分析和探討。我們認為測定數據的特點和其正確性的概念是測定工作監管的基礎,這兩點正是文章主要探討的內容。
探討自動測定設備的測定數據正確性以及監測方法涉及到較多的具體內容,限于篇幅,后續的文章再分別對實際的數據現象展開討論和分析。
自動測定設備的測定對象是動物的即時行為,因此測定數據的特點有:
1)其每個測定數據都沒有一個通常數據誤差理論定義的 真值來被監測和校正。對任何一個具體的測定數據來講都不存在一個相應的標準值來核算它的精確性和準確性,即使個別明顯看上去有悖常理的數據,也只能認為其是 有問題數據而已;
2)數據量巨大。由于全天候自動化測定的結果,產生的數據量是巨大的,一個測定工作站一個測定周期的數據量就有10 000個左右;
3)單個數據的信息價值低。測定設備的數據量是所有場內性能測定項目中最大量的,而每個數據的信息價值卻又很低,如果 感覺某數據有問題的話,就單個數據而言既少有實際意義而且又難以分析該數據背后的原因;
4)較差的測定環境和受到干擾較多。由于測定種豬的環境相比其他行業來講恐怕是最惡劣的,設備經常處于被粗暴干擾其穩定運行的測定環境;
5)動物行為與測定行為介入產生的互動作用會放大數據的異常程度。由于測定活體動物行為的特殊性,被測動物不僅有個體之間的行為差異,還會由于動物行為受到外界事件影響后產生的應激反應,放大了故障原因下的數據異常程度。
所以豬場內的測定設備在運行時受到的影響因素多于其他行業的影響因素,而這些因素又常常多重和疊加發生。在這樣的測定背景下,雖然測定數據呈大數據的低價值狀態,然而有幸的是這些數據性質卻應該是符合生物體生長規律的行為數據。所以對自動測定設備的測定數據進行合適的統計學方法分析后,或許就是能發現出錯數據和出錯原因的方法。
現代育種技術對表型值的定義是在生產中被直接觀察到的成績,影響表型值的兩個因素是基因和環境效應[1]。表型值對豬場的育種和生產管理有重要的意義,它直接影響對育種值的估計(EBV或GEBV)和數量性狀基因(QTL)等的鑒別及定位,也能提供生產管理中出現問題的重要信息。種豬生長性能自動測定設備就是測定生長性能的表型值,有關表型值中的基因因素不是數據質量管理關注的問題,這里關心的是環境因素。但表型值需要在測定條件下獲取,而測定工作本身又會產生一個人為和設備的干預效應,所以在考慮自動測定設備下的數據正確性時除了育種學上的環境因素外還要加上測定豬行為與測定行為的互動效應。
測定環境就是測定時設備的本身狀況和各種外界因素影響測定運行的情況,飼養環境中的基本條件如欄舍,飼料和氣候等,但這些目前還不考慮為本文議題中的管理因素,可作為以后評估數據質量時的加權因素和進一步深化管理的因素。在數據質量管理中關注的環境因素在本文中暫指的是設備故障、動力和飼料的中斷,意外突發事件等,這些因素在實際的測定過程中影響設備的運行甚至破壞設備的功能,對數據誤差的影響往往是很大的。
測定豬與測定環境的互動因素有兩個方面,一個是在測定行為的約束下動物為此產生的反應,如單位測定站的測定頭數會影響站內個體豬和群體豬的平均日采食量和日增重,這是測定豬在這樣的群養條件下被迫適應而產生的平衡狀態,卻會影響表型結果。另一個是在故障和突發事件會刺激動物行為,這樣應激行為與測定故障產生互動作用而放大數據異常或出錯的程度[2](戴美玲等,2018)。這是自動測定時常見的情況,但這個結果對測定數據的影響往往是不小的。
如果有一個 標準的 正確值(真值),那么對這個真值來講對應的測定數據正確性可用數據的精確性和準確性的兩個方面來表述(圖1)。
圖1所示的a和b就是表示數據精確性和準確性的情況。數據精確性是指設備能夠表現這個測定值表現誤差范圍多少之內,在圖1中a表示的就是指各個實測數據圍繞中心點-真值的離散情況,但不管中心點的真實位置在哪里。數據準確性,即在圖1中b就是指各個離散數據的中心離開真正中心點-真值的距離,它只關心中心點的真實位置是否變動而不管各個數據的離散情況。

圖1 數據精確性和準確性圖示
對自動測定生長設備的測定數據來說,假設一頭體重為真正50 kg的測定豬,那么在測定正常的情況下,數據的精確性是由設備本身的性能而定。數據精確度是設備標定的性能指標,如體重稱量精度能保持小于f0.2 kg,則測定結果應該為50f0.2 kg之內。這就是以上圖1中a的表示。
在正常測定情況下,數據準確性是指這個數據中心點在測定過程中受各種原因影響而偏離50 kg的距離。如這次稱體重時后面一頭豬也擠了上來,或者這頭豬把自身的部分抵在體重秤以外的地方,或者體重秤被卡住了等等。即出現了類似圖中b的表示。在這種情況下得到的體重記錄往往是遠大于50f0.2 kg的結果。
當然測定過程是諸多內外影響因素和動物行為的互動作用的過程,測定數據往往受到多重因素的疊加影響,“問題 數據可能難以簡單地歸屬到精確性或準確性的原因,但這不是本文的議題。鑒于本文的監測主題,我們從數據正確性的精確度和準確度的概念出發,對實踐結果的數據進行分析,探討測定數據的表現和測定過程正確的監測方法。
參考美國國家豬肉委員會名義進行研究測定數據出錯的科研文章[3](Casey等,2005),實驗在明尼蘇達豬肉協會測定站進行。他們在研究中提出了監測測定工作的方法,我們引用了他們的部分監測項目和方法來評估本文使用的材料數據。 對比的內容和結果如下,由此可以認為用于本文分析的材料數據是有一定意義的,我們在這個材料數據的基礎上探討在場內測定時豬只行為數據的正確性和界限。
以上的平均值和變異系數均是在以測定工作站為單位分別統計分析后再匯總的數據,如表1中為1.20%。按全體數據平均值與之不同,如上述材料中介紹的無效事件數平均值為1.03%。
平均值基本反映了整個測定項目數據的正確性狀況,變異系數大致反映了測定過程中對整個測定工作的管理能力。
自動測定設備報告中的測定數據是描述動物行為的直接數據,如一次測定數據(以下稱為事件數據)包括的具體內容是:身份識別號、該次測定過程進入的時間和料槽內的開始飼料量、該次過程結束后的飼料量、中途的投料量和對該次測定結算的采食量、該次過程結束時的體重量。一個測定站在一個測定周期內發生的事件數據約在10 000個左右。
根據動物的行為數據是符合生物體生長規律的,以及在正常運行情況下這些行為數據的界限是能用統計學的方法來推算和評估的原則,這里先以測定站為單位分別統計各站的數據,然后匯總整個測定批次的數據情況,最后進行統計分析。我們從幾種常見和主要異常的數據類型出發,分析這些情況下出錯數據的概率及影響,從而推導出各種情況下出錯數據的定義閾值,出錯數據量對飼料報酬的影響閾值。這些常見故障基本覆蓋了飼料稱量的穩定性、飼料的缺損、飼料和體重量的粘連故障和數據的缺失等,因為它們直接并主要影響了數據的誤差(精確性)和數據的真實和完整(準確性)。
表2就是我們對場內測定提出的監控項目及其內容,表2中的定義閾值是指具體監控內容達到出錯的臨界值,用于鑒定數據的出錯;正確性閾值是該測定的出錯數據累積量影響分析報告所要求正確性的臨界值,該值用于測定過程中的運行監測和故障原因的分析,也可用于出錯后的數據質量評估,以致數據維護。

表1 與美國文獻數據對比監測和評估測定數據的結果

表 2 場內測定出錯數據監控項目及內容
種豬自動測定設備是現場育種工作的精密測定設備,但其工作環境是相對比較惡劣、相應的管理細致程度需提高,所以現行條件下的測定數據,需要在日常的數據管理中進行正確性的監控和評估,具體包括單次最大采食量、單次最小采食量、相鄰日體重變化量、數據鏈中斷、零耳牌事件和飼料稱重穩定性。才有得到相對比較可靠數據的基本保障。對后續的日增重、料比等進行分析,或指導生產,才有可靠性保障。