李慶旭, 王巧華, 2*, 馬美湖, 肖仕杰, 施 行
1. 華中農業大學工學院, 湖北 武漢 430070 2. 農業部長江中下游農業裝備重點實驗室, 湖北 武漢 430070 3. 國家蛋品加工技術研發中心, 湖北 武漢 430070
我國是鴨蛋、 鴨肉消費大國, 而雛鴨孵化產業是鴨蛋、 鴨肉生產的重要保障。 在鴨蛋生產行業雌性的需求量更大; 而在肉鴨培育產業中, 雄性因其生長速度快, 養殖行業更傾向于養殖雄性。 若能在鴨蛋孵化早期根據需求控制雌雄比例, 不僅可以降低孵化成本, 也可以極大地提高養殖行業的經濟效益。 因此, 開發一種高效、 無損的早期鴨胚胎性別檢測方法, 對于提升整個鴨養殖行業的經濟效益具有重要意義。
在國內外已有的文獻記載中, 大都針對雞蛋胚胎進行雌雄鑒別研究, 主要研究手段有機器視覺、 光譜和破損檢測等。 唐劍林等[1]利用光照對孵化3 d的雞胚胎進行性別鑒定, 發現雌性胚胎與雄性胚胎的血管分布有所區別。 祝志慧等[2]利用機器視覺技術根據孵化4 d雞胚的血線特征鑒別雌雄。 潘磊慶等[3]利用高光譜成像技術實現了對孵化10 d的雞胚性別的判別, 祝志慧等[4]利用紫外-可見光譜發現雞胚在孵化7 d時可以進行雌雄判別。 以上為無損鑒別手段, Weiss-mann等[5]利用孵化9 d雞胚的尿囊液中的硫酸雌酮含量的差異進行性別判定。 Turkyilmaz等[6]利用PCR 技術鑒別孵化5~7 d的雞胚性別。 此外, 通過微創手段采集雞胚的拉曼和熒光光譜也可以實現雞胚雌雄的檢測[7-8]。
雞蛋與鴨蛋相比, 飼養方式和孵化周期均有所區別, 有關雞胚性別研究對鴨種蛋具有一定借鑒意義。 縱觀以上前人研究, 發現有損檢測方式雖然檢測精度較高, 但耗時長、 效率低下, 不適用于生產實際; 高光譜技術價格昂貴且效率低; 機器視覺技術雖然檢測效率較高, 但檢測精度低。 可見/近紅外光譜技術是一種高效、 快速的無損檢測方法, 目前廣泛應用于農產品的無損檢測, 光源能夠透過鴨蛋的蛋殼被內部物質吸收, 可以將鴨蛋內部信息反映在光譜圖上。 為此, 本文采用可見/近紅外光譜技術對孵化早期鴨胚進行雌雄鑒別研究。
試驗材料為新鮮生產的國紹一號麻鴨種蛋345枚, 產自江西上饒。 用酒精對種鴨蛋表面進行擦拭消毒, 待鴨蛋晾干后進行編號。
試驗儀器包括可見/近紅外透射光譜采集系統和智能孵化箱。 可見/近紅外透射光譜采集系統如圖1所示, 由Maya2000Pro光纖光譜儀、 150 W光源(輸出波長范圍為360~2 000 nm)、 暗箱、 聚焦透鏡、 84UV準直透鏡、 計算機和玻璃光纖等組成。 采集的光譜波長范圍為200~1 100 nm, 采樣間隔為0.5 nm。

圖1 光譜采集系統
1.2.1 光譜采集
將清洗消毒后的種鴨蛋置入智能孵化箱中孵化, 分別在孵化前以及入孵之后每間隔24 h采集一次光譜信息, 采集0~8 d共9 d的光譜信息。 利用可見/近紅外透射光譜信息采集系統對種鴨蛋進行透射光譜采集, 采集光譜時將種蛋豎直放置, 鈍端向上。 由于孵化7d的種鴨蛋透射難度較大, 將光譜儀的采集積分時間設定為700 ms, 掃描次數設定為1。
1.2.2 雌雄胚胎人工判別
種鴨蛋在孵化過程中性腺開始轉換為卵巢或睪丸, 在孵化后期可以通過睪丸和卵巢的形態進行性別鑒定, 雌性胚胎的卵巢兩側發育不對稱, 而雄性胚胎的兩側睪丸則對稱發育[9]。 為獲得種鴨蛋的雌雄對比結果, 在種鴨蛋孵化20 d后將其破殼并對鴨胚胎進行解剖處理, 人眼觀察其性別。 圖2為孵化20 d后的鴨胚胎解剖圖, 圖2(a)為雄性胚胎, 圖2(b)為雌性胚胎。

圖2 鴨胚胎解剖圖
為了避免隨機劃分樣本集帶來的樣本分布不均衡, 利用Kennard-Stone算法對樣本集進行劃分。 將變量空間中相對歐幾里德距離相差較大的樣本選入訓練集, 其余樣本選入開發集[10], 其中開發集和訓練集的劃分比例為3∶7。 為了進一步驗證模型的性能, 從開發集中隨機選出30%的樣本作為測試集。 本試驗共345個樣本數據, 按照上述方法劃分后, 訓練集樣本個數為242(雌性119, 雄性123)、 開發集為72(雌性36, 雄性36)、 測試集為31(雌性15, 雄性16)。
獲得的原始光譜數據如圖3, 由于光源的波長范圍是360~2 000 nm, 所以光譜儀采集的200~360 nm之間的光譜信息是噪聲數據, 需要去除。 此外由于溫度和操作環境等因素的影響, 導致360~500和900~1 100 nm波長范圍內光譜信息波動較大, 含有大量的噪聲數據, 若直接選用全光譜用于后續的分析與處理, 會導致模型不可靠, 泛化能力變差。 因此, 本文選用500~900 nm波長范圍內的光譜信息進行相關分析。 截取后的譜區范圍如圖4所示。 考慮后續方便部署至生產實際, 不對光譜數據再進行其他預處理, 直接對截取后的光譜數據進行分析處理。

圖3 原始光譜圖

圖4 500~900 nm光譜圖
截取后的光譜數據高達908維, 一些波段之間依然存在著較強的相關性, 高維的光譜信息中包含了大量的冗余信息, 若直接使用高維光譜數據建立判別模型會導致模型出現過擬合現象。 此外在使用高維光譜數據建立機器學習或深度學習模型時, 由于輸入信息過多會嚴重影響模型的訓練速度, 而且訓練得到的模型參數量過大, 不利于后續模型的部署。 為此, 本文使用CARS算法、 SPA算法和GA算法分別對截取后的光譜數據進行特征波長選擇, 找出能夠區分雌性鴨胚和雄性鴨胚的波長點集。
(1)競爭性自適應重加權(CARS)算法是一種利用自適應重加權采樣方法篩選PLS模型中回歸系數絕對值相對較大的波長點, 剔除權重比較小的波長點, 通過交叉驗證方法選擇出RMSECV值最低的子集, 可以有效地找出變量的最佳組合。 使用CARS對截取噪聲后的訓練集光譜數據進行特征波長選擇, 選取孵化7d的鴨胚雌雄信息預測的最優波長點集過程如下: 經反復對比, 本研究把蒙特卡羅采樣次數設置為100, 使用10折交叉驗證。 由圖5(a)可以看出, 隨著取樣操作次數的增加, 選取的特征波長點的數目逐步減少 。 從圖5(b)可知, RMSECV值首先變化平緩, 然后遞減, 最后再遞增, 當RMSECV值減小時說明光譜數據中的一些無用的信息被剔除, 當RMSECV值遞增時說明光譜數據中一些重要信息被剔除。 當RMSECV值達到最小時, 各變量的回歸系數如圖5(c)中的豎線處, 采樣運行次數為75, CARS選取的最優波長點數為11個。

圖5 (a)取樣變量數; (b)RMSECV; (c)回歸系數路徑
(2)連續投影算法( SPA) 是使向量空間共線性最小化的前向變量選擇算法, 可以消除高維光譜數據中的冗余信息, 可解決共線性問題。 SPA用于選取截取后的訓練集光譜數據的特征波長點時, 根據SPA的原理可知, 利用均方根誤差(RMSE)最小化原則選出均方根誤差的導數變小的過渡點, 在過渡點之前冗余信息被剔除。 SPA選取孵化7 d的鴨胚雌雄信息預測最優波長點集如圖6所示, SPA選取的特征波長個數為10, 均分布在可見光范圍內。

圖6 (a)RMSE; (b)選取的最優波長編號索引
(3)遺傳算法(GA)模仿生物界進化遺傳機制, 利用選擇、 交叉與變異進行編碼, 并通過不斷地迭代去逼近全局最優解[11]。 本試驗運用GA算法進行特征波長選取時, 設定初始群體數量為80、 交叉率為0.5、 變異率為 0.01、 迭代次數為100。 以最小的RMSECV值為標準, 挑選出在迭代過程中出現頻率較多的波長點為特征波長點, 如圖7所示, 最后選取了分布在可見光與近紅外波段的30個特征波長點。

圖7 (a)GA篩選圖; (b)RMSECV變化圖
卷積神經網絡被廣泛應用于圖像識別與檢測, 處理分類問題時具有獨特的優勢。 高維光譜信息經過特征波長提取后, 均降到較低維度。 降維后的光譜信息為1×n的一維光譜矩陣(n表示特征波長點數), 為了方便將光譜數據傳遞給卷積神經網絡, 本文將一維光譜信息轉換為二維光譜信息矩陣[12], 轉換公式如式(1)。 二維光譜信息矩陣不僅包含了一維光譜數據中的原有信息, 還體現了樣本的方差和協方差, 同時能夠適應卷積神經網絡的結構。
S=XTX
(1)
式(1)中,X代表一維光譜數據,XT為一維光譜數據的轉置。 以SPA提取特征波長后的光譜信息為例, 單個鴨胚樣本的一維光譜數據為x=[x1,x2,…,x10], 二維光譜信息矩陣如式(2)
(2)
使用GA, CARS和SPA提取特征波長轉換的二維光譜信息矩陣, 尺寸較小, GA為30×30、 SPA為10×10、 CARS為11×11。 若搭建的卷積神經網絡層數過多會導致網絡出現過擬合現象, 模型的泛化能力變差。 考慮到孵化7d鴨胚二維光譜信息矩陣的特點, 經反復嘗試, 搭建了層數為6的卷積神經網絡, 包括輸入層(Inputs)、 3個卷積層(conv1, conv2, conv3)、 全連接層(FC)以及輸出層(Output), 卷積神經網絡的結構如圖8所示, 具體實現過程如下(以GA提取的孵化7d鴨胚光譜信息特征波長為例, 其他的與之結構相同):

圖8 卷積神經網絡結構
(1)輸入層(Inputs): 將GA提取的孵化7 d鴨胚光譜信息特征波長使用式(1)轉為二維光譜信息矩陣作為卷積神經網絡的輸入, 輸入層尺寸為30×30×1;
(2)卷積層1(conv1): 卷積核尺寸設置為3×3, 卷積核的個數設定為64, 步長設置成1。 輸入層經過卷積操作后使用ReLU函數進行激活, 為了提高模型的性能, 在ReLU激活后的光譜特征矩陣進行局部響應歸一化(LRN)操作, 經過卷積操作后的特征矩陣尺寸為30×30×64輸出至pool1;
(3)池化層1(pool1): 將池化核的大小設置為2, 池化處理后的特征矩陣大小為15×15×64, 輸出至conv2;
(4)卷積層2(conv2): 卷積核的尺寸為1×1, 卷積核的數量為192, 步長設置為1。 pool1的輸出經過卷積操作后, 再進行LRN操作和ReLU激活, 特征矩陣大小為8×8×192, 輸出至conv3;
(5)卷積層3(conv3): 卷積核尺寸為1×1, 卷積核個數為384, 步長為1。 conv2的輸出經過卷積后, 加入ReLU和LRN操作后輸出尺寸為8×8×384, 輸出至FC;
(6)全連接層(FC): 全連接層中的神經元數目設置512個, 卷積層3輸出的光譜特征矩陣被轉化成1×24 576的數據, 輸入給512個全連接的神經元, 然后輸出512個權值, 為了防止模型出現過擬合現象, 在輸出之前通過dropout層隨機地失活一些神經元。
(7)輸出層(Output): 將全連接層的512個權值經過softmax函數分別得到雌性胚胎和雄性胚胎的得分系數。
本試驗利用采集得到的345個孵化7 d的鴨胚光譜數據對搭建好的卷積神經網絡進行訓練。 卷積神經網絡往往需要大量的訓練數據才能取得較理想的訓練結果, 本文利用光譜對孵化7 d的鴨胚進行雌雄二分類, 采集得到的分類樣本數量已經足夠。 在訓練過程中, 利用Adam優化器尋找最優的梯度下降方向, 可以加快模型的收斂。 均值平方差被用作損失(loss)函數來計算預測值與實際值之間的差值。 初始學習率(LearningRate)設為10-4, 每次選取4個樣本訓練(BatchSize=4), dropout參數設置為0.5, 當迭代次數達到20 000后終止訓練。 訓練過程中的損失函數變化如圖9, 可以發現SPA選取的特征波長分類損失loss在訓練的前5 000次一直處于快速下降狀態, 迭代到9 000次后loss一直維持在較低水平, 說明模型達到收斂。 CARS和GA選取的特征波長訓練過程中loss值也為先快速下降后維持在較低水平, 但最終的損失值均比SPA選取的特征波長高。 從三者的loss曲線變化情況可以發現, 模型均未出現欠擬合現象。

圖9 損失函數變化曲線
在模型訓練20 000次后對其進行保存, 后將訓練集, 開發集與測試集共345個鴨胚樣本的二維光譜信息矩陣傳遞給訓練好的模型對其性能進行驗證。 測試結果如表1所示, 其中SPA提取的特征波長轉換為二維信息矩陣后, 使用搭建的6層卷積神經網絡建立的孵化早期種鴨蛋雌雄信息判別模型性能最佳, 在測試集中的性能與訓練集的性能相當, 這表明模型并不存在過擬合或欠擬合。 GA提取的特征波長轉換為二維信息矩陣后建立的卷積神經網絡性能次之, CARS提取的特征波長建立的卷積神經網絡在訓練集上的表現明顯高于測試集, 出現了輕微的過擬合現象。

表1 模型測試結果
以孵化7 d的種鴨蛋為研究對象, 利用可見/近紅外透射光譜與卷積神經網絡的技術手段探究了孵化早期鴨胚性別無損鑒別技術, 得到如下結論:
(1)通過對孵化7 d的鴨胚透射光譜信息的分析, 發現其有效信息集中在500~900 nm的波長范圍內; 考慮后續將其應用于生產實際, 不再對其作其他預處理, 直接利用SPA, CARS與GA三種常用的特征波長選取算法, 將選定的特征波長點集轉換成二維光譜信息矩陣, 利用卷積神經網絡搭建判別模型, 不僅實現了光譜數據維數的降低, 避免了因為維度災難而需要大量的實驗樣本, 同時適用于卷積神經網絡的訓練;
(2)利用SPA選擇特征波長點集后并將其轉換為二維光譜信息矩陣建立的卷積神經網絡判別模型效果最好, 訓練集、 開發集和測試集的準確率分為達到93.36%, 93.12%和93.83%; 說明用可見/近紅外透射光譜結合卷積神經網絡對孵化早期種鴨蛋性別信息的無損檢測具有可行性, 能夠滿足實際生產的精度要求, 為相應檢測裝置的研發提供模型支撐;
(3)本文使用傳統的光譜處理手段后, 將光譜信息轉換為二維光譜信息矩陣, 為卷積神經網絡和光譜信息找到了結合點。