俞芳芳 董 蓉 李 勃 李衛強
(南京大學電子科學與工程學院1,南京 210000) (南通大學電子信息學院2,南通 226000) (益海(泰州)糧油工業有限公司3,泰州 225300)
食用油脂提供了人體所需的營養與能源,是人們日常生活中膳食的重要組成部分。20世紀90年代初以來,我國食用油行業發展迅速,小包裝食用油已在較大程度上取代了散裝食用油,并帶動了作為配套服務的食用油包裝的發展。隨著先進的設備、工藝的引進和技術創新,我國的食用油包裝生產線已逐步采用機器代替人眼做檢測和判斷,可極大減少人力勞動,降低檢測成本,提高檢測精度與效率,產業的自動化與智能化程度得到進一步提高。但是傳統的機器視覺算法需要對每個檢測項目進行針對性的單獨開發,算法復用性較差,開發周期較長,且參數設置繁瑣,對于采圖質量要求高,這些都給實際生產過程中操作的便捷性以及生產線的全自動化一體性帶來阻礙。
為了進一步提高食用油生產線自動化程度以及用戶使用的友好性,同時提高檢測的準確率和效率,本研究提出了一種基于深度學習網絡的食用油灌裝質量檢測系統,系統算法主要采用了深度學習有監督物體識別網絡,對食用油進行從原料至銷售全產線包裝缺陷檢測,具體功能包括瓶口缺陷檢測、瓶蓋缺陷檢測、瓶身噴碼缺陷檢測、貼標缺陷檢測、裝箱點數檢測。該系統具有無需做圖像預處理、檢測精度高、參數設置簡單、算法復用性強、開發周期短的優點,可實現食用油生產質量檢測的全面自動化。
食用油的灌裝容器主要采用PET瓶,食用油的灌裝生產系統主要包括PET注塑、PET吹瓶、灌油壓蓋、瓶體噴碼、貼標、裝箱、封箱、碼垛倉儲等多個工序。根據該生產流程以及質量缺陷的來源,本研究設計的質量檢測系統的工位布置如圖1所示。由于吹瓶后瓶口可能存在磕碰、形變從而有漏油的風險,因而在吹瓶后加入瓶口缺陷檢測。由于吹瓶后需要進行灌油和壓蓋,可能存在缺蓋等風險,因而設置瓶蓋檢測模塊,此外同時加入瓶身噴碼識別模塊,對瓶身噴碼內容進行識別,檢測是否存在疊碼、錯碼、缺碼、內容錯誤的情況。由于油瓶貼標時可能存在錯標或者漏標的問題,因而加入貼標檢測模塊剔除異常標貼。最后在油瓶裝箱后加入裝箱點數模塊進行箱內油瓶數量清點,保證裝箱正確。
LeCun等[1]提出了卷積神經網絡的概念后,2006年Hinton等[2]提出了用自學習初始化參數,然后再逐步調優的方法來解決深層網絡的學習問題,從此深度神經網絡開啟了新的篇章。在深度學習算法中,網絡的訓練方式有多種:監督學習、半監督學習以及無監督學習等。區別不同的學習方式的關鍵在于網絡訓練時輸入數據是否有標簽。有監督學習通過人為提供的“標準答案”來指導網絡學習,因此需要對訓練數據進行人為標簽。而無監督學習通過發現輸入數據間呈現出聚群的結構來完成數據的聚類,也即相似類型的數據特征會聚集在一起,而不同類型的數據間特征距離較大,因而不需要對輸入數據進行標簽[3]。
目前在分類功能上有監督學習的設備,性能強于無監督學習,而無監督學習則在減少人工標簽方面勝于有監督學習[4]。在缺陷檢測領域亦有這兩種學習方法的應用,既可以通過學習正負樣本特征,從而對圖像缺陷區域分類來實現缺陷的檢測,如文獻[5]中提出了一種通過滑動窗口法提取圖像區塊,繼而送入深度卷積神經網絡進行缺陷分類來進行缺陷檢測的算法;也可以通過學習無缺陷的正樣本獲得已知響應,而有缺陷的負樣本產生異常響應來判斷缺陷,如文獻[6]中使用了一種多尺度字典學習算法提取特征,構建正樣本特征空間,通過判斷檢測圖像特征是否在該空間中來判斷正?;蛉毕荨5窃谑秤糜桶b缺陷檢測中卻鮮見深度學習算法的應用。在本研究設計的食用油灌裝質量檢測系統中,主要通過目標定位與分類的方式實現缺陷的檢測,因而采用有監督學習網絡,更進一步則采用了一種基于區域卷積的神經網絡結構[7-8]。該網絡結構通過對圖像生成若干目標候選區域,繼而對每個候選區域使用深度神經網絡提取特征并進行分類的方式,實現對目標的定位和分類。傳統候選區域算法主要基于圖像特征,如基于大小信息的滑動窗口法、基于顏色信息的selective search法[9]、基于邊緣信息的edge box法等[10],但這些人為選擇特征的方法往往不能兼容各種圖像,而且對有重疊的候選區域需要重復進行特征提取,從而帶來了大量的計算。為了解決這些不足,本研究的算法使用圖像特征進行候選區域定位,可實現網絡的端到端訓練,該算法的網絡結構主要包括通用卷積層網絡、候選區域定位網絡以及分類識別網絡,其具體組成方式見圖2。

圖1 基于深度學習的食用油灌裝質量檢測系統工位分布圖
圖2 有監督物體識別網絡結構
通用卷積層網絡的輸入為任意尺寸大小的圖像,采用5層卷積層結構,層與層之間使用Relu激活函數和最大值池化層,主要完成圖像底層特征的提取,第一層和第五層卷積層的特征圖如圖2a所示。由于輸入圖像大小不統一,因而特征圖大小也有差異,采取對最后一層特征圖進行尺度歸一化的方式,保證網絡特征圖尺寸的統一。
候選區域定位網絡根據提取到的圖像的底層特征,在特征圖上以多尺度采樣的方式提取不同尺度物體的特征,如圖2b所示,根據圖像中檢測目標的尺度先驗知識,通過滑動窗口的方式對特征圖中每個像素點,選擇以其為中心點的2種面積大小{128,256}、3種長寬比{1:1,1:2,2:1},共6種尺度的候選區域,并對每一維特征圖選取以該點為中心的3×3大小的窗口提取特征,作為這6個候選區域的特征。該方法相比于傳統的網絡多尺度目標兼容方法,如枚舉圖像金字塔和濾波器金字塔等[11,12],大大減少了網絡重復完全計算的工作量,加速了網絡傳輸時間。繼而將每個可能的候選區域與訓練集中目標區域的位置標注進行重疊度的計算,重疊度高于設定閾值的判定為正樣本,低于閾值的判定為負樣本,根據這些已經標記好正負樣本可進行候選區域定位網絡的有監督學習,獲得每個候選區域是否屬于目標區域的概率得分,并選取得分高的前N個候選區域,實現對一幅圖像提取若干候選區域建議的功能。
最后分類識別網絡完成對候選區域定位網絡所得的N個候選區域進行分類判斷。傳統網絡通常采用將候選區域圖像提取出來后輸入給一個專門分類識別網絡進行特征提取和分類[13],這將導致需要單獨訓練一個用于分類的網絡,且對于每個候選區域需要重新計算,重復計算量很大。由于已知了候選區域的位置,并且整幅圖像的特征圖已在通用卷積層網絡中得到,只需計算候選區域在特征圖中的位置即可提取候選區域的特征圖,從而使得網絡只需計算一次整幅圖像的特征圖即可,且候選區域定位網絡和分類識別網絡可以共享通用卷積層網絡提取的特征圖,使得整個網絡相比于傳統的圖像分類識別網絡只增加了少量開銷,就可完成定位與分類兩項功能。將得到的每個候選區域的特征圖通過全連接層輸入給softmax分類判斷層后即可獲得該候選區域的類別判斷概率得分。
在訓練階段,采用人工標定的包含所需識別目標的類別及位置信息的訓練集對網絡進行訓練,網絡訓練采取標準誤差反向傳播和隨機梯度下降法。具體步驟:
1)首先訓練通用卷積層部分,由于圖像的底層特征是相似的,因而對于通用卷積層部分采用從已訓練好的模型進行遷移初始化,從而減少對訓練樣本量的需求,本研究采用基于PASCAL VOC2012數據集的ZF模型進行網絡遷移訓練[14]。
2)其次在已訓練好的通用卷積層的基礎上增加候選區域定位網絡進行訓練,固定通用卷積層網絡參數,采用隨機初始化的方式初始化候選區域定位網絡的參數,根據候選區域定位網絡的損失函數對候選區域定位網絡的參數進行調整。
3)繼而再增加分類識別網絡,固定通用卷積層網絡以及候選區域定位網絡參數,采用隨機初始化的方式初始化分類識別網絡的參數,根據分類識別網絡損失函數,對分類識別網絡的參數進行學習和調整。
4)最后對整個網絡進行端對端的微調,獲得最終的訓練網絡模型結果,模型里包含了深度學習網絡中每一層權值的數值。
在在線使用階段,首先將相機采集所得的圖像通過已訓練好的模型,對每個候選區域,將它對于每個分類類別概率得分最高的類別,作為該候選區域的類別,并將該概率得分作為該候選區域的分類得分,從而獲得N個候選目標的定位與識別結果。通常N的數值設置為在滿足網絡計算時間的要求下,盡可能大于圖像中實際檢測目標的數量,以保證可以包含所有的目標,因此這N個候選區域通常具有極大的重復性,通過對候選區域兩兩計算重疊度,重疊度大于設定閾值時保留得分高者的方式,去除重疊項,獲得最終的識別結果。
該算法特點在于只需提供人為標注好的正負樣本,網絡可自行學習具有區分度的特征并進行分類,當應用于不同的缺陷檢測模塊時,只需采集相應的樣本訓練即可,無需修改算法結構以及設置大量參數。此外,當缺陷場景發生改變時,如出現新的油瓶瓶型等,只需采集新的樣本訓練即可達到兼容。因此,使用本研究提出的基于深度學習算法的質量檢測系統,具有算法通用性高、開發簡單的優勢。
本研究設計的食用油灌裝質量檢測系統中各個工位的模塊硬件結構大致相似,主要包括傳送帶、光源、相機、工控機及控制板,分別用于圖像獲取和圖像處理操作。以瓶身噴碼識別為例,其模塊硬件結構圖如圖3所示:油瓶通過直線傳送帶傳送至檢測區域,采用大小大于瓶身的LED平面光源以及背光照明方式照亮噴碼區域,繼而光電傳感器觸發相機進行拍照,獲取的圖像通過網絡傳輸至工控機進行圖像處理判斷作出相應的處理操作,系統控制及參數設定則由控制板完成。系統不同功能模塊的硬件結構差異主要在相機選擇和打光方式上,具體每個模塊的打光方案與參數見表1。

注:1-控制板;2-機架總成;3-瓶身光源;4-傳送帶;5-電氣總成;6-相機總成。圖3 瓶身噴碼識別系統硬件結構圖
表1 系統各功能模塊的打光方案與參數

模塊名稱瓶口缺陷檢測瓶蓋檢測、瓶身噴碼檢測裝箱點數貼標檢測打光方案參數環形光源、500萬黑白相機平面光源、130萬黑白相機 平面光源、130萬彩色相機 條形光源、130萬黑白相機

圖4 瓶身噴碼識別系統軟件界面圖
本研究設計的食用油灌裝質量檢測系統運行環境為Ubuntu 14.04系統,工控機配置為英特爾i7處理器,8G內存,英偉達GTX 960 4G顯卡,繼續以瓶身噴碼識別為例,其軟件界面圖如圖4所示。
3.2.1瓶口缺陷檢測
瓶口缺陷主要包括內圈缺陷、外圈缺陷以及貫穿缺陷,如圖5所示,瓶口缺陷檢測主要為在瓶口圖像中提取缺陷部分,并進行缺陷類型判斷,屬于目標定位與分類的問題。
傳統算法主要采用圓擬合與二值化分割結合的方式提取缺陷部分,算法參數配置繁瑣復雜,并且對于一些形態、邊緣復雜的缺陷,如弱邊緣缺陷,傳統算法無法很好地檢出。本研究提出的瓶口缺陷檢測算法采取深度網絡,不依賴于人工設定特征,具有抗位置旋轉、兼容低對比度缺陷的優勢,可檢出大小在0.5 mm2以上的不同類型的缺陷。其與傳統算法對比檢測結果如圖6所示,可見傳統算法對于低對比度缺陷檢測效果不佳,而本研究提出的檢測算法可以檢測,且可區分不同種類的缺陷。

圖5 瓶口缺陷類型

圖6 瓶口缺陷檢測結果對比
3.2.2瓶蓋檢測
瓶蓋檢測模塊主要檢測瓶蓋以及瓶蓋各部分是否缺失,以及區分不同產品使用的有字蓋和無字蓋是否正確。傳統算法通過顏色、位置等先驗信息實現瓶蓋的定位與檢測,而本研究提出的基于深度學習的瓶蓋檢測模塊,采用本文所述的通用算法結構,無需進行單獨開發,其檢測結果如圖7所示,網絡通過定位和識別圖像中瓶蓋各個部分,從而判斷不同類型的瓶蓋缺陷,檢出率達99.98%。

圖7 瓶蓋檢測結果圖
3.2.3瓶身噴碼檢測
噴碼檢測模塊通過識別噴碼字符的位置及內容,根據位置信息排列各字符,從而判斷檢測是否存在疊碼、錯碼、缺碼、內容錯誤的情況。傳統算法通常采用先分割后分類的算法,即首先通過投影法等字符分割算法分割出每個字符的區域,繼而對每個單個字符使用SVM分類器或神經網絡等方式進行識別[15,16]。該算法通常要求輸入圖像使用規范的印刷體、擁有幾乎無干擾的背景、具有較高的分辨率,而油瓶噴碼屬于自然場景字符,具有背景復雜、質量低下、形態不規則等特點,從而導致字符與背景間難以用簡單的人為選擇的特征進行區分,繼而難以正確分割乃至識別。
本研究提出的噴碼檢測算法無需預先分割字符區域,而是利用深度學習網絡提取圖像的特征,并據此進行字符候選區域的提取及分類,從而實現直接在圖像上定位并識別每個字符。該算法具有較強泛化能力以及抗背景干擾能力,通過網絡訓練可使得一個網絡模型兼容多產線不同字體、漢數英全字符,其與傳統算法檢測效果對比如圖8所示,由圖8可見,當圖像中存在背景干擾時(凹陷、模糊),傳統算法分割效果不佳,而本研究提出的噴碼檢測算法則可實現檢測。

圖8 噴碼檢測效果對比
其檢測結果如表2所示,字符識別率達99.9%。繼而根據圖像中網絡輸出的每個字符的位置和內容,可完成是否存在噴碼缺陷的判斷。
3.2.4貼標檢測
貼標檢測通常采用模板匹配的算法來實現,本研究提出的標貼檢測模塊采用上述目標識別網絡,通過采集所有類型的標貼圖像訓練,可使得網絡識別不同種類的標貼,此外通過對標貼圖片進行上下翻轉的數據增強方式,擴充標貼正反的樣本,使得網絡可以分辨標貼正反,從而判斷標貼是否存在異常,其檢測結果如圖9所示,檢測正確率達99.9%。

表2 噴碼檢測結果


圖9 貼標檢測結果
3.2.5裝箱點數
裝箱點數模塊通過識別提環與瓶蓋的數量來判斷是否存在異常:若提環數量與瓶蓋數量不匹配,則存在提環丟失異常;若提環數量與瓶蓋數量匹配,但與裝箱應有數量不一致,則存在缺瓶異常。傳統算法通過顏色二值化、霍夫變換方式檢測瓶蓋與提環,其受背景干擾影響大,對圖像質量要求高,而本研究提出的裝箱點數檢測模塊將油瓶上的瓶蓋和提環作為網絡識別目標,根據網絡檢測到的瓶蓋與提環的數量判斷裝箱油瓶是否存在異常,檢測結果如圖10所示,該算法具有很好的泛化能力,可兼容多干擾、低質量圖像,其與傳統算法檢測結果對比(暗色提環、反光干擾、提環遮擋)如圖11所示。

圖10 裝箱點數檢測結果

圖11 裝箱點數檢測效果對比
本研究設計的基于深度學習算法的食用油灌裝質量檢測系統檢測結果數據如表3所示,其檢測精度和速度均可滿足實際生產產線需求。

表3 系統檢測結果
本研究提出了一種利用深度學習算法進行食用油灌裝質量檢測的系統,系統的算法采用了深度學習有監督物體識別網絡,對食用油進行從原料至銷售全產線包裝缺陷檢測,該系統具有無需做圖像預處理、檢測精度高、參數設置簡單、算法復用性強、開發周期短的優點,可實現食用油生產質量檢測的全面自動化。本研究設計的食用油灌裝質量檢測系統目前與益海嘉里企業合作,已投入金龍魚食用油生產線使用。實踐證明,相比于傳統機器視覺解決方案,本研究提出的食用油灌裝質量檢測系統可進一步提高食用油生產產線的自動化程度以及用戶使用的友好性,同時提高檢測的準確率和效率。
[1]LéCUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324
[2]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504
[3]殷瑞剛,魏帥,李晗,等.深度學習中的無監督學習方法綜述[J].計算機系統應用,2016,25(8):1-7
YIN RUIGANG,WEI SHUAI,LI HAN,et al.Introduction of unsupervised learning methods in deep learning[J].Computer Systems and Applications,2016,25(8):1-7
[4]朱陶,任海軍,洪衛軍.一種基于前向無監督卷積神經網絡的人臉表示學習方法[J].計算機科學,2016,43(6):303-307
ZHU Tao,REN Haijun,HONG Weijun.Forward and unsupervised convolutional neural network based face representation learning method[J].Computer Science,2016,43(6):303-307
[5]WEIMER D,SCHOLZ-REITER B,SHPITALNI M.Design of deep convolutional neural network architectures for automated feature extraction in industrial inspection[J].CIRP Annals-Manufacturing Technology,2016,65(1):417-420
[6]CARRERA D,BORACCHI G,FOI A,et al.Scale-invariant anomaly detection with multiscale group-sparse models[C].IEEE International Conference on Image Processing.IEEE,2016:3892-3896
[7]GIRSHICK R.Fast R-CNN[C].IEEE International Conference on Computer Vision.IEEE,2015:1440-1448
[8]REN S,GIRSHICK R,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137
[9]UIJLINGS J R,SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171
[10]ZITNICK C L,DOLLR P.Edge Boxes:Locating object proposals from edges[C].European Conference on Computer Vision,2014:391-405
[11]王冠皓,徐軍.基于多級金字塔卷積神經網絡的快速特征表示方法[J].計算機應用研究,2015,32(8):2492-2495
WANG Guanhao,XU Jun.Fast feature representation method based on multi-level pyramid convolution neural network[J].Application Research of Computers,2015,32(8):2492-2495
[12]張文達,許悅雷,倪嘉成,等.基于多尺度分塊卷積神經網絡的圖像目標識別算法[J].計算機應用,2016,36(4):1033-1038
ZHANG Wenda XU Yuelei,NI Jiacheng,et al.Image target recognition method based on multi-scale block convolutional neural network[J].Journal of Computer Applications,2016,36(4):1033-1038
[13]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].Computer Vision and Pattern Recognition.IEEE,2014:580-587
[14]ZEILER M D,FERGUS R.Visualizing and understanding convolutional networks[C].European Conference on Computer Vision,2014:818-833
[15]王偉,馬永強,彭強.SVM多類分類器在車牌字符識別中的應用[J].計算機工程與設計,2011,32(9):3166-3169
WANG Wei,MA Yongqiang,PENG Qiang .Application of SVM multi-classifier on license plate character recognition[J].Computer Engineering and Design,2011,32(9):3166-3169
[16]鞏玉濱,楊紅娟,張運楚,等.一種數顯儀表數字字符識別方法研究[J].山東建筑大學學報,2011,26(2):134-137.
GONG Yubin,YANG Hongjuan,ZHANG Yunchu,et al.Research on a character recognition method for numerical instruments[J].Journal of Shandong Jianzhu University,2011,26(2):134-137.