郎貴林
(西華大學 計算機與軟件工程學院,四川 成都 610039)
在現如今科技高速發展的社會中,人工智能已經是一個不可避免的話題。在很多工作中人們更希望使用機器來代替人工的工作,員工每天的上班時間有限,所以如果能用機器來代替人工,那么工作效率無疑提高了很多。文獻[1]提出使用自動化的機器對香煙產品進行篩選,而且描述了煙盒上噴碼的實際意義,由于香煙在我國的監管比較嚴謹,制定了一些規定來規范香煙的制作和販賣,煙盒噴碼主要是用于相關工作人員查驗香煙是否違法。文獻[2]使用了傳統的圖像處理算法來對煙盒的包裝進行檢測,文獻[3]使用的是深度學習的模型對煙盒上的激光噴碼進行識別,這些方法都是用的工業相機,而本文是使用手機拍照。
本文主要是針對煙盒上的噴碼進行檢測,這些煙盒上的兩行白色數字噴碼則為本文需要檢測的字符,這些噴碼使用的是油漆打印,油漆分布不均勻,在燈光下還會反光,針對這些難題,本文主要使用了一些目標檢測算法對噴碼檢測進行了相關實驗和對比。
根據煙盒圖像是可以看的出一些字符噴碼的,這些噴碼的顏色固定,一般都為白色,煙盒身的顏色與噴碼有一些差異,與煙盒上的中文字符也有很大不同,所以根據這些特征本文通過模糊聚類算法來對圖像中的顏色特征進行聚類。經過模糊聚類后截取下來的結果中,聚類算法把背景聚為一類,把前景數字聚為了一類,噪聲聚為了一類,但是這些字符都有殘缺,而且混有較多噪聲,這些都將為下一步的字符分割和字符識別造成干擾。
由于煙盒噴碼的檢測難度,結合文獻[4]提出了基于尺度可擴展的煙盒噴碼檢測算法。該算法在ICDAR 2015和ICDAR 2017數據集中的整體表現都比較好,但是該算法的檢測速率太慢,在前面的ICDAR 2015數據集中的每秒檢測圖像的數量為1.6,而在ICDAR 2017中的檢測速率還要低。
本文根據尺度可擴展網絡算法存在檢測圖像速率較慢缺點做出了一些改進,為了提高該算法的檢測速率,對該網絡的結構進行了優化。根據圖像在檢測過程中所消耗的時間進行了分析,首先殘差網絡是使用50層,但是卷積的效率比較高,然后在文獻[4]中也分析了基于廣度優先的擴展算法在時間上占用的量也很小,所以整個模型的大量時間都花費在了特征融合的結構中,由于對不同尺度的特征融合時需要進行雙線性插值,所以消耗了大量時間。那么本文在針對這個問題上提出了一個比較輕便的網絡結構,如圖1。

圖1 模型結構圖
本文去掉長寬為160且通道為256特征融合層,去掉了長寬為40且通道為1024特征融合層,只剩下另外兩層進行融合,連接后得到特征F,如圖1。由于最后一層提取的時深層特征,所以是不能夠去除,如果去除最后一層那就沒有意義。第一層和第三層特征層提取的時比較淺的特征,都是可以由第二層來代替的,所以可以去掉。最后在實驗結果中,也表明了留下第二層與最后一層的效率較高。
本文的數據集來自移動手機拍攝,整個圖像的分別率為1080p,拍攝的都是條形煙盒表面的字符噴碼,整個數據集總共有1000張圖片。
本實驗是在Ubuntu 18.04系統上進行的,使用的是PyTorch1.2.0的深度學習框架以及CUDA 10.2,在硬件設施上使用的是AMD R5 4600H處理器,NVIDIA GTX1650顯卡加速計算。本文的模型總共使用了1000張圖片,500張圖片用于訓練,500張用于測試。在訓練前使用了殘差網絡在官方預訓練好的參數,訓練中總共迭代了420次。在開始時將學習率設置0.00001,在迭代到200次時將學習率下調為了0.000001,最終損失函數的值下降為了0.4左右。
本文主要是使用了4個指標來評價算法。第一個評價參數是召回率,主要是使用已經檢測到字符的圖像數量除以參與測試圖像的總數,第二個指標是精確率,計算每個檢測到的字符圖像中檢測正確的數量與檢測到的圖像數量之比,第三個是F值,為精確率和召回率的均橫指標,數值上等于精確率的倒數與召回率的倒數之和乘以2,第三個參數檢測速率,主要指每秒鐘能夠處理圖像的數量。
在本節中主要是對尺度擴展算法與改進后的算法進行對比,在數據集和實驗環境保持不變的情況下進行訓練和測試。實驗結果如表1。

表1 算法實驗數據比較
表1中展現了各個參數的對比,其中尺度可擴展網絡算法在召回率、精確率和F值上要比本文算法要高一些,但是最終在檢測速率上,本文算法的檢測速率要比尺度可擴展網絡算法的檢測速率卻要高出1.1,在如此小的代價中卻換來了更高的檢測速率。
經本文對已有的算法模型進行研究得出,通過對比較耗時較高的結構進行簡化處理,對無關緊要的結構進行去除,較大的提升了算法的效率。那么在以后的深度學習算法的研究中,依然需要對一些比較成熟的算法進行優化,主要是為了提高算法的檢測速率。