基于YOLO的小型動物識別系統(tǒng)設計

2019-05-13 10:24:16周文萱胡龍?zhí)?/span>張敏方宇濤李欣鈺

計算機時代 2019年3期

周文萱胡龍?zhí)? 張敏方宇濤李欣鈺

摘要：針對常見動物識別的問題，提出了一種基于YOLO的識別分類系統(tǒng)。通過搭載linux系統(tǒng)的樹莓派完成實施檢測運行的識別程序。利用YOLO算法進行目標物體檢測，其單個神經網絡能夠在一幀圖像中直接預測邊界邊框（bounding box）和分類概率（classified probability），最后根據輸入圖像來輸出動物物種的識別結果。其識別準確率針對鳥類可達94.61%，狗類為90.60%，牛類為79.03%。

關鍵詞：物種圖像識別；動物識別； YOLO；神經網絡；樹莓派

中圖分類號：TP319 文獻標志碼：A 文章編號：1006-8228（2019）03-22-04

Design of YOLO-based small animal recognition system

Zhou Wenxuan， Hu Longtao， Zhang Min， Fang Yutao， Li Xinyu

（School of Optoelectronic Information and Computer Engineering， University of Shanghai for Science and Technology， Shanghai 200093， China）

Abstract： To solve the problem of species identification and population identification of small animals， a recognition and classification system based on YOLO （You Only Look Once） is proposed in this paper. The recognition program is implemented on a Raspberry Pi with Linux system， and YOLO is used as the detection framework. The single neural network can directly predict the bounding box and the classified probability in a frame image， and output the animal recognized according to the input image. The accuracy rate of identification is 94.61% for birds， 90.60% for dogs and 79.03% for cattle.

Key words： species image recognition； animal identification； YOLO； neural network； Raspberry Pi

0 引言

近年來，機器視覺越來越多的用于人類的交通、物流和安防等方面，其在代替人工重復機械的特征識別等方面發(fā)揮著重要的作用。但是自然環(huán)境、物種研究等領域的圖像識別卻并不多見，隨著深度學習的發(fā)展，國內外有很多學者使用卷積神經網絡進行圖像識別。HuangYue[1]等使用CNN算法進行汽車圖標識別，提高了識別的精度和系統(tǒng)的穩(wěn)定性。王福建[2]等設計了車輛信息檢測和識別系統(tǒng)，其設計了不同顏色的識別，使得分類更加細化。但是傳統(tǒng)的算法都普遍存在一個問題，那就是檢測識別速度慢[3-6]，計算量大不適合小型化。而Redmond提出的YOLO（you only look once）算法，能在保證識別精度的同時，提升運算效率，加快檢測速度[7]。

針對機器視覺需要較大的處理系統(tǒng)和繁瑣的框架配置等問題，本文利用搭載linux和YOLO框架的樹莓派設計了小型便攜的物種識別系統(tǒng)，該系統(tǒng)成本低可以大范圍普及使用，兼顧智能算法識別與低功耗小巧的雙重優(yōu)點，為產品普及提供了理論論證和數據支持。

1 YOLO神經網絡識別算法

YOLO（You Only Look Once）算法，是一種端到端卷積神經網絡，常用于目標物體檢測與識別。該算法將目標檢測視為目標區(qū)域預測與類別預測的回歸問題，采用單個卷積神經網絡直接從圖像中預測目標邊框和類別概率。YOLO的主要特點是快速檢測和較高的準確率。YOLO直接將一張整圖應用到網絡中去，以便更好地區(qū)分目標和背景；同時，與其他目標檢測識別方法將目標檢測劃分成區(qū)域預測和類別預測等多個流程相比，YOLO將區(qū)域預測和類別預測整合在一個網絡中，從而提高檢測速率[5，8]。其檢測模型如圖1所示。

該算法將待檢測圖像劃分為一個S×S的網格，并且假設識別目標的中心落在某個網格內，則該網格負責檢測此目標[7-11]。與此同時每個網格預測B個目標窗口，每個目標窗口負責5個參數的計算：目標的中心坐標（x，y）、寬度（width）、高度（height）和置信概率（confidence）：

⑴

式中：Pr（Object）為此網格中存在目標的概率，表示該網格內預測目標中心坐標位置的準確性，也就是測量在特定數據集中檢測相應物體準確度的一個標準。

如果網格內不存在目標物體，則其Pr（Object）的值為0，（Intersection Over Union）為目標預測窗口與真實窗口的重疊度，是一個位置定位精度的概率。

在最后進行結果預測時，每個類別通過上述條件類別概率和目標置信度的乘積得到該類別的置信分數：

⑵

綜上所述，經過一系列的運算輸出了一個維度為S2的向量，再將該高緯度向量進行篩除，將低于閾值的值去除掉，利用NMS算法進行迭代-遍歷-消除的過程；最終只留下置信分數最高的輸出。

2 基于YOLO的樹莓派識別系統(tǒng)

本文設計的搭載在樹莓派上的基于YOLO算法的識別系統(tǒng)可以完成常見動物識別的工作[9]。對于細節(jié)和精度一直是圖像識別的難點，所以在識別動物有良好偽裝的情況下，準確率大大降低。但在一般情況下，還是能將目標物體與背景區(qū)分開，并且能給出目標物體的中心坐標和邊框。

當檢測到包含有目標物體后，將其目標區(qū)域內的目標物體特征提取出來，用已經訓練好的分類器進行分類識別，從而完成動物和物種識別分類的工作。

本文使用具有強拓展的卡片電腦樹莓派作為運算平臺，圖像采集使用IMX2619原裝800萬像素攝像頭，并且在最新stretch版精簡了無用的功能。并且采用Pascal VOC2012數據集目標系統(tǒng)，使用其訓練好的模型，在去除掉無用的分類后，可以針對：鳥bird、，貓cat、牛cow、狗dog、馬horse、羊sheep這六種常見的動物進行識別[10]。

本文運行系統(tǒng)為raspiberry-stretch版，ARM架構的雙核CPU，主頻800MHz，未使用CUDA和GPU核心，且已經部署好OPENCV、TensorFlow和Darknet框架。由于其運算能力和內存都不足，故進行了量化模型的操作。

神經網絡的節(jié)點和權重最初是存儲為32位的浮點數。量化模型最簡單的一個做法就是通過存儲每一層最小和最大的值來壓縮文件的大小，接著壓縮每一個浮點數為8位整型。這樣文件的大小就減少了75%。部分代碼如下所示：

curl-L"https：//storage.googleapis.com/download.tensorflow.org/models/inception_v3_2016_08_28_frozen

.pb.tar.gz" |

tar -C tensorflow/examples/label_image/data -xz

bazelbuildtensorflow/tools/graph_transforms：

transform_graph

bazel-bin/tensorflow/tools/graph_transforms/transform_graph ＼

--in_graph=tensorflow/examples/label_image/data/inception_v3_2016_08_28_frozen.pb ＼

--out_graph=/tmp/quantized_graph.pb ＼

--inputs=input ＼

--outputs=InceptionV3/Predictions/Reshape_1 ＼

--transforms='add_default_attributes strip_unused_nodes

（type=float， shape="1，299，299，3"）

remove_nodes（op=Identity， op=CheckNumerics）

fold_constants（ignore_errors=true）

fold_batch_norms fold_old_batch_norms

quantize_weights quantize_nodes

strip_unused_nodes sort_by_execution_order

3 系統(tǒng)測試和試驗結果

經過一系列準備工作和框架部署，為了驗證本文提出的基于YOLO算法的識別系統(tǒng)[11-14]，采用自己制作的數據集進行測試，通過編寫網絡爬蟲程序從中國動物圖片網爬取了大量的動物圖片，作為測試集使用。隨機抽取其中圖片如圖3所示。

如圖3所示，四種數據集的測試集部分目標圖像已經被標注出，其目標區(qū)域中心坐標和長寬已經保存[13]，在此不再贅述。

本文為了簡化人工工作量，進行人工校驗實行分數據集測試和校驗，分為鳥類、狗、牛和人四類數據集，其中人數據集為無關集，用來測試模型的誤檢測率。其檢測結果如表1所示。

通過上述檢測可知，鳥類和狗類數據集的檢驗正確率達到了90%以上，牛類數據集的測試準確率僅為79.03%。對于牛類數據集測試發(fā)現，基于人類良好的視覺經驗可以在褐色背景識別出牛類，但是對于機器來說，對于目標物體的識別在有不明顯背景色區(qū)分的情況下很難做出良好的判斷，導致正確率不高。對比其他兩類驗證數據集，牛類的數據集中，如印度地區(qū)給牛身裝扮了很多首飾的圖片，也有泥濘背景中牛腿被泥水遮擋和不完整等情況的圖片，這類圖像的目標識別區(qū)域誤檢率和漏檢率比較高，容易對整個系統(tǒng)的監(jiān)測造成誤差。另一方面，訓練樣本數目太少，且深度學習算法中多維特征的提取維度不夠多，所以需要更多的樣本。樣本模型的數量太少不足以對于整體數據樣本進行描述，因此其泛化能力不夠，對于差異較大的圖像預測不準的概率較大[15]。人類的數據集作為不存在其分類特征文件，故理論檢測為0，但經過數據集的查驗，發(fā)現部分圖片有和寵物同框的現象，所以檢測結果也有部分識別到。同時該檢測結果運行十分緩慢，由于系統(tǒng)內存不夠，實驗是分多次做的，最后統(tǒng)一計算出結果。

針對上述系統(tǒng)誤差的分析結果，還可以采用如下改善方法。

⑴ YOLO中每個Grid有30維其中8維是回歸box的坐標，二維是box的confidence，還有20維的類別，要在此基礎上增加基于HOG的局部特征和顏色提取等多維度的特征。

⑵ 損失函數設計的優(yōu)化，讓預測坐標（x，y，w，h），confidence和classification這三個方面達到最優(yōu)的平衡，最基礎的yolo采用sum-squared error loss方法將坐標權重和分類誤差視為同等重要顯然是不合理的，需要增加坐標預測的權重，將其loss weight賦予更大的值[16]。

⑶ 目標待識別物體大小不同的預測處理中，小的bounding box中預測的框線偏一點其偏移loss很大，所以采取將box的長和寬取平方根代替原本的長和寬，其對于小box（狗類和鳥類）的偏移，loss小的多，從而提高了其準確率[17]。

4 試驗結論

本文設計了一種基于YOLO算法的小型化的識別檢測跟蹤系統(tǒng)，利用YOLO算法中tiny-model可以極大地減少cpu占用，從而提升其處理效率。經檢驗其識別率較好，但是精度有待提高。本研究主要研究和部署了基于ARM架構的YOLO深度學習分類器，并對于網絡爬取的不同類型圖片進行目標檢測識別。其綜合檢測識別率為89.04%。樹莓派微型卡片電腦可以運行該系統(tǒng)，可以擴展成為帶有圖像識別功能的監(jiān)控探頭，對于以后發(fā)展的智能監(jiān)控探頭，提供了理論驗證的依據。

同時對于默認的YOLO-tiny算法中的前期特征提取和部分權重配置提出了增改的建議，但是增加維度會造成運算量呈幾何數量增長導致效率低下問題還需進一步解決，要平衡好效率與準確率。

本文在ARM架構部署了YOLO和darknet的開源神經網絡，并且實現了一套圖像輸入-識別-分類的檢測系統(tǒng)，將傳統(tǒng)工作站運行的復雜神經網絡進行簡化，為低功耗便攜式移動圖像識別設備提供了可靠的理論驗證。

參考文獻（References）：

[1] Huang Y， Wu R， Sun Y， et al. Vehicle Logo Recognition

System Based on Convolutional Neural Networks With a Pretraining Strategy[J]. IEEE Transactions on Intelligent Transportation Systems，2015.16（4）：1951-1960

[2] 王福建，張俊，盧國權等.基于YOLO的車輛信息檢測和跟蹤

系統(tǒng)[J].工業(yè)控制計算機，2018.7：89-91

[3] Dlagnekov L， Belongie S. Recognizing cars[J]. Ecologi-

calModelling，2005.113（13）：71-81

[4] 邱道尹，張紅濤，劉新宇等.基于機器視覺的大田害蟲檢測系

統(tǒng)[J].農業(yè)機械學報，2007.38（1）：120-122

[5] Redmon J， Farhadi A. YOLO9000： Better， Faster，

Stronger[J]，2016：6517-6525

[6] 李彥冬，郝宗波，雷航.卷積神經網絡研究綜述[J].計算機應用，

2016.36（9）：2508-2515

[7] 魏海坤.神經網絡結構設計的理論與方法[M].國防工業(yè)出版

社，2005.

[8] 魏星.基于SVM的山體滑坡災害圖像識別方法[J].電子測量

技術，2013.36（8）：65-70

[9] 李亮，丁萬山.基于ARM的紙幣號碼識別系統(tǒng)[J].電子測量技

術，2008.31（10）：68-72

[10] 程曦，吳云志，張友華等.基于深度卷積神經網絡的儲糧害

蟲圖像識別[J].中國農學通報，2018.34（1）：154-158

[11] 王宇寧，龐智恒，袁德明.基于YOLO算法的車輛實時檢測[J].

武漢理工大學學報，2016.38（10）：41-46

[12] 嚴曉波.基于單鏡頭的車輛檢測與跟蹤方法研究[D].貴州民

族大學，2018.

[13] 潘蓉，孫偉.基于預分割和回歸的深度學習目標檢測[J].光學

精密工程，2017.25（10s）：221-227

[14] 劉堯.基于深度學習的氣泡水平尺自動矯正系統(tǒng)設計[D].浙

江大學，2018.

[15] 李天劍，黃斌，劉江玉等.卷積神經網絡物體檢測算法在物

流倉庫中的應用[J].計算機工程，2018.44（6）：176-181

[16] 張春玉，黃知紅.一種有效的基于卷積神經網絡的車輛檢索

算法[J].科技創(chuàng)新與應用，2018.13.

[17] 樂國慶.基于車載視覺系統(tǒng)的目標檢測優(yōu)化算法研究[D].北

京交通大學，2017.

計算機時代2019年3期

計算機時代的其它文章: 在線教育APP調查研究; 基于模擬退火算法的單機場地面等待優(yōu)化策略; 淺談區(qū)塊鏈對于文件存儲系統(tǒng)的變革; 電力企業(yè)競爭情報服務平臺的研究與實現; “互聯網+”網絡信息安全課程翻轉課堂教學模式探討; 數據庫技術及應用教材建設與教學改革探討