基于深度學習的南方野生鳥類識別系統的設計

2023-01-11 02:25:30賴小平

軟件工程 2023年1期

賴小平

(廣東交通職業(yè)技術學院信息學院，廣東廣州 510650)

laixiaoping1008@163.com

1 引言(Introduction)

野生鳥類是全人類的財富，但隨著人類活動范圍的加大，野生鳥類的種群和數量不斷減少。分析野生鳥類資源日益減少的原因，除環(huán)境因素外，人類為經濟利益大量捕捉、販賣也是一大因素[1]。為了保護鳥類和地球物種多樣性，增強人們保護野生鳥類的意識，構建智能自動化的鳥類識別系統成為當務之急[2]。鳥類識別技術能夠幫助相關工作人員實現智能自動化的鳥類監(jiān)測，對于保護鳥類、了解鳥類生態(tài)系統和評測環(huán)境質量具有重要意義[3]，對其準確分類一直為研究的熱點。傳統的識別方法有視頻檢測和人工識別方法，視頻檢測成本高、檢測目標范圍有限；而人工識別大多依靠專家經驗，效率低，這種識別方式成本高，識別過程受多種因素制約，實施困難。隨著人工智能技術的快速發(fā)展，越來越多先進的技術走入了人們的生活，研究正式進入人工智能時代。本文擬采用人工智能技術，基于百度EasyDL深度學習平臺構建鳥類識別模型進行訓練與識別，以提高對鳥類識別的準確度和效率。

2 鳥類識別的主要研究成果(Major research achievements in bird recognition)

近年來，科研人員對鳥類識別相關技術的研究仍處于起步階段，研究成果較少。在中國知網中輸入檢索條件：主題為鳥類識別、文獻發(fā)表時間為2012—2022 年，從圖1中可知近10 年來(2012 年至今)與鳥類識別技術相關的文獻數量不足百篇。

圖1 研究趨勢分析Fig.1 Research trend analysis

主要研究成果如下：(1)采用基于部位的思想將識別任務劃分為四個模塊：目標與部位檢測、數據擴增、特征提取和分類決策，用于解決鳥類識別中的難點問題[2]。(2)利用級聯分類器和卷積神經網絡人工智能識別技術對鳥類進行監(jiān)測、識別[4]。(3)采用一種基于小波變換和霍特林變換(KL)進行候鳥特征提取，并以BP神經網絡作為分類器研究設計出一套適用于閩江口濕地復雜環(huán)境的候鳥識別方案[5]。(4)兩種基于弱監(jiān)督信息圖像識別方法用于細粒度圖像分類(FGVC)。一種是聯合殘差網絡和Inception網絡，通過優(yōu)化卷積神經網絡的網絡結構提高捕捉細粒度特征的能力；另一種是對雙線性卷積神經網絡模型(CNN)進行改進，特征提取器選取Google提出的Inception-v3模組和Inception-v4模組，最后把不同的局部特征匯集起來進行分類[6]。(5)一種基于跨層精簡雙線性池化的深度卷積神經網絡模型。首先，根據Tensor Sketch算法計算多組來自不同卷積層的精簡雙線性特征向量；其次,將歸一化后的特征向量級聯送至Softmax分類器；最后,引入成對混淆對交叉熵損失函數進行正則化以優(yōu)化網絡[7]。(6)一種新的無完全連接層的掩碼CNN模型。基于部位標注，提出的模型由一個完全卷積網絡組成，用于定位識別部位(如頭部和軀干)，更重要的是生成加權對象/零件掩碼，用于選擇有用且有意義的卷積描述符。由于摒棄了參數冗余的全連接層，與其他細粒度方法相比，此Mask CNN具有較小的特征維數和高效的推理速度[8]。

3 鳥類識別系統的設計(Design of bird recognition system)

本課題結合傳統檢測算法和深度學習算法，基于百度EasyDL開發(fā)平臺，在實際鳥類觀測中利用訓練樣本集數據進行訓練，并檢測識別模型。經訓練后，進行測試驗證，如達到工程可用的程度(準確率＞85%)，就能應用于已知鳥類的識別，并可輔助工作人員發(fā)現未知鳥類。

3.1 百度EasyDL

EasyDL是百度大腦推出的零門檻人工智能(AI)開發(fā)平臺，具有從數據采集、標注、清洗到模型訓練、部署的一站式AI開發(fā)能力。EasyDL設計簡約，極易理解，采集到的原始圖片、文本、音頻、視頻、文字識別(OCR)、表格等數據，經過EasyDL加工、學習、部署后，可通過公有云應用程序界面(API)調用，或部署在本地服務器、小型設備、軟硬一體方案的專項適配硬件上，通過離線軟件開發(fā)工具包(SDK)或私有API進一步集成。開發(fā)流程如圖2所示。

圖2 EasyDL開發(fā)流程Fig.2 EasyDL development process

操作流程大致分為以下四步：第一步：創(chuàng)建模型，即確定模型名稱，可添加模型描述，便于后續(xù)模型迭代管理。第二步：上傳并標注數據。上傳數據后，根據不同模型類型的數據要求進行標注，如果有本地已標注的數據，也可以直接上傳。通常，需要對訓練集、測試集和驗證集三類數據集進行數據標注。第三步：訓練模型并校驗效果。選擇算法類型、配置訓練任務相關參數完成訓練任務啟動。模型訓練完畢后支持可視化查看模型效果評估報告，也支持通過模型校驗功能在線上傳實測數據驗證模型效果。第四步：部署模型。根據業(yè)務場景，支持將模型部署為公有云API實現在線調用，或部署在本地服務器/小型設備/軟硬一體方案的專項適配硬件上，通過API/SDK集成離線應用。

3.2 創(chuàng)建模型

EasyDL支持六大技術方向，每個方向包括不同的模型類型：(1)EasyDL圖像：圖像分類、物體檢測、圖像分割；(2)EasyDL文本：文本分類-單標簽、文本分類-多標簽、文本實體抽取、情感傾向分析、短文本相似度；(3)EasyDL語音：語音識別、聲音分類；(4)EasyDL OCR：文字識別；(5)EasyDL視頻：視頻分類、目標跟蹤；(6)EasyDL結構化數據：表格預測。

本系統采用的是EasyDL圖像的物體檢測模型，創(chuàng)建物體檢測模型的方法：百度EasyDL開發(fā)平臺→選擇模型類型為【物體檢測】→登錄百度賬號提交基礎信息→點擊【創(chuàng)建模型】，填寫模型名稱、說明等信息，完成模型創(chuàng)建。

3.3 上傳并標注數據

我們拍攝整理了5 種鳥類共300多張照片，創(chuàng)建了三類數據集：即訓練集(數量為254)、測試集(數量為73)和驗證集(數量為50)。

標注的過程如圖3所示，先創(chuàng)建5 個標簽，即對應5 種鳥類(烏鶇、銅藍鹟、普通翠鳥、紅頭長尾雀、叉尾太陽鳥)，然后對每張圖片進行矩形標注，最后保存，即可完成標注。

圖3 數據標注Fig.3 Data annotations

3.4 訓練模型并校驗效果

選擇待訓練的模型，設置訓練參數，主要是選擇訓練集、測試集和驗證集，然后開始進行訓練，支持對同一模型多次迭代；不同的模型完成訓練的時間不一樣，訓練完成后，賬號對應的手機號會接收到短信息通知，后續(xù)可進行模型效果校驗。

上傳校驗圖片，模型校驗結果如圖4所示。物體檢測模型存在一個可調節(jié)的閾值(threshold)，是正確結果的判定標準，例如閾值是0.6，置信度大于0.6的識別結果會被當作正確結果返回。每個物體檢測模型訓練完畢后，可以在模型評估報告中查看推薦閾值。校驗模型準確度可根據需求調整閾值，本模型設置閾值為0.8時，效果最佳，mAP平均精度為95.38%，當前圖片檢測置信度為98.37%。

圖4 模型校驗Fig.4 Model verification

3.5 部署模型

訓練完成的模型即可申請模型上線，上線后在“我的模型”查看“上線詳情”，獲得專有的定制圖像識別API。后續(xù)還可創(chuàng)建應用，采用Python等進行應用開發(fā)。

百度Easy DL平臺提供了H5體驗，用手機等終端掃描系統提供的二維碼即可進行體驗，在圖5(a)中點擊上傳一張鳥類圖片，即可查看識別結果如圖5(b)所示。

圖5 H5體驗 Fig.5 H5 experience

同時，Easy DL平臺提供了編碼調用模型進行測試，參考代碼如下：

3.6 模型評估

與模型效果相關的主要指標有以下幾類。

(1)準確率(Accuracy)。準確率是圖像分類/文本分類/聲音分類等分類模型的最簡單、最直觀的衡量指標，即正確分類的樣本數與總樣本數之比，比值越接近1的模型，識別效果越好。

(2)精確率(Precision)。精準率又叫查準率，容易與準確率弄混，精準率代表對正樣本結果中的預測準確程度，而準確率則代表整體的預測準確程度，既包括正樣本，也包括負樣本。模型的精確率為正確預測某一類別的樣本數與預測為該類別的總樣本數之比。

(3)召回率(Recall)。召回率又叫查全率，它是針對原樣本而言的，即在實際為正的樣本中被預測為正樣本的概率。模型召回率為正確預測某一類別的樣本數與該類別的總樣本數之比。

(4)mAP(mean Average Precision)是物體檢測(Object Detection)算法中衡量算法效果的指標。對于物體檢測任務，每一類object都可以計算出其精確率和召回率，在不同閾值下多次計算/試驗，每個類都可以得到一條P-R曲線，曲線下的面積就是average。

(5)混淆矩陣(Confusion Matrix)。混淆矩陣也被稱為錯誤矩陣(Error Matrix)，是機器學習中總結分類模型預測結果的情形分析表，以矩陣形式將數據集中的記錄按照真實的類別與分類模型預測的類別進行匯總。矩陣的每一列表達了分類器對樣本的類別預測，每一行則表達了版本所屬的真實類別。通過混淆矩陣能夠很容易地看到機器學習有沒有將樣本的類別混淆。

本文構建的模型，對南方五種野生鳥類，即叉尾太陽鳥、紅頭長尾山雀、普通翠鳥、銅藍鹟和烏鶇進行識別檢測，經過三次迭代，訓練時間與數據量大小有關，本次訓練大約耗時15 min，整體評估如圖6所示。

圖6 模型評估Fig.6 Model evaluation

模型評估中可以看到模型訓練整體的情況說明，包括基本結論、mAP(96.9%)、精確率(94.7%)、召回率(93.5%)。當數據量較少時，得出的模型評估報告結果僅供參考，無法完全準確體現模型效果。一般要求每種類別的數據量不少于30，以50—100為宜。本鳥類識別系統模型的混淆矩陣如表1所示。

表1 混淆矩陣Tab.1 Confusion matrix

從表1中可知，有3 個【紅頭長尾山雀】和【叉尾太陽鳥】的檢測框發(fā)生了混淆，其中【紅頭長尾山雀】分到【叉尾太陽鳥】為3 個，有1 個【紅頭長尾山雀】漏檢；有1 個【普通翠鳥】和【叉尾太陽鳥】的檢測框發(fā)生了混淆，其中【普通翠鳥】分到【叉尾太陽鳥】為1 個。

4 結論(Conclusion)

深度學習算法需要大量數據進行訓練建模，而鳥類資源保護尤其是珍稀瀕危鳥類保護面臨的現實問題就是原始數據嚴重不足。本文對南方野生鳥類進行建模、訓練，經驗證集測試驗證，識別精確率為94.2%。本文提出的模型可應用于已知鳥類的實時監(jiān)測識別，并輔助實現對未知鳥類的監(jiān)測與發(fā)現，為生物多樣性保護提供技術支撐。本模型中用到的數據集較少，檢測準確率還有提升空間。后續(xù)需要加大對鳥類觀測數據的采集力度，積累更多樣本數據，同時加大模型訓練的力度，對模型參數調整優(yōu)化，進行多次迭代，預期可以進一步提升識別準確率，最終實現在前端設備上的現場在線檢測識別。