基于YOLOv8的深度學(xué)習(xí)目標(biāo)檢測研究

2024-06-17 00:00:00陳妍

消費(fèi)電子 2024年5期

關(guān)鍵詞：應(yīng)用前景評價(jià)指標(biāo)深度學(xué)習(xí)

【關(guān)鍵詞】深度學(xué)習(xí)；YOLOv8；目標(biāo)檢測；評價(jià)指標(biāo)；應(yīng)用前景

當(dāng)今科學(xué)界，人工智能發(fā)展圍繞模擬人腦的探索路徑主要有符號(hào)主義與聯(lián)結(jié)主義兩種，其中，聯(lián)結(jié)主義旨在實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，目前主要有三大典型模型：卷積神經(jīng)網(wǎng)絡(luò)（CNN）模型、深度信任網(wǎng)絡(luò)（DBN）模型和堆棧自編碼網(wǎng)絡(luò)（SAE）模型。深度學(xué)習(xí)作為人工智能的一大熱潮，在自然語言識(shí)別處理（例如：美國OpenAI公司于2022年底研發(fā)推出的ChatGPT聊天機(jī)器人軟件）與計(jì)算機(jī)視覺等領(lǐng)域發(fā)揮著極大的作用。人類通過構(gòu)建人工神經(jīng)網(wǎng)絡(luò)，基于龐大數(shù)據(jù)集輸入的基礎(chǔ)上，利用深度學(xué)習(xí)算法對計(jì)算機(jī)進(jìn)行不斷的訓(xùn)練，結(jié)合攝像頭，實(shí)現(xiàn)對圖像或視頻中目標(biāo)對象的識(shí)別、分類與分割。類似于人類大腦結(jié)構(gòu)，神經(jīng)元數(shù)量、數(shù)據(jù)量、網(wǎng)絡(luò)模型的擴(kuò)展程度與深度學(xué)習(xí)的算法性能成正比。自20世紀(jì)以來，深度學(xué)習(xí)的預(yù)測能力與準(zhǔn)確性在各個(gè)領(lǐng)域都有所提高，各式各樣的深度學(xué)習(xí)算法逐漸問世[1]。

YOLO（You Only Look Once）系列算法是以CNN（卷積神經(jīng)網(wǎng)絡(luò)）為基礎(chǔ)，通過一次性的前向傳播實(shí)現(xiàn)目標(biāo)檢測的算法，其構(gòu)建了更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)以實(shí)現(xiàn)高精度與高效率的目標(biāo)檢測。YOLO算法是典型的one-stage單階段深度學(xué)習(xí)檢測方法，相較于two-stage兩階段（例如：Fasterrcnn、Mask-Rcnn等系列算法），one-stage單階段深度學(xué)習(xí)檢測方法在執(zhí)行實(shí)時(shí)檢測任務(wù)上具有其最核心的優(yōu)勢：檢測速度遙遙領(lǐng)先。目前，通過不斷地迭代優(yōu)化更新，Ultralytics公司已開發(fā)出YOLOv8，在計(jì)算機(jī)視覺領(lǐng)域具有廣泛的應(yīng)用。

一、YOLOv8算法思想與原理

（一）YOLO算法思想的獨(dú)特性

YOLO算法的目標(biāo)檢測是基于整個(gè)圖片的，屬于Region-free檢測方法，不同于Region-based類方法需要先行確定可能包含目標(biāo)對象的候選區(qū)域作為后續(xù)檢測的備選[2]，YOLO算法迅速識(shí)別出目標(biāo)對象的類別與其精確位置只需經(jīng)過單次對圖像的遍歷，因此也被稱為單階段（onestage）模型。

YOLO目標(biāo)檢測算法對于輸入的每張圖片，其監(jiān)督信息詳盡地標(biāo)注了圖片中所有物體的類別、中心位置以及尺寸（高與寬）。這些數(shù)據(jù)中的位置信息均經(jīng)過歸一化處理，以確保算法能夠高效、準(zhǔn)確地處理。與YOLO之前的傳統(tǒng)目標(biāo)檢測算法不同，后者通常利用不同尺寸的滑動(dòng)窗口在圖片上逐一掃描，并將每個(gè)窗口的內(nèi)容輸入分類器進(jìn)行識(shí)別。而YOLO則采用了一種更為高效的方式，它能夠一次性輸出所有檢測到的目標(biāo)信息[3]，因此具有較高的檢測速率，對實(shí)時(shí)的目標(biāo)檢測任務(wù)具有良好的效果。

（二）YOLO目標(biāo)檢測算法原理

第一步，將圖片分割為個(gè)n*n個(gè)大小相等的grid，對每個(gè)grid都預(yù)測出若干個(gè)固定數(shù)量的bounding box邊界框，每個(gè)bounding box包含的信息為物體中心位置（x，y）、高（h）、寬（w）以及此次預(yù)測的置信度，置信度confidence的計(jì)算公式如下：

式中，IOU為交并比，即預(yù)測框與真實(shí)框的重合度；Pr（Obj）為該grid含有目標(biāo)對象物體的概率。

最終，對于n*n個(gè)grid，假設(shè)每個(gè)grid將預(yù)測出B個(gè)bounding boxes邊界框，分類器可識(shí)別的物體種類有C種，那么將會(huì)輸出一個(gè)n*n*（B*5+C）大小的ground truth作為目標(biāo)檢測結(jié)果，其中C位數(shù)值為該gird檢測出的物體分別屬于這C種類別的概率。

但是，在實(shí)際檢測情況中，如果物體體積較為龐大，而grid占據(jù)的面積又較小，往往會(huì)出現(xiàn)同一個(gè)物體被多個(gè)gird所識(shí)別的現(xiàn)象，因此，YOLO算法引入了非極大值抑制NMS（Non-maximal suppression）技術(shù)。非極大值抑制NMS主要利用置信度confidence，選擇保留置信度數(shù)值最大的bounding boxes邊界框，即該bounding boxes在所有的邊界框中具有最大的把握預(yù)測出目標(biāo)對象物體在自己的grid中。

（三）YOLOv8算法的特點(diǎn)與核心改動(dòng)

基于幾代YOLO算法的不斷更新優(yōu)化，最新版本的YOLOv8算法展現(xiàn)出了明顯的優(yōu)勢，更高的精度、更快的速度、強(qiáng)大的通用性及其更穩(wěn)定且高效的訓(xùn)練策略使其成為當(dāng)前目標(biāo)檢測領(lǐng)域的一種先進(jìn)算法。以下為YOLOv8算法的核心改動(dòng)：

Backbone骨干網(wǎng)絡(luò)和Neck部分使用能夠兼具輕量化與豐富梯度流信息的C2f模塊替換原來YOLOv5中的C3模塊，并且對不同尺度的模型設(shè)置了不同的通道數(shù)，可滿足不同場景的需求，大幅度地提升了其性能。

Head部分參考了目前較為主流的解耦頭結(jié)構(gòu)，實(shí)現(xiàn)了分類與檢測頭的分離。另外，使用Anchor-Free替代Anchor-Based，在定位方式上不再需要預(yù)先設(shè)置錨點(diǎn)，可以直接從特征圖中推斷物體的位置與大小，對于目標(biāo)對象大小與形狀變化較大的情況，Anchor-Free顯然能夠處理得更加靈活；在模型復(fù)雜度上，Anchor-Free方法簡化了模型復(fù)雜度，一定程度上提高了檢測效率。

損失函數(shù)LOSS計(jì)算方面舍去了原來的objectness分支，只包含分類與回歸的分支，YOLOv8算法直接引用TOOD的TaskAlignedAssigner，根據(jù)分類與回歸的分?jǐn)?shù)加權(quán)的分?jǐn)?shù)選擇正樣本。

前幾代YOLO算法在小目標(biāo)的檢測上往往表現(xiàn)不佳，許多被遮擋的目標(biāo)對象難以檢測。為了實(shí)現(xiàn)小目標(biāo)的檢測，模型采用Mosaic增強(qiáng)技術(shù)，將輸入的大圖像進(jìn)行拼接并隨機(jī)裁剪生成新的訓(xùn)練樣本，在每個(gè)輪次中，模型識(shí)別的圖像略有不同，迫使模型學(xué)習(xí)新位置，達(dá)到對部分遮擋對象的識(shí)別要求。同時(shí)，為了提升模型訓(xùn)練效率，YOLOv8采用與YOLOX類似的操作，在最后10個(gè)epoch中關(guān)閉了Mosaic增強(qiáng)，加快了模型訓(xùn)練速度[4]。

二、YOLOv8目標(biāo)檢測流程探究

對于YOLOv8算法的模型訓(xùn)練需要輸入的數(shù)據(jù)集要求為YOLO格式。利用訓(xùn)練好的YOLOv8模型進(jìn)行實(shí)際推理時(shí)，需要對其模型的預(yù)測效果進(jìn)行指標(biāo)評估。在對深度學(xué)習(xí)模型進(jìn)行評價(jià)時(shí)，常使用四個(gè)主要指標(biāo)進(jìn)行模型的優(yōu)劣評價(jià)，分別為準(zhǔn)確率、精確率、召回率與值。

1）準(zhǔn)確率（Accuracy）是評估分類模型最全面宏觀又清晰直觀的指標(biāo)，它表示模型正確預(yù)測的樣本數(shù)（包括所有的正類樣本與負(fù)類樣本）占總樣本數(shù)的比例。

式中，TP（True Positives）為模型正確預(yù)測為正類的實(shí)例數(shù)，TN（True Negatives）表示模型正確預(yù)測為負(fù)例的實(shí)例數(shù)，F(xiàn)P（False Positives）為模型錯(cuò)誤預(yù)測為正例的實(shí)例數(shù)，F(xiàn)N（False Negatives）為模型錯(cuò)誤預(yù)測為負(fù)類的實(shí)際正類實(shí)例數(shù)。

這些指標(biāo)可以從不同角度來反映一個(gè)分類模型的預(yù)測能力，有利于幫助我們更好地評估模型，并針對性地進(jìn)行模型的后續(xù)優(yōu)化，以求得到檢測效果更優(yōu)的分類模型。

三、YOLOv8應(yīng)用前景

（一）YOLOv8應(yīng)用范圍廣且可用性強(qiáng)

YOLOv8作為當(dāng)前先進(jìn)的目標(biāo)檢測算法之一，可應(yīng)用領(lǐng)域范圍廣。在交通領(lǐng)域，YOLOv8可通過幫助車輛實(shí)時(shí)識(shí)別行人、車輛、交通標(biāo)志等，來實(shí)現(xiàn)安全、自主的駕駛，從而極大地提升了駕駛的安全性，提高了道路交通的安全系數(shù)，降低了道路交通事故的發(fā)生概率；在智能安防領(lǐng)域，YOLOv8同樣展現(xiàn)出了其強(qiáng)大的應(yīng)用能力，無論是人臉識(shí)別、行為分析還是異常檢測，YOLOv8都能以高效準(zhǔn)確的方式完成任務(wù)，通過實(shí)現(xiàn)在海量的監(jiān)控視頻數(shù)據(jù)中快速識(shí)別出關(guān)鍵信息，從而大大提高了安防系數(shù)，為社會(huì)的和諧穩(wěn)定提供了有力的技術(shù)支持；此外，在醫(yī)療圖像分析領(lǐng)域，YOLOv8也展現(xiàn)出了其獨(dú)特的價(jià)值，通過醫(yī)學(xué)影像的精準(zhǔn)分析，醫(yī)生能夠準(zhǔn)確診斷出病變部位[6]，不僅提升了醫(yī)療診斷的效率與精確度，更讓患者在康復(fù)之路上看到了更多的曙光和希望；在機(jī)器人視覺領(lǐng)域，YOLOv8同樣發(fā)揮著重要作用，它能夠幫助機(jī)器人實(shí)時(shí)識(shí)別并定位環(huán)境中的物體，從而使機(jī)器人一定程度上提高自主導(dǎo)航、物體抓取等功能的準(zhǔn)確性。

總之，YOLOv8作為一種兼具高效與準(zhǔn)確雙特性的目標(biāo)檢測算法，在計(jì)算機(jī)視覺領(lǐng)域具有廣泛的應(yīng)用前景。

（二）應(yīng)用難點(diǎn)及分析

雖然YOLOv8算法功能的強(qiáng)大程度是毋庸置疑的，但將其投入實(shí)際應(yīng)用時(shí)仍存在一定的缺陷與局限性：

（1）算力需求支撐問題。涉及YOLOv8類似的深度學(xué)習(xí)算法使用時(shí)，無論是模型訓(xùn)練還是實(shí)際部署，都極度依賴于高性能的GPU算力支持，且為了確保算法的高效運(yùn)行，這些GPU通常需要能夠支持美國英偉達(dá)公司的CUDA計(jì)算架構(gòu)，因此我國在自主創(chuàng)新與國產(chǎn)化取代方面的探索仍需繼續(xù)努力[7]。

（2）數(shù)據(jù)集采集問題。由于模型的優(yōu)劣程度與數(shù)據(jù)集的規(guī)模與質(zhì)量成正比，因此數(shù)據(jù)集的采集過程往往至關(guān)重要。然而，在實(shí)際研究中依賴攝像頭進(jìn)行數(shù)據(jù)的采集時(shí)，一旦遇到一些不可控的外力因素，例如強(qiáng)電磁輻射、攝像頭震動(dòng)、物理遮擋（如煙霧）等，都可能對采集的數(shù)據(jù)的質(zhì)量產(chǎn)生一定的影響。并且，涉及實(shí)際預(yù)測時(shí)，也對攝像頭采集的實(shí)時(shí)視頻數(shù)據(jù)流有較高的清晰度要求。因此，攝像設(shè)備的成本問題也是YOLOv8算法實(shí)際應(yīng)用難點(diǎn)之一。

針對以上問題，我們可以從以下幾個(gè)方面著手解決：首先，加大在GPU芯片研發(fā)上的投入，推動(dòng)國產(chǎn)GPU芯片的技術(shù)突破和性能提升，減少對國外技術(shù)的依賴；其次，建立完善的GPU算力資源共享平臺(tái)，通過云計(jì)算、邊緣計(jì)算等方式，實(shí)現(xiàn)GPU算力的合理分配和高效利用；另外，我們可以選擇高質(zhì)量、穩(wěn)定性好的攝像頭設(shè)備，以減少外力因素對數(shù)據(jù)采集的影響。

結(jié)束語

YOLOv8目標(biāo)檢測算法在計(jì)算機(jī)視覺領(lǐng)域已具有極大的研究價(jià)值與重要的地位，在其余諸多應(yīng)用場景中也發(fā)揮著越來越重要的作用。通過對YOLOv8算法原理的深入剖析與當(dāng)今市場其余目標(biāo)檢測算法的對比，結(jié)合對YOLOv8算法的使用研究及其模型、網(wǎng)絡(luò)結(jié)構(gòu)的評估分析，最終成功驗(yàn)證了YOLOv8在實(shí)時(shí)目標(biāo)檢測任務(wù)中的優(yōu)越性與靈活性。