張 靜,農昌瑞,楊智勇
(1.海軍航空大學 航空基礎學院, 山東 煙臺 264001; 2.海軍航空大學, 山東 煙臺 264001;3.煙臺理工學院, 山東 煙臺 264001)
以多目標分類與定位為主要任務的目標檢測技術,不僅需要判斷檢測區域是否包含目標物體,同時還需要用外接矩形框將目標進行標記。近年來,隨著計算機技術和卷積神經網絡的快速發展,目標檢測技術得到飛速發展,在交通監控跟蹤、視頻安防預警、無人機場景分析和機器人視覺等領域有著廣泛的應用。
目標檢測技術可分為傳統目標檢測技術和基于深度學習的目標檢測技術。傳統的目標檢測技術,如VJ檢測器、HOG檢測器以及DPM檢測器,利用手工特征提取方法獲取目標特征,并采用傳統的識別器完成目標分類,因此,存在特征表達能力弱、檢測的準確率低、實時性差等問題。而基于深度學習的目標檢測算法擁有強大的特征提取能力,同時具有檢測精度高、速度快的優點。
基于卷積神經網絡的目標檢測算法,根據檢測的思路不同以及有無錨點(anchor)可以分為基于錨點的(Anchor-based)目標檢測算法和無錨點(Anchor-free)的目標檢測算法。Anchor-based目標檢測算法在特征圖的每個特征點處,設置不同長寬比例的先驗框(anchor-box),在此基礎上進行篩選和調整,以獲得最終的預測框,該類算法檢測精度較高,但存在一定的冗余計算,因此檢測速度較慢;Anchor-free目標檢測算法摒棄了先驗框的思路,通過預測關鍵點,以獲得最終的預測框,這類算法的網絡參數量小,檢測速度快,但是精度不是很高。因此,若目標檢測算法是采用錨點+先驗框的檢測思路獲得預測框,則屬于Anchor-based目標檢測算法的范疇;若算法采用關鍵點預測的檢測思路來獲得預測框,則屬于Anchor-free目標檢測算法的范疇。近兩年,還有新提出的基于變壓器(Transformer)的目標檢測算法,其引入注意力模塊以增強特征表示能力,這類算法特征融合能力強,檢測的準確率高,但訓練的成本較大。
卷積神經網絡(convolution neural network,CNN)是深度學習中應用十分廣泛的模型,是目標檢測算法的重要組成部分,在目標檢測算法中扮演特征提取器的角色,主要完成特征提取任務,輸出包含豐富的特征信息的特征圖,為后續目標檢測中的分類與回歸任務奠定基礎。圖1通過時間軸的方式將整個卷積神經網絡的發展過程進行直觀的展示,其中時間軸的上半部分是普通的卷積神經網絡模型,下半部分是輕量化的卷積神經網絡模型。

圖1 CNN的發展歷程示意圖Fig.1 Development of CNN
Lecun教授提出了LeNet5 CNN網絡,利用二維卷積進行圖像處理, 由此開始了CNN的現代之路。Krizhevsky等提出了AlexNet網絡,將計算機視覺領域的研究聚焦到了卷積神經網絡與深度學習。2014年,出現了多種先進的框架,其中包括AlexNet的改進版本ZFNet,其將第一層卷積的卷積核與參數步長進行了調整,增強了特征提取能力;Christian提出的GoogLeNet,巧妙利用1×1卷積進行通道降維,解決了由于網絡加深導致的參數量激增問題;Simonyan K提出的VGGNet,具有良好的遷移學習能力,其中的3×3卷積更是成為了后來的卷積神經網絡結構的標配。
He等注意到網絡加深引發的梯度消失問題,提出了ResNet短接網絡結構,擺脫了深層網絡的困擾,使得網絡的深度達到了驚人的152層。隨后還提出了ResNeXt和ResNet-D兩個改進版本,其中ResNeXt將非殘差邊進行通道拆分,同時進行多路徑卷積操作,最后將不同路徑的輸出進行相加合并;ResNet-D將ResNet中的7×7卷積替換成3個3×3卷積,以提取細節特征。
Bello等提出了最新的ResNet改版——ResNetRS,ResNetRS通過將訓練與擴展策略相匹配,實現了訓練速度、遷移學習能力等性能的大幅提升。同年,Ding等提出了RepVGG,其僅由3×3卷積與ReLU激活函數組成,通過簡單的無分支結構進一步增強了VGG網絡的特征提取性能。
為實現在微型化移動端與嵌入式平臺中部署CNN模型,學者們在如何減少CNN模型參數量、降低CNN結構復雜度等方面也進行了深入研究。其中,SqueezeNet利用大量的1×1卷積核替換3×3卷積核,同時降低3×3卷積核的通道數量,以減少參數量。MobileNet系列網絡提出使用深度可分離卷積、線性瓶頸、倒殘差等模塊,使得網絡結構更輕便,檢測速度更快。ShuffleNet系列提出用于分組卷積的通道混洗方法,進一步減少網絡的參數。CSPNet提出基于增加信息流動的方法,一方面增強了CNN的學習能力,另一方面去除計算量瓶頸,降低了內存成本。
Anchor-based目標檢測算法通常可以分為基于區域與基于回歸兩大類。基于區域的算法利用2個網絡分別實現分類與回歸,故又稱兩級檢測器(two-stage),主要包括RCNN系列算法、FPN算法和TridentNet算法。基于回歸的算法則在一個網絡中完成目標的分類與定位,故又稱單級檢測器(one-stage),主要包括YOLO系列算法、SSD系列算法和RetinaNet算法。
Girshick提出了R-CNN(regions with CNN features)算法,首次實現了深度學習在目標檢測領域的應用。它首先通過選擇搜索提取一組候選區域,隨后使用在Image-Net上預訓練的CNN模型實現特征提取,最后通過支持向量機(support vector machine,SVM)完成目標預測。RCNN由于存在大量的建議框與冗余特征,導致檢測時間過長。
為解決上述問題,He等引入空間金字塔池,提出了空間金字塔池化網絡(SPPNet)。SPPNet允許輸入任意大小的圖像,并且只需一次特征提取,便可生成不同尺度的特征。SPPNet雖然具有較高的檢測速度,但是訓練過程仍然是分階段進行。
R.Girshick注意到RCNN與SPPNet存在的缺點,于2015年提出了Fast-RCNN算法。Fast-RCNN實現了分類和邊界框回歸的同步訓練,提高了訓練和檢測的速度。但Fast-RCNN仍存在候選區域建議速度較慢的問題。
為解決上述問題,S.Ren等引入區域建議網絡(region proposal network,RPN),提出了Faster-RCNN,很大程度上提高了區域建議的速度,其結構如圖2所示。RPN在特征提取網絡輸出的特征圖上進行窗口滑動,每個滑動窗口分別對應9個先驗框,以獲得候選框的類別與回歸參數。Faster-RCNN雖然具有較高的檢測精度,但其只在單個尺度進行預測,對于小目標的檢測效果欠佳。

圖2 Faster R-CNN結構示意圖Fig.2 Structure of Faster-RCNN
為解決上述問題,Lin等提出了特征金字塔網絡(feature pyramid networks,FPN)。FPN采用自頂向下的體系結構,通過融合不同分辨率的語義信息來豐富特征圖的空間信息,同時在多個尺度的特征圖上進行預測,對小目標的檢測效果明顯提高。
Cai等針對目標檢測中預測框存在誤差、容易出現噪聲干擾等問題,提出了Cascade-RCNN。Cascade-RCNN通過級聯的方式對網絡進行訓練,每個級聯的網絡設置不同的閾值,利用前一個網絡輸出作為下一個網絡的輸入,通過層層級聯,逐步將網絡的準確度進一步提高。
在多尺度問題上,Li等提出了全新的網絡結構—TridentNet,如圖3所示。TridentNet引入膨脹卷積(dilated convolution)改變感受野的大小,通過共享同一個特征圖,構造不同感受野的多分支結構,以此來解決不同尺度的目標檢測問題。

圖3 TridentNet結構示意圖Fig.3 Structure of TridentNet
YOLO(You Only Look Once)由R.Joseph等于2015年提出。它是引入深度學習后的第一個one-stage的目標檢測算法,但 YOLO實際上是屬于無錨點的目標檢測算法的范疇。
R.Josep等提出了YOLOv2。YOLOv2在3×3卷積核之間使用1×1卷積來進行特征壓縮并采用全局平均池化的方法進行預測,同時在每一個卷積層后引入批量歸一化層(batch normalization),以解決反向傳播過程中的梯度消失和梯度爆炸問題。但YOLOv2網絡對于小目標的檢測能力欠佳,檢測的準確性不夠高。
針對上述問題, YOLOv3被提出來了。YOLOv3采用更深的DarkNet-53提取更細粒的特征信息,采用FPN結構實現了多尺度預測,使用1×1卷積和Logistic激活函數替代Softmax分類層,更有效地進行數據擬合。YOLOv3在各項性能上取得了較大的提升,但是檢測的精度與實時性仍有所欠缺。
針對大多數的目標檢測算法存在實時性不足、訓練成本較大等問題,Alexey等提出了YOLOv4,其結構如圖4所示。YOLOv4采用先進的CSPDarknet53進行特征提取,采用SPP+PANet模塊進一步增強特征的表達能力,同時將各種新提出的Tricks應用到網絡的改進中,使得YOLOv4在訓練成本降低的基礎上,仍獲得較高的檢測精度與實時性能。

圖4 YOLOv4結構示意圖Fig.4 Structure of YOLOv4
Liu等提出了SSD(single shot multibox detector)模型,如圖5所示。SSD在VGG-16后添加多個卷積層獲得多尺度特征圖用于預測,同時借鑒Faster-RCNN的錨框理念,針對不同尺度的特征圖設置不同長寬比的先驗框,以更好地檢測不同大小的目標,減小訓練的難度,對于有重疊區域或者距離較近的目標具有更優的檢測效果。但SSD存在重復框較多,對小目標檢測的魯棒性不強等問題。

圖5 SSD結構示意圖Fig.5 Structure of SSD
Jeong等在SSD的基礎上提出了RSSD(Rainbow Single Shot Detector)算法。RSSD通過rainbow concatenation的方式(即下采樣pooling與上采樣deconvolution相結合)對不同層的特征信息進行融合,并對特征圖的數量進行了擴增,通過兩方面的改進有效地解決了SSD存在的問題。
Lin等為解決基于回歸的算法存在的“類不平衡”問題,提出了RetinaNet,其結構如圖6所示。RetinaNet采用全新的Focal Loss損失函數,通過增加訓練過程中樣本數較少的類別的權重,緩解“類別不平衡”問題。RetinaNet將ResNet和FPN的組合結構作為主干特征提取網絡,提取圖像的多尺度特征信息,再利用回歸方法直接進行分類,采用Focal Loss損失函數后有效提高了網絡的檢測精度。

圖6 RetinaNet結構示意圖Fig.6 Structure of RetinaNet
Anchor-based目標檢測算法一直占據著目標檢測領域的主導地位,從最初的RCNN一直發展到最新的YOLOv4,算法的參數量不斷降低,檢測速度與精度不斷提升。
Anchor-free目標檢測算法,早在2015年已經有相關的研究成果,由于該領域的論文發表較晚于Fast-RCNN,且分類損失函數的優化不夠好,因此發展相對緩慢。近年來,隨著FPN與Focal Loss損失函數的出現,學者們對于Anchor-free檢測算法的關注度日益增加。Anchor-free目標檢測算法可以分為基于密集預測與基于關鍵點估計,基于密集預測的目標檢測算法則是采用逐像素預測的方式完成檢測;基于關鍵點估計的目標檢測算法通過對中心點或角點的估計來實現目標的檢測。
Huang等提出了DenseBox目標檢測算法。DenseBox使用全卷積網絡,實現了端到端的訓練和識別,其采用兩次線性插值進行上采樣,并將其輸出與卷積輸出的特征圖進行融合,實現了多尺度預測。DenseBox與YOLO一同作為無錨檢測算法的早期探索,它的許多檢測思想均早于基于錨點的算法。
Zhi等采用全卷積構造了FCOS(fully convolutional one-stage)目標檢測算法框架,使用逐像素的預測方法。如圖7所示,FCOS采用FPN架構,并增加了Center-ness分支來排除掉偏離目標中心較遠的預測框,P6、P7在P5之后使用步長為2的卷積得到,而不是來自C5,以獲得更強的特征語義,同時可以減少參數量。FCOS具有輕量化的結構,同時擁有較快的檢測速度與較高的檢測精度。

圖7 FCOS結構示意圖Fig.7 Structure of FCOS
Zhu等發現傳統的基于錨點的算法在多尺度預測中,通常根據目標錨框的大小來選擇相應尺度進行預測,導致目標無法在最優的尺度進行預測,為解決這一問題,于2019年提出了FSAF(Feature Selective Anchor-Free Module)。其在RetinaNet框架的基礎上,添加FSAF分支,每一個樣本在訓練過程中分別求出不同分支的尺度loss值,隨后根據loss值的大小來決定該樣本的尺度分支,從而使得樣本能夠自動學習并選擇最優的尺度分支進行訓練。FSAF在檢測速度較快的基礎上,進一步提高了多尺度檢測的精度。
Kong等提出了FoveaBox,其結構如圖8所示。Kong等受到人眼結構啟發,在訓練與檢測過程中對目標的中心區域給予更高的關注度,再由偏移量對中心區域進行修正獲得最終的預測框。Foveabox通過對真實框上的點進行收縮擴展的方式來定義正負樣本,不同特征層分別檢測相應尺度的目標,且通過控制尺度系數來解決預測重疊的問題。Foveabox具有參數量少、檢測速度快的優點,但檢測精度不夠高。

圖8 Foveabox結構示意圖Fig.8 Structure of Foveabox
Law等提出了CornerNet算法,該算法利用一對關鍵點(即邊界框的左上角和右下角)實現目標的定位,生成熱點圖與嵌入式向量。CornerNet算法由環面網絡、角點熱圖、預測模塊組成,如圖9所示。環面網絡(Hourglass)同時包含上采樣和下采樣過程,充分提取高低分辨率下的多尺度特征信息,通過2個環面網絡堆疊生成兩組熱力圖,分別對左上角點和右下角點進行預測。CornerNet摒棄了現有檢測算法對錨框的需求,降低了整個檢測網絡的訓練要求,研究人員能夠選擇和設計不同的特征提取網絡,同時為了更好地對邊框角點進行定位,還提出了全新的角點池化(corner pooling)方法,有效提高了檢測精度。

圖9 CornerNet結構示意圖Fig.9 Structure of CornerNet
CornerNet算法只利用一對角點生成邊界框,而生成區域的內部信息并沒有被充分利用。Duan等針對這個問題進行了改進,于2019年提出了CenterNet算法。CenterNet增加了中心點作為邊界框的生成依據,將左上角、右下角和中心點相結合對邊界框作出取舍,如果一對角點定義的生成區域中包含中心點,則保留該預測框,否則棄掉。如果預測框與真實框的交并比較大,則認為該預測框的質量較高,中心關鍵點應該包含在該預測框中。為了提高角點與中心點的檢測精度,CenterNet還提出了級聯角點池化(Cascade corner pooling)和中心點池化(Center pooling),有效改善了各個關鍵點的生成,從而提升了檢測效果。CenterNet的檢測精度得到了有效的提高,但仍存在密集目標中關鍵點匹配不準確的問題。
為解決上述問題,Dong等提出了CentripetalNet。CentripetalNet在生成候選角點后,引入向心偏移法對角點進行匹配,并向心偏移對齊,以獲得高質量的角點;隨后采用全新的十字星(cross-star)可變形卷積模塊,通過從角點到中心點的偏移量來學習偏移場,進行特征自適應,增強角點位置的視覺特征,以提高向心偏移模塊的精度;最后還增加了分割掩模模塊,能夠在簡單改進后直接應用到實例分割任務中。CentripetalNet能夠實現端到端的訓練,且具有較高的檢測精度。
2021年,更快更強的CenterNet2被提出來了,其原理如圖10所示。針對two-stage算法中標準的RPN不能很好的推斷目標-背景的似然性,而one-stage算法具有較好的效果。為此,CenterNet2通過概率解釋推導,將上述兩類算法進行融合,設計了更高效的兩階段檢測算法,其中,第一階段是利用單級檢測器預測未知類別的目標似然概率,第二階段是利用兩級檢測器的后半部分進行條件分類,以獲得準確類別的條件概率,最后將2個階段的概率分數結合獲得最終的預測結果。CenterNet2從一個較新的思路對網絡進行優化,使得算法的檢測精度有了更進一步的提升。

圖10 CenterNet2原理示意圖Fig.10 Structure of CenterNet2
Anchor-free目標檢測算法提出的時間較早,但是發展較緩慢,一直到近幾年才逐漸受到研究人員的關注,并取得了快速的發展,算法的檢測精度與速度也有了較大的提升,特別是基于關鍵點估計的算法,通過豐富關鍵點的特征不斷提高檢測的精度。
Transformer是一種新型的神經網絡結構,其主要利用注意力機制捕獲全局的上下文信息,實現遠距離信息融合,從而提取更有效的特征提取。Transformer在自然語言處理(natural language processing,NLP)中取得了巨大的成功,受此啟發,圖像領域的學者嘗試將其應用到計算機視覺任務中,并在目標檢測中取得重大進展,本節對其中的DETR(圖11)、D-DETR和ACT目標檢測算法進行介紹。
Carion等提出的DETR(detection transformer),是基于Transformer的目標檢測框架先驅,其結構如圖11所示。DETR將目標檢測視為簡單的集預測問題,消除了傳統的錨點生成與非極大抑制(non maximum suppression,NMS)組件,實現了簡單且完全的端到端的目標檢測。DETR利用CNN網絡提取的圖像特征,并將特征維度壓縮成一維;在將特征輸入編碼器-解碼器轉換器之前,對特征進行固定位置編碼;解碼器使用多頭自注意力機制(multi-head attention mechanism),在每個解碼層并行解碼個對象,產生個輸出;最后通過前饋神經網絡(FFNs)進行目標類別的識別與邊界框回歸。

圖11 DETR框架圖Fig.11 Structure of DETR
DETR的訓練時間較長且對小目標的檢測性能不足,同年,Zhu等提出了D-DETR(Deformable-DETR),采用可變形注意力模塊(deformable attention module)代替DETR中的多頭注意力機制,可變形注意力模塊只關注參考點周圍的小部分關鍵區域,能夠有效降低計算復雜度,加快訓練過程的收斂速度,同時,可變形注意力模塊融合多尺度特征的能力很強。D-DETR相比DETR,訓練成本降低了10倍,檢測速度提高了1.6倍。
Zheng等在DETR的基礎上提出了一種自適應聚類變壓器(adaptive clustering transformer,ACT),其能在不需要任何訓練過程的情況下降低預訓練的計算成本。ACT使用局部敏感哈希(locality sensitive hashing,LSH)方法自適應地對特性進行聚類,并使用原型鍵交互在查詢鍵交互附近進行聚類。ACT代替了預先訓練的DETR模型的自我注意模塊,不需要任何再訓練。該方法大大降低了計算成本,但精度卻略有降低。ACT還利用多任務知識提取(multi-task knowledge distillation,MTKD)方法可以進一步減緩性能的下降,該方法利用DETR提取ACT模塊,并進行幾次微調,進一步提高ACT的性能,并在性能和計算之間取得更好的平衡。
本文對不同類型的目標檢測算法進行了介紹,不同算法之間的性能存在較大差異,表1列舉了幾種典型的目標檢測算法。

表1 典型的目標檢測算法總結Table 1 Typical object detection algorithm summary

續表(表1)
Anchor-based檢測算法中,兩類算法在檢測速度與精度上各有優勢,基于區域的算法具有較高的檢測精度,而基于回歸的算法則是具有較高的檢測速度。Anchor-free檢測算法結構輕便、實時性能良好,其中基于密集預測的算法的檢測速度明顯低于基于關鍵點估計的算法,但其檢測精度略優于后者。基于變壓器的目標檢測算法作為后起之秀,檢測精度與速度與主流的算法基本相當,但訓練的成本比較高。
因此,對于實時性要求不高的應用場景(如高空電力線路巡檢、醫學影像檢測等),可以優先選擇TridentNet等two-stage算法,或者選擇Foveabox等基于密集預測的算法;對于實時性能要求較高的場景(如火災監控檢測、高空作業在線檢測等),可以選擇YOLOv4等one-stage算法,或者CenterNet2等基于關鍵點估計的算法;對于模型輕量化與實時性較高的應用場景(如無人機探測、自動駕駛目標檢測),可以選擇CenterNet2等算法;對于數據較充足的應用場景(如行人檢測、車輛監控檢測等),可以選擇新穎的基于變壓器的檢測算法。
雖然目標檢測在過去的20年取得了顯著成就,在各領域中得到廣泛的應用,但仍存在許多難點問題,下面從4個方面展望目標檢測未來的研究方向。
1) 弱監督目標檢測問題。目前,主流的目標檢測算法的訓練嚴重依賴大量的人工標注數據,標注過程耗時、低效且成本昂貴,嚴重阻礙了目標檢測算法的發展與應用。弱監督目標檢測方法(WSOD)正是為了解決這一問題,即訓練一個只包含圖像級標注而不包含邊界框標注的檢測器。而弱監督目標檢測面臨不確定條件下的訓練所帶來的挑戰,主要包括訓練標簽不精確、背景噪聲干擾、訓練樣本多樣性有限、訓練樣本不足等。針對這些問題,可以通過在弱監督學習過程中嵌入有用的先驗知識,或者通過將學習過程分階段進行強化訓練等方式,以增強弱監督學習能力。最近提出的WSOD方法如類激活映射,它利用可視化的效果展示了CNN即使在圖像級標簽訓練下也能保持良好的的定位效果。還有一些研究認為WSOD是對候選區域進行比較的過程,篩選出信息豐富的候選區域,利用圖像標簽對其進行訓練。另外一種WSOD方法就是對圖像進行遮擋,如果檢測得分下降的幅度很大,則目標被覆蓋的概率很高。
2) 輕量化的實時目標檢測問題。提高模型的檢測速度,使其能夠在移動設備上順暢運行。一些重要應用,比如智能攝像頭、人臉識別移動端、智能汽車等,要求模型在輕量化的基礎上實現高精度、實時性的檢測效果。輕量化的實施目標檢測方法,最核心的難點問題就是如何在減輕模型結構復雜度的前提下提高檢測精度。在近年的研究中,主要采用輕量化的主干網絡或者提高分類網絡性能來構建輕量化的目標檢測模型,如MobileNetV2-SSDLite、Tiny-DSOD和ThunderNet等,可以在低幀率下實現移動設備的部署,NanoDet是目前實時檢測性能最好、工程應用價值較大的目標檢測算法。此外還可以使用更高效的神經網絡算子,如最新的內卷(involution)神經網絡算子,在微觀粒度對算力進行了重新調配,將有限的算力調整到最佳的性能上,能夠更高效地完成特征提取。
3) 小目標檢測問題。在大型場景中,小目標可能只有幾個像素,如何提高對該類型目標的檢測能力是一個巨大的挑戰,這方面的潛在應用包括自動駕駛中的遠處行人與近處小目標檢測、醫學中的早期腫瘤等細微癥狀的檢測、使用無人機對重要軍事目標進行探測等。隨著越來越復雜的系統被部署在現實世界中,小目標的檢測和分割也是一個研究的重點。小目標的檢測可以通過增加輸入圖像的分辨率,或融合高分辨率特征和低分辨率圖像中的高維特征,也可對包含小目標的圖像進行過采樣。近年的研究中,FPN采用多尺度特征融合之后的結果預測,對小目標檢測有一定作用;ALFNet針對行人檢測采用漸進定位擬合模塊,采用遞增方式調整IoU的閾值,漸進式對多個定位模塊進行訓練,以提高對行人的定位精度;還有在感知生成式對抗網絡中用低層精細粒度,對特征表達較弱的原始征進行補充,將其轉換成高質量的特征,以提高小目標的檢測性能。
4) 開放世界的目標檢測問題。人類有一種辨別環境中未知事物的本能,當最終獲得相應的知識時,對這些未知事物的內在好奇心有助于進一步了解它們,有學者根據這個思想提出了一個新穎的檢測任務:開放世界目標檢測。現有的目標檢測要求所有檢測的類別在訓練階段都是已知的,當出現未知類別時,就無法檢測出來而被認為是背景。開放世界目標檢測方法能夠在沒有顯式監督的情況下識別未知目標,當將這些已識別的目標的標簽提供給模型進行知識升級時,便可學習到真實的標簽類別,同時也不會忘記之前訓練中已分類的目標(即無需從頭開始進行訓練)。這種全新的檢測思想在未來也將是一個研究的重點。在開放世界檢測領域,Abhijit等首先提出了用于圖像識別的開放世界配置,利用已知和未知樣本并存,而不是根據一組固定的類別來訓練分類器。Federico等研究開放世界的人臉識別學習,而Hu等提出使用一個已知類的樣本集來將它們與一個新樣本進行匹配,并在與所有已知類的低匹配情況下拒絕它。Joseph等首次提出了開放世界目標檢測算法(ORE),構建了基于對比聚類、未知感知建議網絡和基于能源的未知識別網絡。