999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度空間注意力特征融合的人群計數網絡

2021-03-07 05:16:42杜培德
計算機應用 2021年2期
關鍵詞:特征融合方法

杜培德,嚴 華

(四川大學電子信息學院,成都 610065)

(*通信作者yanhua@scu.edu.cn)

0 引言

密集人群計數的任務是估計圖像或視頻中包含的人物數量。隨著全球人口數量的上漲和人類社會活動的增加,各地公共場所經常會出現人群大量聚集的情況,如交通樞紐和娛樂場所等,這給公共安全帶來了巨大的隱患。密集人群計數任務在視頻監視、交通控制和大都市安全方面應用廣泛,各國研究人員開展了大量研究。人群計數的方法還可以推廣到其他領域的類似任務,例如醫學中顯微圖像的細胞數量估計[1]、交通擁擠情況下的車輛估計[2]和廣泛的生物樣本調查[3]等。

一些早期的方法通過檢測人群中的每個行人來解決人群計數問題[4],取得了一定的效果;但是在人群密集場景和嚴重遮擋場景下該方法效果會急劇下降。因此,基于特征回歸的方法[5-7]被用來解決此問題?;貧w方法通常學習一種從特征到人數的映射關系,通過提取前景特征學習一個線性回歸或高斯過程回歸來計數。然而,這種回歸方法學習到的是低級特征映射,當場景尺度和視角急劇變化時效果不佳。

近年來,卷積神經網絡(Convolutional Neural Network,CNN)[8-10]在計算機視覺領域的成功應用,為解決上述問題開拓了新的方法。自密度圖的思想在文獻[2]中被提出以來,基于密度估計的方法已經在人群計數任務中占據了絕對優勢。使用深度卷積神經網絡來估計密度圖以及大規??捎脭祿奶岢觯?1-14]進一步提高了在更具挑戰性的真實場景中進行人群計數的準確性。人群計數的最新工作一直集中在深度神經網絡新穎架構(例如多列CNN[15-16]和注意力機制)的設計上,以進行準確的密度圖估計。這些設計的動機通常是為了改進對比例變化的人群圖像的泛化能力。

Zhang 等[11]提出了一種具有多分支的多列卷積神經網絡(Multi-column Convolutional Neural Network,MCNN)體系結構,其中每個分支使用不同大小的濾波器,這些分支的特征被組合在一起以進行密度圖估計。Sam 等[15]使用類似的想法設計了一種稱為選擇卷積神經網絡(Switching Convolutional Neural Network,Switch-CNN)的架構。Switch-CNN 使用多個分支、不同大小的卷積核提取特征;但是,Switch-CNN 并未連接所有分支的特征圖,而是學習了一個分類器,該分類器預測輸入圖像的密度等級,然后使用此預測選擇一個分支并使用該分支用于密度估計。Sindagi 等[16]提出了上下文金字塔卷積神經網絡結構(Contextual Pyramid CNN,CP-CNN),除了整個圖像的全局密度等級外,CP-CNN還可以預測圖像中的局部密度等級,將從全局和局部密度等級預測中獲得的上下文信息進行組合,以進行最終密度估計。陸金剛等[17]提出了多尺度多列卷積神經網絡(Multi-scale Multi-column Convolutional Neural Network,MsMCNN),以多列卷積神經網絡結構為主干,每列使用不同大小的卷積核;并將中間層特征圖跳躍傳遞給后端的反卷積層,最后融合各分支特征圖得到估計密度圖。以上方法均取得了一定進步,但Li 等[18]提出的密集場景識別網絡(Congested Scene Recognition Network,CSRNet)中指出,多列CNN 中使用不同大小卷積核,各列提取到的特征相差不大,結構冗余復雜,且多列卷積網絡訓練困難、耗時長。CSRNet 使用深層卷積網絡VGG-16(Visual Geometry Group 2016)[8]前10層作為特征提取器,后端使用7層擴張卷積作為回歸器,在各個數據集上均表現最佳。本文也將基于此網絡做出改進。

近幾年,注意力模型在各種計算機視覺任務中得到了廣泛應用,可以有效提升模型的識別準確性。使用注意力機制的卷積神經網絡方法[19-23]在密集人群計數任務中也取得了一定的成果。如陳美云等[19]提出的像素級注意力機制的人群計數方法(crowd counting method based on Pixel-level Attention Mechanism,PAM)。首先使用全卷積神經網絡生成像素級的密度等級掩碼,然后將原圖與密度圖掩碼共同傳入反卷積網絡回歸得到估計密度圖。Zou 等[22]提出了比例校準模塊(Scale Recalibration Module,SRM)和比例聚焦模塊(Scale Focus Module,SFM)。SFM模塊對不同卷積層特征圖聚焦,使每個層可以聚焦于不同規模的行人;在SFM 處理后將這些特征發送到SRM,以通過切片/堆棧策略重新分配規模感知特征圖,最終回歸出高質量密度圖和準確人群數,取得了良好的效果。但是,采用SFM 模塊會使每個層只聚焦于一種特定規模,這就隔離了各個層特征圖之間的相關性,使得最終網絡性能無法達到最佳。

本文設計了多尺度空間注意力特征融合網絡(Multiscale spatial Attention Feature fusion Network,MAFNet)來避免上述的問題。由于深層特征圖具有較大接受域,因此它帶有可用于定位大尺寸頭部的高級語義信息;由中間層生成的特征圖在計算小尺寸頭部時更準確、可靠,并且包含有關人群的空間分布信息;低層特征圖則包含更多低級紋理的重要細節信息。本文計劃融合一個主干網絡的三個不同階段的特征圖來降低網絡的復雜度,實現特征融合,從而降低計算量,提高訓練速度。為了合理融合多層次特征,本文引入了輕量級基于通道方向和空間方向的注意力模塊CBAM(Convolutional Block Attention Module)[24],避免了多尺度特征直接融合帶來的混亂,保持了各層特征圖的相關性,也加快了網絡的收斂。此外,為提高網絡表現性能,本文提出了聯合使用雙損失函數的方式來訓練網絡,使人群計數準確度進一步提升。實驗結果驗證了本文的方法在四個主要人群計數數據集(ShanghaiTech[11]、UCF_CC_50[13]、UCF-QNRF[14]和World-Expo’10[12])上達到人群計數誤差最小。

綜上所述,本文的主要工作如下:

1)設計了一種多尺度空間注意力特征融合網絡MAFNet用于人群計數,通過合并來自同一主干網絡不同層的特征圖來感知尺度變化和空間分布,使網絡保留更多細節;

2)引入通道空間注意力機制對融合特征圖進行重新校準,提高特征圖的聚焦能力,減少背景、噪聲的影響,便于精準定位人頭部位置;

3)提出聯合損失函數約束預測密度圖與真值密度圖的一致性,加快網絡訓練收斂速度,提高人群計數的準確度。

1 本文模型MAFNet

本章將介紹提出的多尺度空間注意力特征融合網絡(MAFNet)。首先介紹用于密度圖預測的主要網絡結構;接著介紹多尺度特征融合結構和融合策略;然后介紹引入的通道空間注意力模塊(CBAM)如何整合特征圖的相關性,實現特征圖聚焦能力,最后介紹提出的聯合損失函數。

1.1 總體網絡結構

本文模型的主要目標是學習一個從原始圖像到密度圖的映射F:

其中:Ii表示輸入圖像表示預測密度圖;θ為學習到的網絡參數。具體人群計數結果可以通過對預測密度圖進行積分得到?;谏鲜鰯祵W模型,本文提出了多尺度空間注意力特征融合網絡,體系結構如圖1所示。

與CSRNet 相同,本文的主干網絡也包括兩部分:前端深層卷積網絡(VGG)和后端擴張卷積網絡。選擇VGG-16 網絡的前10層作為前端網絡,并只保留3個池化層,其強大的特征提取能力和可調整的結構便于特征融合。將7 層擴張卷積層作為后端網絡,利用其大范圍接收野提取更深層的重要信息,且保持輸出密度圖的分辨率。如圖1 所示,VGG 網絡和擴張卷積網絡的詳細設計如表1 所示,其中,卷積層數字表示為:(層數)×(卷積核大?。粒ň矸e核大?。粒ň矸e核個數)conv-(擴張因子)。此外,為了實現尺度感知能力,本文構建了多尺度特征融合結構,分別從前端VGG 網絡的三個階段抽取特征圖通過特征融合策略進行融合,融合后的特征圖作為多尺度特征圖。在前端與后端模塊之間的過渡區,分別對VGG 特征圖和多尺度特征圖進行了通道空間注意力校準,并將二者進行逐像素地加和。

圖1 MAFNet結構Fig.1 Architecture of MAFNet

表1 主干網絡結構設計Tab.1 Architecture design of backbone network

1.2 多尺度特征融合結構

VGG 網絡的局限性在于它在整個圖像上使用單向相同尺寸卷積核進行卷積編碼。為了解決這個問題,本文提出融合VGG 的三個階段特征來提取多尺度上下文信息實現尺度感知。

在VGG-16 的前10 層網絡中,由于第一個卷積層的接收野太小,無法獲得任何人群信息,因此首先從第一個池化層之后抽出一個淺層特征圖分支,作為第一個特征融合分支F_64;從第二個池化層之后抽出一個中間層特征圖分支,作為第二個特征融合分支F_128;從最后一個池化層之后抽出一個深層特征圖分支,作為第三個特征融合分支F_256。此時F_64 的尺寸為[64,W/2,H/2]([通道數,寬,高]),F_128 的尺寸為[128,W/4,H/4],F_256的尺寸為[256,W/8,H/8]。

本文的融合策略是使用1×1×128 conv-1(卷積核大小為1×1,卷積核個數為128,擴張因子為1)的卷積層將F_64 擴容到[128,W/2,H/2],之后經過一個2×2 max pooling 池化層,即圖1中的EP 操作(式(2)),得到特征圖FF_1[128,W/4,H/4]。FF_1與F_128尺度相同,因此對二者先在通道維度上進行拼接,然后經過一個2×2 max pooling池化層,即圖1中的CP操作(式(3)),得到特征圖FF_2[256,W/8,H/8]。之后將FF_2 與F_256 在通道維度上進行最后的拼接,即C 操作(式(4)),得到最終的融合特征圖FF_3[512,W/8,H/8]。上述操作的公式化定義如下:

融合特征FF_3 和VGG 網絡的輸出特征分別通過注意力模塊,在通道維度和空間維度上重新整合上下文信息進行重新校準。最后,再將校準后的兩個特征圖累加融合,此后送入擴張卷積網絡回歸得到密度圖。

1.3 通道空間注意力模塊

1.1 節和1.2 節中VGG 網絡、擴張卷積網絡和多尺度特征融合結構在模型的深度和感受野兩方面提高了模型的泛化能力。此外,注意力機制的引入能使模型更加關注重要特征而抑制不重要特征,本文引入注意力模塊的方法為直接將該模塊插入特征圖傳遞路徑上。

通道空間注意力模塊結構如圖2 所示,本模塊旨在從通道維度和全局空間維度上分別學習到目標特征和位置特征。具體而言,就是給定一個中間特征圖,本模塊會沿著通道和空間兩個維度依次推斷出注意力權重,然后與原特征圖相乘來對特征進行自適應調整。具體公式表示如下:

其中:F∈RC×H×W,Mc∈RC×1×1,Ms∈R1×H×W,F是輸入特征圖,Mc是通道注意力操作,Ms是空間注意力操作,F'和F″分別是通道注意力和空間注意力的輸出特征圖;?表示逐元素乘法。

MAFNet 在尺度融合時將不同深度的特征圖融合為了一組特征,而不同深度特征圖的語義信息層次不同,也就是對不同大小人頭的感知能力各不相同。因此,注意力模塊在通道維度作出調整,可以增加通道維度上的相關性,提高模型面對人群分布變化劇烈的場景的適應能力;注意力模塊在空間維度上重新校準特征圖,使特征圖上人頭位置的像素值更大,背景的像素值更小,提高了模型的背景抑制能力。

圖2 通道空間注意力模塊Fig.2 Convolutional block attention module

1.4 聯合損失函數

現有的大多數研究都只使用均方誤差損失作為人群計數的損失函數,該損失函數可以約束預測密度圖和真實密度圖之間的像素級誤差。均方誤差損失函數定義如下:

其中:N是一個批次的圖像個數;G(Xi;θ)是使用網絡參數θ對圖像Xi預測的密度圖是圖像Xi的真實密度圖。均方誤差損失函數把目標值與模型輸出(估計值)G(Xi;θ)作差后計算平方得到誤差。因此L2對離群點會異常敏感,使模型更偏向于離群點,對于密集人群圖像中人群分布變化巨大的數據集會表現不佳。而絕對值誤差損失是目標值與模型輸出(估計值)G(Xi;θ)差的絕對值作為誤差,對離群點更加魯棒,絕對值誤差損失函數定義如下:

其中:N是一個批次的圖像個數;G(Xi;θ)為使用網絡參數θ對圖像Xi預測的密度圖是圖像Xi的真實密度圖。

因此,本文提出聯合使用均方誤差損失和絕對值誤差損失來約束預測密度圖和真實密度圖。用L1能夠對異常值更魯棒,用L2能夠更快地收斂,L2比L1能更快速收斂的原因在于預測值與目標值接近時,L2曲線更加平滑。最終損失函數通過加權兩個損失函數得到:

其中,λ是權衡均方誤差損失和絕對值誤差損失的權重,它是一個超參數。

2 實驗與結果分析

2.1 訓練細節

2.1.1 真實密度圖生成

對于真實密度值δ中的目標物體xi,用表示其k近鄰的平均距離。在實驗中,按照文獻[11]中的配置,其中β=0.3且k=3。對于密集場景ShanghaiTech 數據集的PartA,UCF_CC_50 和UCF_QNRF 使用自適應高斯核生成密度圖;對于稀疏場景ShanghaiTech 數據集的PartB 和World_Expo’10使用固定高斯核生成密度圖。

2.1.2 訓練方法

使用與CSRNet 相同的方法端到端地訓練MAFNet。其中,VGG-16 網絡的前10 個卷積層導入了預訓練模型參數,目的是提高訓練速度;后面的7 層擴張卷積層的初始值設置為標準偏差0.01 的高斯初始值。訓練期間,應用隨機梯度下降(Stochastic Gradient Descent,SGD)優化器來訓練MAFNet,學習率設為固定1E -7,且動量設為0.95。所有的實驗均在Ubuntu16.04 系統下,使用Python 3.7 在Pytorch 框架下編碼,在一塊RTX 2080Ti GPU上訓練。

2.2 實驗評估

2.2.1 評估準則

與大多數基于卷積神經網絡的密集人群計數方法相同,使用平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)作為評估準則。MAE 反映了模型的準確性,而MSE反映了模型的穩健性,這些指標定義如下:

其中:N是測試集圖像數量;Ci和分別是人群計數場景的預測密度圖和真實密度圖。

2.2.2 數據集

在四個公開數據集 ShanghaiTech、UCF_CC_50、UCF_QNRF和World-Expo’10上進行實驗,并與現有方法進行了對比,結果如表2 所示。選擇對比的方法主要可以分為兩類:一類為多列多尺度結構方法,一類為注意力機制方法。其中多列卷積神經網絡(MCNN)、選擇卷積神經網絡(Switch-CNN)、上下文金字塔神經網絡(CP-CNN)、多尺度多列卷積神經網絡(MsMCNN)以及尺度聚合網絡SANet(Scale Aggregation Network for accurate and efficient crowd counting)均是多列多尺度結構的方法;像素級注意力網絡(PAM)、關系注意 力 網 絡RANet(Relational Attention Network for crowd counting)以及分級尺度校準網絡HSRNet(crowd counting via Hierarchical Scale Recalibration Network)是注意力機制的方法;擴張卷積神經網絡(CSRNet)則是單列結構網絡,本文在此基礎上改進。

1)ShanghaiTech。本數據集有1 198 張帶標注的圖像,包含330 165 個人。其中482 張較密集場景被劃分為PartA,716張較稀疏場景被劃分為PartB。PartA包括482張圖像,圖像場景中人數變化范圍從33 到3 139,其中,300 張圖像構成訓練集,182 張圖像構成測試集;PartB 有716 張圖片,人數變化范圍從12 到578,其中,400 張圖像構成訓練集,316 張構成測試集。

2)UCF_CC_50。本數據集僅包含50 張人數從94 到4 543不等的圖像,這使其成為了人群計數任務中最有挑戰性的數據集。使用與文獻[13]中相同的5 倍交叉驗證方法:將圖像劃分為5 等份圖像子集,每次選擇4 組作為訓練集,剩余1 組為測試集進行訓練,最后給出5組結果的平均值。

3)UCF_QNRF。本數據集有1 535 張圖像,包含1 151 642個人,該數據集具有多種多樣的場景,人群密度從49到12 865不等,這使訓練和預測都變得更加困難;而且,圖像分辨率變化也非常大,導致人頭尺寸急劇變化。其中訓練集由1 201張圖像組成,其余為測試集。

4)World-Expo’10。它包含從108個不同監控設備中收集的3 980張已標注視頻序列圖像。其中,3 380張作為訓練集,剩余600張劃分為5個場景作為測試集,每個圖像均包含一個感興趣區域(Region Of Interest,ROI)。在本數據集上,本文方法實驗結果展示了每個場景(Sce1~Sce5)的MAE 以及所有場景的平均值。

2.2.3 結果分析

如表2 所示,對于ShanghaiTech 數據集,本文方法與其他方法相比,在PartA 中實現了較低的MAE 和MSE。MAFNet 是基于CSRNet 做出的改進,因此與CSRNet 相比,在PartA 中的MAE 和MSE 分別下降9.4%和9.9%;但比兩種注意力機制方法RANet 和HSRNet稍差,RANet 方法使用了先進的自注意力機制,達到了所有方法中最低的MAE。此外,本文在PartB 的實驗結果達到了所有方法中最低的MAE 和MSE,人群計數準確 率 最 高,與CSRNet 相 比MAE 下 降34.9%,MSE 下 降29.4%。在UCF_CC_50 數據集上,本文方法與CSRNet 相比,MAE 下降26.1%,MSE 下降26.2%,與最好的RANet 相比,MAE 下降18.0%,MSE 下降8.2%。在最大的數據集也是頭部大小變化最大的數據集UCF-QNRF 上,本文方法也取得了最低計數誤差,與現有最好方法RANet 相比,MAE 和MSE 分別下降4.5%和5.3%。與使用了相同注意力模塊的方法HSRNet相比,在World-Expo’10數據集中,本文方法獲得了更低的MAE。上述數據表明了本文方法MAFNet 無論是在擁擠的人群場景數據集中還是在稀疏的人群場景數據集均能達到較高的人群計數準確率。從實驗結果中也可以發現,所有多列多尺度方法實驗結果均比注意力方法和單列結構差,說明多列結構提取到的特征信息相似度較高,單純多列結構無法整合多尺度特征,對實驗性能提升不大。本文則采用從單列結構中提取多尺度特征的策略,并引入注意力機制整合多尺度特征,這樣既減少了多列結構帶來的計算量,也避免了多尺度特征融合的混亂,所以優于多數方法。

表2 不同方法在公開數據集上的MAE與MSE結果比較Tab.2 Comparison on MAE and MSE of different methods on public datasets

此外,如圖3 所示,本文方法MAFNet 也可以產生更加精細的預測密度圖。在圖中展示的四個場景中,有兩個非常密集的場景和兩個相對稀疏的場景,本文方法均能生成與真實密度圖幾乎相同的密度圖,估計出更加接近真實人數的數字。這表明,本文方法在抑制背景干擾和保持細節方面的性能優越。

圖3 本文方法針對不同場景圖生成的預測密度圖和真實密度圖對比Fig.3 Comparison results of estimated density map generated by the proposed method and ground truth density map for different scene images

如圖4所示,圖(a)是從ShanghaiTech的PartA提取的一張原始圖像,圖(b)是對應的真實密度圖,圖(c)是MAFNet 生成的預測密度圖,(d)是CSRNet 生成的預測密度圖。針對標注框內區域,本文方法預測密度圖(c)的細節更加精細,背景和前景區分的輪廓更加明顯,而CSRNet 網絡的預測密度圖(d)則相對模糊。

圖4 MAFNet與CSRNet的密度圖細節對比Fig.4 Comparison of density map details of MAFNet and CSRNet

如圖5 所示,圖(a)展示了三種具有復雜背景的場景,圖像1 的背景有路燈、大量氣球以及遮陽傘;圖像2 的背景中有一塊亮斑,而且是夜景照片;圖像3 的背景包含茶杯、大量樹葉、汽車以及遮陽傘等。圖(b)是使用本文方法生成的預測密度圖,可以看出:圖像1 中所有的氣球、路燈和遮陽傘所在位置均被預測為背景;圖像2 中右上角的亮斑在密度圖中也被預測為背景;圖像3 中上部存在大量樹葉,樹葉在密集場景下是人群計數任務中最大的干擾背景,但在密度圖中也未被誤識別。

圖5 MAFNet在復雜背景場景下的預測密度圖Fig.5 Estimated density maps of MAFNet in complex background scenes

3 消融實驗

最后,分別從網絡結構和超參數兩個方面做消融實驗,驗證多尺度特征融合結構、注意力模塊和聯合損失函數的有效性。消融實驗是深度學習方法驗證網絡模型各子結構對精度提升有效性的最好方式。首先,在ShanghaiTech 數據集上,針對多尺度特征融合結構和注意力模塊進行消融實驗。由于本文方法是在CSRNet基礎之上的改進,因此本文的消融實驗在CSRNet 上依次添加多尺度特征融合結構(Multi-scale Future fusion structure,MF)和注意力模塊(CBAM)。最后,CSRNet+MF+CBAM就是本文的網絡MAFNet,實驗結果如表3所示。

如表3所示,CSRNet增加多尺度融合結構可以使PartA數據集的MAE 下降2.9%,MSE 下降6.3%,使PartB 數據集的MAE 下降31.3%,MSE 下降25.6%,而且多尺度融合結構對PartB 數據集的性能改善更大;CSRNet 增加注意力模塊使PartA 數據集的MAE 下降2.3%,MSE 下降10.5%,使PartB 數據集的MAE 下降26.4%,MSE 下降18.7%;當CSRNet 增加多尺度特征融合結構和注意力模塊時性能提升明顯,使PartA的MAE 下 降7.0%,MSE 下 降11.4%,使PartB 的MAE 下 降32.1%,MSE 下降28.1%。由此可見,多尺度特征融合結構與注意力模塊結合可以使模型達到最低計數誤差。

表3 在ShanghaiTech數據集上的網絡結構消融實驗Tab.3 Ablation experiment of network structure on ShanghaiTech dataset

在1.4 節提出了聯合損失函數,針對不同數據集使用了不同的λ值來加權L1和L2。在ShanghaiTech 數據集上就λ值開展消融實驗,結果如表4所示。

由表4 中PartA 數據顯示,在λ=0.2 時,MAE 下降到最低,相對于CSRNet 下降9.4%,MSE 下降9.9%;在λ=0 時,MAE 下降7.0%,而MSE 達到最低,下降11.4%;λ=0.2 的MAE 相較λ=0 下降2.5%,λ=0 的MSE 相較λ=0.2 下降1.6%。因此本文選擇λ=0.2的作為最佳結果。PartB 數據顯示,在λ=0.5時,可以達到最低的MAE和MSE,相較于CSRNet分別下降34.9%、29.4%。以上結果表明,聯合使用加權后的L1和L2作為損失函數可以有效提升人群計數的準確率。而且實驗結果表明,針對不同的數據集應該設置不同的λ值,表5中顯示了實驗中不同數據集設置為如下λ值時,本文方法在各數據集上可以達到最高人群計數準確率。

表4 在ShanghaiTech數據集上的λ值消融實驗Tab.4 Ablation experiment of λ on ShanghaiTech dataset

表5 各數據集設置的λ值Tab.5 Values of λ for different datasets

4 結語

本文提出了一種多尺度空間注意力特征融合網絡(MAFNet)模型,該模型基于CSRNet 增加了多尺度特征融合結構,并引入了通道空間注意力機制。其中,VGG-16 網絡結構、擴張卷積、多尺度結構和注意力機制四個組成部分擴大了尺度感知的多樣性和特征的接受范圍,增強了模型抑制背景和保留細節信息的能力,可以解決各種復雜場景下的人群計數問題,在計算圖像中人數的方法中表現良好。此外,本文提出聯合使用兩種基本損失函數的方法來訓練模型,提高了模型的泛化能力。本文方法在四個公開數據集上相比其他方法達到了較高的人群計數準確率。盡管如此,本文方法在ShanghaiTech 數據集的PartA 上仍然表現不佳,對比RANet 之后認為原因在于在密集場景下MAFNet 對場景內全局元素和局部元素相關性整合度不夠。接下來的工作將考慮使用更深的網絡來做進一步的研究。

猜你喜歡
特征融合方法
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 无码精品一区二区久久久| 欧美综合激情| 成人福利在线免费观看| 露脸国产精品自产在线播| 亚洲午夜18| 国产一级片网址| 国产精品熟女亚洲AV麻豆| 久久免费看片| 日韩麻豆小视频| 亚洲最新网址| 欧美日韩精品综合在线一区| 国产午夜一级毛片| 无码国产伊人| a毛片基地免费大全| 萌白酱国产一区二区| 欧美成人精品一级在线观看| 久久久久久高潮白浆| 97se亚洲综合| 国产一区二区三区免费观看| 免费三A级毛片视频| 久久综合久久鬼| 国产迷奸在线看| 免费在线国产一区二区三区精品| 黄色一级视频欧美| 亚洲国产AV无码综合原创| 精品亚洲国产成人AV| 91精品啪在线观看国产| 亚洲成A人V欧美综合天堂| 伊人无码视屏| 99久久人妻精品免费二区| 亚洲日韩每日更新| 国产主播喷水| 日韩欧美高清视频| 精品成人一区二区三区电影| 丝袜高跟美脚国产1区| 99国产精品一区二区| 亚洲资源站av无码网址| 亚洲国产精品一区二区第一页免| 色爽网免费视频| 国产成人欧美| 国产成人AV综合久久| 亚洲成人精品在线| 91小视频在线| 亚洲 日韩 激情 无码 中出| 欧美国产日韩另类| 久久久亚洲色| 婷婷五月在线| 黄片在线永久| 成人久久18免费网站| 日韩中文字幕免费在线观看| 久久精品国产精品国产一区| 97人妻精品专区久久久久| 久久精品91麻豆| 精品国产91爱| 欧美一级高清视频在线播放| 香蕉网久久| 欧美在线网| 天天躁夜夜躁狠狠躁图片| 国产精品网址在线观看你懂的| 国产天天射| 欧洲成人在线观看| 一区二区在线视频免费观看| 天天色天天综合网| 天天摸夜夜操| 日韩在线影院| 亚洲综合二区| 国产麻豆va精品视频| 国内精品手机在线观看视频| 日韩av无码精品专区| 久久人人妻人人爽人人卡片av| 亚国产欧美在线人成| 国产国产人成免费视频77777 | 国产91视频免费观看| 毛片免费试看| 国产精品视频导航| www.亚洲一区| 国产欧美日韩一区二区视频在线| 亚洲伦理一区二区| 中文字幕天无码久久精品视频免费| 国产乱子伦一区二区=| 欧美狠狠干| 欧美激情网址|