專題:開放環境下的視覺感知與理解

2023-04-16 15:14:13王金橋

無線電工程 2023年3期

中國科學院自動化研究所紫東太初多模態中心常務副主任,研究員,博士生導師,武漢人工智能研究院院長,中國科學院大學人工智能學院崗位教授,多模態人工智能產業聯盟秘書長。主要從事多模態大模型、視頻分析與檢索和大規模目標識別等方面的研究。發表包括IEEE 國際權威期刊和頂級會議論文300 余篇。完成國家標準提案3 項,發明專利36 項,國際視覺算法競賽冠軍10 項。獲北京市科技進步一等獎,吳文俊人工智能科技進步二等獎,中國發明創新銀獎。

內容導讀

隨著AI 與計算機視覺技術的發展,基于深度神經網絡的視覺識別在智能交通、遙感測繪、醫療健康以及安防監控等場景下取得了廣泛的應用,極大地促進了各行各業的轉型升級和迭代創新。然而,現實世界是一個未經結構化梳理的、長尾分布的、開放類別的復雜場景。在這樣的視覺環境下,如何設計視覺感知與理解算法解決AI 落地中的長尾、噪聲、災難遺忘、場景泛化和無監督語義發現等問題,實現視覺技術從“可用”到“好用”,是一個非常具有挑戰的課題。

當前,以云計算、大數據、區塊鏈和AI 等為代表的新一代信息技術蓬勃發展和廣泛滲透,為發展開放環境下的視覺感知與理解技術帶來了難得的機遇。在此背景下,學術界和工業界的研究人員為了解決下一代智能視覺系統中的一些關鍵問題,研究開放環境下的視覺智能感知與理解的新理論、新方法和新技術,不斷增強視覺智能感知與理解能力,使其能夠靈活響應不同的任務需求,為實現全天候、全天時、全地域快速信息分析理解提供方法支撐。

為集中展現開放環境下的視覺感知與理解領域的最新研究成果,《無線電工程》2023 年第3 期推出“開放環境下的視覺感知與理解”專題。專題采用公開征稿的方式組織稿件,在所有通過專家評審的稿件中,最終確定錄用稿件7 篇。專題主要展示了文本檢索、超分網絡加速、紅外與可見光單應性估計、路面質量分析、銷量預測、目標檢測和人體姿態估計等領域的研究成果。

在文本檢索方面,李巖等針對某些場景中文本時常呈現彎曲、壓縮和拉伸等不規則形態,文本區域提取與匹配面臨極大挑戰的問題,提出了一個端到端的網絡模型,將不規則文本提取和跨模態相似度學習統一到一個框架內,利用學習到的相似度對檢測的文本實例排序,從而實現對不規則文本的檢索。

在超分網絡加速方面,劉智軒等針對基于分治策略的圖像超分加速問題,提出了基于像素級分治策略的超分網絡加速方法,為不同像素所對應區域分配不同規模的計算量來實現超分過程,實現了更加高效的超分加速策略。同時,提出了一個聯合困難像素挖掘的重建損失函數,使網絡在重建超分辨率圖像的同時,通過無監督自適應的學習預測出每個像素的超分難易程度,用于為每個像素點所在位置的超分分配更加合理的計算量。

在紅外與可見光單應性估計等方面,羅銀輝等針對紅外與可見光圖像灰度差異較大、配準精度低等問題,提出了一種基于生成對抗網絡的紅外與可見光圖像單應性估計方法,利用淺層特征提取網絡提取紅外與可見光圖像的精細特征;將精細特征進行通道級聯輸入到生成器中,以預測得出單應性矩陣;對單應性矩陣變換后的扭曲圖像提取精細特征,送入判別器進行判斷,從而建立一個對抗博弈過程。

在路面質量分析方面,孫玉龍等針對全自動化路面質量評估和分析的實際場景需求,提出了基于大型卷積核模型和自監督預訓練的路面質量分析方法,采用基于重參數化大型卷積核的U 型網絡結構,實現像素級別的高精度路面病害識別,并采集了一個大型的路面病害分割數據集。

在銷量預測方面,劉雁兵等針對零售終端卷煙營銷的實際場景需求,提出了基于卷煙陳列識別和品牌文本表示的銷量預測方法。在樣本選擇階段,建立零售終端運行質量評估體系,實現高質量樣本點篩選。

在目標檢測方面,武德彬等針對SSD 單階段目標檢測算法未充分利用不同特征層之間的語義關系以及獲取語義信息和位置信息能力不夠好的問題,提出了一種多注意力單階段目標檢測改進算法,采用并行殘差多尺度特征提取網絡增強淺層特征層的語義信息和中間層的上下文信息,使用雙重注意力機制加強對關鍵信息的學習,提高各特征層對語義信息和空間位置信息的獲取能力。

在人體姿態估計方面,周偉等面向無約束場景的人體姿態估計任務中無規則變化的人物服飾、復雜場景和高靈活度的姿態等因素導致樣本分布極其復雜的問題,提出了在回歸網絡中通過度量學習方法來優化高層特征對人體姿態的判別性。同時,為了更好地在人體姿態估計的框架下建模該判別學習任務,進一步提出了基于點特征優化的局部樣本關系模塊。該方法可對樣本間的相似度進行更合理的建模,從而有效地輔助度量學習優化人體姿態估計算法的性能和泛化能力。

綜上所述,專題所收錄的這7 篇論文,分別針對特定的研究問題,從不同視角,使用不同方法研究了開放環境下的視覺感知與理解問題,得到了有意義的研究結論,能夠提供較好的參考作用。當然,視覺識別所涵蓋的子領域非常多,這些論文也不能窮盡所有的方面,希望通過這些論文的刊出,讓更多的專家學者和研究人員關注該領域的發展,從而促進產生更多的研究成果。

最后,感謝參與稿件評審的各位專家學者的辛勤工作,感謝《無線電工程》編輯部各位老師的大力支持,衷心希望專題的出版能夠對視覺識別的研究起到有益的作用。