基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述

2022-01-24 04:51:30李沛卓李盛陽(yáng)

光學(xué)精密工程 2021年12期

李沛卓，萬(wàn) 雪，李盛陽(yáng)

（中國(guó)科學(xué)院大學(xué)中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心中國(guó)科學(xué)院太空應(yīng)用重點(diǎn)實(shí)驗(yàn)室，北京 100094）

1 引言

中國(guó)空間站核心艙于2021 年4 月29 日成功發(fā)射，其上搭載了10 余個(gè)科學(xué)實(shí)驗(yàn)柜，用于開(kāi)展空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)等11 個(gè)方向的科學(xué)實(shí)驗(yàn)。面對(duì)海量的數(shù)據(jù)，如何快速的自動(dòng)提取大量數(shù)據(jù)中的目標(biāo)，對(duì)專業(yè)性較強(qiáng)的空間科學(xué)實(shí)驗(yàn)圖像/視頻自動(dòng)添加描述性內(nèi)容、對(duì)其進(jìn)行圖像描述，讓科學(xué)家快速定位實(shí)驗(yàn)關(guān)鍵過(guò)程、獲取豐富的語(yǔ)義信息，使復(fù)雜的科學(xué)知識(shí)與應(yīng)用成果信息以可視化形式進(jìn)行交互，已經(jīng)成為空間科學(xué)與應(yīng)用數(shù)據(jù)管理以及眾多專家學(xué)者共同關(guān)注的話題。

近年來(lái)，隨著人工智能的飛速發(fā)展，深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展。目標(biāo)分割算法通過(guò)對(duì)興趣區(qū)域進(jìn)行分類和分割，已經(jīng)成為計(jì)算機(jī)視覺(jué)的重要任務(wù)，廣泛應(yīng)用到農(nóng)業(yè)種植［1］、遙感影像處理［2］、自動(dòng)駕駛［3］等多個(gè)領(lǐng)域。按照分割結(jié)果是否具有語(yǔ)義信息，目標(biāo)分割主要分為語(yǔ)義分割，如Mask R-CNN［4］、U-Net［5］等，和非語(yǔ)義分割，如傳統(tǒng)的Ostu［6］、改進(jìn)的Canny 邊緣檢測(cè)［7］、DSS 顯著性檢測(cè)［8］等。

計(jì)算機(jī)學(xué)會(huì)了識(shí)別物體，為了使計(jì)算機(jī)能真正看懂圖像，將視覺(jué)信息和自然語(yǔ)言相融合，使計(jì)算機(jī)對(duì)圖像進(jìn)行深層次理解，生成自然語(yǔ)言描述。從圖像中生成視覺(jué)內(nèi)容的自然語(yǔ)言描述的任務(wù)，就是“圖像描述”［9］。常見(jiàn)的圖像描述算法如Neuraltalk2［10］、“show and tell”［11］、DenseCap［12］等只能處理訓(xùn)練時(shí)見(jiàn)過(guò)的語(yǔ)料庫(kù)里的物體，訓(xùn)練過(guò)程非常依賴于圖像和對(duì)應(yīng)的描述，模型的輸入均是圖像和描述成對(duì)出現(xiàn)，在只有圖像和類別的情況下，無(wú)法進(jìn)行遷移學(xué)習(xí)。……

登錄APP查看全文