李沛卓,萬(wàn) 雪,李盛陽(yáng)
(中國(guó)科學(xué)院大學(xué)中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心中國(guó)科學(xué)院太空應(yīng)用重點(diǎn)實(shí)驗(yàn)室,北京 100094)
中國(guó)空間站核心艙于2021 年4 月29 日成功發(fā)射,其上搭載了10 余個(gè)科學(xué)實(shí)驗(yàn)柜,用于開(kāi)展空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)等11 個(gè)方向的科學(xué)實(shí)驗(yàn)。面對(duì)海量的數(shù)據(jù),如何快速的自動(dòng)提取大量數(shù)據(jù)中的目標(biāo),對(duì)專業(yè)性較強(qiáng)的空間科學(xué)實(shí)驗(yàn)圖像/視頻自動(dòng)添加描述性內(nèi)容、對(duì)其進(jìn)行圖像描述,讓科學(xué)家快速定位實(shí)驗(yàn)關(guān)鍵過(guò)程、獲取豐富的語(yǔ)義信息,使復(fù)雜的科學(xué)知識(shí)與應(yīng)用成果信息以可視化形式進(jìn)行交互,已經(jīng)成為空間科學(xué)與應(yīng)用數(shù)據(jù)管理以及眾多專家學(xué)者共同關(guān)注的話題。
近年來(lái),隨著人工智能的飛速發(fā)展,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展。目標(biāo)分割算法通過(guò)對(duì)興趣區(qū)域進(jìn)行分類和分割,已經(jīng)成為計(jì)算機(jī)視覺(jué)的重要任務(wù),廣泛應(yīng)用到農(nóng)業(yè)種植[1]、遙感影像處理[2]、自動(dòng)駕駛[3]等多個(gè)領(lǐng)域。按照分割結(jié)果是否具有語(yǔ)義信息,目標(biāo)分割主要分為語(yǔ)義分割,如Mask R-CNN[4]、U-Net[5]等,和非語(yǔ)義分割,如傳統(tǒng)的Ostu[6]、改進(jìn)的Canny 邊緣檢測(cè)[7]、DSS 顯著性檢測(cè)[8]等。
計(jì)算機(jī)學(xué)會(huì)了識(shí)別物體,為了使計(jì)算機(jī)能真正看懂圖像,將視覺(jué)信息和自然語(yǔ)言相融合,使計(jì)算機(jī)對(duì)圖像進(jìn)行深層次理解,生成自然語(yǔ)言描述。從圖像中生成視覺(jué)內(nèi)容的自然語(yǔ)言描述的任務(wù),就是“圖像描述”[9]。常見(jiàn)的圖像描述算法如Neuraltalk2[10]、“show and tell”[11]、DenseCap[12]等只能處理訓(xùn)練時(shí)見(jiàn)過(guò)的語(yǔ)料庫(kù)里的物體,訓(xùn)練過(guò)程非常依賴于圖像和對(duì)應(yīng)的描述,模型的輸入均是圖像和描述成對(duì)出現(xiàn),在只有圖像和類別的情況下,無(wú)法進(jìn)行遷移學(xué)習(xí)。……