999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機傳播圖卷積模型的零樣本圖像分類

2022-08-16 13:43:38蘆楠楠劉一雄邱銘愷
圖學學報 2022年4期
關鍵詞:語義分類模型

蘆楠楠,劉一雄,邱銘愷

基于隨機傳播圖卷積模型的零樣本圖像分類

蘆楠楠1,劉一雄2,邱銘愷1

(1. 中國礦業大學信息與控制工程學院,江蘇 徐州 221116;2. 中國科學技術大學信息科學技術學院,安徽 合肥 230027)

零樣本圖像分類旨在識別訓練時從未出現過的全新類別(未見類別),為此需要利用輔助信息建模未見類和可見類之間的關系。利用圖卷積網絡(GCN)進行零樣本分類的模型可以借助知識圖顯式地表達類別之間的關系,但GCN易受過平滑影響,導致模型性能下降。針對此問題提出了基于隨機傳播圖卷積模型的零樣本圖像分類方法。該方法使用隨機傳播機制處理原始特征以達到特征擾動和數據擴增的目的;利用數據中類別層級生成的知識圖建模類別之間的語義關系。其中,圖中節點代表類別,節點間的邊代表類別之間的關系。再構建GCN對處理后的特征進行訓練,從節點中輸出包含未見類別的分類器參數,進而實現零樣本圖像分類。實驗結果表明,該方法可以有效地改善零樣本圖像分類中的時間消耗、分類精度和泛化性能。

零樣本圖像分類;知識圖;圖卷積網絡;隨機傳播機制;數據擴增

在計算機視覺領域,圖像分類是一項非常基礎和重要的任務。近年來出現了許多利用卷積神經網絡(convolution neural network,CNN)進行圖像分類的模型:從2012年的AlexNet[1]再到2015年的ResNet[2],將ILSVRC競賽[3]中圖像分類任務的top-5物體識別錯誤率從2010年的28.2%降至3.57%。然而,傳統CNN模型的訓練依賴大量的標記樣本,難以識別訓練數據中未出現過的新類別。實際應用中,大量標記樣本普遍依賴于專家人工標定數據[4],耗費較高成本。為解決新類別標記數據難以獲取的難題、使機器具備人類的歸納和識別新事物的能力、拓展實際應用場景,零樣本學習(zero-shot learning,ZSL)應運而生[5],發展成為前沿熱門研究領域之一。ZSL旨在學習出一種分類器,結合已知的語義信息來識別未見類別[6-9]。未見類別是未標簽的類別,而有標簽的類別稱之為可見類別。

目前,零樣本圖像分類可以分為基于空間嵌入方法和基于生成模型方法。基于空間嵌入型的零樣本方法又可分為基于語義空間嵌入型、基于視覺空間嵌入型以及基于公共空間嵌入型。對于基于語義嵌入型的零樣本分類,如何構建語義特征是決定分類器性能的關鍵。

早期的語義特征一般使用語義屬性[10-14]來表示。通過語義屬性,在對未知類的樣本進行預測時,可以將其歸為語義屬性最為相似的類中。APN[15]使用基于屬性原型(attribute prototypes)的空間嵌入方法,將屬性與圖像視覺模式(pattern)進行對齊。原型與屬性一一對應,是一組在視覺空間中可訓練的參數,用以搜尋和屬性相關的視覺區域。除了語義屬性之外,最常見的表達語義特征的手段就是使用詞向量。DeViSE[10]模型利用Word2Vec[16]產生詞向量作為語義信息,將CNN提取的視覺特征轉換到語義嵌入空間,使用鉸鏈損失函數學習轉換參數,在測試階段用近鄰法將視覺特征劃分給最接近的詞向量對應的類別,在ImageNet[17]數據集上實現大規模的零樣本圖像分類。ConSE[18]同樣將視覺特征映射到語義嵌入空間中,測試圖像的語義嵌入由T個可見類標簽的語義嵌入向量進行概率加權組成,用近鄰法預測其標簽。在零樣本圖像分類中,語義信息可用于表達不同類別之間的關系,然而,數據中出現的噪聲與擾動將導致不同類、尤其是未見類別之間的語義表示難以分辨,阻礙了模型學得高區分度的分類器參數。

基于空間嵌入型ZSL的另一種方法是利用顯式知識表示,如知識圖(knowledge graph,KG)[19]。前文提及的模型均基于隱式知識表示,其性能受限于語義模型和映射模型本身,難以拓展泛化能力[20];而KG可以顯式地表達不同類之間的關聯程度,為基于顯式知識表示的零樣本模型提供了新的途徑。為了利用圖數據中豐富的結構信息,基于圖神經網絡(graph neural network,GNN)的研究成為圖像分類領域的熱點,越來越多的模型[21-23]嘗試使用GNN提取圖數據中豐富的信息應用于下游任務。GCNZ[20]提出了基于圖卷積網絡(graph convolution network,GCN)[24]的零樣本分類方法,以KG的方式展現了不同類之間的語義關聯性,并使用GCN對KG訓練得到每個類別的分類器。但由于使用了較深層(6層)的GCN,容易產生過平滑現象,導致零樣本分類時類間區分度下降,影響分類性能[25-26]。文獻[26]從理論上揭示了GCN傳播是一個拉普拉斯平滑的過程。因此當GCN的層數增多時,平滑次數隨之增多從而使得節點之間的特征趨同化,即過平滑現象。此現象隨著網絡深度的增加將輸出表示從輸入特征中分離出來,從而阻礙模型訓練。為此,不同的模型在GCNZ的基礎上進行改進,以追求更高地分類精度和泛化能力。Graph-VAE[27]引入變分自編碼器(variational auto-encoder,VAE)結構,將GNN與VAE結合,在KG的基礎上學得更有效的潛在屬性(latent features);DGP[28]模型提出了稠密圖連接策略將網絡層數降至2層,緩解了過平滑問題,是目前在ImageNet數據集上進行零樣本分類準確度最高的模型。然而,稠密連接增加了圖的復雜度,使模型訓練時間大大增加。

針對以上問題,本文提出了基于隨機傳播圖卷積模型(graph convolution network based on random propagation,GCNRP)的零樣本圖像分類方法。該方法結合了GRAND模型[21]中隨機傳播(random propagation)策略,通過對輸入圖中語義特征進行節點失活、混合階傳播,生成數據的增強表示,實現緩解過平滑現象的同時增強對數據魯棒性、降低模型訓練時間、促進零樣本分類性能。該方法在小規模數據集AwA2[6]與大規模數據集ImageNet[17]上的分類效果均有所提升。實驗同時證明該模型在訓練時間上相比DGP模型具有顯著優勢。

1 基于隨機傳播圖卷積的零樣本分類

GCN在圖上定義卷積或聚合函數,從而更新節點和圖中數據表示。本模型使用KG作為輸入,利用GNN更新KG中節點語義信息表示,輸出類別分類器,以實現零樣本分類。

1.1 知識圖

定義知識圖={,},其中為節點集合,每個節點對應一個類別標簽,節點表示由類別的語義向量嵌入而成。根據數據中類別標簽之間的層級或上下位(父子類)關系,可以在2個節點之間形成一條邊,即(,)?。如“貓科動物”是“家貓”的上位詞,那么在KG中便可以用一條邊連接,如圖1所示。

圖1 知識圖示例

1.2 圖的信息傳播機制

在圖上定義卷積,可以從空間域和頻域2個角度出發。從空間域的角度,圖卷積過程可當作是一個信息傳遞的過程[30],圖中每個結點的信息可沿著邊直接傳遞到另一個節點;而從頻域角度,圖卷積的過程即是一個拉普拉斯平滑的過程[26]。節點的信息遞歸地進行前向傳播,即

1.3 隨機傳播圖卷積

本文設計GCNRP,主要利用GRAND模型[21]中特征擾動和數據擴增的思想。GCNRP在GCN訓練前對特征進行處理,再將處理后的特征放入GCN中進行訓練,其數據處理實現框圖如圖2所示。

圖2 隨機傳播圖卷積模型

GCNRP實現框架的主要步驟可分為3步:

通過執行以上步驟,隨機傳播模型為每個節點隨機生成多個增強表示。

節點失活操作受Dropout[31]的啟發,不同于Dropout使隱藏層中特征的某些維度失活,本文使得被選擇節點的特征全部失活,即

其中,為利用伯努利分布Bernoulli(1-)生成的二元掩模向量,通過將每個節點的特征向量與其對應的掩碼相乘來獲得擾動特征矩陣,之后采用混合階傳播得到增強的特征矩陣,即

2 零樣本分類模型框架

根據GCNZ[20]與DGP[28]模型實施零樣本分類的流程,總結出利用GNN來進行零樣本圖像分類的一般框架。本文針對框架中存在的過平滑、魯棒性不高等問題,使用GCNRP優化數據輸入和節點信息傳播步驟,以提升分類性能。

圖3描述了利用GCNRP實現零樣本分類的流程:

(1) 構建KG。利用ImageNet中各類別標簽的上下位關系產生KG的鄰接矩陣;利用Glove模型生成節點語義向量矩陣。

(3) 使用可見類別圖像樣本seen及對應標簽seen訓練CNN,提取全連接層參數矩陣。

圖3 基于隨機傳播圖卷積的零樣本圖像分類

GNN以可見類別分類器參數作為監督,對包含語義特征的KG進行訓練,輸出圖中所有類別的分類器參數。通過訓練可見類標簽的語義向量預測出的分類器參數與實際的分類器參數的誤差構成損失函數,由于CNN的全連接層起到了分類器的作用,因此實際的分類器參數可以直接提取全連接層參數,損失函數為

算法偽代碼如下:

1. for=1:do

4. end for

5. repeat

6. GCN:輸出

7. CNN:輸入seen,seen,輸出全連接層參數seen

10. until收斂

11. 零樣本分類:

3 實驗分析

本實驗內容均使用Ubuntu 18.04.5 LTS平臺、Nvidia RTX3090硬件進行,軟件版本為Python 3.6.12,PyTorch 1.7.1。

3.1 模型設置

所有對比模型均使用Adam優化器[32]:初始學習率為0.001,權重衰減為0.000 5。骨架網絡(backbone network)使用在ImageNet數據集上預訓練的ResNet-101模型[2]。語義嵌入向量使用在維基百科數據集上訓練的Glove文本模型,每個詞向量的維度為300。

GCNRP模型包含3個超參數,分別為DropNode參數、特征復制份數和混合階傳播次數。其中始終設為0.5,而和的參數選擇參照3.6節。

3.2 評估數據集

本文使用了小規模數據集AwA2[6],以及大規模數據集ImageNet[17],2個數據集的統計結果見表1。

表1 AwA2與ImageNet數據集統計表

參考文獻[33]中的實驗設置,ImageNet 2011 21K測試集(未見類)將會被劃分成3個子數據集:“2-hops”“3-hops”和“All”。根據與ImageNet 2012 1K數據集(可見類)中類別的相似程度,以上3個子數據集中包含的未見類類別數目逐漸增多,因此分類難度也逐漸提高。其中,“2-hops”子數據集包含與ImageNet 2012 1K數據集中兩跳(層次關系)以內的類別,“3-hops”的選取原則與之相仿;“All”中包含ImageNet 2011 21K測試集中全部類別。此外,為了使測試過程更貼合實際情況,即預測時預測標簽不僅僅只有測試集的標簽,還應該包含1 000個訓練集的標簽,因此在“2-hops”“3-hops”和“All”3個子測試集的基礎上又建立了“2-hops+1K”“3-hops+1K”和“All+1K”3個任務用于測試,由于訓練集標簽的加入會對預測造成干擾,預測難度隨之加大,這種評估方案更能體現模型的泛化性能。

3.3 評估指標

對于小規模數據集AwA2,一般根據每個類別的平均準確度來評估,可以減輕每個類別的測試數據不平衡所導致的偏差,即

其中,||為當前測試集中的類別數;為最終模型的準確度。

對于大規模數據集ImageNet,通常使用“Flat hit@k”(簡稱“Hit@k”)和“Hierachical precision@k”2種測度[20],其中“Flat hit@k”表示模型在其前個預測中返回一個真實標簽的測試圖像的百分比,例如“Hit@20”代表只要得分排名前20的標簽中有一個是樣本的真實標簽,那么當前類別的預測正確數便可以加1。

本文遵循DGP模型的實驗設置,在AwA2數據集上使用平均分類精度,在ImageNet數據集上使用“Flat hit@k”測度。

3.4 復雜度分析

GCNRP模型的復雜度分為兩部分計算,分別為隨機傳播復雜度((+||))和圖卷積復雜度(||)。前者中為特征復制分數;為混合階傳播次數;為節點特征的維數;和||分別為KG的節點數和邊數;和分別為GCN的通道數與輸出特征維數。可以看出,兩部分復雜度均與節點數呈線性關系,系統復雜度為((+ ||)+||)。

模型訓練的損失曲線和訓練的時間如圖4所示。所有模型均使用Pytorch[34]深度學習框架編程實現,使用Adam對模型進行3 000個epoch的訓練,GCNRP與DGP相比更快收斂。在訓練時間上,GCNRP比DGP所花時間更少。對比GCNRP的信息傳遞機制與DGP的信息傳遞公式可知,在每一層的傳播過程中,DGP的運算次數至少是GCNRP的4倍,同時DGP還要學習不同距離邊權重的參數,因此訓練時間大大增加。

圖4 AwA2數據集損失曲線和訓練時間((a)損失曲線;(b)訓練時間)

3.5 準確度分析

本文將設計的GCNRP與DeViSE[10],ConSE[18],GCNZ[20],APN[15],Graph-VAE[27]和DGP[28]模型進行了比較。其中,APN,Graph-VAE模型實驗數據均來自相應文獻。APN模型包含AwA2數據集測試數據;Graph-VAE模型包含ImageNet數據集測試數據。

在ImageNet數據上作準確度分析時,采用“Hit@k”度量方法,以上模型的測試結果見表2和表3,其中“不含訓練類標簽”是指在測試階段,樣本標簽的預測范圍中不包含訓練類標簽;而“包含訓練類標簽”是指在測試階段,樣本標簽的預測范圍中包含了所有的訓練類標簽,顯然后者的預測難度更高,這與實際的預測結果相符。

分析表2可知,在“不含訓練類標簽”的預測任務中的“2-hops”測試數據集上,本文GCNRP在5個測試指標中均超越了DGP模型以及之前的模型;在“3-hops”以及“All”數據集上,GCNRP準確度均比DGP低,但最大差距僅為1.4%,且均比之前的模型高得多,可見GNN的信息傳遞機制在零樣本分類中的優越性。

表2 ImageNet數據集測試結果(不考慮訓練類標簽)

表3 ImageNet數據集測試結果(考慮訓練類標簽)

分析表3可知,在“包含訓練類標簽”的預測任務中,在“2-hops+1K”“3-hops+1K”和“All+1K”3個測試數據集上,DGP模型僅在“Hit@20”這一項指標上是最優的,其余指標均被GCNRP所超越或追平。尤其在“2-hops+1K”測試數據集上,GCNRP在5個指標中最高提升了3.1%。考慮到“包含訓練類標簽”的預測任務更貼切實際,且加入了訓練類標簽的干擾,因此更能體現模型的泛化性能。GCNRP通過對輸入數據進行隨機傳播,促使模型學得更具區分性的分類器以對抗特征擾動,因而具備更佳的泛化能力。

AwA2數據集上的測試結果見表4,分析表中的結果可知,GCNRP的平均準確率超越了全部5個對比模型,平均準確度比DGP提升了2.56%。

表4 AwA2數據集測試結果(%)

為進一步探究DGP和GCNRP在AwA2數據集上性能差異,本文分別以2個模型的測試結果繪制了混淆矩陣(圖5)。

圖5 DGP,GCNRP的混淆矩陣((a)DGP模型的混淆矩陣;(b)GCNRP模型的混淆矩陣)

多分類任務的混淆矩陣定義為×的正項矩陣,其中行對應于個實際類別的全部樣本,列表示被預測為該類別樣本的數目。從定義可以看出,混淆矩陣中主對角線上的數值對應于預測成功的樣本數,而其余位置的數值全部反應預測錯誤的樣本數。

分析混淆矩陣可知,表現不理想的類別有“bat(蝙蝠)”和“walrus(海象)”。對于“bat”類別,DGP對的準確度有24%;而GCNRP有26%的準確率;對于“walrus”類別,DGP與GCNRP準確度均不高,分別為62%和58%。此外DGP對于“blue whale(藍鯨)”和“dolphin(海豚)”以及“giraffe(長頸鹿)”和“horse(馬)”也容易混淆。DGP對“blue whale”的分類準確度為71%,并且28%的預測結果為“dolphin”,而GCNRP對“blue whale”的分類準確率高達86%;DGP對“giraffe”的分類準確率為70%,并且27%的預測結果為“horse”,而GCNRP對“giraffe”的分類準確率高達83%,遠遠超過DGP的表現。

綜上可知,在10個測試類的準確率中,DGP共有5個類別的準確率低于平均準確率(77.3%),其中最低為24.0%,最高為71.0%;而GCNRP共有3個類別低于平均準確率(79.86%)。因此GCNRP的泛化性能優于DGP,這與在ImageNet數據集上測試分析得出的結論是一致的。

3.6 超參數分析

特征復制份數和混合階傳播次數是GCNRP模型中的重要參數,相關數值的設置將對模型性能產生顯著影響。為了探索最佳超參數設置,本文對二者進行數次獨立實驗,以實現最佳參數搜索。

實驗中,固定為1并對在1~6的范圍內進行訓練;在前者的基礎上,固定為最佳選項并對重復1~6范圍內的實驗。以小規模數據集AwA2為例,二者的變化對模型性能的影響如圖6所示。

圖6 GCNRP中超參數變化對模型性能的影響((a)特征復制份數U;(b)混合階傳播次數V)

從圖6(a)可以看出,分類準確度(Accuracy)隨著特征復制份數在1~5范圍內的增加而逐步提升,在=5時達到極值79.86%。該結果進一步佐證了隨機傳播策略對提升模型性能的作用;從圖6(b)可知,分類準確率與混合階傳播次數呈現負相關。從理論角度分析,混合階傳播在實現方式上與圖卷積相似,因而均具有一定的數據平滑效果;隨著傳播次數的增加,模型性能受平滑現象影響呈下降趨勢。

通過訓練時間分析,當或增大時,模型訓練時間隨之增加,顯然提高和數值均會提高模型的復雜度。且增大比增大對提升模型的復雜度影響更大,分析可知復制的多份特征經擾動傳播后還要輸入至GNN中訓練,而圖卷積的操作比混合階傳播更為復雜,因此特征越多,訓練所消耗的時間就越長。

同時,超參數和的數值對不同數據集也會產生不同的影響。結合實驗結果,本文針對AwA2數據集設置和數值分別為5和1;而ImageNet數據集使用和數值分別為3和3。

4 結束語

本文結合隨機傳播機制與GNN,提出了基于GCNRP的零樣本分類框架。該模型采用節點失活的方法對輸入GNN的數據進行數據擾動并產生增強數據,由此改善傳統模型進行零樣本分類時易受過平滑現象影響和非魯棒性等問題。實驗證明,本模型在ImageNet與AwA2數據集上均展現出優于經典模型的準確性和泛化能力,同時相比經典文獻[28]模型大幅優化了復雜度。在未來工作中將繼續探究基于GNN零樣本分類框架的可能性,尋找類別之間能夠相互關聯而更具分辨性的特征表示。

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[2] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[3] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[4] REZAEI M, SHAHIDI M. Zero-shot learning and its applications from autonomous vehicles to COVID-19 diagnosis: a review[J]. Intelligence-Based Medicine, 2020, 3-4: 100005.

[5] LAROCHELLE H, ERHAN D, BENGIO Y. Zero-data learning of new tasks[C]//The 23rd National Conference on Artificial intelligence - Volume 2. New York: ACM Press, 2008: 646-651.

[6] XIAN Y Q, LAMPERT C H, SCHIELE B, et al. Zero-shot learning-A comprehensive evaluation of the good, the bad and the ugly[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(9): 2251-2265.

[7] 冀中, 汪浩然, 于云龍, 等. 零樣本圖像分類綜述: 十年進展[J]. 中國科學: 信息科學, 2019, 49(10): 1299-1320.

JI Z, WANG H R, YU Y L, et al. A decadal survey of zero-shot image classification[J]. Scientia Sinica: Informationis, 2019, 49(10): 1299-1320 (in Chinese).

[8] 劉靖祎, 史彩娟, 涂冬景, 等. 零樣本圖像分類綜述[J]. 計算機科學與探索, 2021, 15(5): 812-824.

LIU J Y, SHI C J, TU D J, et al. Survey of zero-shot image classification[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(5): 812-824 (in Chinese).

[9] Pourpanah F, Abdar M, Luo Y, et al. A review of generalized zero-shot learning methods[EB/OL]. (2021-05-19)[2022-01-15]. https://doi.org/10.48550/arXiv.2011.08641.

[10] FROME A, CORRADO G S, SHLENS J, et al. DeViSE: a deep visual-semantic embedding model[C]//The 26th International Conference on Neural Information Processing Systems- Volume 2. New York: ACM Press, 2013: 2121-2129.

[11] Fellbaum C D. WordNet: an electronic lexical database[J]. Language, 2000, 76, 706.

[12] FARHADI A, ENDRES I, HOIEM D, et al. Describing objects by their attributes[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 1778-1785.

[13] HUYNH D, ELHAMIFAR E. Fine-grained generalized zero-shot learning via dense attribute-based attention[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 4482-4492.

[14] 汪玉金, 謝誠, 余蓓蓓, 等. 屬性語義與圖譜語義融合增強的零次學習圖像識別[J]. 圖學學報, 2021, 42(6): 899-907.

WANG Y J, XIE C, YU B B, et al. Attribute and graph semantic reinforcement based zero-shot learning for image recognition[J]. Journal of Graphics, 2021, 42(6): 899-907 (in Chinese).

[15] XU W J, XIAN Y Q, WANG J N, et al. Attribute prototype network for zero-shot learning[EB/OL].[2021-12-10]. https:// arxiv.org/abs/2008.08290.

[16] ALMEIDA F, XEXEO G. Word embeddings: a survey[EB/OL]. (2019-01-25)[2021-12-20]. https://doi.org/10.48550/arXiv.1901. 09069.

[17] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

[18] NOROUZI M, MIKOLOV T, BENGIO S, et al. Zero-shot learning by convex combination of semantic embeddings[EB/OL].[2021-12-09]. https://arxiv.org/abs/1312.5650.

[19] JI S X, PAN S R, CAMBRIA E, et al. A survey on knowledge graphs: representation, acquisition, and applications[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(2): 494-514.

[20] WANG X L, YE Y F, GUPTA A. Zero-shot recognition via semantic embeddings and knowledge graphs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6857-6866.

[21] FENG W, ZHANG J, DONG Y, et al. Graph random neural networks for semi-supervised learning on graphs[J]. Advances in Neural Information Processing Systems, 2020, 33: 22092-22103.

[22] BO D Y, WANG X, SHI C, et al. Beyond low-frequency information in graph convolutional networks[EB/OL].[2021- 11-30]. https://arxiv.org/abs/2101.00797.

[23] 周波, 郭正躍, 韓承村, 等. 基于圖卷積網絡的BREP→ CSG轉換方法及其應用研究[J]. 圖學學報, 2022, 43(1): 101-109.

ZHOU B, GUO Z Y, HAN C C, et al. Graph convolution network based BREP→CSG conversion method and its application[J]. Journal of Graphics, 2022, 43(1): 101-109 (in Chinese).

[24] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL].[2021-11-14]. https:// arxiv.org/abs/1609.02907.

[25] 徐冰冰, 岑科廷, 黃俊杰, 等. 圖卷積神經網絡綜述[J]. 計算機學報, 2020, 43(5): 755-780.

XU B B, CEN K T, HUANG J J, et al. A survey on graph convolutional neural network[J]. Chinese Journal of Computers, 2020, 43(5): 755-780 (in Chinese).

[26] LI Q M, HAN Z C, WU X M. Deeper insights into graph convolutional networks for semi-supervised learning[EB/OL]. [2021-11-03]. https://arxiv.org/abs/1801.07606.

[27] WEI J W, YANG Y, XU X, et al. Graph-based variational auto-encoder for generalized zero-shot learning[C]//The 2nd ACM International Conference on Multimedia in Asia. New York: ACM Press, 2021: 30:1-30:7.

[28] KAMPFFMEYER M, CHEN Y B, LIANG X D, et al. Rethinking knowledge graph propagation for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognitio. New York: IEEE Press, 2019: 11479-11488.

[29] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//2014 Conference on Empirical Methods in Natural Language Processin. Stroudsburg: Association for Computational Linguistics, 2014: 1532-1543.

[30] HAN J Q, RONG Y, XU T Y, et al. Geometrically equivariant graph neural networks: a survey[EB/OL].[2023-03-01]. https:// arxiv.org/abs/2202.07230.

[31] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[32] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL].[2021-10-19]. https://arxiv.org/abs/1412. 6980.

[33] Kil J, Chao W L. Revisiting document representations for large-scale zero-shot learning[EB/OL].[2022-02-01]. https://doi. org/10.48550/arXiv.2104.10355.

[34] PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performance deep learning library[J]. Advances in Neural Information Processing Systems, 2019, 32: 8026-8037.

Zero-shot image classification based on random propagation graph convolution model

LU Nan-nan1, LIU Yi-xiong2, QIU Ming-kai1

(1. School of Information and Control Engineering, China University of Mining and Technology, Xuzhou Jiangsu 221116, China; 2. School of Information Science and Technology, University of Science and Technology of China, Hefei Anhui 230027, China)

Zero-shot image classification aims to recognize new categories, namely, unseen categories that do not appear during training. Therefore, auxiliary information is needed to model the relationship between unseen and seen categories. With the aid of knowledge graph, zero-shot classification models based on graph convolution network (GCN) can explicitly express the relationship between categories, but GCN is susceptible to over-smoothing, resulting in the degradation of model performance.To address this problem, a zero-shot classification model based on random propagation graph convolution was proposed. In this model, the raw features were processed by random propagation mechanism to achieve feature perturbation and data augmentation. The generated knowledge graph based on category hierarchy could model the semantic relationship between categories, where graph nodes stand for categories and graph edges stand for relationships. Then the GCN was constructed to train the processed features, and the classifier parameters containing unseen categories, which were the output of nodes, could achieve zero-shot classification. Experimental results show that the model can significantly decrease time consumption, and improve accuracy and generalization performance.

zero-shot image classification; knowledge graph; graph convolution network; random propagation; data augmentation

17 January,2022;

National Natural Science Foundation of China (62006233, 51734009)

TP 18

10.11996/JG.j.2095-302X.2022040624

A

2095-302X(2022)04-0624-09

2022-01-17;

2022-03-25

25 March,2022

國家自然科學基金項目(62006233,51734009)

蘆楠楠(1985-),女,副教授,博士。主要研究方向為模式識別、機器學習和圖像處理。E-mail:lnn_921@126.com

LU Nan-nan (1985-), associate professor, Ph. D. Her main research interests conver pattern recognition, machine learning and image processing. E-mail:lnn_921@126.com

猜你喜歡
語義分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 精品久久人人爽人人玩人人妻| 亚洲欧洲日韩久久狠狠爱| 青草视频网站在线观看| 欧美精品在线免费| 永久免费av网站可以直接看的 | 亚洲福利视频一区二区| 在线欧美日韩| 国产情侣一区二区三区| 毛片卡一卡二| 国模私拍一区二区| 亚洲一区二区三区国产精品| 免费国产高清精品一区在线| 99精品影院| 91精品亚洲| 激情综合网址| 久久99国产综合精品女同| 国产日韩欧美在线播放| aa级毛片毛片免费观看久| 中文字幕在线观| 久久夜夜视频| 国产91麻豆免费观看| 欧美精品在线免费| 在线视频精品一区| 国产综合色在线视频播放线视| 中文一区二区视频| 亚洲第一视频区| 99热这里只有精品久久免费| 日韩免费毛片| 国产精品99久久久久久董美香| 亚洲激情99| 三上悠亚精品二区在线观看| 777国产精品永久免费观看| 天天摸夜夜操| 国产亚洲视频播放9000| 人妻精品久久无码区| 国产大片喷水在线在线视频| 亚洲日韩每日更新| 亚洲一区二区三区中文字幕5566| 亚洲天堂网在线观看视频| 中美日韩在线网免费毛片视频 | 一级一毛片a级毛片| 狠狠色丁香婷婷综合| 亚洲h视频在线| 小13箩利洗澡无码视频免费网站| 欧美精品啪啪一区二区三区| 日本91在线| 国产精品成人免费视频99| 成年人免费国产视频| 国产18在线| 一级毛片在线免费看| av午夜福利一片免费看| 色婷婷天天综合在线| 69av在线| 亚洲精品人成网线在线| 午夜毛片福利| 亚洲色图欧美视频| 亚洲第一天堂无码专区| 欧美中文字幕第一页线路一| 国产电话自拍伊人| 国产精品视频第一专区| 美女免费精品高清毛片在线视| 国模私拍一区二区| 久久精品无码中文字幕| 亚洲午夜综合网| 国模私拍一区二区三区| av在线人妻熟妇| 亚洲国产精品一区二区第一页免| 亚洲第七页| 亚洲欧美在线综合一区二区三区 | 精品成人免费自拍视频| 亚洲欧美另类视频| 成人夜夜嗨| 美女裸体18禁网站| 一本久道久综合久久鬼色| 亚洲天堂免费在线视频| 日韩专区第一页| 久久精品人人做人人爽电影蜜月| 国产自在线拍| 青青热久免费精品视频6| 久久鸭综合久久国产| 国产麻豆另类AV| 久久久久国产精品熟女影院|