999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度特征融合的圖表細分類模型

2020-06-15 12:04:44郭美宏邵煥
現代計算機 2020年13期
關鍵詞:圖表分類特征

郭美宏,邵煥

(西南交通大學信息科學與技術學院,成都 611756)

0 引言

圖像分類是計算機視覺與人工智能領域最重要與基礎性的研究主題之一。近年來,隨著深度學習技術的發展,圖像分類等任務取得很大的進展,為了解決圖像分類問題,很多優秀的深度網絡模型被設計出來。

圖表作為一種特殊的視覺信息載體,包含了豐富的高層語義信息。對其智能化分類是在線智能化教育、書籍語義理解、課本問答等應用的核心重要一步。因此,圖表分類的研究具有重要的學術意義與應用價值。

然而,圖表智能化理解的相關研究卻進展緩慢,其主要原因在于圖表的語義理解具有極大的挑戰性。不同于自然圖像,圖表是被有意設計用來表達信息,很難用幾個文字或者用一幅自然圖像來描述。這就使得對圖表的分類以及元素的識別與自然圖像的分類有本質上的不同。這些挑戰使得現有的自然圖像分類模型難以直接應用到圖表分類任務中。

本文針對圖表分類問題開展研究,以自然圖像分類任務中具有優異性能表現的ResNet 模型為基礎,結合圖表特征多樣且復雜的問題,提出一種新穎的多尺度特征融合模型進行圖表細粒度分類。我們將細粒度分類模型中多尺度特征融合的方法引入圖表分類中,并改進了注意力模塊,提高了對圖表細粒度分類的準確性。與其他模型相比,本文提出的模型在公開的AI2D 數據集上取得了更好的效果。

本文首先對當前的圖表研究以及細粒度分類的相關工作進行簡要介紹,隨后對本文所提算法進行詳細解讀,并分析、處理數據集,與其他分類算法進行對比,最后進行實驗結果分析與比對。

1 相關工作

1.1 圖表研究相關技術

圖表的理解問題在八九十年代已經得到了相當多的關注[7-10]。然而,這些方法中有許多是手寫的規則,例如呈現的視覺元素是手動識別的,或者只處理具有特定特征的圖表。最近,Futrelle 等人[11]提出了分析特定自動機示意圖的方法,但是只適用于圖的向量表示。隨后,Seo 等人[12]提出了一種理解幾何問題中圖表的方法,通過最大化文本和可視化數據之間的一致性來識別圖中的元素。在此之后Kembhavi 等人[13]提出了一項分析圖表結構(DSDPnet)的開拓性工作。該算法的主要流程有兩個方面:①對象檢測:使用常規的方法(如文獻[14,15]中的方法)檢測和分割圖中的對象;②關系推斷:通過遞歸神經網絡(RNN)推斷檢測到的對象之間的關系,以便于順序傳輸上下文。但是,這種方法有幾個局限性。首先。連接分離的方法會導致丟失圖表的上下文。其次,不能完全處理以圖形結構形式形成的圖表信息。因此,Daesik Kim 等人[16]提出了一種分析圖表的新算法,使用對象檢測模型代替傳統方法,并提出了圖解析網絡(UDPnet)來同時解決對象檢測和關系匹配兩個任務來理解圖表。并提出了一種基于RNN的動態圖生成網絡(DGGN),以此通過使用圖結構對圖表信息進行充分描述。但這些工作都基于圖表問答,不能直接用于分類任務。

1.2 細粒度分類網絡

在同一基礎類別上表現非常相似的數據,例如VGG、ResNet 等普通分類網絡的準確率并不是很高,因此出現了出細粒度圖像分類的方法。在細粒度分類的任務中,常常使用注意力模型去加深圖片關鍵區域的認知,從而提高細分類的準確性。其中比較具有代表意義的模型有:Jianlong Fu、Heliang Zheng 以及TaoMei等人[3]于2017 年提出的RA-CNN 算法。作者主要是通過多任務的思路,在網絡回歸出圖片分類的同時,獲得一個圖片關鍵區域的位置信息,并且使用蒙版的方式對圖片進行處理(例如裁剪、放大等操作),重新進一步的分類;RA-CNN 算法不需要對數據進行類似于目標標注的特殊處理,但是效果與進行數據標注過的算法輸出效果相同。2018 年,RA-CNN 算法的原班人馬在此基礎上提出了MA-CNN 框架[4],此框架是對RACNN 算法的進一步改進。該框架中提出了對分類目標多部分注意力區域生成的方法,并使得部分注意力區域的生成與特征學習互相強化,進一步提高了物體細分類的正確性。2019 年,Tao Hu、Honggang Qi、Qing?ming Huang 以及Yan Lu 等人[5]提出了目標細分類網絡WS-DAN,給出了一個相較于上述兩份算法更簡單的注意力模塊的生成方式。作者主要使用center-loss 的思路,對注意力模板的生成加上了一個弱監督機制,使得網絡訓練變得更加簡單快捷。本文主要是在WSDAN 的基礎上,改進了其注意力模塊,使得生成的模塊與實際的目標位置貼合的更加緊密,并因此提升了細粒度分類的準確性。

2 算法原理

2.1 多尺度特征融合

一般目標分類與檢測網絡,都是對進行圖片進行多層次的特征提取。然而在網絡從淺到深的提取特征的過程中,每一層特征提取時,會丟失某些信息。以此累加,直至網絡最后一層時,就會丟失較多特征信息。因此,在進行某層網絡卷積之前,將上層網絡的特征圖與該層特征圖疊加,以此減少特征信息的丟失,此方法也就是多尺度特征融合。本文選取ResNet50 作為骨干網絡,特征融合部分如圖1 中淺綠色所示。首先將骨干網絡劃分為4 塊。在ResNet 網絡中對應其四個不同的卷積區塊,在圖1 中分別表示為b1、b2、b3以及b4。網絡的初始輸入尺寸為(3,448,448),圖像特征在經過每一個區塊的卷積后,其尺寸縮小一倍。因此圖片的特征尺寸分別轉換為f1(256,112,112)、f2(512,56,56)、f3(1024,28,28)以及f4(2048,14,14)。接下來對于這些提取到的來自網絡不同位置的特征,分別使用一個卷積核進行降維(卷積核尺寸1*1、維度256),使四個特征的維度一致。在得到四個維度一致,分辨率不同的特征(256,112,112)、(256,56,56)、(256,28,28)以及(256,14,14)之后,我們將小尺寸的特征上采樣2 倍加在大尺寸特征上,得到新的特征。例如,將特征(256,14,14)上采樣兩倍變為(256,28,28)疊加在上,得到新的特征x3。再將新的特征如此循環操作,加上經過降維的特征,我們就得到了4 個處理過的特征圖,其中x1、x2、x3是融合了多層信息的特征圖,此過程稱之為多尺度特征融合。

圖1 網絡結構示意圖

2.2 注意力模塊

本文參考WS-DAN 的框架結構,并對其注意力模塊進行改進。如圖1 所示,我們將特征融合之后的四個特征x1、x2、x3以及,分別通過一個1*1、維度為8 的卷積核,目的是將其縮放到與f4相同的尺寸,也就是(14,14),之后生成32 個通道的注意力模塊。最后使用這些模板分別與f4進行對應位置元素相乘,從而得到最后用作分類的特征圖。然后將該特征圖通過一個全連接層fc進行分類,得到最后的輸出結果。

對于注意力模板的訓練,我們將每個類別作為一個大類。在每一大類中,為了生成注意力模板,我們將其生成的32 個注意力模塊作為center-loss 的32 個子類,對其進行訓練,從而達到不同模塊對應于圖像上不同關鍵區域的效果(詳見公式2);對于分類輸出,我們使用Softmax 作為其損失函數,如公式1 所示。最后總的loss 是由這兩部分共同構成(公式3 所示)。本文實驗部分使用的優化器是SGD,訓練的epoch 為40 個,并使用了在Image-Net 上預訓練的模型作為初始化參數進行訓練。

3 實驗設置與結果分析

3.1 數據集介紹

Aniruddha Kembhavi 等人提出的 DPG 模型[6]中,搜集了各個科目課本的圖表數據集,它包含了大約5000個小學自然科學的課本插圖、超過150000 個豐富的插圖注釋、每個插圖對應的真實語法解析以及超過15000個圖表相應的多項選擇題,其命名為AI2D。本文選取此AI2D 數據集中的課本插圖部分,并且根據插圖集的特征,將其按照科目分成了九類,一共五千張左右。分別是動物、植物、細胞、物理學、地理學、地球科學、天文學、醫學以及其他。其中細胞和動物類分別占比20%左右,其余平均占比10%左右。

3.2 實驗設置

對于本文使用的AI2D 數據集,我們按照訓練集測試集2:1 的方式進行隨機構建。其中,訓練參數為batchsize 為 8,epoch 為 40,學習率為 0.001,并使用了階梯式下降的訓練策略,分別在20、30 次epoch 時將學習率縮小10 倍。在訓練時,我們進行了圖片減均值、隨機裁剪以及水平翻轉等預處理方式進行數據集的擴充。

3.3 結果分析

我們分別進行了ResNet 網絡、WS-DAN 網絡以及本文模型三組實驗進行了對比。ResNet50 上的實驗結果如表中第一行所示。ResNet 網絡只進行數據集的分類,并不增加多尺度特征融合方法以及注意力模塊。第二行是對WS-DAN 修改前的實驗結果。其中評價指標為top1 以及top5??梢钥吹?,本文所提出模型在數據集 AI2D 上的 top1、top5 比 ResNet50 和 WS-DAN都有一定的提升。

表1 實驗結果

除此之外,將通過本文方法生成的注意力模板與WS-DAN 生成的注意力模板,分別以熱力圖的形式進行可視化,兩者的效果對比如圖2 所示,其中第一行是WS-DAN 注意力模塊可視化結果,第二行是本文算法結果示例。圖片中高亮部分為模型識別出的關鍵區域,而陰影部分為非關鍵區域。

圖2 實驗效果對比

其中,人體結構熱力圖中的高亮部分為模型識別出的有效部分,而紫色部分為無效非關鍵區域。明顯地,本文提出的算法更加準確的區分了關鍵與非關鍵區域。將兩組結果進行對比可以看出,使用多尺度注意力提取的注意力模塊,對非關鍵區域的抑制效果更好,并且對于關鍵區域的提取輪廓相較于WS-DAN更好。

4 結語

本文對比了多個傳統卷積神經網絡,最后選取ResNet 作為骨干網絡,在WS-DAN 模型的基礎上,對模型中的注意力模塊進行改進。實驗表明,此模型上在課本圖表數據集AI2D 上,相比于現有的細粒度分類模型有著更好的分類效果。雖然本文通過改進WSDAN 的注意力模塊,在圖表數據集上準確度有所提升,但提升效果并不明顯,后續也會持續進行改進。而且,本文只針對圖表數據集的分類,對于模型在其他數據集上的表現還有待觀察。

猜你喜歡
圖表分類特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
雙周圖表
足球周刊(2016年14期)2016-11-02 10:54:56
雙周圖表
足球周刊(2016年15期)2016-11-02 10:54:16
雙周圖表
足球周刊(2016年10期)2016-10-08 18:30:55
主站蜘蛛池模板: 日韩成人免费网站| 免费啪啪网址| 日韩专区欧美| 国产97公开成人免费视频| 手机看片1024久久精品你懂的| 91小视频在线观看| 国产久操视频| 日本一区中文字幕最新在线| 亚洲日韩欧美在线观看| 19国产精品麻豆免费观看| 亚洲成在线观看 | 在线免费不卡视频| 亚洲AV无码乱码在线观看裸奔| 97视频免费在线观看| 全免费a级毛片免费看不卡| 亚洲精品天堂在线观看| 狠狠色香婷婷久久亚洲精品| 91久久大香线蕉| 色综合久久无码网| 国产免费黄| 波多野结衣无码视频在线观看| 一级毛片在线免费视频| 99偷拍视频精品一区二区| 激情六月丁香婷婷| 五月丁香伊人啪啪手机免费观看| 中文字幕在线免费看| 免费人成黄页在线观看国产| 玩两个丰满老熟女久久网| 亚洲高清国产拍精品26u| 欧美成人a∨视频免费观看| 亚洲精品无码日韩国产不卡| 日本www在线视频| 人人91人人澡人人妻人人爽 | 亚洲成人黄色网址| 久久国产V一级毛多内射| 97青草最新免费精品视频| 老司国产精品视频| 5388国产亚洲欧美在线观看| 潮喷在线无码白浆| 视频二区欧美| 欧美在线观看不卡| 日本免费一级视频| 国产午夜福利亚洲第一| 亚洲—日韩aV在线| 欧美一级高清免费a| 亚洲午夜18| 欧美午夜视频在线| 国产网站免费看| av在线人妻熟妇| 精品成人免费自拍视频| 99r在线精品视频在线播放| 日韩在线网址| 99在线免费播放| 54pao国产成人免费视频| 99在线小视频| 一本大道无码日韩精品影视| 色综合久久久久8天国| 欧美日韩在线成人| 国产99视频精品免费观看9e| 国产成人精彩在线视频50| 91香蕉视频下载网站| 久久午夜夜伦鲁鲁片无码免费| 国产主播在线一区| 国精品91人妻无码一区二区三区| 视频一本大道香蕉久在线播放| 伊人久久大香线蕉成人综合网| 欧美日韩导航| 综合色区亚洲熟妇在线| 日本一本正道综合久久dvd| 波多野结衣第一页| 日韩高清一区 | 人人91人人澡人人妻人人爽 | 国产福利在线免费观看| 亚洲欧美日本国产综合在线| 色综合综合网| 国产中文一区二区苍井空| 噜噜噜久久| 啪啪国产视频| 久久久久免费看成人影片 | 欧美午夜久久| 国产精品午夜电影| 亚洲国产清纯|