曹丹陽 朱孟貴 高磊


摘要:本研究提出一種使用圖像中目標特征代替圖像全局特征的圖像標注方法,經實驗驗證,本方法能夠有效提升圖像標注模型效果。
關鍵詞:深度學習;圖像標注;神經網絡;目標檢測
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)04-0232-02
0 引言
圖像標注任務目前已經成為深度學習中一個重要的分支,是結合計算機視覺和自然語言處理的綜合性任務 。圖像標注在圖像檢索、盲人導航等方面發揮了很大的作用。
1 國內外研究現狀
Vinyals等人提出端到端的圖像標注框架,使用卷積神經網絡提取圖像特征,然后經過循環神經網絡生成目標語言[1]。Xu等人將注意力機制引入圖像標注算法,提高了算法表現[2]。本研究使用圖像目標區域特征替代圖像全局特征,經驗證,本研究提出的方法是有效的。
2 方法
基于以上結論,本文改用目標區域及圖像突出區域特征表示圖像。圖1是方法框架圖。
本文使用Faster RCNN提取圖像區域特征[3]。Faster R-CNN的損失函數如下:
3 實驗
本實驗中,使用了MSCOCO數據集。本研究使用BLEU、METEOR指標,CIDEr指標作為本工作的評價指標。表1是本研究與其他圖像標注模型對比的結果表。
圖2中,測試了6張圖片,使用本文的模型對圖片進行標注生成。從圖中可以看出,模型可以正確生成標注,說明本研究效果極好。
4 結語
本文提出了將目標檢測算法應用到圖像標注任務中,該方法與其他圖像標注算法對比,在評價指標上得出更高的分數,表現更好。
參考文獻
[1] Vinyals O,Toshev A, Bengio S,et al[J].Show and Tell: A Neural Image Caption Generator,2014:3156-3164.
[2] Xu K, Ba J, Kiros R, et al.Show, Attend and Tell: Neural Image Caption Generation with Visual Attention [J].Computer Science,2015:2048-2057.
[3] Ren S, He K,Girshick R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. MIT Press,2015:91-99.