馬穎
摘要:以往圖像自動標注多為人工選取特征,整個過程所需時間和精力較大,并且所用的標簽傳播算法會造成語義近鄰被忽視,最終會出現視覺相似但是語義不相似的情況,影響圖像標注效果。為改善傳統圖像標注算法應用存在的缺陷,便可以選擇應用深度學習圖像自動標注算法,可以完美解決語義近鄰識別問題,提高圖像標注綜合效果,本文對其應用要點進行了簡單分析。
關鍵詞:深度學習;圖像標注;機器學習
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2017)10-0122-01
基于深度學習的圖像自動標注算法在實際應用中具有較大優勢,可以打破傳統標注算法對圖像視覺特征的依賴性,可以直接通過圖像各像素點完成類別標注,處理效率更高。
1 深度學習圖像自動標注算法
深度學習為機器學習領域研究要點內容,其基本原理就是通過算法來促使計算機模擬人腦處理事務流程,向其提供一個與人相似具有一定辨別事務的能力。想要實現基于深度學習的圖像自動標注算法,就需要對傳統神經網絡進行持續改進研究,形成層次更深的神經網絡結構,現在所存的深度學習表現形式如自動編碼器、深信度網絡以及卷積神經網絡等。其中,卷積神經網絡作為多層網絡結構,對于圖像平移、旋轉以及按比例縮放等形變敏感度低,利用其在進行圖像標注時,能夠更大程度上來抵抗外部因素的干擾。并且卷積神經網絡設置靈活度高,在實際應用中可以根據要求來選擇相應網絡結構,總結相關知識學習和網絡結構應用效果信息,可以確定試驗所用數據集內所涉及到的圖像種類越多,則需要設置越多的網絡層數,并且卷積層所含特征圖個數與其所處層數成正比,所處層數越深,對應的特征圖個數也就越多[1]。一般情況下向同一網絡結構內輸入的圖像分辨率越大,網絡運算的規模也就越大,響應者模式迭代一次所需時間越長。
2 深度學習圖像自動標注算法實現
2.1 模型結構設計
以往傳統神經網絡大部分均是應用的單一隱藏層進行數據建模,而深度學習則是采用多層隱藏層神經元網絡,能夠處理更復雜問題。一般可選擇應用RBM或DAE模型進行網絡權重預訓練,然后將預訓練得到的各層權重值作為反向傳播算法的權重初始值賦予整個神經網絡,最后在利用反向傳播算法對整個網絡權重進行更新,以免網絡算法求解過程中陷入到局部最優問題中。本文主要對3層深度神經網絡結構進行分析,向輸入層單元內輸入圖像特征v,確定圖像標簽信息為網絡輸出節點t,應用RBM模型進行預訓練,神經網絡輸入單元v∈RN(N表示輸入圖像特征為數),則可以確定應用GBRBm為深度神經網絡第一層網絡結構h1,兩層應用常規RBM為深度網絡第二層h2與第三層h3網絡[2]。
網絡模型在進行圖像信息分類時,設定監督向量位數目為類別數目M,其所對應樣本類別為k,便可確定輸出層第k維為1,而其余維數為0。應用反向傳播算法進行分析,可利用神經網絡計算實際輸出和監督向量差異對網絡收斂程度進行衡量,在達到訓練次數要求后便可停止訓練。訓練結束后將得到的數據結果輸入到神經網絡內,確定輸出層最大節點位置便為樣本預測類別。對圖像信息進行分類時,就可以將樣本多類別信息對應監督向量的維數設置成1,并以邏輯斯蒂克函數替換softmax函數作為輸出層激勵函數,并對輸出層得到的結果進行排序,排序中靠前類別便可作為神經網絡對圖像樣本信息的預測結果。
與圖像多分類不同,圖像標注的標注信息并非均勻分布,各標簽所屬圖像多少并不確定,這樣如果對不同標簽信息采用相同算法處理,便會造成低標注頻率的標簽被掩蓋在高標注頻率的標簽中,降低了給定圖像標注的準確性。在應用深度學習圖像標注算法分析時,可以將圖像標簽頻率引入到監督信息中,對神經網絡監督向量進行調整更改,實現圖像標注結果的準確性,解決標簽分布不均勻問題。
2.2 卷積神經網絡標注
利用卷積神經網絡來實現圖像的自動標注,為實現圖像特征的可靠提取,應先對目標彩色圖片進行灰度化處理,并利用雙線性插值算法對圖片進行縮放,最終轉換成100×100模式。C1層利用6個尺寸大小為5×5的卷積核對圖像進行卷積處理,可確定處理后圖像各圖征圖大小為(100-5+1)×(100-5+1)=96×96。然后想S1層內輸入處理后得到的數據,通過亞采樣層S1層完成C1層特征圖的采樣,其中S1層池化矩陣尺寸為4×4,存在6個特征圖,且每個特征圖大小為(96/4)×(96/4)=24×24。然后C2層繼續卷積處理,共有12個特征圖,卷積核尺寸不變,可得到各特征圖尺寸為(24-5+1)×(24-5+1)=20×20。S2層繼續亞采樣,池化矩陣尺寸不變,共有12個特枕圖,可確定其尺寸為(20/4)×(20/4)=5×5。共選擇7類共650張圖片進行圖像分類模型訓練,每類剩余30張圖像組成一個具有140張圖像測試數據集,神經網絡權值在模型迭代次數不斷增加的過程中持續變化,最終可以得到一個趨于理想的數值結果[3]。
3 結語
現在已經進入到信息網絡化時代,數據應用對進一步促進工作效率具有重要意義。面對井噴式的數據增長情況,互聯網上每天會產生海量的圖像與視頻信息,為針對圖像資源進行可靠組織、查詢與瀏覽動作,首先需要完成圖像標注,作為內容圖像檢索和文本圖像檢索的基礎。基于深度學習自動圖像標注算法的應用,對比傳統標注算法,可以提高圖像標注可靠性與效率性。
參考文獻
[1]李靈芝.自然場景圖像的自動標注方法研究[D].廣西師范大學,2016.
[2]羅世操.基于深度學習的圖像語義提取與圖像檢索技術研究[D].東華大學,2016.
[3]楊陽,張文生.基于深度學習的圖像自動標注算法[J].數據采集與處理,2015,(01):88-98.endprint