劉錚 周述正 趙祎婷 盧銘娜







摘 要:圖像自適應描述(Image_Captioning),是指以圖像為輸入,通過模型和計算來輸出對應圖像的自然語言描述。這一領域是結合了人工智能兩大方向:計算機視覺和自然語言處理。將圖像自適應描述算法應用于地鐵車廂內部情況檢測,有利于車站管理人員迅速全面掌控車廂內部情況,快速應對車廂內部突發情況。有利于提示車廂內部乘客互相照顧,提高車廂內部優質資源分配合理性(如殘疾人以及孕婦讓座)。
關鍵詞:圖像自適應描述;人工智能;車廂
1 圖像自適應描述算法
Image Caption(圖片描述)模型中,以圖片數據作為輸入,經過CNN進行卷積提取圖片特征信息最終形成圖片的特征圖信息,而后attention模塊對提取的特征圖進行加強與抑制,作為后續進入LSTM模型的輸入數據,不同時刻的attention數據會受到上一時刻LSTM模型輸出數據而有所調整,LSTM模型最終輸出文本信息。
2 模型細節
2.1 encoder模塊
Image Caption(圖片描述)模型的最終輸出為一個長度為C的句子,其中yi指句子中的第i個詞,這個詞屬于一個k維實數的詞向量,其中K是字典長度。在encoder階段,文中使用的是CNN(卷積神經網絡),用于提取特征圖向量集合,這些特征圖向量后續會被作為注釋向量。
通過CNN會提取L個特征圖向量,命名為a,每一個都是D維向量用來代表圖片的一部分。同時為了保留特征圖與2維圖片的關系,本文中的特征來自于較淺的卷積層,由此保證后續的decoder階段,能夠通過選取所有特征圖的子集而選擇性聚焦到圖片的部分位置。
2.2 decoder模塊
在decoder階段模型使用的是 long short-term memory (LSTM,長短時記憶模型)network,圖片的說明文字由本模型生成,在預測每一個詞的時候都會需要使用背景向量、前一時刻的隱藏層向量、前一時刻的詞向量。
decoder節段是一個標準的LSTM過程,每個LSTM需要以下輸入:
(1)背景變量Z,來源于圖片經過CNN提取特征后,再使用attention進行過濾后的向量。(2)前一時刻的隱藏層向量h。(3)前一時刻的詞向量E,此時的詞被轉化為embeding向量。
2.3 背景向量Z的計算
背景向量Z的含義,Z是在t時刻,輸入圖片數據的動態表達,Z是基于輸入圖片數據的,后續的加工依賴于注釋向量a。隨著時間的不同,Z向量隨前一時刻輸出的y而變化。
(1)通過att函數計算第i張特征圖ai與上一時刻隱藏向量ht-1的關系eti。
(2)使用歸一化,將eti轉化為概率值,成為attention系數αti,αt既是指t時刻attention的集合。
(3)特征圖集合a中元素分別于attention系數中αti計算得到t時刻背景向量 。
3 attention機制--hard attention
計算特征圖與隱藏向量間關系時用到了att函數(hard attention ),hard attention是使用一種隨機的方法計算attention系數α。首先先設定一個t時刻的位置變量st,st是指在t時刻生成詞的時候模型需要聚焦于圖片的哪些位置。在hard-attention 模型中,st是一個one-hot編碼向量,st,i中最大的值為1,其余均為0。該模型會把與生成下一個詞最相關的特征圖提取出來并將其他特征圖拋棄。
4 損失函數
5 實驗與分析
(1)實驗環境:Cpu:E5-2630L v3 內存:64g Gpu:NVIDIA GeForce 3090。
(2)訓練數據為flickr8k數據集。
(3)網絡構建及訓練:本次實驗特征提取模型采用densenet121,epoches設置為2 000,encoder_learning_rates設置為1e-4,decoder_learning_rate設置為4e-4。
(4)測試結果:
經過2 000輪的訓練后,使用軌道車廂內部圖片對模型進行驗證。識別描述的準確率在80%以上。
6 結束語
經過研究后發現image_captioning算法在地鐵車廂這一場景,可以對乘客行為進行較為合理的描述,在軌道車廂內部安防領域具有較大前景,具有智能度高,易推廣等優點,極具開發潛力。