(華北電力大學 北京 102206)
隨著科技的發展,人工智能在計算機的領域內得到了愈加廣泛的重視。本文將圍繞人工智能在圖像識別方向的應用,實現圖像語義分割,語義分割是在圖像分類的基礎上實現的逐像素進行分類,將整張圖片按照語義識別出圖片每一個像素的意義,進而盡可能清晰的識別出每一個視覺。
FCN采用的網絡結構將傳統CNN網絡后面的全連接層換成了卷積層,這樣網絡輸出不再是每張圖片的類別而是heatmap;同時為了解決因為卷積和池化對圖像尺寸的影響,提出使用上采樣的方法將圖片恢復到原始尺寸。本文采用的上采樣方法是用用雙線性插值初始化的可學習的反卷積操作。
卷積網的每層數據是一個h*w*d的三維數組,其中h和w是空間維度,d是特征或通道維數。第一層是像素尺寸為h*w、顏色通道數為d的圖像。高層中的位置和圖像中它們連通的位置相對應,被稱為接收域。在特定層xij為在坐標(i,j)的數據向量,在下一層有yij,yij的計算公式如下:
yij=fks({Xsi+δi,sj+δj}0≤δi,δj≤k)
其中k為卷積核尺寸,s是步長或下采樣因素,fks決定了層的類型:一個卷積的矩陣乘或者是平均池化,用于最大池的最大空間值或者是一個激勵函數的一個逐像素的非線性,亦或是層的其他種類等等。
FCN理應可以計算任意尺寸的輸入并產生相應空間維度的輸出。一個FCN的實值損失函數定義了一個任務。如果損失函數是一個最后一層的空間維度總和,,它的梯度將是它的每層空間組成梯度總和。所以在全部圖像上的基于L的隨機梯度下降計算將和基于L'的梯度下降結果一樣,將最后一層的所有接收域作為一個小批。
由于采用上采樣生成的圖片比較粗糙,丟失和忽略了很多的原圖的細節信息,所以采用了跳躍結構,融合了不同的層的信息,這樣通過跨層,融合粗糙的深層的語義信息和淺層的細的語義信息,以實現更好的語義分割的效果。
實驗利用momentum訓練GSD。利用20張圖片的小批量,學習速率10-4,利用了0.9的momentum,權值衰減是5-4,Dropout也用于原始分類的網絡中。訓練數據集為PASCAL VOC 2011,我們訓練FCN語義分割網絡。盡管這些任務在以前主要是用在物體和區域上,我們都一律將它們視為像素預測。我們在這些數據集中都進行測試用來評估我們的FCN跨層式架構,然后對于NYUDv2將它擴展成一個多模型的輸出,對于SIFT Flow則擴展成多任務的語義和集合標簽。
ti=∑jnij
我們從常見的語義分割和場景解析評估中提出四種度量,它們在像素準確率和在聯合的區域交叉上是不同的。令nij為類別i的被預測為類別j的像素數量,有nij個不同的類別,令:
為類別i的像素總的數量。IoU計算如下:
PASCALVOC圖1給出了我們的FCN-8s在PASCAL VOC2011和2012測試集上的表現,然后將它和之前的先進方法SDS[3]和著名的R-CNN[4]進行比較。我們在平均IU上取得了最好的結果相對提升了20%。計算時間被降低了114×或者286×。

圖1 結果對比
Figure 1 The comparison of the results
全卷積網絡的模型非常重要,是現代化分類網絡中一個特殊的例子。了解全卷積網絡,并能夠把全卷積網絡擴展到分割任務,并通過多分辨率將不同層的特征融合到一起。在實現更好的結果的同時,簡化和加速了學習和訓練的過程。
通過實驗結果我們可以發現,實驗結果較之前的SDS和R-CNN比都在IOU和視覺效果上取得了很好的提升,也很明顯的加快了計算速度。
但是從實驗結果圖我們可以發現,實驗的效果還有待于進一步的提高,分割的紋理還不是很清晰,我們可以通過后期的改進來進一步改善實驗效果。