李建偉
(北京工業大學信息學部電子科學與技術學院,北京 100124)
社會和信息都在日益增長飛速發展,人們傳遞信息以及獲取信息的重要手段就是圖像的數據[1]。近幾年來,可使用各種電子設備拍照,使影像數字資源與日俱增。對于海量的圖像數據,如何有效地對其進行分析和處理,并對其進行識別和分類,已成為計算機視覺領域的一個關鍵研究問題[2]。自動從大數據中學習是深度學習的主要特征,而深度學習也將慢慢替代各種設計學習方法[3]。優質的學習方法可以提高模式識別系統的性能,針對圖像分類所面臨的問題,采用主動學習的方法為分類模型選擇有價值的樣本,在保證分類精度之后再削弱使用標記樣本的數量。主動且深度的學習能夠有效削弱使用標記樣本的數量,為圖像分類提供一定的支撐。
標記圖像的樣本數量不容易獲取,所以導致數量很少,沒有標記的樣本數量也會增多,因此深度學習可以有效提升樣本的使用率。主動深度學習的方法根據采樣策略來挑選合適的樣本,并將這些被選中的樣本增加到訓練集中,通過迭代訓練的方式來提升分類模型的使用效率。主動深度學習的重點在于抽樣策略的設計,根據未標注樣本的提供情況,可將抽樣策略分為基于數據流的抽樣和基于數據池的抽樣。在數據流的采樣中,按照所規定的標準對獨立的數據進行選判。在基于數據池的抽樣中,需要查詢的樣本數量較多,按照一定的準則對所有樣本的重要性進行排序,選擇最重要的樣本。
主動深度學習算法主要由以下幾個部分組成:分類模型、抽樣策略、標記訓練樣本集、未標記樣本集等。深度學習過程分為兩個過程:第一個過程是初始模型訓練。對模型進行訓練時使用初始標記樣本集,從而獲取分類模型的初始狀態。第二個過程是抽樣查詢。在已標記樣本集中,根據集合查詢功能,選擇信息量較大的未標記樣本,根據實際類別對其進行標記。在查詢抽樣的整個過程里選擇的未標記樣本會影響分類模型的提升,因此抽樣策略的設計是關鍵部分。
有關不確定性抽樣策略的關鍵問題在于選擇分類模型,其很難準確定位選擇類別的樣本,包含信息越多的樣本類別就越難確定。對于不確定的采樣,主要有基于信息數據的計算來衡量樣本的不確定程度。樣本的信息數據越大,樣本的不確定程度度越高。分類器樣本的不確定性越高能夠準確判定的樣本類別就越少。該方法主要以最大數據為依照,通過樣本與分類平面之間的距離估計未標記樣本的不確定度。距離分類的平面越接近,樣本信息的不確定性就越高,該方法包括邊緣采樣(MS)等,基于版本空間,簡約的抽樣方法是在訓練中選擇具有簡約版本空間的樣本,然后由專家對其進行標記。卷積神經網絡(CNN)是圖像分類在深度學習方面的進一步發展,在圖像處理中得到了廣泛的應用。圖1給出了5×5輸入大小的圖像,其圖像在大小為3×3的卷積核上的卷積過程。

圖1 卷積過程圖
對于尺寸為M的圖像,特征圖像輸出的尺寸計算公式為

式中,W為特征圖像輸出的尺寸;F為濾波后卷積核尺寸;P為填充尺寸;S為步長。
卷積層提取特征后的數據量仍然很大,添加一層Pooling,減少計算量。由此計算出區域內特征值的最大平均值。
在圖像分類領域較為著名的還有多標簽圖像分類方法。多標簽圖像分類方法的技術原理是基于語義空間注意力機制的LVILIC模型,建立像素塊之間的關聯度,以標簽的方式加以分類,可簡單理解為以多維度相似度為依據的分類方法。這種方法重點關注圖像的特征區域,對輸入圖像建立標簽,對比標簽與特征區域典型標簽的相關性,抑制或忽略與圖像標簽相關性弱或互斥的圖像特征區域。該方法在圖像數據的處理中,首先使用標簽的靜態統計信息構造標簽相關性矩陣,為了關注標簽的關聯性,同步融入了標簽語義之間的依賴關系,以此實現更為準確的描述標簽間的相關性信息,將其作為建立的標簽關性矩陣相關性信息的先驗知識。以此為基礎,在圖卷積網絡中生成標簽語義詞向量,將其與空間注意力機制相融合,構建以語義空間為專注點的機制模塊。語義空間構成了該圖像分類方法的算法核心,在語義空間中標簽語義信息的引導下,對標簽間相關性進行建模,實現對圖像特征區域的識別與分類。在實際應用中,為了提高標簽間語義詞的關聯度,采用同時使用訓練集的標簽靜態統計信息配合以其他訓練模型,例如基于BERT的預訓練模型,共同確定圖像語義空間向量,以適當的處理效率為代價實現標簽間潛在關系關聯的更高的準確性。
這種圖像分類方法在處理LVILIC任務時,面臨的問題主要為標簽空間的規模,為簡化問題可以忽略標簽間的相關性信息,標簽空間的規模與數據集中類別標簽數量呈指數函數關系,因此在處理復雜圖像的分類問題或在圖像類型較多的情況下,會加重處理的負擔,造成處理延遲。例如,假設在數據集中建立的標簽數量設定為50,在忽略標簽間的相關性情況下簡便估算,算法生成的標簽空間的大小在540以上。由此帶來指數級的運算量。為簡化運算,降低運算量,在處理圖像分類任務時,靈活使用標簽間的相關性信息,實現對標簽空間的降級,具有現實的意義。具體的方式可以是詞嵌入、圖神經網絡或者注意力機制等多種,圖神經網絡方式更為常用。圖神經網絡建立的標簽語義詞嵌入,能夠刻畫圖像分類標簽中間潛在的關聯關系,通過構造標簽相關性矩陣來表示標簽間的關系。圖神經網絡構建矩陣的方法可以為僅使用數據集標簽的靜態統計信息構造的標簽相關性矩陣,在單一數據維度建立標簽間關聯;也可以通過使用三層全連接層網絡來獲取標簽的詞向量,在此基礎上計算標簽詞向量的余弦相似度,作為標簽間相似度的表征數據,構建起標簽間相關矩陣。在硬件平臺能夠提供足夠支撐的情況下,可以采用以上兩種方法的融合,結合靜態統計信息和標簽詞向量的余弦相似度,建立起更為精準的標簽相似度矩陣。由于這種標簽相關性矩陣同時具有基于訓練集的標簽靜態統計信息和基于知識圖譜提取的標簽信息,因此在實際圖像分類處理中,應用更為靈活,效果更好。
在上述方法中,單一的建立標簽相關性方法存在訓練集樣本的分布和測試集樣本的分布差異性問題,加之訓練集的標簽靜態統計信息易受噪聲影響而產生失真,因此并不能夠完美的刻畫標簽間的潛在關系。對于復合方法,由于同時具有訓練集的標簽靜態統計信息和基于知識圖譜統計的標簽信息,因此準確性相對更高。但是,只是通過知識圖譜來統計能夠刻畫標簽間關系的詞匯數量存在局限性,在有限的集合中無法涵蓋所有的標簽關系向量,因此是不全面的。另外,由于處理兩個標簽間關系的統計中,沒有區分“正相關”和“負相關”的細致分支,由此構建的相關性矩陣在刻畫潛在語義關系時存在缺陷,準確性有待改進。
由于網絡中的圖像格式多種多樣,像素分辨率千差萬別,因此單純的提取圖像特征存在巨大的困難。在圖像分類處理任務中,做到充分地提取輸入圖像、視頻的特征是十分必要的,其程度直接影響到模型的分類效果。在深度卷積神經網絡中,位于淺層的圖像特征存在分辨率夠高但抽象能力不強;而處于深層的圖像特征則是分辨率偏低但抽象能力強。為綜合兩種情況的利弊,采用多尺度網絡圖像分類的方法進行處理。多尺度網絡針對輸入圖像的層級,采用提升分辨率或降低分辨率的操作模式,提取圖像的特征,將其作為分類的依據。降低分辨率操作是通過一系列卷積操作和池化操作實現的,與輸入圖像特征相比較,輸出的圖像特征分辨率被降低,但具有了更高的抽象能力;提升分辨率操作是通過鄰近插值、雙線性插值、轉置卷積、上池化、亞像數卷積來實現的,與輸入圖像特征相比較,輸出的圖像特征分辨率更高。通過尺度的分辨率調整,目的是得到期望的圖像分辨率和足夠的抽象能力,實現圖像的分類。在此方法中多次提高和降低分辨率操作,可以提高模型的性能,達到更佳的圖像分類效果。
自主深度學習、多標簽圖像分類和多尺度圖像分類方法從不同的角度提出圖像分類問題的解決模型,由于其面向的主要問題和解決思路的不同,在各自領域具有獨到的優勢。
在SUN397數據集中得出結論,對GoogLeNet的最后幾個起始隊列進行一些微調,輸出最優結果。當存在多個任務,則可以共享2個CONV加5個起始隊列模塊的參數,提高模型的預測速度。得到SUN397 GoogLeNet模型的結果如表1所示。
從表1可知,當精度達到最高時,數據層+2卷積層+5的網絡模塊共享,節省了24.95 ms的預測時間,即節省了整個GoogLeNet預測時間的70.32%。如果再共享兩個Inception模塊,測試集中的最大準確率將降低0.38個百分點,并節省6.54 ms的預測時間,總共節省89.3%的預測時間。當所有共享GoogLeNet的卷積層都保留到最后一個完全連接層時,預測時間可節省98.9%,但準確率僅比最高層降低0.8個百分點。微調AlexNet的三個全連接層(FC)和三個卷積層(CONV)在FOOD101數據集上獲得了63.87%的最高精度。與另外的任務模型融合之后,卷積層參數進行了共享,預測時間節省37.22%。

表1 SUN397模型準確率與預測時間關系
通過共享部分網絡層,當精度達到最大值或較最大值略有下降時,模型的預測時間顯著縮短,模型的尺寸被壓縮。該方法不僅簡化了單獨調用多個模型的復雜性,而且節省了GPU資源,促進了該模型在需要多個任務實時檢測圖像時的實際應用。
圖像分類問題在深度學習后的分析表明,多任務學習可以讓每個子任務具備相關性有所增加,這可能會影響彼此的準確率,或者多個完全獨立的訓練子模型組合過于臃腫,影響預測速度。通過分析AlexNet和GoogLeNet的參數分布和各層的正向傳播時間,可以看出數據層附近的卷積層需要時間。實驗結果表明,參數共享的深度學習圖像分類方法不僅提高了預測速度,而且還能確保模型的準確性。
近年來,深度學習策略的發展在各個領域都有著長足的進步。特別是卷積神經網絡在計算機圖像分類問題上取得了異常顯著的成就。但卷積神經網絡模型對訓練數據和計算量的巨大需求限制了其在許多實際場景中的應用。針對產品體積清晰網絡參數在實際的應用中,特別是如果有圖像分類問題要求的工程項目中的痛點,提出了圖像分類參數共享問題的深度學習策略,當前研究結合深度學習處理的主動深度學習方法是圖像分類領域的一個熱點,具有深度學習的特點可以取得良好的分類效果。■