劉士豪 姜博厚
摘要:新時期下,計算機網絡時代的到來,讓深度學習網絡結構成為社會討論的重點,并且在圖像處理領域中發揮除了極大優勢。為了能夠進一步發揮深度學習在圖像處理領域中的效用。該文首先提出圖像處理和深度學習的含義,進而探究深度學習在圖像處理領域中的應用。
關鍵詞:深度學習;圖像處理;應用;含義
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2020)06-0189-02
在信息時代下,數字圖像成為最為常見的信息載體,可以說社會生產、人類生活中都已經充滿了數字圖像信息。信息技術的發展衍生出了大數據,讓數字圖像的產生速度、規模成幾何形式增長,傳統技術已經無法滿足圖像信息處理任務要求,社會更加迫切需要高效率、智能化的處理方案。對于圖像處理來說,特征表達是重中之重,傳統特征設計主要是人工完成,但由于過程十分復雜,對操作者自身要求非常高,所以自動化的高效圖像處理是必然發展趨勢。深度學習作為新時期的新概念,更多是在數據當中自動提取多層次特征信息,采用了數據驅動方法,通過相關的非線性轉換,在原始數據中提取多層特性,讓數字圖像更具表達力、泛化力,從而滿足圖像處理高效陛的發展要求。
1圖像處理技術
圖像處理是將圖像信息轉化為數字信息,從而更好地被計算機識別、處理的一項現代化技術。圖像處理大致上可以劃分為圖像分類、壓縮、增強、編碼、特征提取等一系列過程,為了保證圖像足夠清晰以及有效識別信息,圖像處理要有多方面技術支撐提高圖像分辨率與質量。
人工智能技術的發展也促進了圖像處理技術發展,這樣讓圖像處理技術在模式識別、機器視覺、多媒體技術等領域被廣泛應用。智能技術的到來,讓圖像處理技術廣泛融人人們的工作與之中,如二維碼支付、車輛檢測、指紋識別等,不僅方便了人們生活,也讓人們對圖像處理質量提出了更高要求。
2深度學習
深度學習是一種模仿人腦思考能力分析并解決問題的神經網絡系統,通過深度學習對文字、圖像、文本等信息進行提取和識別的一項技術。
2.1發展背景
在20世紀50年代,國外就提出了神經網絡的概念,但由于當時缺乏網絡訓練算法理論、訓練樣本不足、計算機能力較差等影響,阻礙了神經網絡進一步發展。新時期下,大數據、云計算等技術等到來,計算機性能得到了大幅度提升,延緩了訓練低效性,大幅度增加訓練數據可以有效降低擬合風險,根據無監督逐層訓練策略和BP算法,讓深層神經網絡訓練成為可能,這也讓人們開始重點關注深度學習。
本質上深度學習模型就是深層的神經網絡。整個系統為多隱層堆疊,每層都要處理上一層的輸出信息,將初始輸入、輸出關系不大的數據,轉變為更加緊密的數據關系,這樣最后一層輸出映射難以完成的任務成為可能,我們也可以將這種學習模式稱之為“特征學習”。
2.2卷積神經網絡架構
圖像識別作為深度學習最早嘗試的方式,其中最為重要的就是卷積神經網絡。卷積神經網絡可以分為三個層級堆疊,包括卷積層、池化層、全連接層,不同層次有著不同的特性和作用。(1)卷積層。主要負責提取數據特征,通過輸入特征圖x以及K個二維濾波器,通過卷積運算輸出K個二維特征圖。卷積運算具有很大的優勢,首先可以提取相鄰像素間的局部關系,其次是可以對圖像進行平移、旋轉、尺度等變換具備一定魯棒性。(2)池化層。負責對卷積層輸出結果進行處理,壓縮所輸出的特征圖,這樣可以降低特征圖體積,減少網絡計算復雜性,同時能夠讓特征圖更加精簡,有助于提取主要特征,降低特征表達維度,還能夠對針對較小平移、變形具有魯棒性。(3)全連接層。負責將所有特征連接起來,并將最終的連接結果(輸出值1傳輸給分類器。
2.3神經網絡的優化
在科學技術不斷發展中,神經網絡模型層數也越來越深,增加了訓練數據集,模型內部結構也變得十分復雜。網絡訓練當中通常都會涉及擬合、梯度消失、梯度爆炸等問題,因此相關學者也針對性提出了幾種神經網絡的優化方法。首先,dropout優化技術。該項技術能夠在深度學習網絡訓練當中,對神經網絡單元按照相關概率將其從網絡中暫時丟棄。這種丟棄是暫時性的,因此在使用隨機梯度下降方法訓練網絡中,不同批量數據都在訓練不同網絡。該項技術在很大程度上打破了節點之間的關聯性,提高了網絡學習的泛化性,避免出現過度擬合等問題。其次,批量標準化(BN算法)。GooSe在2015年提出了BN算法理論,可以對深層次神經網絡訓練。BN算法能夠規范所有層或某些層的輸入,固定每一層輸入信號均值和方差,這樣即可避免出現梯度消失或梯度爆炸等問題。
3深度學習在圖像領域中的應用
3.1圖像識別
圖像識別領域最早應用了深度學習技術,并且取得了非常高的成就,如早期都是AlexNet網絡,就是在圖像識別領域中的深層卷積神經網絡,后續所發展的深度學習也都是以MexNet為基礎。AlexNet實現了CNN結構的升級,網絡變得更寬、更深,整個MexNet網絡包括5個卷積層和3個全連接層。時至今日,在圖像識別領域MexNet依然占據著統治地位,也決定了圖像處理中深度學習的主題架構,即所前饋卷積神經網絡,特征提取器為卷積層、池化層相互堆疊而成,并和多層全連接層相互連接,分類器信息流方向固定而單一。其主要應用表現在:
3.1.1網絡結構局部修改
AlexNet發展下也衍生出了VGGNet網絡。相比最初的MexNet網絡,VGGN~網絡采用了多個小型卷積核串聯得加替換一個大型卷積核的方式。這樣不僅不會影響卷積效果,還增加了很多非線性操作,在網絡中提取更多、更豐富特征,減少了其中的參數量。VGGNet網絡也證明了網絡層次越深、特征越豐富,所得到的圖像識別效果越好。
NIN網絡再次對卷積核做出了調整,將單一線性卷積核轉化為多層感知機MLP。CNN高層特征主要是由低層特征多種運算組合得到的結果,非線性運算組合可以讓高層特征更具泛化性。MPL卷積核讓NIN中一次卷積操作相當于之前多個卷積核操作的結果,所以在NIN網絡中可以用較少層數實現更深的網絡圖像識別效果。
這些創新和發展措施,可以有效地提高特征表達能力,提升了網絡深度或卷積層操作復雜化,但都是局部的改變,前饋卷積神經網絡的主體架構依然沒變,依然是單一的特征圖流向方式,一層連著一層,從而導致深層處理無法獲取淺層特征圖、淺層處理無法獲取深層傳來的梯度,網絡模型訓練難度大。
3.1.2網絡結構主體變化
為了解決局部變化帶來的負面影響,部分學者通過借鑒highway networks閥門控制信息流理論,提出了ResNet網絡模型,改模型徹底改變了特征信息流向,如第Y層輸出不再單一影響Y+I層,同時還會影響Y+2層,所以由兩層組成一個殘差學習塊,改變了學習目標。ResNet網絡中由多個殘差塊堆疊組成,中間夾雜著池化層,訓練中只需學習輸入、輸出差別,可以保障信息整體完整性,降低了學習難度、簡化了學習目標。
基于ResNet網絡還衍生出了DenseNet網絡,也是采用了類似殘差塊的方法,并且構建了稠密塊。DenseNet網絡中,每層的輸出都之后層級的輸入,數據聚合應用了拼接方法,并非是ResNet的相加方法,可以保障每組輸入特征圖維度保持一致性,這樣更有助于網絡信息交流。DenseNet網絡的出現,緩解了梯度消失情況,強化了特征傳播,簡化了參數量。
這兩種圖像識別深度學習模型直接改變了特征信息流傳輸方向,可以實現跨層傳輸,并非是單一的前饋卷積神經網絡,大大提升了圖像識別的精度,符合當代人的思維模式,可以更好地識別物體。
3.2圖像取證
3.2.1簡單遷移
圖像取證中應用深度學習的研究相對較少,部分學者嘗試將深度學習融人相機源取證問題中,但是在獲取圖像中不同相機拍攝會遺留指紋特征,因此采用了AlexNet網絡結構進行了學習,來提取了指紋特性,可以實現94%以上的相機模式分類精度。
3.2.2網絡輸入
圖像取證和識別之間的差異主要是在區分圖像內容的差異性,并且這個差異可以直接用人眼看到,取證主要是用于區分圖像中微弱信號的操作指紋,形態差異非常小,無法用人眼直接看到。因此普通的深度學習模型難以勝任圖像取證。部分學者通過對深度學習模型進行完善,以AlexNet網絡為基礎增設了預處理層,將取證指紋特征放大。通過改進實驗結果精度提升了7%。圖像取證難,必須改變網絡輸人,通過放大指紋特征,才能夠更好地發揮特征提取、分類器的價值。
3.2.3適應取證結構
圖像預處理作為取證的必要條件,額外增加預處理層也會讓整個模型變得臃腫,因此部分學者采用了一種隱寫分析取證的深度學習模型,在網絡結構中整合了預處理。通過將30個空間模型濾波器初始化第一層卷積核,這樣卷積核就具備了預處理功能。雖然取證和識別是兩個方面,但學習模型簡化也是必然發展趨勢。圖像取證上深度學習還處于初期發展階段,未來會有更多的適用于圖像取證的深度學習模型。
4結束語
綜上所述,圖像領域中的深度學習主要是以卷積神經網絡為主,但在整個網絡模型中需要有龐大的計算量,增加了網絡訓練時間,所以卷積運算形式簡化會是一大發展趨勢。再者,當今圖像領域主要是研究灰度圖像,彩色圖像涉及較少,而將四元數與深度學習知識融合勢必會提取更加豐富的彩色圖像,進一步實現圖像處理領域的一次突破。