圖像識別技術(shù)發(fā)展與應(yīng)用

2017-03-27 21:24:08武煜博

電子技術(shù)與軟件工程 2017年4期

武煜博

摘要圖像識別技術(shù)是人工智能研究的一個重要分支，也是人們?nèi)粘Ｉ钪惺褂米顝V泛的人工智能技術(shù)之一。近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，圖像識別準(zhǔn)確率顯著提高。本論文研究了圖像識別的傳統(tǒng)技術(shù)和深度學(xué)習(xí)技術(shù)，分析了深度學(xué)習(xí)技術(shù)的幾點不足，并給出未來可行的解決方案。

【關(guān)鍵詞】人工智能圖像識別深度學(xué)習(xí)

1 概述

圖像識別技術(shù)是人工智能研究的一個重要分支，其是以圖像為基礎(chǔ)，利用計算機對圖像進行處理、分析和理解，以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應(yīng)用十分廣泛，在安全領(lǐng)域，有人臉識別，指紋識別等；在軍事領(lǐng)域，有地形勘察，飛行物識別等；在交通領(lǐng)域，有交通標(biāo)志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機器人、無人駕駛等技術(shù)的重要基礎(chǔ)。

傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計等步驟構(gòu)成。通過專家設(shè)計、提取出圖像特征，對圖像進行識別、分類。近年來深度學(xué)習(xí)的發(fā)展，大大提高了圖像識別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識（特征），自動完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù)，只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。

2 傳統(tǒng)圖像識別技術(shù)

傳統(tǒng)的圖像識別技術(shù)包括：圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后，需要先對圖像進行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像，如果每個像素的像素值用一個字節(jié)表示，灰度值級數(shù)就等于256級，每個像素可以是0～255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適，才能使圖片更加清晰、便于觀察。

許多采集到的圖片帶有或多或少的噪聲，需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法，如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器，高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候，我們需要對圖像細(xì)化處理（如指紋細(xì)化，字符細(xì)化等），以便獲取主要信息，減少無關(guān)信息。細(xì)化操作，可以得到由單像素點組成的圖像輪廓，便于后續(xù)特征提取操作。

基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換，將圖像基于頻率分為不同的部分，從而可以在頻譜中反映出原始圖像的灰度級變化，便可得到圖像的輪廓、邊緣。

在完成圖像的預(yù)處理和特征提取之后，我們便能夠?qū)D像進行識別、分類。常用的分類器有K-近鄰（KNN），支持向量機（SVM），人工神經(jīng)網(wǎng)絡(luò)（ANN）等等。K-近鄰算法原理是，當(dāng)一個樣本的k個最相鄰的樣本中大部分屬于某一類別時，該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機是通過尋找支持向量，在特征空間確定最優(yōu)分類超平面，將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過誤差反向傳播不斷優(yōu)化參數(shù)，從而得到較好的分類效果。

3 基于深度學(xué)習(xí)的圖像識別技術(shù)

一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的，其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機制來分析樣本，并盡可能地對樣本的特征進行更深度的學(xué)習(xí)。以圖片為例，利用深度學(xué)習(xí)技術(shù)對樣本的特征進行學(xué)習(xí)時，由低層特征到高層特征越來越抽象，越來越能表達語義概念。當(dāng)樣本輸入后，首先對圖像進行卷積與下采樣操作，卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入，深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)得到較好的特征提取器（卷積參數(shù)）。深度學(xué)習(xí)的訓(xùn)練過程，首先將當(dāng)前層的輸出作為下一層的輸入，進行逐層分析，使得每一層的輸入與輸出差別盡可能小。其后，再聯(lián)合優(yōu)化，即同時優(yōu)化所有層，目標(biāo)是分類誤差最小化。

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點數(shù)太過龐大，難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò)，以權(quán)值共享的方式減少了節(jié)點數(shù)量，從而能夠加深學(xué)習(xí)的深度，使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征，從而提高識別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。

與傳統(tǒng)識別技術(shù)相比，深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢：

（1）無需人工設(shè)計特征，系統(tǒng)可以自行學(xué)習(xí)歸納出特征。

（2）識別準(zhǔn)確度高，深度學(xué)習(xí)在圖像識別方面的錯誤率已經(jīng)低于人類平均水平，在可預(yù)見的將來，計算機將大量代替人力進行與圖像識別技術(shù)有關(guān)的活動。

（3）使用簡單，易于工業(yè)化，深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識，能夠快速實現(xiàn)并商業(yè)化，國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。

4 存在問題與未來展望

雖然深度學(xué)習(xí)具備諸多優(yōu)點，但目前來看深度學(xué)習(xí)仍有許多不足之處。首先，由于深度學(xué)習(xí)模型為非凸函數(shù)，對其的理論研究十分困難，缺乏理論保證。在對數(shù)據(jù)進行調(diào)整時，仍是簡單的“試錯”，缺少理論支撐。

同時，由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學(xué)習(xí)，往往需要數(shù)百個甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價太大時，深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU，這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢，往往需要幾天甚至一個月。其模型擴展性差，缺少“舉一反三”的能力，樣本稍加變化，系統(tǒng)性能便會迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程，與環(huán)境缺乏交互。

對其的解決方案目前主要有兩點：

（1）針對于模型擴展性差的問題，通過引入遷移學(xué)習(xí)，研究不同任務(wù)或數(shù)據(jù)之間的知識遷移，提高模型的擴展能力、學(xué)習(xí)速度，同時降低學(xué)習(xí)成本，便于冷啟動。

（2）與強化學(xué)習(xí)結(jié)合，研究在動態(tài)環(huán)境下進行深度學(xué)習(xí)，提高深度學(xué)習(xí)與環(huán)境交互的能力。

參考文獻

[1]蔣樹強，閔巍慶，王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機研究與發(fā)展，2016：113-122.

[2]張翠平，蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報，2000：885-894.

[3]梅園，趙波，朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學(xué)，2016.

[4]孫志軍，薛磊，許陽明，王正.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究，2012：2806-2810.

[5]莊福振，羅平，何清，史忠植.遷移學(xué)習(xí)研究進展[J].軟件學(xué)報，2015：26-39.

[6]高陽，陳世福，陸鑫.強化學(xué)習(xí)研究綜述[J].自動化學(xué)報，2004：86-100.

作者單位

山西省榆次第一中學(xué)校山西省晉中市 030600