武煜博
摘 要 圖像識別技術(shù)是人工智能研究的一個重要分支,也是人們?nèi)粘I钪惺褂米顝V泛的人工智能技術(shù)之一。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像識別準(zhǔn)確率顯著提高。本論文研究了圖像識別的傳統(tǒng)技術(shù)和深度學(xué)習(xí)技術(shù),分析了深度學(xué)習(xí)技術(shù)的幾點不足,并給出未來可行的解決方案。
【關(guān)鍵詞】人工智能 圖像識別 深度學(xué)習(xí)
1 概述
圖像識別技術(shù)是人工智能研究的一個重要分支,其是以圖像為基礎(chǔ),利用計算機對圖像進行處理、分析和理解,以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識別,指紋識別等;在軍事領(lǐng)域,有地形勘察,飛行物識別等;在交通領(lǐng)域,有交通標(biāo)志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機器人、無人駕駛等技術(shù)的重要基礎(chǔ)。
傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計等步驟構(gòu)成。通過專家設(shè)計、提取出圖像特征,對圖像進行識別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(特征),自動完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識別技術(shù)
傳統(tǒng)的圖像識別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對圖像進行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細(xì)化處理(如指紋細(xì)化,字符細(xì)化等),以便獲取主要信息,減少無關(guān)信息。細(xì)化操作,可以得到由單像素點組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學(xué)習(xí)的圖像識別技術(shù)
一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機制來分析樣本,并盡可能地對樣本的特征進行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對樣本的特征進行學(xué)習(xí)時,由低層特征到高層特征越來越抽象,越來越能表達語義概念。當(dāng)樣本輸入后,首先對圖像進行卷積與下采樣操作,卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標(biāo)是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢:
(1)無需人工設(shè)計特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。
(2)識別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計算機將大量代替人力進行與圖像識別技術(shù)有關(guān)的活動。
(3)使用簡單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學(xué)習(xí)具備諸多優(yōu)點,但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進行調(diào)整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學(xué)習(xí),往往需要數(shù)百個甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價太大時,深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個月。其模型擴展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。
對其的解決方案目前主要有兩點:
(1)針對于模型擴展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識遷移,提高模型的擴展能力、學(xué)習(xí)速度,同時降低學(xué)習(xí)成本,便于冷啟動。
(2)與強化學(xué)習(xí)結(jié)合,研究在動態(tài)環(huán)境下進行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。
參考文獻
[1]蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學(xué),2016.
[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進展[J].軟件學(xué)報,2015:26-39.
[6]高陽,陳世福,陸鑫.強化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004:86-100.
作者單位
山西省榆次第一中學(xué)校 山西省晉中市 030600