葉建丞
(福建農(nóng)林大學(xué) 機(jī)電工程學(xué)院 福建福州 350000)
隨著計(jì)算機(jī)技術(shù)高速發(fā)展,各種應(yīng)用計(jì)算機(jī)的智能化技術(shù)層次不窮。然而圖像識(shí)別技術(shù)是運(yùn)用最廣泛的技術(shù)之一[1]。由于圖像所能給出信息比文字多,所以對(duì)圖像識(shí)別技術(shù)進(jìn)行綜合概括和優(yōu)化是大勢(shì)所需。在此前提上就要必須對(duì)圖像識(shí)別技術(shù)定義、圖像處理、所用數(shù)據(jù)集等進(jìn)行了解,以及對(duì)其中應(yīng)用的識(shí)別技術(shù)如統(tǒng)計(jì)模式識(shí)別、神經(jīng)網(wǎng)絡(luò)模式識(shí)別、非線性降維等進(jìn)行掌握。圖像識(shí)別技術(shù)所能使用的領(lǐng)域十分廣泛如機(jī)器視覺(jué)、監(jiān)控系統(tǒng)、醫(yī)學(xué)領(lǐng)域等。并且隨著5G技術(shù)的盛行,可以進(jìn)行智能化、高速化技術(shù)的交叉[2],進(jìn)而優(yōu)化圖像識(shí)別技術(shù)。
圖像識(shí)別技術(shù)早在20世紀(jì)60年代開(kāi)始進(jìn)行研究[3],隨著計(jì)算機(jī)設(shè)備發(fā)展迅速,計(jì)算機(jī)處理信息能力變得越來(lái)越快。因此圖像識(shí)別技術(shù)取得了很大的突破性進(jìn)展。從最早的數(shù)字識(shí)別、文字識(shí)別發(fā)展到現(xiàn)如今的物體識(shí)別、精細(xì)識(shí)別、多維度識(shí)別等,識(shí)別技術(shù)從原來(lái)的模式識(shí)別與格式塔心理學(xué)家所提出的原型匹配識(shí)別[4]到現(xiàn)今統(tǒng)計(jì)模式識(shí)別、神經(jīng)網(wǎng)絡(luò)模式識(shí)別、非線性降維等高超識(shí)別方法。無(wú)一不體現(xiàn)智能化圖像識(shí)別進(jìn)步迅速。到目前為止,數(shù)據(jù)資源越來(lái)越豐富,各種算法層次不窮,例如SAR圖像目標(biāo)識(shí)別算法[5]、CNN和FCN[6]等算法,由此計(jì)算機(jī)圖像識(shí)別不管在識(shí)別方法上還是應(yīng)用領(lǐng)域上都呈現(xiàn)出新的變化趨勢(shì)。在數(shù)據(jù)信息采集上,由于大規(guī)模圖像數(shù)據(jù)集的發(fā)展如Flickr1024[7]、Places[8]、SUN[9],促進(jìn)了圖像更精確分類。
圖像識(shí)別是利用計(jì)算機(jī)對(duì)輸入進(jìn)來(lái)的圖像進(jìn)行預(yù)處理、細(xì)化分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)像的技術(shù),更好的使人獲取到有用信息。圖像識(shí)別時(shí)要經(jīng)過(guò)預(yù)處理、特征提取、匹配分類。其中預(yù)處理過(guò)程使用到了二值化的方法[10],把圖像進(jìn)行細(xì)化,提高清晰度。除了二值化外,還可以結(jié)合神經(jīng)網(wǎng)絡(luò)作為預(yù)處理技術(shù)[11],將特征從高維空間提取到低維的空間進(jìn)行了減維,達(dá)到更好識(shí)別的效果。特征提取是使用計(jì)算機(jī)提取圖像信息,決定每個(gè)圖像的點(diǎn)是否屬于一個(gè)圖像特征。特征提取是把圖像上的點(diǎn)分為不同的子集,這些子集往往屬于孤立的點(diǎn)、連續(xù)的曲線或者連續(xù)的區(qū)域[12]。特征的好壞對(duì)泛化性能有至關(guān)重要的影響。匹配分類則就是運(yùn)用了大規(guī)模的數(shù)據(jù)集進(jìn)行系統(tǒng)化歸類。在這3個(gè)方面中使用計(jì)算機(jī)圖像識(shí)別技術(shù)可以確保圖像質(zhì)量和實(shí)際結(jié)果,顯示圖像信息內(nèi)容,通過(guò)提取特征來(lái)集成圖像信息內(nèi)容并對(duì)其特征進(jìn)行分類。
數(shù)據(jù)集是由各種資料、數(shù)據(jù)結(jié)合在一起所形成的整體,其中的數(shù)據(jù)資料可以是圖像特征、屬性特征、統(tǒng)計(jì)數(shù)據(jù)等[13]。以下我們介紹下其中圖像識(shí)別技術(shù)利用廣泛的3種數(shù)據(jù)集。
Flickr1024數(shù)據(jù)集是一個(gè)大型的視覺(jué)數(shù)據(jù)庫(kù),通常被利用在圖像識(shí)別技術(shù)中。該數(shù)據(jù)庫(kù)包含了多達(dá)1024對(duì)的高質(zhì)量清晰圖,涵蓋了各種各樣的場(chǎng)景視角,其數(shù)據(jù)集可以幫助處理圖像識(shí)別中對(duì)各個(gè)特征的分類。
Places數(shù)據(jù)集包含了多達(dá)1000萬(wàn)場(chǎng)景的儲(chǔ)存庫(kù),該數(shù)據(jù)集是結(jié)合了場(chǎng)景語(yǔ)言分類的方法進(jìn)行標(biāo)記。其具有高覆蓋率和多樣本性的典型特點(diǎn)。智能化圖像識(shí)別技術(shù)提供了一個(gè)大的場(chǎng)景數(shù)據(jù)庫(kù),對(duì)未來(lái)的場(chǎng)景識(shí)別有促進(jìn)作用[14]。
SUN數(shù)據(jù)集是一個(gè)含括了899個(gè)類別和130519張圖像的數(shù)據(jù)庫(kù),由此通常使用員會(huì)用采集好了的類別結(jié)合特殊的算法來(lái)實(shí)現(xiàn)場(chǎng)景的識(shí)別和建立新的界限的作用。
隨著計(jì)算機(jī)的發(fā)展,各種智能化技術(shù)更新快速,智能化圖像識(shí)別技術(shù)也不例外。其中更新較為顯著的是圖像識(shí)別中的識(shí)別方法。以下三種是現(xiàn)階段使用最多也是最廣泛的高新技術(shù),本節(jié)將一一介紹。
統(tǒng)計(jì)模式識(shí)別方法就是用給定的有限數(shù)量樣本集,在已知研究對(duì)象統(tǒng)計(jì)模型或已知判別函數(shù)類條件下根據(jù)一定的準(zhǔn)則通過(guò)學(xué)習(xí)算法把d維特征空間劃分為c個(gè)區(qū)域,每一個(gè)區(qū)域與每一類別相對(duì)應(yīng)。假如分類的樣本條件密度可知,那么就可以根據(jù)貝葉斯決策理論來(lái)進(jìn)行對(duì)樣本歸類[16]。
非線性降維識(shí)別是線性降維識(shí)別技術(shù)一次優(yōu)化升級(jí),由于線性識(shí)別技術(shù)在過(guò)去的生活中被人們找出了一些缺點(diǎn)如:在復(fù)雜的圖像識(shí)別的時(shí)候計(jì)算量也隨之增多,導(dǎo)致識(shí)別時(shí)候花費(fèi)大量的時(shí)間和空間特性。所以線性降維識(shí)別無(wú)法在大范圍使用。而對(duì)于非線性降維識(shí)別技術(shù)來(lái)說(shuō),它能在不改變圖像屬性、特征的前提下把高維進(jìn)行降維。并且其識(shí)別的精度高識(shí)別的速度快。例如在一些運(yùn)用在圖像維度高識(shí)別的系統(tǒng),如人臉識(shí)別系統(tǒng)、指紋識(shí)別系統(tǒng)等,利用了非線性識(shí)別可以使系統(tǒng)的工作效率變快、成果變得更好[17]。
神經(jīng)網(wǎng)絡(luò)是借助了人類的神經(jīng)系統(tǒng),把計(jì)算機(jī)進(jìn)行改造模擬人神經(jīng)系統(tǒng)的一個(gè)技術(shù)。該識(shí)別技術(shù)具有很強(qiáng)的學(xué)習(xí)能力和識(shí)別能力,由此能完成圖像的分類和識(shí)別[18]。并且神經(jīng)網(wǎng)絡(luò)模式識(shí)別類型多,分為深度神經(jīng)網(wǎng)絡(luò)識(shí)別、卷積神經(jīng)網(wǎng)絡(luò)識(shí)別、BP神經(jīng)網(wǎng)絡(luò)識(shí)別等。
3.3.1 深度神經(jīng)網(wǎng)絡(luò)識(shí)別
深度神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一種智能特征提取模塊,在圖像識(shí)別中的特征提取時(shí)具有很大的靈活性。深度神經(jīng)網(wǎng)絡(luò)的典型特點(diǎn)是它具有多重隱藏層,可以捕獲數(shù)據(jù)復(fù)雜的線性表示。在深度神經(jīng)網(wǎng)絡(luò)中提出一種將高維圖像投影到低維的空間中,對(duì)智能化圖像識(shí)別技術(shù)來(lái)說(shuō)具有較大用處[19]。
3.3.2 卷積神經(jīng)網(wǎng)絡(luò)識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)識(shí)別是前饋神經(jīng)網(wǎng)絡(luò),由于它具有可以響應(yīng)覆蓋范圍內(nèi)的周圍單元的功能,且對(duì)圖像處理、識(shí)別有出眾的表現(xiàn)。該識(shí)別技術(shù)Hubel和Wiesel在研究貓腦皮層[20]中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks-簡(jiǎn)稱CNN)[21]。該技術(shù)避免了圖像識(shí)別中復(fù)雜的預(yù)處理,可以直接輸入圖像減少誤差。是目前圖像識(shí)別技術(shù)中使用最廣泛的技術(shù)之一。
3.3.3 BP神經(jīng)網(wǎng)絡(luò)識(shí)別
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)[22]。
對(duì)于BP神經(jīng)網(wǎng)絡(luò)識(shí)別來(lái)說(shuō),算法十分的重要,它是一種按誤差反向傳播的多層前饋網(wǎng)絡(luò)。它在人臉識(shí)別系統(tǒng)中廣泛運(yùn)用[23]。
計(jì)算機(jī)智能化圖像識(shí)別技術(shù)由上述的部分結(jié)合起來(lái),技術(shù)變得越來(lái)越成熟,所用的地方很多,例如上述講到的人臉識(shí)別其中運(yùn)用的核心技術(shù)就是圖像識(shí)別技術(shù)。當(dāng)然,在機(jī)器視覺(jué)領(lǐng)域中運(yùn)用該技術(shù)進(jìn)行3D圖像的識(shí)別,可以提高機(jī)器識(shí)別場(chǎng)景的能力,為智能機(jī)器人打下堅(jiān)實(shí)的基礎(chǔ)。還有在醫(yī)學(xué)領(lǐng)域,計(jì)算機(jī)圖像識(shí)別在進(jìn)行CT等類似檢查時(shí)都需要采用圖像識(shí)別。通過(guò)圖像識(shí)別醫(yī)生能更好的了解病人體內(nèi)的情況,使得更好的提出治療方案。還有農(nóng)業(yè)發(fā)展、安防系統(tǒng)、交通運(yùn)輸?shù)阮I(lǐng)域也能見(jiàn)到圖像識(shí)別技術(shù)的身影[24]。
5G時(shí)代已然到達(dá),5G下的人工智能技術(shù)將迎來(lái)進(jìn)一步的優(yōu)化[25],智能化圖像識(shí)別技術(shù)也不例外。由于計(jì)算機(jī)智能化圖像識(shí)別的過(guò)程中會(huì)受到數(shù)據(jù)信息輸出輸入速度慢的影響,以及在處理圖像特征信息時(shí)會(huì)遇到信息量大導(dǎo)致時(shí)長(zhǎng)變長(zhǎng)等不足之處。因此,提出把5G技術(shù)與計(jì)算機(jī)、數(shù)據(jù)集相結(jié)合。能提高算法的計(jì)算速率,達(dá)到優(yōu)化計(jì)算機(jī)識(shí)別技術(shù)的目的,
智能化圖像識(shí)別技術(shù)是現(xiàn)今運(yùn)用廣技術(shù)先進(jìn)的技術(shù)之一,它已經(jīng)融入到我們的生活當(dāng)中。但是時(shí)代不斷革新,技術(shù)不斷更新,為了保證該技術(shù)能走在前沿端,就應(yīng)該與時(shí)俱進(jìn)更上新時(shí)代新技術(shù)的步伐,推進(jìn)智能技術(shù)的優(yōu)化升級(jí)。這對(duì)我們國(guó)家、生活的發(fā)展將會(huì)起到促進(jìn)的作用。
科技創(chuàng)新導(dǎo)報(bào)2020年32期