弓佳明
(廣州華商學院數據科學學院,廣州 511300)
圖像模糊識別理論問題研究中涉及的圖像模式識別數學基礎本質也就是從屬于在一個統計模式空間中到每一個模糊類別空間之間的模糊映射的關系問題。目前,在計算機圖像模糊識別理論技術的逐步深入及發展研究領域中,主要的研究領域有以下三種計算機圖像空間識別數學建模與方法:統計模式空間的識別、結構模式空間的識別、模糊模式空間識別[1]。從20世紀中期至70年代,相關領域經歷了漫長的發展歷程,并受到國際學術界的廣泛關注及重視,到21世紀,人們仍可以借助對圖像算法的理論跟研究不斷創新新的領域與研究,以此來推動社會的進步與發展,其中最值得關注的就是圖像識別領域,有關這一領域的實驗技術的相關實驗理論研究工作至今仍在穩步進行[2]。
近年來,隨著我國計算機科學技術水平進一步快速進步和全面發展,圖像視覺生物識別及檢測系統技術和科學計算技術的綜合應用逐漸發展起來,并在實踐中取得令人矚目的、十分突出可喜的創新科技成果,成為目前國內又一個綜合性重點學科,并逐漸被廣泛應用于國內其他眾多應用技術領域[3-7]。
1.1.1 圖像增強
圖像的增強方法[8]是指計算機通過采取某種圖像計算處理方式,通過數學公式將圖片分解成像素點,然后將需要處理的重點區域提取或者強化重點區域的邊界,以此來將圖片中重要信息內容突出,并且將圖像中不重要的或者不需要處理的信息部分進行減少像素點,即弱化圖像重點區域中的邊緣信息,來達到圖像信息增強的目的,這樣做能夠為后續圖像處理增強識別度,并且減少其他信息對圖像識別的影響。
假設原始像素圖f(x,y)的像素灰度級范圍均為[0,L-1],其原始像素灰度值可以用整數r來表示,假設整數r能夠被歸一化映射到像素區間[0,1]中。做到如下變換:s=T(r),其滿足以下幾個條件:
(a)Tr在區間0≤r≤1中,為最小單值且單調地遞減;
(b)當0≤r≤1時,0≤T(r)≤1。
條件(a)中所要求函數的Tr值必須為單值的設置目的主要是為了能夠自動保證在對其做變換計算的兩個函數值之間存在著逆反式變換;單調值函數的設置目的之二則是為了保證其輸出的灰度圖像中的灰度值可以自動實現從灰度由偏黑開始逐漸過渡到偏全白,并逐步按順序逐漸地自動增加。條件(b)保證了輸出信號的灰度級之間與實際信號輸入中的信號灰度級之間都可以一直大致地保持在一個相同的大小范圍。由s到r之間的逆反變換可以分別來表示條件為r=T-1s,其中0≤s≤1。
因此,對于某一幅灰度圖像來說,它對應的高灰度級次函數可以很嚴格地被看作是表示一個灰度區間值為[0,1]的一個隨機變量。設函數Pr(r)為概率密度函數,Ps(s)為表示灰度值為s的概率密度函數。設Pr(r)和Tr都是已知,且它們都能滿足(a)條件時,則可得
均衡化的變換函數可表示為
上式最右半部分是表示變量r值的單調累積分布函數,表示該分布函數為單調遞增,滿足條件(a)。類似地,區間[0,1]域上變量的概率密度函數的積分因子也包括在區間[0,1]域變量中,因此它也同時滿足條件(b)。離散化形式為
其中,0≤rk≤1,k=0,1,2,…,L-1。
1.1.2 圖像復原
由于圖像退化過程會造成不可逆轉的像素丟幀,導致圖像質量會有一定的下降,并且存儲轉存的過程也會對圖片像素等造成影響,還有其他射線輻射、噪聲干擾、非線性畸變、帶寬限制等會造成圖像的幾何失真。可以用圖1來表示圖像的退化模型。

圖1 圖像的退化與復原過程
一般可以采用退化跟復原方法來實現計算機對退化圖像信號的復原,利用對此類過程結果進行建模,尋找能去除影響或可削弱減少其影響效果的估計方法。另一種類型是指基于檢測圖像的估計方法,即如原始和未檢退化的圖像過程已知,我們同樣可以選擇通過對其原始退化圖像結果進行建模,根據所建模型可以對原始退化后的圖像結果進行復原。
1.1.3 形態學處理
最普遍的數學形態學中的處理與運算基本方法主要有以下7種,分別表示為腐蝕、膨脹、開運演算、閉式運算、擊中、細化和粗化。這里重點講一下腐蝕跟膨脹:提取的目標區域由0或1組成的二值區域圖像,得到的圖像邊緣可能不是很理想,因此需要進行進一步的處理以此來消除邊緣噪聲點,類似于電路系統中的濾波操作。腐蝕“收縮”是將邊緣像素點二值與鄰近區域進行對比,消除鄰近區域近似度低的樣本像素點,以此來使邊緣更加“圓滑”的操作,即減少像素邊緣區域像素點,來消除噪聲點的目的。膨脹“擴大”,通過自定義一個元素結構,在待處理的二值圖像上進行“滑動”操作,將二值點與“滑動”到的區域進行近似度對比,通過二值運算增多此時像素點,達到“膨脹”效果,即增加選中區域的像素點來放大特征區域樣本。
假設f(x,y)為輸入圖像,g(i,j)為結構元素,用?表示膨脹運算,?表示腐蝕運算,這四種運算的表達式如下:
膨脹運算:
腐蝕運算:
開運算:
閉運算:
圖像信息的特征識別一般是建立以識別圖像系統中的物體本身的主要特征為基礎條件的,在圖像特征信息提取分析環節中最常被采用的主要識別特征通常是其顏色、形狀輪廓。下面分別對這兩種特征進行介紹。
1.2.1 顏色特征提取
在圖像系統的各種視覺特征屬性中,顏色特征屬于最重要,但也是系統最基本、穩定可靠的重要特征屬性之一,通常情況下將圖像的顏色信息劃分為三原色,通過對三原色所占比例、顏色種類、顏色配比、圖像的高度、寬度等信息來標定一個圖像的顏色信息;其次,要學會選擇更合適的圖像量化方法,即將圖像以像素點的方式決定圖像的顏色總數,將圖像的顏色信息以數學公式將像素點轉化為具體數值的方式實現對圖像特征的準確量化判斷;最后,定義另一個顏色相似性準則,以精確測量兩個圖像對象之間相同顏色級別的特征的相似性或差異性。
1.2.2 形狀特征提取
形狀特征通常被認為是一個只要有下列至少兩種特征就可直接進行圖形的形狀表示的方法:輪廓跟區域特征。由于我們主要處理的圖像大多是靜態的照片,即目標圖像幾乎不會有變形存在,因此形狀特征提取既能對目標中重點區域進行檢索跟識別,又能減少識別時間,提高算法效率。現重點介紹基于輪廓特征方法中的Hough變換直線檢測法。
Hough變換[9]的一項基本理論思想是空間圖中的各點一線都存在著對偶性,即空間圖像中共線上的各個點都在一個坐標系之內,空間中會組合成相交的線。假設存在一根直線方程l,原點到該直線方程的最小垂直線距離為r,垂線點與坐標系x軸方向的最大夾角為θ,則該直線方程可簡單表示為
直線l點在直角坐標軸下顯示出來的任意一個為極點。這種由時間線到點間距離的變換過程實際上本身就是Hough變換。
圖像匹配算法主要解決多幅圖像之間識別相同類型信息的相關系數,取相關系數較高的對應的圖像位置,目前圖像匹配方法主要是兩大類:一類是基于圖像灰度值的圖像匹配技術,即將圖像信息劃分為0跟1兩個不同的向量矩陣,通過矩陣的匹配來達到相似度較高的區域,一次完成信息的匹配;另一類是基于圖像特征的匹配方法,即將識別圖像的點、線、面、輪廓或者外觀形狀等鑒別度較高的位置區域當作特征點,轉化為數學向量,通過向量的計算來得到相似度較高的區域,以此來完成圖像的匹配。現主要介紹一種基于特征進行的匹配中使用 的SIFT(scale-invariant feature transform)算法[10]。
正常情況下,目標檢測算法對圖片的大小、方向、角度,以及旋轉非常敏感,而SIFT算法則是選擇圖像局部,因此在圖像進行旋轉、大小縮變的時候由于其通過計算高斯差分,以及后續的特征提取等信息表現優異,所以利用SIFT特征提取進行圖像識別在處理具有噪聲點的圖像時具有很好地魯棒性。SIFT算法具體流程如圖2所示。

圖2 SIFT算法流程圖
傳統計算機所用的SIFT算法目的主要在于實現模板圖像特征與計算機實際采集及檢測到的目標的模板圖像特征信息間快速進行的精確匹配,采用的方式一般是漸進歐式距離判斷法。如果該漸進最近距離的差值和除以該點次的漸近距離值均小于匹配算法中所能事先精確設定得出的距離匹配點閾值,則可以將該點確定為距離匹配點,閾值的范圍控制在區間[0.6,0.75]內。
為了進一步精確地優化和匹配計算的預期效果,采用匹配算法(random sample consensus,RANSAC)。此算法是一種通過反復循環、不斷迭代而尋找最優模型的參數估計方法,它通過反復地隨機選取樣本點的方式湊成當前樣本子集并迭代優化數字模型,使其跟整體樣本更具有相關性。
卷積神經網絡系統(convolutional neural networks,CNN)[11]是指一類可包含卷積神經計算符且具有深度學習結構特點的前饋式神經網絡技術(feedforward neural networks)[12]系統。卷積神經網絡通過模型迭代,規則的優化,模型規則的權重的矯正等途徑將模型不斷地進行更新,使得訓練的模型具有更強的魯棒性,能更高效率地完成要執行的任務。其中,神經網絡的數量在某一范圍內與模型效果成正比,即某一范圍內神經網絡數量越多,效果就越明顯。神經網絡用于圖像處理時首先會將圖像進行特征提取,特征提取由卷積層完成,經過池化層將重復識別的特征剔除,最后通過全連接層特征計算將圖像信息轉化為矩陣或者向量,一次得到圖像數字化特征提取跟圖像計算的目標結果,以便后續模型進行迭代計算跟權重優化。
卷積層理論中最主要的另外兩個基本特征之一就是局部的連接和權值的共享。由于在局部全區域網絡連接的計算工作中實際參數過多將會直接造成無法正確計算實際參數的情況,可通過自動實現參數大小的共享操作來達到逐步地縮減計算使用實際參數時的數量,為今后進一步實現多層網絡互連計算提供可能。
卷積神經網絡輸出的表示方法如圖3所示。卷積神經網絡系統產生出來的輸入圖像信號一般是彩色的,也有全彩色灰度兩種主要輸入信息形式,可輸出信號分別為純黑白、彩色圖像的輸出信息和半純黑色灰度圖像。彩色圖像矩陣是指顯示介質在基于RGB灰度三種基本圖像色彩模式條件下自動生成彩色的某一種基本圖像。

圖3 卷積神經網絡圖
卷積層表示圖如圖4所示。由堆疊卷積核計算的交叉相關計算結果可知,隨著堆疊卷積核層次圖的連續堆疊,特征圖表面上的尺寸收縮效應也會隨之逐步地被放大減小,為此,填充技術作為一個可以在特征圖尚未真正通過連續堆疊卷積核計算就通過人為的方法增大、減小其表面尺寸的收縮效應,來抵消連續堆疊對計算過程中產生的表面尺寸的收縮效應的影響及其作用效果的一種設計方法。常采用的兩種進行填充算法的基本方法分別為按0進行的填充計算法和按重復計算填充邊界值的填充算法(replication padding)等。

圖4 卷積層部分圖
卷積層輸入公式為矩陣x∈RW*H*C,這個輸出公式也同樣可以來表示矩陣特征圖,輸出矩陣為y∈Rw0*H0*C0。卷積層計算方法如下:F1=
池化圖層的具體實際作用范圍包括降低特征圖層中的圖像平均分辨率,對于圖像的平移過程會在一定程度上降低其魯棒性,矩陣池化效果如圖5所示。

圖5 池化效果圖
ReLU層及相關層的一種變體,該層輸出中包含的每個輸入信號元素都是每一個輸入信號元素的x。它是網絡另一個非線性的輸入操作,ReLU層的存在使得網絡的表達方式變得更加復雜,ReLU函數為
批歸一化圖層中的原始輸入信號依然可以視為一個三維的輸出信號,輸出信號中的y值必須至少與其原始的輸入信號值之間具有兩個幾乎相同的值。批歸一化算法的基本設計方法之一是要通過對原始輸入信號值上的每一個數據元素都能按照基本方式來進行批歸一化,從而才能使得其原始的輸出信號值的算術均值也可以被盡量地穩定保持為至少一個0,以及其算術方差至少也被盡量地固定保持為最少一個1。通過使用這種方式,每一層輸出信號的原始數據的分布范圍都將比較一致。該處理方法也將能夠更大幅度地提升數據優化算法執行的速度。
從網絡訓練理論研究的一個數學角度,末端函數的主要數學功能其實是損失函數。通過隨機梯度下降回歸的一種方式,使得損失函數得到一種逐漸平滑的隨機梯度的降低。目前使用比較廣泛的一種方式應該是Softmax回歸。
Softmax回歸,其中:輸入x∈eL表示圖像在不同類別中的損失概率,用k來表示輸入圖像的標簽,將輸入歸一化到[0,1]之間,Softmax函數可表示如下:
通過交叉熵y=-log(f(xk))來重新定義損失值。圖6是一個線性Softmax函數的坐標軸圖像,從實際數學應用和結果來看,其兩側區產生輸出信號的輸入增益變化甚小,在輸出信號輸入的特征空間中的映射應用理論上,有希望取得很好的數學應用效果。

圖6 Softmax函數圖
在一些實際案例的高清圖像實時采集傳輸過程中,由于網絡攝像機天線等一些電子設備本身的技術缺陷,或者由于外界環境以及各種環境不良干擾因素產生的影響,經常會導致實時采集檢測到的視頻圖像可能存在圖像噪聲、色彩偏差、對比度變低以及畫面失焦或者模糊等諸多問題。
在要識別的圖像中,機器首先將圖像識別為像素點,像素點之間的關聯性與相似度成為圖像識別的原理與基礎,在一個圖像中相鄰像素點之間具有強關聯性與強相似度,神經網絡通過識別像素點之間的相關聯性來完成圖像的識別與對比。在識別過程中我們先進行圖像與處理,即提取了圖像的特征信息,將這些特征信息交給神經網絡來進行識別,神經網絡通過對特征識別區域的每個像素點分配神經元,并進行鄰近神經元之間的相關性與速度計算得到向量矩陣,這個向量矩陣就是圖像的特征信息包,通過進行特征信息包的對比與鑒定,來完成對不同圖像間對象的識別。算法流程如算法1所示:

由于圖像中對象目標眾多,內容類型繁多,傳統的圖像模板匹配算法不能很好處理圖像中存在多個對象點的圖像識別,在平衡機器學習的高算力需求基礎上,研究得出一套兼顧性能與準確度的圖像識別算法。本文通過研究圖像預處理技術和卷積神經網絡技術,采用圖像識別技術實現對圖像中重點對象的狀態研判。