唐曉
(鄭州工業應用技術學院信息工程學院,河南鄭州,451150)
人眼能夠通過以往經驗,對二維圖像進行快速感應從而實現從二維圖像到三維圖像的轉換。多媒體傳播時代的到來,出現了一種結合上述人眼識別的方式,出現了一種人工智能圖像識別技術,并在人們的日常生活當中得到了廣泛的應用,例如在衛星定位、生物醫學等領域當中,均應用了人工智能識別技術[1]。但當前,隨著人們對圖像識別要求的不斷提高,在沿用傳統的圖像識別方法時,容易出現識別精度不符合要求、識別時間過長、識別結果與實際相差較大等問題[2]。因此,當前該領域研究人員逐漸將研究重點轉向對有效識別方法的研究當中。對此,本文通過開展基于人工智能的三維多媒體視覺圖像識別研究,為研究人員提供全新的識別方法設計思路。
在傳統視覺圖像識別方法的基礎上,結合三維多媒體圖像中各項規律,對圖像特征進行提取。采用多尺度幾何分析工具,實現對多媒體視覺圖像的切波變換,對圖像進行三維最優逼近,從而方便獲取圖像當中的各類型信息及特征。
首先利用層疊分類器對三維多媒體視覺圖像進行分類,在保留圖像窗口的條件下,過濾掉所有非識別圖像窗口,在保證漏檢率低的基礎上將大部分非識別區域進行過濾。
其次,完成對原始三維多媒體視覺圖像的剪切波變換后,對子圖像獲取,利用多方向局部二值模式,在已經獲取到的剪切波變換圖像上得出半徑為a的圓形區域,并找出其中對應的n個特征采集點[3]。根據多方向局部二值模式給出其算子的表達式為:

公式(1)中,Pq表示為多方向局部二值模式算子;iq表示為三維多媒體視覺圖像中心點像素值;ic表示為三維多媒體視覺圖像中相鄰點的像素值大小;m表示為剪切參數,m值通常取[0,1]。根據公式(1)計算得出多方向局部二值模式算子后,按照圖1所示流程對三維多媒體視覺圖像特征進行提取和編碼。

圖1 三維多媒體視覺圖像特征提取與編碼流程
根據圖1特征提取和編碼流程得出,在特征提取過程中需要完成365維的編碼,為了方便后續識別,對其閾值化結果采用均值處理的方式進行編碼。設定一個二進制序列,并設定其從0到1和從1到0的過程不超過兩次[4]。根據三維多媒體視覺圖像在各個方向上的紋理圖像,進一步將其劃分為一個5×5的矩形區域。通過對各個方向上的聯合直方圖進行連接,得到一個完整的三維多媒體視覺圖像特征量,再利用可編程計數器陣列,對三維多媒體視覺圖像上的特征進行降維處理。最終得到需要進行識別的圖像特征表示。表1為降維處理后,三維多媒體視覺圖像維數及保留原始圖像信息百分比對應關系。

表1 降維后圖像維數與原始圖像信息百分比對應表
結合表1中的數據,在對三維多媒體視覺圖像特征進行提取時,應當根據實際需要選擇不同的降維維數,其中降維維數為20時,圖像信息保留百分比最低,識別訓練時間最長;降維維數為55時,圖像信息保留百分比最高,識別訓練時間最短。
在完成視覺圖像特征提取的基礎上,應根據識別圖像的變化,進行識別特征的生成。在此過程中,假定獲取的圖像中存在動態的關鍵點,此時可利用動態點的變化,進行多媒體幾何投影[5]。此過程可用如下計算公式表示。

公式(2)中:S(c)表示為在繪制圖像過程中,多媒體環境下識別到的關鍵點。其中c的取值為c={c;z;v},將c中的二維圖像與三維空間圖像進行對比,并使用小孔成像設備,在現實環境中,對特征信息進行透視轉換。假定在一個相同的二維圖像環境中,存在圖像坐標、點坐標、坐標軸、坐標系均在同一水平面上,此時可認為識別的特征數據存在統一性。為此,結合cs;co與c之間的三維目標關系,進行視覺目標共性的轉換,轉換過程如下計算公式所示。

公式(3)中:cs表示為識別到的原始圖像;co表示為三維坐標圖像中,視覺目標的對應點。根據目前已知的圖像變化特征,將其應用到實際中,進行多媒體設備對圖像的平移、旋轉等操作處理。假定Q;E;R分別表示為三維圖像下的矩陣方向,則可認為生成特征生成的過程如下。

公式(4)中:U表示識別圖像特征的旋轉角度;Y表示為識別圖像特征的平移角度。根據上述計算公式,輸出具體數值,完成對圖像變化特征的生成。
在完成圖像特征生成的基礎上,引入人工智能技術,對圖像特征進行最終識別,此過程中,使用智能化技術提供識別行為的稀疏表示法,構建一個智能化的識別模型,并采用梯度限制的方式,對圖像目標函數的最小值進行投影,輸出優化后的最小值,根據函數的梯度方向,進行特征識別。此時,假定存在一個三維圖像樣本數據集合,且集合內樣本數據量充足,此時,可按照第j個訓練矩陣中,J的數據樣本字典進行三維視覺的訓練。其中J的取值范圍表示為Iα?β,用m表示為j類圖像的字典矩陣,q表示為大于0的系數,則智能提取的過程可用如下計算公式表示。

公式(5)中,g表示為樣本訓練集合。使用機器算法與智能化技術的結合,利用牛頓內點方法對目標函數進行約束,尋找約束范圍中的(g,0)取值區域,根據g中的樣本數量,得到g的最小值樣本集合,以此為依據,定位函數的梯度方向,遵循此方向進行圖像稀疏投影的分類,輸出分類結構,并認為結構密集區域存在特征圖像數據,反之不存在特征圖像數據,綜上所述,完成對圖像特征的識別。
本文選擇三維多媒體視覺圖像中的某一人體動作視覺圖像作為實驗對象,分別利用本文提出的基于人工智能的三維多媒體視覺圖像識別方法,和傳統圖像識別方法對該實驗對象進行識別,以此完成對兩種識別方法的應用效果對比。為實現對實驗結果的定量分析,本文按照人工智能識別率RR準則作為標準,對其正確識別率γ進行計算:

公式(6)中,K'表示為本文識別方法或傳統識別方法準確識別視覺圖像樣本個數;K表示為實驗過程中供進行識別的樣本總數。本文實驗當中選用的實驗對象為ORL人體動作三維多媒體視覺圖像庫當中的500組視覺圖像,其中共包含了50人,每個人在不同的環境下,完成了10張不同動作和形態的視覺圖像展現。為確保實驗的客觀性,兩種識別方法在應用過程中,均設置115×98的分辨率,灰度均在256級。根據上述實驗準備,完成實驗,并隨機抽取100組識別結果,利用本文上述計算公式(6)對其正確識別率γ進行計算,并求解出每組平均γ值,將實驗結果記錄如表2所示。

表2 兩種識別方法實驗結果對比表
根據表2中的數據結果進一步得出,本文識別方法平均γ值明顯高于傳統識別方法平均γ值。因此,通過實驗證明,本文提出的基于人工智能的三維多媒體視覺圖像識別方法在實際應用中具有更高的識別準確性。同時,在實驗過程中,通過對其識別時間進行比較得出,無論是在對三維多媒體視覺圖像的特征提取,還是在識別過程中,本文識別方法耗時均明顯小于傳統識別方法耗時。因此,進一步證明本文識別方法具有更加重要的現實意義。
當前三維多媒體技術的快速發展,使得圖像識別技術的出現為人們的日常生活帶來了諸多便利,針對傳統識別方法存在的精度不高、識別結果準確率低等問題,本文通過引入人工智能技術,對其進行了創新研究。將本文提出的識別方法應用到實際當中,能夠有效增強識別性能,具有更高的實用價值。但由于研究能力的有限本文僅針對三維多媒體視覺圖像中的灰度圖像進行了研究,而對于彩色視覺圖像的識別內容并未涉及,因此在后續的研究中還將針對彩色視覺圖像進行更加深入的研究,從而提高識別方法的實用性范圍。