鄧衛(wèi)軍
(湖南科技職業(yè)學院 軟件學院, 湖南 長沙 410000)
隨著現(xiàn)代人工智能的發(fā)展,基于計算機的深度學習已經(jīng)應用在現(xiàn)代社會的各個領(lǐng)域[1]。傳統(tǒng)的計算機圖形算法技術(shù)主要是以識別圖像為主,需要前期人為地對圖像進行預處理。為了能夠更好地利用計算機進行圖像的識別并提高其精度,深度學習理論得到了快速的發(fā)展[2-3]。現(xiàn)代計算機中利用深度學習的處理技術(shù)都需要大量的數(shù)據(jù)模型并進行相應的訓練模擬[4]。
傳統(tǒng)的計算機圖形描述分類都在一定的程度上需要人工的輔助,依靠人工的經(jīng)驗對圖像進行分類。國內(nèi)外學者針對計算機圖形學算法和深度學習理論都有過研究。吳發(fā)輝等[5]基于圖形學算法實現(xiàn)了平面與參數(shù)曲面的紋理映射技術(shù);張朝等[6]介紹了計算機圖形學算法系統(tǒng)的設(shè)計要點;吳崢等[7]基于C++平臺實現(xiàn)了計算機圖形學等相關(guān)功能;劉俊明等[8]分析了基于深度學習的目標檢測算法的優(yōu)缺點,并歸納總結(jié)了單階段檢測算法的框架模式。本文主要分析深度學習的特以及基于卷積神經(jīng)網(wǎng)絡(luò)分析計算機圖形描述算法的特點。
深度學習理論是現(xiàn)代計算機機器學習中的一部分,其主要是利用計算機神經(jīng)網(wǎng)絡(luò)系統(tǒng)將高層中隱藏的信息進行建模的方法[9-10]。其主要分為卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要是由5部分組成,包含數(shù)據(jù)的輸入層、輸出層和卷積層等。在實際的應用中主要過程是將數(shù)據(jù)矩陣中的元素與卷積層中的元素一一對應并相乘,然后將所得到的數(shù)據(jù)進行相加求和,最后將求和的結(jié)果進行賦值。針對圖形識別,卷積神經(jīng)網(wǎng)絡(luò)將最終的賦值與圖像的像素進行對應[11]。在卷積神經(jīng)網(wǎng)絡(luò)體系中,深度學習能夠自動識別并提取圖像的相關(guān)特征。具體的卷積運算,如圖1所示。

一般情況下卷積神經(jīng)網(wǎng)絡(luò)包含2個卷積層和對應的池化層以及1個連接層。本文在考慮卷積網(wǎng)絡(luò)模型的過程中,為了能夠簡化卷積網(wǎng)絡(luò)神經(jīng)的計算過程,設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)模型,如圖2所示。

圖2 卷積網(wǎng)絡(luò)模型
在考慮卷積神經(jīng)網(wǎng)絡(luò)實驗中,一般假設(shè)損失函數(shù)為交叉熵損失。具體的函數(shù)表達,如式(1)。
(1)
深度學習中的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)中存在很多模型,比較常見的有LSTM(記憶網(wǎng)絡(luò)模型)[12]。遞歸神經(jīng)網(wǎng)絡(luò),如圖3所示。
LSTM的模型如圖3(a)所示,其神經(jīng)結(jié)構(gòu)單元如圖3(b)所示。LSTM遞歸神經(jīng)網(wǎng)絡(luò)主要有各個不同的神經(jīng)單元組成,神經(jīng)單元主要有輸入、輸出和遺忘門組成。計算機通過對各個門的控制可以高效地變化輸出的信息參數(shù)和模型。

(a) LSTM模型
基于計算機的深度學習采用的遞歸神經(jīng)網(wǎng)絡(luò)主要使用的是LSTM網(wǎng)絡(luò),在輸入的參數(shù)中主要是圖像的相關(guān)參數(shù):寬和高,損失函數(shù)也是交叉熵損失函數(shù)。動態(tài)的遞歸神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)的網(wǎng)絡(luò)模型,如圖4所示。

圖4 遞歸神經(jīng)網(wǎng)絡(luò)模型
計算機圖形描述算法是計算機圖形學中的一部分,其主要是利用計算機來研究圖形特征的計算模式[13-14]。隨著計算機的快速發(fā)展,計算機圖形學也慢慢地融入到計算機處理技術(shù)中來。計算機圖形描述算法涉及我們平常生活的很多部分,包括圖像處理、計算機投影成像和3D圖像處理等。研究計算機圖形描述算法的過程中需要深入的理解計算機和幾何原理。這是因為計算機不僅需要簡單的呈現(xiàn)畫面,還需要模擬出不同的空間變化,這樣才能更加準確的顯現(xiàn)圖形的準確程度。
圖形與圖像處理之間的轉(zhuǎn)換關(guān)系[15],如圖5所示。

圖5 圖形與圖像處理之間的聯(lián)系與轉(zhuǎn)換
從圖5中可以看出,數(shù)字圖像在和模型之間進行轉(zhuǎn)換的過程中需要利用計算機圖形學對數(shù)字圖像進行處理,而數(shù)據(jù)模型在處理圖形的特征時需要進行相應的模式識別。
傳統(tǒng)的計算機圖形分析主要集中在人為的處理,對圖像特征的提取過渡的依靠人為的工作。圖形的多樣性導致了在處理的過程中的復雜性,同時,人為處理圖像的信息中存在很大的主觀性,不能準確地提取圖像的特征。基于卷積神經(jīng)網(wǎng)絡(luò)的計算機圖形描述算法可以快速、準確的識別圖像信息,不需要人工的干預,對于結(jié)果的準確度和速度有很大的提升。本文通過實際的實驗設(shè)計來驗證基于神經(jīng)網(wǎng)絡(luò)的計算機圖像算法的特征及其應用。
本文設(shè)計了一個基于卷積神經(jīng)網(wǎng)絡(luò)的計算機圖形識別算法。具體的流程,如圖6所示。

圖6 CNN 算法流程圖
卷積神經(jīng)網(wǎng)絡(luò)圖像的來源大小為224×224×3。f、d、s分別表示卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小、卷積層的個數(shù)和步長;p表示相應的輔助填充參數(shù)。本文提出的CNN算法模型在其前端有一份預處理層。CNN架構(gòu)結(jié)構(gòu)主要有5個不同的卷積層組成,每個卷積層后都添加一個BN層和ReLU層。卷積層1、2的共同點是都由兩個卷積核組成;卷積層3、4和5的共同點則都由1個卷積核1個最大池化組成。其中每個卷積層中的最大池化的內(nèi)核尺寸為3×3。
為了能夠使得到的額數(shù)據(jù)能夠準確地處理,本文利用MATLAB對深度學習數(shù)據(jù)進行了相應的分析和處理。本文選擇的數(shù)據(jù)為了滿足模擬訓練的要求,其中80%作為訓練數(shù)、10%為驗證結(jié)果數(shù)集、10%為測試數(shù)據(jù)集。同時,本文的實驗進行了相應的對比測試,通過對此重復實驗避免數(shù)據(jù)單次測得的偶然性。
在選擇評價方法上,本文主要選擇的是接收者操作特征(ROC)曲線,如圖7所示。

圖7 ROC 曲線示意圖
為評價選擇的ROC曲線示意圖,其主要反映的是敏感性和特異性的變化關(guān)系。圖7上的點一一對應每個信號的反應程度。
其中,橫坐標為負正類率(FPR),其主要的計算,如式(2)。
(2)
縱坐標為真正類率(TPR),其主要的計算,如式(3)。
(3)
式中,理想情況下TPR無限接近1,F(xiàn)PR無限接近0,TP、FN、FR、TN,如表1所示。

表1 二分類問題分類結(jié)果
將圖像收集的樣本預測進行分類,主要分為正類和負類,其在預測的過程中出現(xiàn)的情況如表1。另外,AUC為圖7曲線的面積,AUC能夠很好地反應圖像處理數(shù)據(jù)的分類效果。AUC的值越大,分類效果越好。
基于卷積神經(jīng)網(wǎng)絡(luò)處理計算機圖形時,AUC范圍一般在0.5~1之間。對于AUC小于0.5的模型來說其算法效果是最差的;當AUC=0.5時,此時的模型沒有實際的意義。
本文研究了深度學習的兩種理論:卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。通過對這兩種神經(jīng)網(wǎng)絡(luò)系統(tǒng)進行分析可得:兩種神經(jīng)網(wǎng)絡(luò)系統(tǒng)都能很好地處理圖像的識別問題,對于人工輔助圖形的描述有著很好的代替作用。同時,本文分析了基于卷積神經(jīng)網(wǎng)絡(luò)的計算機圖形學描述算法,通過實驗設(shè)計的方式利用接收者操作特征(ROC)曲線和其面積能夠很好地判斷計算機圖形學描述算法的準確性,為后續(xù)學者的研究做一個參考。