黃 偉, 李曉玲
(1. 南昌大學(xué) 信息工程學(xué)院, 江西 南昌 330031; 2. 江西師范大學(xué) 科技學(xué)院, 江西 南昌 330027)
?
基于大數(shù)據(jù)和多模態(tài)智能技術(shù)的計算機視覺實驗設(shè)計
黃偉1, 李曉玲2
(1. 南昌大學(xué) 信息工程學(xué)院, 江西 南昌330031; 2. 江西師范大學(xué) 科技學(xué)院, 江西 南昌330027)
介紹了大數(shù)據(jù)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)和多模態(tài)智能技術(shù)中的支持向量機、譜聚類等模型。以圖像檢索和圖像分割為例,詳述了采用卷積神經(jīng)網(wǎng)絡(luò)遴選圖像特征表征之后,運用多模態(tài)技術(shù)進行模型參數(shù)自動定參和實際運用的實現(xiàn)過程。該研究項目用于計算機視覺課程的實驗教學(xué),有利于學(xué)生學(xué)習(xí)計算機視覺領(lǐng)域的前沿技術(shù),運用不同模型解決實際問題,鍛煉學(xué)生組織實驗、分析實驗數(shù)據(jù)和團隊協(xié)作等綜合能力。
計算機視覺; 大數(shù)據(jù); 多模態(tài); 實驗教學(xué)
計算機視覺課程是面向計算機專業(yè)高年級本科生、碩士和博士研究生開設(shè)的一門計算機專業(yè)課程[1]。近年來,計算機視覺課程與云計算、大數(shù)據(jù)、多模態(tài)智能技術(shù)等緊密聯(lián)系,成為一門重要的、課程內(nèi)容與時俱進的計算機專業(yè)課程。本文總結(jié)了南昌大學(xué)開設(shè)計算機視覺課程的改革創(chuàng)新經(jīng)驗。學(xué)校在原有計算機視覺課程知識體系基礎(chǔ)上,將大數(shù)據(jù)、多模態(tài)智能技術(shù)等新技術(shù)融入計算機視覺課程課堂與實驗教學(xué)中,增加了圖像檢索、圖像分割等新技術(shù)的運用,幫助學(xué)生理解相關(guān)理論的實用價值,對拓展學(xué)生的視野、激發(fā)學(xué)生的想象力和創(chuàng)新力、促進學(xué)生開展跨學(xué)科協(xié)作和交流都具有重要的現(xiàn)實指導(dǎo)意義。
大數(shù)據(jù)是源自計算機領(lǐng)域、被廣泛運用到“互聯(lián)網(wǎng)+”等跨界領(lǐng)域的計算機行業(yè)的新興技術(shù)。大數(shù)據(jù)的“大”包含兩層含義:一是數(shù)量大,二是維度大。數(shù)量大可以表現(xiàn)為人們生產(chǎn)生活中不斷產(chǎn)生和接觸到的海量數(shù)據(jù);維度大表現(xiàn)為單一數(shù)據(jù)樣本中具有眾多屬性。例如,一副圖像可以由顏色、幾何特征、紋理特征等不同屬性的特征描述。研究大數(shù)據(jù)的目的是從海量數(shù)據(jù)和高維數(shù)據(jù)中獲取隱含的有價值的信息[2-4]。
深度學(xué)習(xí)是近年來研究大數(shù)據(jù)的一項熱門技術(shù),其概念源于對人工神經(jīng)網(wǎng)絡(luò)的研究,其目的在于建立類似人腦分析學(xué)習(xí)功能的神經(jīng)網(wǎng)絡(luò)。因此,深度學(xué)習(xí)可以看作是通過模仿人腦機制來解釋和處理大數(shù)據(jù)。在深度學(xué)習(xí)中,研究者提出了若干種流行的模型,常見的包括自動編碼器、稀疏編碼、限制波爾茲曼機、深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等[5]。在計算機視覺課程實驗設(shè)計中,卷積神經(jīng)網(wǎng)絡(luò)是教學(xué)重點內(nèi)容。
卷積神經(jīng)網(wǎng)絡(luò)可以被看作傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的一種最新進化形態(tài),已廣泛運用于語音分析、圖像識別等研究領(lǐng)域。與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)更類似于生物神經(jīng)網(wǎng)絡(luò),這種結(jié)構(gòu)有助于降低網(wǎng)絡(luò)模型的復(fù)雜度、減少權(quán)值數(shù)量,因此在處理視覺數(shù)據(jù)輸入時優(yōu)勢更加明顯。圖像、視頻等視覺數(shù)據(jù)作為網(wǎng)絡(luò)的直接輸入,有利于避免傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括兩層。
(1) 特征提取層。每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來。
(2) 特征映射層。網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)可以采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使特征映射具有位移不變性。由于每一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)中待定自由參數(shù)的個數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的二次特征提取結(jié)構(gòu)有助于減小特征分辨率。由于卷積神經(jīng)網(wǎng)絡(luò)的特征檢測層通過訓(xùn)練數(shù)據(jù)進行學(xué)習(xí),所以在使用卷積神經(jīng)網(wǎng)絡(luò)時,避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進行學(xué)習(xí);再者,由于同一特征映射面上的神經(jīng)元權(quán)值相同,卷積神經(jīng)網(wǎng)絡(luò)可以進行并行學(xué)習(xí),這也是它相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。
卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在計算機視覺研究領(lǐng)域具有獨特的優(yōu)越性,其布局更接近于實際的生物神經(jīng)網(wǎng)絡(luò)。權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點,避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度[6]。基于以上特點,將卷積神經(jīng)網(wǎng)絡(luò)運用在圖像檢索、圖像分割等實驗設(shè)計過程中,就可以實現(xiàn)對圖像視覺特征信息的自動提取。
多模態(tài)智能技術(shù)源于傳統(tǒng)模式識別,用來按照不同模型類別對數(shù)據(jù)進行有監(jiān)督、半監(jiān)督、無監(jiān)督等智能處理。一般來說,多模態(tài)智能技術(shù)按照模型種類不同可以被劃分為分類模型和聚類模型。
2.1分類模型
分類模型主要用于區(qū)分來自不同類別的數(shù)據(jù),常見的分類模型包括支持向量機、傳統(tǒng)神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型等。
以支持向量機為例,給定N個數(shù)據(jù)點{(x1,y1),(x2,y2),…(xN,yN)},xi表示第i個數(shù)據(jù)點的提取特征信息、yi表示第i個數(shù)據(jù)點所屬的類別??紤]支持向量機模型最常見的2類情況,即y∈{-1,+1}。支持向量機的主要思想是假設(shè)存在一個超平面xTβ+β0=0,其中β是垂直于該超平面的一個垂直向量,而β0是該超平面與垂直坐標軸的相交點。


圖1 支持向量機在二維空間內(nèi)的示意圖
2.2聚類模型
聚類模型對數(shù)據(jù)按照其固有的特性進行區(qū)分。與分類模型的有監(jiān)督方式不同,聚類是一種無監(jiān)督方式,即數(shù)據(jù)的有監(jiān)督類別信息一般在聚類模型中事先未知。因此,聚類模型是一種發(fā)掘數(shù)據(jù)本身特性,并按照其特性來區(qū)分數(shù)據(jù)類別的有效手段。傳統(tǒng)聚類模型包括k-means、分層聚類模型、密度聚類模型等。
在本課程的實驗設(shè)計中,選取了基于圖論的新穎的譜聚類模型。譜聚類模型的具體實現(xiàn)步驟如下。
首先設(shè)定計算2個數(shù)據(jù)點間相似度的函數(shù),該函數(shù)定義可以采用d(xi,xj)=exp(-(si-sj)TA(si-sj))的形式;其中xi表示數(shù)據(jù)點;si是從數(shù)據(jù)點xi中提取的表征信息;A是在譜聚類模型中需通過學(xué)習(xí)機制確定的全矩陣。

最后,通過構(gòu)造一個基于Frobinus范數(shù)的最優(yōu)化問題和梯度下降法來求解并得到A的最優(yōu)解:
其中

大數(shù)據(jù)技術(shù)可以和多模態(tài)智能模型緊密結(jié)合,運用在計算機視覺課程不同的實驗設(shè)計中。這種結(jié)合非常有助于幫助學(xué)生掌握最前沿的技術(shù)發(fā)展趨勢,通過最新技術(shù)與經(jīng)典模型的結(jié)合,有效提高學(xué)生組織實驗、分析實驗數(shù)據(jù)、鍛煉團隊協(xié)作能力和解決問題的能力。
3.1卷積神經(jīng)網(wǎng)絡(luò)和支持向量機的圖像檢索實驗
隨著數(shù)字圖像的廣泛運用,用戶需要從海量數(shù)據(jù)庫中找出感興趣的圖像,即進行圖像檢索。根據(jù)用戶在檢索過程中所給出的圖像信息類別來劃分,圖像檢索方法可分為基于文字的圖像檢索和基于內(nèi)容的圖像檢索?;谖淖值膱D像檢索是通過比較用戶給出的感興趣圖像的文字信息與數(shù)據(jù)庫中圖像的文字信息,檢索出具有相同或相似文字信息的圖像;基于內(nèi)容的圖像檢索則通過直接對比感興趣圖像與數(shù)據(jù)庫圖像之間的視覺特征,檢索出具有相同或相似視覺特征的圖像?;趦?nèi)容的圖像檢索不要求用戶事先對圖像加上額外文字信息,能有效節(jié)省人為標記負擔,也能避免用戶在標記過程中主觀判斷的不確定性。因此,基于內(nèi)容的圖像檢索是目前圖像檢索研究的主流方向[9]。
在計算機視覺實驗中,卷積神經(jīng)網(wǎng)絡(luò)和支持向量機技術(shù)被運用其中。
首先,通過Matlab GUI設(shè)計一個圖像檢索實驗人機交互界面。該界面可讀取jpg、bmp、png等格式的圖像數(shù)據(jù),其中大數(shù)據(jù)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)被運用在每一副圖像的視覺特征提取中,即將顏色、紋理、形狀等圖像底層視覺特征輸入卷積神經(jīng)網(wǎng)絡(luò),將其中間的隱層輸出作為卷積神經(jīng)網(wǎng)絡(luò)挑選出的具備差異性的圖像視覺特征。例如當學(xué)生選取一副建筑圖像作為待檢索圖像(記為Query Image)時,從圖像數(shù)據(jù)庫中檢索到20幅相似圖像,其中前3幅最相似的圖像如圖2所示。由圖2可見:采用大數(shù)據(jù)和分類模型相結(jié)合,檢索結(jié)果十分準確,即檢索圖像結(jié)果也屬于建筑圖像。學(xué)生在該實驗過程中可以改變模型中的參數(shù)和其他關(guān)鍵函數(shù)設(shè)置(支持向量機的核函數(shù)、最優(yōu)化方式、松弛因子、懲罰因子、卷積神經(jīng)網(wǎng)絡(luò)隱層數(shù)目、節(jié)點數(shù)、映射函數(shù)等),觀察不同參數(shù)設(shè)置下圖像檢索的效果,總結(jié)出一套最優(yōu)參數(shù)設(shè)置,并通過precision-recall等標準圖[7]進行定量分析和比較。
3.2卷積神經(jīng)網(wǎng)絡(luò)和譜聚類技術(shù)的圖像分割實驗
圖像分割是指從圖像中把用戶感興趣的物體或者區(qū)域精確提取出來的過程。在本實驗中,學(xué)生可以利用卷積神經(jīng)網(wǎng)絡(luò)和譜聚類技術(shù),在一組結(jié)構(gòu)性磁共振圖像中提取腦部腫瘤圖像。其中,大數(shù)據(jù)中的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)同樣被運用于灰度圖像視覺特征組成。
卷積神經(jīng)網(wǎng)絡(luò)的輸入是灰度、紋理等底層視覺特征信息,中間隱層的輸出作為分割圖像的視覺特征表征。本實驗的另一個突出特點是允許學(xué)生在讀取的醫(yī)學(xué)圖像中,通過觸摸屏或鼠標等勾勒一個包含目標物體的不規(guī)則框,如圖3所示。該不規(guī)則框的作用有兩點:一是帶入用戶關(guān)于目標區(qū)域的先驗知識,從而節(jié)省模型計算負擔;二是對選取正、負樣本具有指導(dǎo)意義。

圖2 待檢索圖像與前3幅檢索圖像檢索結(jié)果示例

圖3 圖像分割實驗界面及不規(guī)則框(黃色)勾勒
本實驗可以選擇通過4種不同模型進行圖像分割,其中“New method”表示譜聚類、“Baseline”表示k-means聚類、“SVDD”表示一類支持向量區(qū)域描述方法[10]、“SVM”表示支持向量機。圖4為采用譜聚類方法所得到的實驗結(jié)果。圖的左上和右上子圖分別對應(yīng)原圖在無和有對比增強(通過對磁共振圖像中大腦區(qū)域的脂肪抑制來實現(xiàn))處理時的圖像;圖4的左下角和右下角子圖分別是醫(yī)生手工勾勒出的標準腫瘤和通過譜聚類方法產(chǎn)生的圖像分割結(jié)果??梢?通過譜聚類方法產(chǎn)生的結(jié)果與標準結(jié)果之間相似度很高,這說明該方法分割精度好。

圖4 圖像分割實驗結(jié)果
在實驗過程中,學(xué)生可以對手工勾勒不規(guī)則框的位置、尺寸、形狀對圖像分割結(jié)果的影響(即整個系統(tǒng)受初始化影響的魯棒性),卷積神經(jīng)網(wǎng)絡(luò)遴選特征向量對分割結(jié)果的影響,譜聚類算法相似度函數(shù)定義,矩陣A的學(xué)習(xí)結(jié)果對分割結(jié)果的影響等進行實驗和分析,并比較譜聚類、支持向量機、k-means、一類支持向量區(qū)域描述等方法在該圖像分割實驗中的效果,利用F-measure等客觀分割效果衡量標準給予定量的實驗分析和方法比較[11]。
大數(shù)據(jù)和多模態(tài)智能技術(shù)是現(xiàn)今計算機視覺研究領(lǐng)域的前沿技術(shù)。將這些前沿技術(shù)引入實驗課程教學(xué)中,設(shè)計諸多新穎的,具備前沿性、交叉性和應(yīng)用性的實驗項目,對拓展學(xué)生的視野、激發(fā)學(xué)生的想象力和創(chuàng)新力、促進不同學(xué)習(xí)背景和知識結(jié)構(gòu)的學(xué)生開展跨平臺協(xié)作和交流,具有重要的現(xiàn)實指導(dǎo)意義?;诖髷?shù)據(jù)和多模態(tài)智能技術(shù)的計算機視覺實驗設(shè)計也符合現(xiàn)在高校培養(yǎng)工程實踐人才的要求。
References)
[1] 中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要[Z/OL].(2016-03-17)[2016-04-25].http://www.gov.cn/xinwen/2016-03/17/content_5054992.htm.
[2] 白鵬,楊新湦,張亞宜,等.大數(shù)據(jù)背景下的空管實驗室建設(shè)探索[J].實驗技術(shù)與管理,2015,32(2):228-230.
[3] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1-44.
[4] 聞星火,李德華,蔣景華.弘揚百年傳統(tǒng),建設(shè)一流平臺:清華大學(xué)實驗室建設(shè)百年回顧與展望[J].實驗技術(shù)與管理,2011,28(3):1-4.
[5] 余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.
[6] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012,29(8):2806-2810.
[7] Huang W,Chan K,Zhou J. Region-based nasopharyngeal carcinoma lesion segmentation from MRI using clustering- and classification-based methods with learning[J].Journal of Digital Imaging,2013,26(3):1-11.
[8] Huang W,Li J,Zhang P,et al. A novel marker-less lung tumor localization strategy on low-rank fluoroscopic images with similarity learning[J].Multimedia Tools and Applications,2015,74(23):10535-10558.
[9] Huang W,Zhang P,Wan M. A novel similarity learning method via relative comparison for content-based medical image retrieval[J].Journal of Digital Imaging,2013,26(5):850-865.
[10] Vapnik V N. The Nature of Statistical Learning Theory[M].Springer,1995.
[11] 劉松濤,殷福亮.基于圖割的圖像分割方法及其新發(fā)展[J].自動化學(xué)報,2012,38(6):911-922.
Design of experiments for computer vision based on big data and intelligent multi-modality techniques
Huang Wei1, Li Xiaoling2
(1. School of Information Engineering,Nanchang University,Nanchang 330031,China;2.College of Science and Technology,Jiangxi Normal University,Nanchang 330027, China)
This paper elaborates on convolutional neural network in deeply learning as well as support vector machine and spectral clustering in intelligent multi-modality techniques. Two types of experiments including image retrieval and image segmentation are described. The strategy of adopting deep learning for feature extraction as well as intelligent multi-modality techniques for parameters tuning is introduced in detail. This design of novel experiments is specialized in the Computer Vision course, which is beneficial for the students to get familiar with up-to-date knowledge in computer vision,know how to solve practical problems via diverse models,and learn the capability to organize experiments,analyze data as well as team collaboration in experiments.
computer vision; big data; multi-modality; experimental teaching
10.16791/j.cnki.sjg.2016.09.031
計算機技術(shù)應(yīng)用
2016-04-25修改日期:2016-05-02
國家自然科學(xué)基金項目(61403182,61363046);江西省教育廳高校教改項目(JXJG-15-1-26);江西省青年科學(xué)家培養(yǎng)對象項目(20153BCB23029);教育部留學(xué)回國人員科研啟動基金項目([2014]1685)
黃偉(1983—),男,江西南昌,博士,副教授,副院長,主要研究方向為計算機視覺、模式識別和教學(xué)科研管理.
E-mail:huangwei@ncu.edu.cn
G642.423
A
1002-4956(2016)9-0122-04