葉衛(wèi)華



摘要 隨著信息時代的發(fā)展,產(chǎn)生了海量復(fù)雜數(shù)據(jù),如何從大數(shù)據(jù)中準(zhǔn)確提取行業(yè)所需要的有效數(shù)據(jù),是一件非常艱巨的任務(wù)。大數(shù)據(jù)的分析與挖掘的關(guān)鍵步驟是對大數(shù)據(jù)進(jìn)行特征學(xué)習(xí),本文在多層神經(jīng)網(wǎng)絡(luò)對傳統(tǒng)數(shù)據(jù)處理的基礎(chǔ)上,用張量法對大數(shù)據(jù)進(jìn)行抽象建模,捕捉數(shù)據(jù)在高階張量空間的分布特征,建立面向復(fù)雜大數(shù)據(jù)特征學(xué)習(xí)的多模態(tài)神經(jīng)網(wǎng)絡(luò)計(jì)算模型。
[關(guān)鍵詞]大數(shù)據(jù) 多模態(tài) 神經(jīng)網(wǎng)絡(luò)
1 引言
大數(shù)據(jù)具有數(shù)量大、種類多、速度快、難甄別等特征,視頻媒體、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等各行業(yè)的飛速發(fā)展對大數(shù)據(jù)的快速準(zhǔn)確處理提出了嚴(yán)峻的挑戰(zhàn)。如何從龐大的數(shù)據(jù)中快速的篩選提取出最準(zhǔn)確有用的信息,是大數(shù)據(jù)處理面臨的最現(xiàn)實(shí)的問題。
本文針對大數(shù)據(jù)當(dāng)前形勢下的主要特點(diǎn),針對大數(shù)據(jù)的特征提取方法設(shè)計(jì)多模態(tài)的神經(jīng)網(wǎng)絡(luò)計(jì)算模型。傳統(tǒng)的特征學(xué)習(xí)方法主要基于向量模型,難以處理復(fù)雜的數(shù)據(jù)特征,典型的代表為多層卷積神經(jīng)網(wǎng)絡(luò)。多模態(tài)的神經(jīng)網(wǎng)絡(luò)計(jì)算模型同時將學(xué)習(xí)模型從向量空間擴(kuò)展到張量空間,通過面向張量空間的高階反向傳播算法,對神經(jīng)網(wǎng)絡(luò)的各參數(shù)進(jìn)行反向推演。實(shí)驗(yàn)結(jié)果表明多模態(tài)的神經(jīng)網(wǎng)絡(luò)計(jì)算模型能夠快速準(zhǔn)確的對復(fù)雜數(shù)據(jù)進(jìn)行特征學(xué)習(xí),比常規(guī)的基于張量空間的多層神經(jīng)網(wǎng)絡(luò)計(jì)算模型具有明顯優(yōu)勢。
2 多層卷積神經(jīng)網(wǎng)絡(luò)
2.1 多層神經(jīng)網(wǎng)絡(luò)
多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)可以看作是一個具有n層的非線性系統(tǒng)T,T= (Tl,T2,…,Tn),I和O分別表示系統(tǒng)的輸入數(shù)據(jù)和輸出。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,數(shù)據(jù)在經(jīng)過這個n層的系統(tǒng)變換之后,輸入和輸出數(shù)據(jù)依舊相等,那么就表示這些數(shù)據(jù)經(jīng)過這個n層的系統(tǒng)之后,每一層的輸入與輸出相等,沒有發(fā)生有效信息的丟失。同時,在大數(shù)據(jù)多層神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中,其參數(shù)和結(jié)構(gòu)的學(xué)習(xí)應(yīng)當(dāng)具有自主性,即不需要人為干預(yù),這樣多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型才可以自主學(xué)習(xí)數(shù)據(jù)的多層特征。
多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的訓(xùn)練包括首次訓(xùn)練和再次訓(xùn)練兩個步驟,在首次訓(xùn)練階段,自下而上逐層對已經(jīng)建立模型神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以獲得初始參數(shù);在再次訓(xùn)練階段,自上而下利用已經(jīng)存在的數(shù)據(jù)對參數(shù)進(jìn)行一次修正,從而獲得最終的正確參數(shù)。
2.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)在多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了卷積運(yùn)算,運(yùn)算過程主要包括卷積、非線性變換以及下采樣等三個階段。
在卷積階段,提取原始輸入信號的特征以確定卷積核數(shù),具有原始信號關(guān)鍵特征的卷積核可實(shí)現(xiàn)權(quán)值共享。第一階段卷積公式如公式(1)所示:
其中,xi為卷積神經(jīng)網(wǎng)絡(luò)的輸入,是由n個二維數(shù)據(jù)組成,Yi為卷積神經(jīng)網(wǎng)絡(luò)的輸出,由m個二維數(shù)據(jù)組成,bj為偏置向量。
在非線性變換階段,需要對輸出進(jìn)行非線性激活,激活函數(shù)采用最多的為Signoid函數(shù)。
f(y)=1/(1+e-y)
(2)
在下采樣階段,對特征的處理通常采用池化的方式。池化操作有平均法和最大化法兩種,平均法計(jì)算領(lǐng)域窗口的特征平均值,在處理過程中,領(lǐng)域窗口需要平移一個步長。最大化法取領(lǐng)域串口的最大特征值。池化操作,使數(shù)據(jù)可以保持最多的特征,同時將數(shù)據(jù)量大幅減小。通過使用W權(quán)值將各卷積神經(jīng)元連接,可構(gòu)成一個基于多層卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型。
平均法池化算法:
x down(xj-1)
(3)
最大化池化算法:
xj=f(Bjdown(xj-1)+bj)
(4)
down(xj-l)表示下采樣操作,可以按塊對數(shù)據(jù)進(jìn)行降維操作。
多層卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法主要有預(yù)訓(xùn)練和微調(diào)兩種,預(yù)訓(xùn)練主要采用反向傳播和梯度下降算法,這個過程為無監(jiān)督的訓(xùn)練過程,預(yù)訓(xùn)練完成后通過監(jiān)督訓(xùn)練對參數(shù)進(jìn)行微調(diào),典型的卷積神經(jīng)網(wǎng)絡(luò)單深度模型輸出如圖2所示。
多模態(tài)的神經(jīng)網(wǎng)絡(luò)就可以利用上述方法,將多個單層卷積神經(jīng)網(wǎng)絡(luò)疊加連接組成多層卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行綜合處理。
3 基于多模態(tài)的多層神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的大數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,多層網(wǎng)絡(luò)學(xué)習(xí)己經(jīng)在結(jié)構(gòu)化大數(shù)據(jù)處理領(lǐng)域取得了的良好的應(yīng)用。在建模過程中,復(fù)雜綜合數(shù)據(jù)之間具有多種互相限制的關(guān)聯(lián)關(guān)系,使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間延長,收斂性變得困難。
多模態(tài)神經(jīng)網(wǎng)絡(luò)通過張量對復(fù)雜數(shù)據(jù)進(jìn)行解析,求解向量數(shù)據(jù)的模態(tài)張量值,建立模態(tài)張量數(shù)據(jù)表示的高階模型。在求解分布特征時,采用模態(tài)張量差值構(gòu)造誤差重構(gòu)函數(shù),從而設(shè)計(jì)反向傳播計(jì)算方法,最終將多個模態(tài)張量高階模型進(jìn)行組合,建立面向復(fù)雜大數(shù)據(jù)特征學(xué)習(xí)的多模態(tài)的多層神經(jīng)網(wǎng)絡(luò)計(jì)算模型。
在建立高階模型時,首先應(yīng)提取最原始有效數(shù)據(jù)的張量模態(tài)值,通過對第一層的訓(xùn)練獲取其有效特征,以第一層的隱藏特征為輸入,接下去對第二層進(jìn)行訓(xùn)練來獲得第二層的隱藏特征,重復(fù)上述步驟一直到多模態(tài)的多層神經(jīng)網(wǎng)絡(luò)模型所有隱藏?cái)?shù)據(jù)類型全都分析提取完畢。將獲得數(shù)據(jù)結(jié)果記錄為首次訓(xùn)練過程,該結(jié)果可以用于海量復(fù)雜數(shù)據(jù)的特征學(xué)習(xí)。
首次訓(xùn)練完成后,會給每個數(shù)據(jù)類型分配相應(yīng)的類屬標(biāo)簽,根據(jù)數(shù)據(jù)類型的類屬標(biāo)簽,可以利用有監(jiān)督算法對多層神經(jīng)網(wǎng)絡(luò)計(jì)算模型的參數(shù)進(jìn)行再次訓(xùn)練補(bǔ)償,進(jìn)而獲得多模態(tài)的多層神經(jīng)網(wǎng)絡(luò)計(jì)算模型的最終參數(shù)。
4 總結(jié)
(1)大數(shù)據(jù)擁有高度復(fù)雜性、實(shí)時性多變性等特點(diǎn)。大數(shù)據(jù)由于其來源廣泛性,類型多樣性特征,同時會包含多種復(fù)雜組合類型,同時要求系統(tǒng)能夠?qū)π略龅牟煌瑪?shù)據(jù)進(jìn)行實(shí)時處理。但目前的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型不能動態(tài)調(diào)整該模型的動態(tài)參數(shù)和結(jié)構(gòu),從而導(dǎo)致該學(xué)習(xí)模型不能接受并處理新增數(shù)據(jù)的特征。
(2)多模態(tài)的多層神經(jīng)網(wǎng)絡(luò)有效解決了非自適應(yīng)的靜態(tài)學(xué)習(xí)模型的問題,在應(yīng)對大數(shù)據(jù)的復(fù)雜性和實(shí)時多變性上具有明顯優(yōu)勢。
(3)處理大數(shù)據(jù)的海量性引起的數(shù)據(jù)安全隱患,多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型為了能夠處理準(zhǔn)確處理大量數(shù)據(jù)進(jìn)行復(fù)雜的訓(xùn)練,相應(yīng)的也會耗費(fèi)更多的時間。為了提高多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型訓(xùn)練速度,最好的辦法是充分利用云計(jì)算技術(shù)對神經(jīng)網(wǎng)絡(luò)計(jì)算模型進(jìn)行優(yōu)化。然而利用云計(jì)算訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型雖然會提高訓(xùn)練速度,節(jié)省訓(xùn)練時間,但同時會泄露數(shù)據(jù)的安全和隱私,存在所處理大數(shù)據(jù)的安全隱患問題,這是下一步需要進(jìn)行的研究方向。
參考文獻(xiàn)
[1]卜范玉,陳志奎,張清辰,支持增量式更新的大數(shù)據(jù)特征學(xué)習(xí)模型[J],計(jì)算機(jī)工程與應(yīng)用,2015,51 (12):21-26.
[2]張清辰.面向大數(shù)據(jù)特征學(xué)習(xí)的深度計(jì)算模型研究[D].大連理工大學(xué),2015.
[3]黃偉,李曉玲,基于大數(shù)據(jù)和多模態(tài)智能技術(shù)的計(jì)算機(jī)視覺實(shí)驗(yàn)設(shè)計(jì)[J],實(shí)驗(yàn)技術(shù)與管理,2016,33 (09):122-125.
[4]文孟飛,劉偉榮,胡超.網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識別策略[J],計(jì)算機(jī)研究與發(fā)展,2017,54 (01):71-79。