司明悅,齊斌,張文勝*,張雷
(1.山東大學信息科學與工程學院山東省無線通信技術重點實驗室,山東 青島 266237;2.同濟大學上海自主智能無人系統科學中心,上海 200092)
近年來,隨著大數據、大模型的興起,多維異構數據的處理和分析成為熱點問題。多維異構數據是指在數據集中存在多個不同類型的數據,這些數據具有不同的格式、結構和含義,而張量作為一種多維數組的數據結構,可以用來表示多維異構數據。在張量中,每個維度對應數據中的1個特征或者屬性,而張量元素則對應數據中的具體數值。使用張量計算可以將多維異構數據轉換成統一的數據結構,為后續的數據分析提供支持。
同時,深度學習在許多領域取得了巨大成功[1-3]。然而,深度學習網絡需要大量的訓練數據和多次迭代來訓練模型參數,現實世界中的許多場景往往受限于標注成本,導致許多類別只有少數的標注數據。面對以上場景,傳統的深度學習模型不能很好的應對,因此小樣本學習[4]以及零樣本學習[5]被提出。
小樣本學習的概念最初源自計算機視覺領域[6],并在圖像處理領域得到了廣泛應用[7]。近年來,小樣本學習也逐漸應用于自然語言處理[8]、生物醫學[9]和工業零件故障檢測[10]等領域,并發展出了許多優秀的算法。當前的小樣本學習算法通常基于良好的初始化條件[11]、嵌入網絡[7,12]和優化策略[13]進行訓練,然后將學習后的模型應用于新的任務中,并通過微調得到良好的泛化結果。
在智慧交通系統中存在數據樣本稀缺的場景,例如,由于車輛異常行為的發生不可預測性和數據稀疏性,車輛的異常行為檢測難以實現或檢測準確度不高,因此在實際應用中車輛異常行為檢測面臨著數據稀缺、異常定義的不確切性、遮擋和實時性較差等問題。針對此類場景,可以運用小樣本學習提高模型計算的可靠性和魯棒性。
本文提出一種張量計算與小樣本學習相結合的綜合模型,主要工作如下:1)提出基于智慧交通數據的多維綜合計算通用模型,通用模型采用張量計算對智慧交通多維異構數據中存在的顯著問題進行處理,基于數據的時空相關性獲得融合數據張量,其中,利用張量分解將數據統一分解為低維數據,解決數據的多維異構問題,利用張量補全,補全因突發事件缺失的數據,解決數據缺失問題;2)利用融合數據張量,改進現有的小樣本學習模型,提出基于張量計算的小樣本學習模型,根據不同的張量融合策略,將融合數據張量輸入小樣本學習網絡中進行訓練,改變小樣本學習網絡結構,比較基于度量的訓練網絡和基于元學習的訓練網絡的性能優劣,根據消融實驗的結果分析性能最優的基于張量計算的小樣本學習模型;3)采用智慧交通的仿真數據集,通過大量模擬實驗和對比實驗驗證多維綜合計算模型的可行性以及張量小樣本學習模型的可靠性和有效性。
張量計算可以劃分為張量分解、張量補全和張量特征值。張量分解是一種將高階張量映射為低階張量的技術,主要用于提取數據中的潛在特征和結構。張量補全是通過已知的部分張量數據,推斷和填補缺失的部分張量,恢復完整張量的技術,主要用于解決因傳感器故障、數據采集錯誤、數據傳輸丟失等造成的數據缺失問題。張量特征值則是用來描述張量的內在特征和性質的數值,用來表征張量內在屬性。
1.1.1 張量分解基礎
張量分解的概念最早由HITCHCOCK在1927年提出[14],后被廣泛地應用于信號處理[15-16]、推薦系統[17]、無線通信[18-19]、深度學習[20]等領域。張量分解有許多不同的類別,如高階奇異值分解(HOSVD)[21]、張量鏈式分解[22]、張量環式分解[23]等,其中HOSVD基于不同的奇異值分解形式,定義還可以進一步細分,如平行因子分解(CPD)、Tucker分解等。
對于1個任意M階N維張量 A∈N1×N2×…×NM,CPD的定義如下:

(1)
其中:“·”表示向量外積;因子向量xm,i∈Nm;因子矩陣Xm=[xm,1,xm,2,…,xm,R]∈Nm×R,而R被稱為CP秩。Tucker分解的定義如下:
an1,n2,…,nM=

(2)
A=G×1X1×2X2×…×MXM
(3)
1.1.2 張量補全基礎
張量補全的應用領域相比于張量分解更為廣泛,需要使用張量數據的情景均存在張量補全的需求,如大數據處理[24]、視覺圖像處理[25]、傳感器系統[26]等。
張量補全可以依據不同的補全參考量劃分成2大類:1)基于張量分解的補全[27],如基于CPD的張量補全、基于Tucker的張量補全等,這種補全方式也可以被稱作秩約束張量補全;2)基于最小秩的補全[28],如最小Tucker秩張量補全[25]、最小張量鏈秩張量補全[29]等。前者以基于CPD的補全為例,對應的優化問題如下:
s.t.XΘ=AΘ
(4)
其中:X表示補全張量;Θ表示未缺失索引集,即A中非零元素的集合。約束條件保證未缺失元素在補全后保持不變。
基于張量分解的補全也可以稱作固定張量秩的補全。因為這類補全方案在限制非零元素不變的基礎上,對張量秩做出了隱性約束。由于優化問題非凸,因此利用塊坐標下降法求解時受到局部最小值的影響,初始值對求解效果影響較大。不好的初始值會導致迭代次數增加,甚至不收斂,嚴重影響算法性能。為解決這一問題,本文提出基于最小秩的補全概念,并使用最小跡范數優化的凸問題取代最小秩優化的非凸問題,以獲得穩定的求解方案。因此,第2類也可以稱作最小跡范數張量補全。
以最小Tucker秩補全為例,原優化問題為:

(5)
利用最小跡范數,問題可以修改為:

(6)

張量補全是基于張量數據之間的時空相關性驅動的,其中時空相關性即張量數據之間存在潛在關聯。不同的補全方案對于潛在關系的定義不同,如以基于CPD的補全,將這種潛在關系定義為CPD的因子矩陣唯一性,利用塊坐標下降法對待補全張量進行CPD,利用分解產生的誤差填補缺失數據,循環此操作直到因子矩陣穩定。而最小跡范數張量補全則是認為潛在關系為數據之間跡范數最小,利用交替方向乘子法,更新各階展開矩陣,直到各階展開矩陣的秩穩定。
小樣本學習可以分為2類:1)基于數據增強的方式[30],這種方法借助輔助數據或輔助信息對現有的少量樣本進行數據合成[31]或特征增強[32];2)基于遷移學習的方式[33],在新任務的數據相對較少或者難以獲取的情況下,遷移學習將已學到的模型、特征或知識遷移到新的問題領域,旨在提高模型在新任務上的性能[34]。
基于遷移學習的小樣本學習通常被分為基于度量[35]和基于元學習的方式[36]。度量也叫距離函數,用于衡量2個元素之間的距離關系。因此,基于度量小樣本學習的主要思想是將目標樣本和測試樣本映射到向量空間中,根據計算出的相似度進行比較判斷。采用此種分類思想的優秀算法有原型網絡[7]和匹配網絡[12],原型網絡是依據本類別數據與原型中心的歐幾里得距離來進行分類的,其網絡結構如圖1所示,其中cn代表原型中心。而匹配網絡選取了余弦相似度作為距離函數。

圖1 原型網絡結構Fig.1 Structure of prototype network
元學習也稱學會學習,旨在通過學習模型的初始化參數、網絡架構等,指導模型更高效快速地適應新任務或新環境。模型無關的元學習(MAML)[11]是元學習領域十分出色的算法,通過微調神經網絡中對每個任務較為敏感的參數,使模型的損失函數達到快速收斂。除此以外,基于記憶增強的神經網絡[37]和元網絡[38]等算法也基于元學習的思想,利用歷史經驗指導模型快速收斂。
本文主要研究基于遷移學習的小樣本學習,并選取原型網絡、匹配網絡和MAML 3種網絡進行可行性分析。
基于張量計算和小樣本學習的綜合計算模型整體架構如圖2所示。該模型主要包括基于張量計算的多維綜合計算模塊和基于通用模型參數的小樣本學習模塊。首先,針對智慧交通場景中的多維異構數據建立張量模型,對數據模型中的缺失數據進行數據補全,并將異構數據轉換成相同結構、類型的數據形式,即進行數據同構化;然后,對多模態數據進行融合;最后,將融合數據作為小樣本學習網絡的輸入樣本集,對其進行特征提取,將樣本映射到向量空間;最終,采用不同的小樣本學習網絡作為分類器進行訓練,根據訓練結果的準確率和F1值評估模型性能優劣。

圖2 綜合模型結構Fig.2 Structure of the comprehensive model
針對智慧交通場景下產生的多維異構數據,從缺失數據補全、數據同構化、多模態數據融合3個維度搭建多維綜合計算通用模型。
2.2.1 缺失數據補全
缺失數據補全是指利用已有的數據信息,對數據中的缺失值進行估計、預測。傳統的數據補全方案由插值補全、基于模型的補全、矩陣分解補全、基于深度學習的補全,而對于多維數據可以建立張量模型,并直接借由張量補全完成,以完成缺失數據補全。
2.2.2 基于CPD的異構數據同構化
異構數據是因智慧交通中不同傳感器產生的數據類型不同導致的,如音頻、圖像、視頻等以時間、空間序列排列產生不同尺寸的張量數據。異構數據同構化在保持時空相關性的前提下,將異構數據轉換成相同結構、類型的數據形式,而張量分解可以實現該目標,如CPD、TR等均滿足該要求。然而,TR分解更適用于大尺寸高階張量的分解,將大尺寸高階張量分解為若干三階張量的積,對于智慧交通中數據階次相對較小、維度較大的場景,CPD是更為恰當的。
假設1個圖像傳感器,每秒拍攝1張J×K的灰度圖像。在Is的時間內,會產生I×J×K的圖像數據張量,記作P。以P為例說明數據同構化實現步驟,具體算法如下。
算法1基于CPD的數據同構算法
輸入異構數據張量P∈I×J×K,匹配系數γ0和CP秩R
輸出同構矩陣P1∈I×R,P2∈J×R,P3∈K×R
1)隨機初始化P1,P2,P3。




6)如果γ<γ0,返回步驟2;否則,輸出結果。
在算法中,“⊙”“*”“(·)+”分別表示哈達瑪積(Hadamard Product)、KR積(Khatri-Rao Product)和MP逆(Moore-Penrose Pseudoinverse)。
2.2.3 多模態數據融合
為緩解智慧交通中樣本數據較少的問題,本文對多模態數據進行融合,挖掘數據的時空信息,以提取更全面、準確的信息。多模態數據融合基于相似數據的潛在關系相似假設,將利用張量分解的逆過程對來自不同傳感器的經過異構數據同構化的數據進行特征映射。
算法2多模態數據融合算法
輸入同構矩陣P1,P2,P3,A1,A2,A3
輸出融合數據張量F
2)計算融合數據張量F=I×1P1×2P2×3P3×4A1×5A2×6A3。
算法2中的單位張量I是1個6階R維的,除對角線以外元素為零且對角元素為1的張量。將數據同構算法產生的同構因子矩陣,通過數據映射重新生成融合矩陣,實際上是完成了數據擴展,恢復多模態數據之間的結構關系。該融合方案可以借由CPD還原原始數據,在保證原始信息不丟失的前提下,擴展可用數據。
對于數據同構算法的輸出,同構矩陣擁有相同的列數。基于傳統的數據拼接進行數據融合,產生融合數據矩陣,本質上是僅對原始的多維異構數據進行數據補全后,將多模態數據進行簡易組裝來完成數據融合。為了區別2種基于張量計算的多模態數據融合方案,前者被稱為“逆分解張量融合模型”,后者被稱為“CPD數據融合模型”。
針對張量計算模型處理后的融合數據張量,本文采用不同的小樣本學習方法對此進行處理訓練,包括基于度量的小樣本學習網絡和基于元學習的小樣本學習網絡,其中原型網絡和匹配網絡是度量學習中十分經典的網絡模型。元學習的思想與度量學習存在著明顯差異,本文選取MAML作為訓練模型。
2.3.1N-wayK-shot問題
小樣本學習致力于尋求能使模型從少數帶有標簽的樣本中快速學習的方法,并要求對訓練集中的新類具有較好的泛化能力。小樣本學習的數據集可以分為訓練集和測試集,訓練集和測試集又各自包含支持集和查詢集,用來支撐任務的訓練和測試。本文中的小樣本學習是一種N-wayK-shot的問題,N代表類別數量,K代表每一類別中的樣本數量。
假定訓練集中有N個類別,每個類別有K個樣本。本文設置NS為每次迭代從支持集所取的類別數量,每一類別取KS個樣本,其中NS 2.3.2 基于度量的小樣本學習網絡 給定含有M個樣本的支持集S={(y1,l1),…,(yM,lM)},其中yi為支持集樣本,li∈{1,2,…,N}為N類樣本各自對應的標簽,在公式中使用Sn表示第n類標簽的樣本集。 原型網絡通過求和平均的方式生成每一類原型點,根據計算該原型點和目標樣本映射在向量空間中的特征向量之間的歐氏距離進行比較分類。原型點通過式(7)得到: (7) 其中:θ為可學習參數;f(·)代表樣本通過編碼得到特征向量的過程函數,即嵌入函數。通過歸一化指數函數計算查詢集中目標樣本屬于各類的概率分布來計算損失函數。概率分布如下: (8) (9) 其中:d(·)是距離函數,這里使用余弦函數。在計算出注意力后,使用核密度估計函數輸出預測標簽: (10) 2.3.3 基于元學習的小樣本學習網絡 MAML通過指導基本學習器的初始化參數不斷優化模型在新任務上的泛化能力。假設模型用初始化參數為φ的參數化函數fφ表示,當適用到任務Ti時,模型參數通過1次或幾次梯度下降更新為φ′i,當更新次數為1時,表達式為: φ′i=φ-γ?φLTi(fφ) (11) 更新步長γ可以是固定的超參數,也可以通過元學習獲得。模型的損失函數為i個任務的損失函數之和,模型參數φ以最小化損失函數為目標進行更新。該目標可以寫為: (12) 模型參數φ根據損失函數進行更新: (13) 其中:β是元更新步長。 本文采用準確率(A)和F1值(F1)評價模型性能。準確率為正確預測出來的樣本數量占所有的樣本的比例,如式(14)所示: (14) 其中:NTP代表被模型預測為正類的正樣本;NTN代表被模型預測為負類的負樣本;NFP代表被模型預測為正類的負樣本;NFN代表被模型預測為負類的正樣本。 F1值是精準度和召回率的調和平均數,認為召回率和精確度同等重要。精準度(P)、召回率(R)以及F1值的定義為: (15) (16) (17) 模型使用PyTorch框架來實現,計算機型號為 Intel?Xeon?Platinum 8255C CPU@2.50 GHz。仿真實驗采用Omniglot 數據集來完成。Omniglot數據集是小樣本學習領域常用的數據集,包含了1 623類字符圖片,每類字符包含20張樣本圖片,共32 460張圖片。 參數調優對模型的訓練結果至關重要,本文針對學習率和迭代次數進行了調優嘗試,下面給出3種小樣本學習的調試結果,如圖3~圖5所示。 圖3 原型網絡的參數調優結果Fig.3 Parameter tuning results of the prototype network 圖4 匹配網絡的參數調優結果Fig.4 Parameter tuning results of the matching network 圖5 MAML的參數調優結果Fig.5 Parameter tuning results of MAML 本實驗圍繞5-way 1-shot問題展開。從圖3~圖5可以看出,當迭代次數設置為40次時,3種小樣本學習方法均可以達到較好的性能。根據調試結果選擇最優的學習率,將原型網絡的學習率設置為0.01,匹配網絡的學習率設置為0.001,MAML的學習率設置為0.5,使模型訓練效果達到最佳。 為評估3種小樣本學習的性能,本文分別對3種方法進行比較分析。表1所示為基于無融合數據和采用不同張量融合策略輸出的融合張量數據,原型網絡、匹配網絡和MAML作為訓練網絡,得到模型最終的訓練結果。其中“√”表示對應的張量融合策略和訓練網絡的組合。從表1可以看到,3種小樣本學習對非融合數據進行訓練,原型網絡和MAML的準確率分別達到了91.6%和91.0%,優于匹配網絡達到的89.6%準確率。當采用逆分解張量融合模型時,MAML作為訓練網絡輸出的準確率為95.5%,相較于基于無融合數據提升了4.5個百分點,而原型網絡和匹配網絡訓練的準確率有不同程度的降低,分別降低了17和6.5個百分點。當采用CPD數據融合模型時,相較于基于無融合數據的MAML和匹配網絡的準確率分別提高1.3和1.1個百分點,原型網絡則降低了7.9個百分點。綜合以上結果,基于張量融合策略的不同小樣本學習方法中,MAML得到了不同程度的提升,而原型網絡和匹配網絡的訓練結果并不理想。 表1 不同方法的實驗結果對比Table 1 Comparison of experimental results among different methods 圖6所示為不同方法的實驗結果。從圖6可以看出,實線代表原網絡,虛線和點畫線分別代表基于CPD數據融合模型和逆分解張量融合模型的小樣本學習方法的訓練結果。MAML的收斂速度優于原型網絡和匹配網絡,基于張量融合策略的MAML模型訓練曲線較原MAML網絡更加平滑,且準確率更優。而原型網絡針對融合張量數據的訓練結果不太理想,基于2種融合策略的準確率有不同程度的下降,且基于逆分解張量融合的訓練曲線在收斂時變得震蕩曲折。匹配網絡的收斂速度較慢,在結合了張量融合策略后,收斂速度變慢,且在最優解附近的震蕩幅度變大。 圖6 不同方法的實驗結果Fig.6 Experimental results among differnet methods 從第3.3節的結果可得出,在結合多維綜合計算通用模型的小樣本學習方法中,MAML的性能最優。因此,本節針對基于2種張量融合策略的元學習算法MAML展開分析。 圖7和圖8分別所示為采用2種張量融合方案的元學習模型和不采用融合策略的元學習模型在準確率和F1值的性能對比。散點圖中的每個點對應1個任務,在圖7和圖8中,散點圖大多位于坐標軸的右上方,這表明MAML在大多數現有的任務上表現優良。 圖7 基于不同張量融合方案的MAML模型準確率Fig.7 Accuracy of MAML model based on different tensor fusion schemes 圖8 基于不同張量融合方案的MAML模型F1值Fig.8 F1 values of MAML model based on different tensor fusion schemes 以實線為基準,在圖7的45個任務中,基于逆分解的MAML模型在42個任務的準確率優于原模型,基于CPD的MAML模型在29個任務的準確率優于原模型。在圖8中,基于逆分解的MAML模型在41個任務上的F1值優于原模型,基于CPD的MAML模型在29個任務上的F1值優于原模型。因此,在大多數任務上,基于逆分解張量融合方案比基于CPD融合方案的元學習模型的結合度更好。 針對現有智慧交通系統中在小樣本場景下數據缺失的問題,本文設計一種基于張量計算和小樣本學習的通用計算模型。采用張量計算對多維異構數據進行處理,基于數據的時空相關性獲得融合數據張量。為應對因數據稀缺導致傳統模型性能下降的現象,引入小樣本學習,并分析了基于度量學習和元學習2類小樣本學習方法與張量計算通用模型融合后的綜合模型可信度的相關問題。實驗結果表明,相較于2種基于度量的小樣本學習模型:原型網絡和匹配網絡,基于元學習的小樣本學習模型MAML和多維綜合計算通用模型結合后的可信度更高,并且基于不同的張量融合方案,元學習模型性能會得到不同程度的提升。由于特征提取網絡對模型的訓練結果有很大的影響,因此后續將對特征提取網絡進行改進,以進一步提高通用計算模型的性能。








3 實驗結果與分析
3.1 評價指標




3.2 數據集與參數調優



3.3 小樣本學習的性能對比


3.4 基于張量計算的元學習模型


4 結束語