支瑞聰, 萬 菲, 張德政
1(北京科技大學 計算機與通信工程學院, 北京 100083)
2(材料領域知識工程北京市重點實驗室, 北京 100083)
在機器學習領域中, 有兩種典型的學習范式. 一種是有監督學習, 指的是從標簽化數據集中推斷出對應函數映射的機器學習任務. 它通過對輸入數據和輸出數據之間的關系進行建模, 生成一個從實例對象特征到實例標簽的映射, 并能夠將這個映射應用到其他具有相同標簽集的數據集上. 另一種是無監督學習, 其目的在于找到一個函數映射對數據進行分類, 以了解數據分布. 區別于有監督學習, 無監督學習的特點是數據沒有標簽信息, 函數映射針對提供的輸入范例找出潛在的聚類規則. 在訓練結束后, 這個映射也可以用到新的實例上, 得到測試實例所屬的聚簇. 但無監督學習并不能給出實例所屬的具體類別, 并且由于缺少標簽信息的監督, 難以有效的評估其聚類效果.
近年來, 深度學習作為一種特殊的機器學習方式取得了巨大進展, 并在機器學習的各個領域都有了很大的突破. 然而, 深度學習在有監督學習范式上能夠產生作用的重要原因之一在于其需要海量的訓練標注數據, 這些標注往往需要耗費人工巨大的時間和精力. 同時, 測試數據集標簽必須和訓練數據集完全一致, 即有監督學習所產生的映射只能處理同類別對象的數據,而無法遷移到其他類別的判定上. 無監督學習雖然不需要標簽監督過程, 避免了標注的復雜性和專業性的限制, 但卻并不能夠提供實例的類別, 這和實踐中的期望是相違背的. 更重要的是, 由于自然界中的數據往往是長尾分布的, 即大多數類別都不具備足夠且合適的訓練實例, 因此常常會出現訓練實例的類別未能覆蓋測試類別的情況.
為了解決監督學習與非監督學習的限制, 受到人類學習行為的啟發, 研究人員提出了零樣本學習(zeroshot learning, ZSL)的概念. 在零樣本學習的場景中, 測試實例所屬的類別并沒有在訓練階段出現過, 而學習的目的正是對這些沒有標注的實例進行識別或分類.由于在零樣本學習中, 訓練樣本和測試樣本對應的標注空間是不同的, 因此, 可將零樣本學習視為遷移學習的特例, 屬于異質遷移學習(heterogeneous transfer learning)的范疇[1]. 隨著近年的發展, 零樣本學習已經逐漸脫離遷移學習, 成為一個獨立的研究方向.
零樣本學習范式的提出, 為目前分類任務中廣泛存在的訓練類別不能覆蓋測試類別的實際問題提供了一種解決方案, 也為識別從未見過的數據類別提供了可能. 在零樣本學習范式下訓練的分類器, 不僅能夠識別出訓練集中已有的數據類別, 還可以對來自未見過的類別的數據進行推理判斷. 這使得計算機具有知識遷移的能力, 避免了訓練數據類別需要覆蓋所有測試類別的限制, 更加符合人們生產實際的需要. 近年來,零樣本學習已經被廣泛地運用到計算機視覺、自然語言處理等多個領域. 并在圖片識別[2-4]、視頻動作識別[5-8]和文本翻譯[9,10]等任務中取得了重要進展.
與一些經典的學習范式相比, 零樣本學習由于提出的時間較短, 因此相關技術發展的也并不十分成熟,相關綜述文獻也較少. 目前, 對零樣本學習技術做出了系統闡述, 并具有一定影響力的有Xian 等人[11]、Fu 等人[12]、Wang 等人[1]、冀中等人[13]的工作. 其中, Xian等人[11]的工作主要聚焦于對一些經典零樣本分類模型的概括性總結和評判標準, 并基于提出的標準對一些分類模型進行統一性能測試; 文獻[12]則對零樣本分類任務及其相關領域做了更加全面的介紹, 并對廣義零樣本分類任務做出了更加全面的討論. Wang 等人[1]的工作則首次對零樣本分類問題中的不同學習方式進行了正式的定義; 而冀中等人[13]的工作則按照時間線索討論了零樣本學習的發展歷史和技術要點. 整體上而言, 上述文獻的共性是側重于討論零樣本分類的發展現狀, 尤其側重于對圖像分類領域的技術討論. 本文以圖和零樣本學習的相關性為背景, 討論了圖學習在零樣本學習中的應用, 包括但不限于圖像分類任務, 旨在讓讀者了解零樣本學習與圖學習之間的關聯.
本文首先在第1 節對零樣本學習范式和圖數據進行相關了闡述, 闡明了零樣本學習的發展過程、圖數據學習提出的背景, 以及二者的定義和基本相關技術.并在第2 節依據圖數據學習在零樣本學習中不同的利用方式分類著重介紹了零樣本圖學習方法所涉及到的技術. 第3 節首先介紹了零樣本圖學習任務中的評估準則, 以及目前零樣本圖學習所涉及到的應用場景和數據集, 并分析了目前零樣本圖學習中典型模型的實驗結果. 第4 節則指出了零樣本圖學習進一步研究中需要解決的問題以及未來可能的發展方向.
零樣本圖學習是指依據特定類別的數據, 利用輔助信息和先驗知識, 并在知識組織利用和模型訓練的過程中引入圖結構作為輔助, 從而實現對其他類別數據的預測或識別的技術. 這一學習范式目前已經在計算機視覺和自然語言處理領域中得到了廣泛的研究.
1.1.1 零樣本學習的定義
零樣本學習并不是完全不需要訓練樣本, 其中的“零樣本”是指測試實例對應的類別在訓練階段可以是“零樣本”的. 零樣本學習范式目的在于研究對于特定的某些類缺失對應的訓練樣本情況下, 訓練模型在使用其他類的訓練樣本訓練后是否仍然可以對這些特定類的輸入做出正確的預測.
因此, 零樣本學習問題的解決需要輔助信息的幫助以獲得從源標注空間到目標標注空間的知識遷移,這種輔助信息通常是類別之間的關系. 在零樣本學習中, 訓練樣本所對應的源特征空間, 和測試樣本所對應的目標特征空間, 是相同的; 但是訓練樣本所對應的源標注空間(又稱可見類別, seen class), 和測試樣本所對應的目標標注空間(又稱未見類別, unseen class), 則是不同的. 如果目標標注空間與源標注空間存在交集, 這種情況被稱為廣義開集學習(generalized open set recognition)[14], 也稱廣義零樣本學習(generalized zeroshot learning, GZSL), 否則稱為狹義零樣本學習[1,13], 即目標標注空間和源標注空間完全不同. 在沒有特殊提及的情況下, 零樣本學習一般指狹義零樣本學習.
雖然零樣本學習是為了解決圖像分類領域中實際類別數量遠多于數據集所能提供的類別數量的問題而提出的, 但隨著技術的發展, 零樣本學習已經不僅只在計算機視覺領域發揮作用, 在自然語言處理領域, 尤其是文本相關的任務中也有了重要應用. 為了統一起見,以下針對圖像領域中的零樣本學習做出符號定義. 文本領域內的零樣本學習問題與之相比, 缺少視覺空間部分.



圖1 零樣本學習的一般流程(計算機視覺領域)
零樣本學習的基本思想就是利用訓練階段中訓練樣本Xtr和 可見類別的類別原型Ts的關系學習到訓練階段的映射ftr(·), 并利用輔助信息將此映射推廣到測試階段的映射fte(·), 再利用相似性比較, 如K 近鄰(K nearest neighbor, KNN) 度量等, 從而完成對不存在于訓練階段的類別的實例進行推理判別.
1.1.2 零樣本學習的發展歷程
2009 年, Lampert 等人提出了一種基于屬性的類間遷移學習機制, 即直接屬性預測(DAP)和間接屬性預測(IAP)[3]. 這兩種學習機制在零樣本發展過程中有著非常重要的奠基作用, 并持續影響著直到現在的零樣本學習方法. 圖2 給出了DAP 和IAP 方法的示意圖.在得到圖片特征X后, DAP 通過在訓練階段得到的屬性預測器 αi預測輸入圖片所具有的屬性, 進而推斷輸入圖片所具有的標簽; 而IAP 首先預測輸入圖像的類標簽, 并根據標簽對應的屬性指示向量, 間接得到輸入圖像的屬性特征估計. 這一開創性工作利用貝葉斯定理和支持向量機(support vector machine, SVM), 依據實例包含屬性的概率和實例屬于類別的概率來預測最終結果. 雖然文中沒有提及零樣本學習, 但訓練集與測試集沒有交集, 而且測試集中不包含訓練樣本所包含的標簽集, 這在本質上已經符合了零樣本學習的定義. 同年, Palatucci 等人[15]正式提出了零樣本學習的概念. 這項工作以公式化的方法定義了零樣本學習問題, 并驗證了零樣本學習方法的可行性.

圖2 Lampert 等人提出的基于屬性的類間遷移學習機制
在零樣本學習技術提出之初[16-20], 主要的研究方法是使用淺層視覺特征, 如尺度不變特征變換(scale invariant feature transform, SIFT)、圖像灰度直方圖等,將事物屬性作為語義空間特征, 利用傳統的機器學習方法進行判別. 屬性作為一種直接描述事物所具有的性質的抽象刻畫, 可以容易的完成從可見類別到未見類別的知識轉移, 從而進一步實現對未見類別的推斷或預測. 這一概念最早體現在Larochelle 等人[21]提出的零數據學習(zero-data learning)中, 在定義上與后來正式提出的零樣本學習本質相同.
但是, 以屬性描述事物之間的關系需要耗費巨大的人工成本, 因為屬性的描述是由領域專家來定義的,并且只針對特定數據集. 為此, 人們提出了兩種方式來緩解這種成本消耗. 一種方法是通過可見類別的屬性建立屬性預測映射, 來獲得未見類別的屬性[2,3,22,23]. 這種方法屬于兩階段預測任務, 因而存在中間任務和目標任務的域轉移[24]. 例如, DAP[3]的中間任務是學習屬性分類器, IAP[3]的中間任務是先預測可見類的后驗概率, 然后利用每一類的概率來計算圖像的屬性后驗. 后來, 這種兩階段方法已擴展到屬性不可用的情況. 另一種方式是使用類別的語義描述, 通過自然語言處理領域的相關技術來描述類[25-28]. 目前最普遍應用的方法是由Mikolov 等人提出的詞向量技術[29], 尤其是基于神經語言模型的方法, 包括 CBOW[29]、skip-gram[29]、GloVe[30]等. 這類方法能夠從大型語料庫中自動將單詞或者句子生成具有語義信息的向量表征. 在使用類別語義描述的方法中, CONSE[18]首先預測可見類的概率, 然后通過取前K個最可能的可見類的語義的凸結合, 將圖像特征投影到語義Word2Vec[29]空間, 之后使用K 近鄰方法來得到預測的語義描述.
在零樣本學習中, 除了屬性預測思想, 另一種思想來源于流形對齊. 由于語義特征和視覺特征是分別提取的, 因此兩者對應的空間是相互分離且未對齊的, 但零樣本學習需要綜合利用兩個空間的信息才能夠推理出最后的結果, 為此常采用空間映射的方法進行對齊.例如, Frome 等人[31]提出Devise 模型, 使用一種有效的排名損失公式來學習圖像和語義空間之間的線性映射. Socher 等人[32]使用具有兩個隱藏層的神經網絡來學習從圖像特征空間到Word2Vec[29]空間的非線性投影. 但是, 由于嵌入空間是一個高維空間, 所以容易出現樞紐化問題(hubness problem). 該問題是指: 當特征被投影到高維空間中, 一部分測試集的類別可能會成為很多數據點的最近鄰, 但其本身所對應的類別之間卻不一定具有聯系[33]. 在上述的這些方法中, 最終都是使用K 近鄰來獲得結果, 因此會受到樞紐化問題的影響. 當視覺特征向語義空間映射時, 會使得空間發生萎縮, 點與點之間更加稠密, 從而加重樞紐化問題[34]. 后續的研究表明, 視覺特征空間作為嵌入空間要比語義空間作為嵌入空間的效果好很多[34,35], 即視覺特征空間比語義空間更具區分性, 因此提出了將語義特征映射到視覺空間的端到端深度嵌入模型[35,36]. 將圖像和語義特征嵌入到另一個公共中間空間[37]是零樣本學習方法的另一個方向. 文獻[38]將視覺特征和語義特征映射到兩個獨立的潛在空間, 并通過學習另一個雙線性兼容函數來測量它們的相似性. 在空間映射的思想基礎上, Xian 等人[39]提出了FGN 模型, 并首次將對抗生成網絡(generative adversarial networks, GAN)引入零樣本學習中, 通過在視覺特征空間中生成具有區分性的特征數據來完成從原標注空間到目標標注空間的知識轉移. 之后, 受到因果關系(causal ideas)來研究域適應問題[40]的影響, Atzmon 等人[41]將因果推理引入了零樣本學習.
圖3 按時間線發展總結了零樣本學習發展歷程中的重要思想以及相應的模型方法.

圖3 零樣本學習發展歷程中的重要思想以及相應的模型方法
圖學習也稱為圖數據學習. 圖是一種存在于非歐空間的數據結構, 通常由一組節點和邊構成. 其中, 邊是雙向的圖稱為無向圖, 否則稱為有向圖. 圖數據可被用于建模許多真實世界的場景, 具備表達復雜關系的能力, 并被應用在分子化學[42-44]、推薦系統[45-47]等多個領域.

圖學習是挖掘圖中數據信息和關系信息的算法集合, 通過考慮圖的節點特征、鄰域節點關聯特征以解決實際問題. 圖學習一般包括兩種方法, 一種是將圖轉換為表格, 用傳統的機器學習方法分析; 另一種是將圖建模為網絡, 用基于網絡的機器學習方法分析. 最近深度神經網絡得到快速發展, 相比于傳統機器學習方法,深度神經網絡具有更強大的建模能力[48]. 然而, 傳統的深度神經網絡在全局范圍內共享卷積核等參數, 數據需要具有平移不變性, 這是歐式空間數據才具有的特征. 因此, 傳統深度神經網絡并不能解決圖數據學習的需求.
目前的研究成果認為, 圖學習方法通常分為3 大類[49]. 第一, 圖嵌入, 也稱網絡表示學習(graph/network embedding), 旨在將圖(或圖的部分組成)表示成一個低維向量空間, 同時保留網絡(即對應的圖)的拓撲結構和節點信息, 側重于學習圖的關系結構, 以便在后續的圖分析任務中可以直接使用已有的機器學習算法.第二, 圖神經網絡正則化(graph regularized neural networks), 此時圖并不直接參與模型訓練, 而是充當神經網絡的“正則化器”, 從而引導神經網絡的損失和數據流向, 并以半監督學習為正則化目標. 第三, 圖神經網絡(graph neural networks), 旨在學習具有任意結構的離散拓撲上的可微函數, 并且圖節點和邊都同時參與模型訓練.
圖結構具有的點和邊自然的可以被理解成事物與事物之間的關系, 這和零樣本學習的內涵不謀而合: 零樣本學習正是要利用已有樣本和與未知樣本之間的關系來獲得未知樣本的表示. 2014 年, Deng 等人[50]嘗試利用類別之間的層次關系構建層次-排除圖(hierarchy and exclusion graphs , HEX graphs), 利用圖的邊傳播信息以獲得知識. HEX graphs 雖然不是專門為零樣本學習設計的方法, 但是由于圖本身包括了類別之間的相互關系, 這種相互關系作為先驗知識可以幫助由已知樣本向未見樣本進行推導, 從而實現零樣本學習. 此后,越來越多的研究人員開始嘗試用圖的結構進行零樣本推理.
零樣本圖學習方法就是利用圖學習的相關技術解決零樣本問題. 目前, 大多數零樣本圖學習方法主要針對計算機視覺和自然語言處理等領域的問題. 如第1.2 節中所述, 圖學習方法可以分類為圖嵌入、圖正則化神經網絡、圖神經網絡3 種形式[49], 分別代表: (1) 為圖結構中的節組件生成低維向量表示; (2) 圖充當神經網絡的“正則化器”, 從而引導神經網絡的損失和數據流向; (3) 以圖為載體, 學習具有任意結構的離散拓撲上的可微函數. 本文將這3 種形式引入零樣本圖學習領域, 并將其視為在零樣本圖學習領域中圖的利用方法, 從而將零樣本圖學習體系大致分為3 類, 即基于知識圖譜的零樣本學習方法, 零樣本圖機器學習方法, 和零樣本圖深度學習方法. 其中, 第1 類方法主要應用于自然語言處理領域; 后兩類方法則在計算機視覺, 尤其是圖像分類領域更為常見.
知識圖譜是一種通用的揭示實體之間關系的語義網絡. 與后兩類偏重于使用圖的邊以權重的形式來度量實體相似度以及信息傳播不同, 基于知識圖譜的零樣本學習方法最大的特征是在圖的結構中, 節點和邊一般都是具有意義的向量表示, 也因此本類方法多被用于處理文本領域內的任務. 在基于知識圖譜的零樣本學習中, 一般將不同的知識視為圖的節點, 而知識之間的集成或融合形式視為圖的邊. 在學習過程中, 多采用順序處理(如循環神經網絡)或兩個實體之間的距離度量(如翻譯式嵌入(translating embedding, TransE)[51])等機器學習方法.
第2 類是零樣本圖機器學習方法. 這一類方法的目的是根據已有的圖片或視頻等視覺材料, 結合相應的語義描述知識, 最后采用傳統機器學習方法進行分類、識別任務的演繹推斷. 與圖正則化神經網絡中利用圖引導神經網絡損失類似, 零樣本圖機器學習方法旨在建立圖以對數據形成約束條件, 并限制傳統機器學習方法中的損失函數及信息傳遞方向. 在圖的組織形式中, 一般將視覺材料或語義材料的特征嵌入視為圖結構的節點, 節點之間的相似性度量視為圖結構的邊.
第3 類是零樣本圖深度學習方法. 此類方法的目標任務與零樣本圖機器學習方法相類似, 都是對在訓練時期不可見的類別進行分類或識別. 與傳統神經網絡類似, 圖神經網絡也可以被認為是一種圖特征提取方法, 這種特征提取方法同時考慮了節點本身的特征和節點間的結構信息. 零樣本圖深度學習方法中圖的描述形式與零樣本圖機器學習類似, 本類方法與前一類方法最大的區別在于其直接在圖結構上進行卷積操作.
知識圖譜本質上是一種語義網絡的形式的知識庫,具有有向圖結構. 其中的節點代表實體或概念, 而圖的邊代表實體/概念之間的各種語義關系, 主要用于描述物理世界中的概念和內在關系. 知識圖譜一般使用三元組表示 ( head entity,relation,tail entity), 簡寫為 ( h,r,t),即頭實體(head entity)和尾實體(tail entity)之間的關系(relation).
知識圖譜中邊代表的語義關系是節點代表的知識實體間遷移的方式, 這和零樣本學習中知識需要聯系可見類別和未見類別的內涵是一致的, 即通過某些已經獲得的知識的結合來推理出新的知識. 知識圖譜的思想目前也被廣泛的應用于各種零樣本學習場景, 如推薦系統[52,53]、問答系統[54,55]等.
本節根據知識圖譜在零樣本學習中的利用形式,分為知識圖譜上的零樣本學習和利用知識圖譜的零樣本學習兩種. 前者屬于動態知識圖譜補全問題的范疇,而后者利用知識圖譜的輔助, 從而更好的完成文本處理領域中的任務.
圖4 給出了基于知識圖譜的零樣本學習訓練時期的一般流程圖. 在這項流程中, 輸入僅有可見類別的知識表示T以及任務T?所涉及的所有知識之間的圖結構(知識圖譜). 在這項任務中, 編碼器ENC 通過輸入類別、可見類的表示向量、知識間轉移關系從而預測新類別的表示向量, 并利用已經存在于知識圖譜中的信息指導損失函數.

圖4 基于知識圖譜的零樣本學習方法一般示意圖
2.1.1 知識圖譜上的零樣本學習
一般而言, 大多數的知識圖譜是天生不完整的, 因此提出了基于表示學習的知識圖譜補全(knowledge graph complementation, KGC)算法, 即通過機器學習算法自動地從已有數據中學得新加入知識圖譜的節點或邊的表示, 從而在較少的人工干預下能自動地根據任務構建特征, 讓知識圖譜變得更加完整.
根據三元組中的實體和關系是否屬于知識圖譜中原有的實體和關系, 可以把知識圖譜補全分成靜態知識圖譜補全(static KGC)和動態知識圖譜補全(dynamic KGC)兩種. 前者所涉及的實體以及關系均在原始的知識圖譜中出現過; 而后者涉及的是不在原始知識圖譜中出現的關系以及實體, 從而擴大原有的知識圖譜的實體以及關系的集合. 從定義來看, 動態知識圖譜補全問題本身即屬于零樣本圖學習的范疇.
在文獻[56]中, Zhao 等人提出了JointE 模型, 用來聯合學習知識圖譜和實體描述嵌入. 在JointE 中, Zhao等人根據“實體間通過關系相連, 那么實體是受到關系約束”的這一觀點, 提出了基于結構的實體描述, 豐富了節點表達. 由于JointE 只能用于文本描述的實體, Wang等人[57]則提出了當知識圖譜應用于非文本知識, 即使用在視覺知識上的實體表示方法—TransAE, 在利用實體和關系之間的結構知識的同時, 保留了實體所具有的知識本身. 與傳統方法相比, 多模態知識的引入極大地提高了模型的性能.
上述兩種方法雖然都被用于知識圖譜上的實體零樣本嵌入, 但在訓練階段仍然需要大量標注語料充當監督信息. Li 等人[58]則針對現有的大多數知識圖嵌入模型都是有監督學習范式下的產物, 并且在很大程度上依賴于可獲得的標記訓練數據的質量和數量這一問題做出了改善. 他們提出了一個兩階段的方法來適應無監督的實體名稱嵌入, 隨后基于子空間投影的思想,利用監督模型聯合學習子空間中的投影矩陣和知識表示.
事實上, 在大多數知識圖中, 通常都有對實體的簡明描述, 也就是實體屬性. 為了利用這些描述, 從而提高知識圖譜嵌入表達的質量, Xie 等人[59]充分利用實體描述信息提出了一種新的表示學習方法DKRL (descriptionembodied knowledge representation learning), 目的在于嵌入實體時同時建模關系, 并在知識圖譜補全和實體分類在兩個任務上取得了效果. Ding 等人[60]則提出了使用雙向門控遞歸單元網絡(bidirectional gated recurrent unit network, Bi-GRU)的方法對實體描述建模, 并建立聯合學習實體結構知識和實體描述知識的模型, 加深了知識圖譜內外實體之間的有效關聯性. 其核心思想是認為相似的實體應該在結構和文本特征空間中具有相似的表示, 即實體的兩層結構表示均應具有相似性.
2.1.2 知識圖譜輔助的零樣本學習
知識圖譜作為一種提供實體間顯式關系的圖結構,能夠天然提供文本處理任務中所需要的輔助信息.
針對從文本中識別屬性的任務, Imrattanatrai 等人[61]針對當難以為每個屬性準備訓練句的情況下, 利用從知識圖結構的不同組件的嵌入獲得的屬性的表示, 并通過與模型相結合, 使得在沒有可用的訓練語句的情況下能夠識別屬性.
針對語義歧義消除任務(word sense disambiguation,WSD), Kumar 等人[62]提出了結合意義嵌入的擴展意義嵌入模型EWISE (extended WSD incorporating sense embeddings), 從有意義的注釋數據、字典定義和詞匯知識庫的組合中學習信息, 通過在連續的語義嵌入空間而不是傳統離散的標簽空間上進行預測來執行詞義嵌入.
知識圖譜作為一種顯式地表達知識及它們之間相互聯系的圖結構, 在計算機視覺領域中也存在著廣泛應用. 在這一類應用中, 知識圖譜更多的是作為一種先驗知識庫, 提供實體之間明確的轉移關系, 并利用這種知識關聯傳播信息, 得到未見類別的知識. 由于任務驅動的不同, 模型的輸入不僅包括了知識表示, 還包括文本知識以外的其他模態的知識. 雖然同樣是利用圖的結構關系, 但與基于知識圖譜的零樣本學習關注知識間的上下義語義關系不同, 計算機視覺的領域的任務在討論知識間關系屬性的同時, 更加關注知識間的相似性關系. 根據圖數據的利用形式不同, 可以將面向計算機視覺領域中的零樣本圖學習方法分為兩類, 分別在第2.2 節和第2.3 節進行總結.
圖機器學習的思想與圖正則化神經網絡類似, 旨在建立圖以對數據形成約束條件, 并進一步地學習預測圖的屬性. 雖然引入了圖數據的表示方式, 但是在數據利用及訓練等方面, 仍然遵循傳統機器學習算法, 圖的主要作用是限制傳統機器學習方法中的損失函數及信息傳遞方向. 在圖機器學習中, 一般針對類別建立圖,即將類別的語義特征或視覺特征作為節點, 特征間相似度作為邊[63-65], 也有方法采取節點間的位置關系等非相似度度量的方法作為邊[66,67]. 圖5 給出了零樣本機器學習訓練時期的一般流程圖.

圖5 零樣本圖機器學習的一般流程圖
在圖5 中,X表示視覺特征,T表示由樣本標簽Y得到的類別語義特征, 零樣本圖機器學習的目標在于通過輸入X和T建立模型(圖中的Model), 并輸出預測的語義特征T? , 而實際的語義特征T作為實際值(ground truth), 兩者相比較得到引導模型訓練的Loss, 創建的圖也正是在此時起到作用.
依據圖嵌入的不同輸出[68], 將零樣本圖機器學習方法分為3 類: (1)基于邊嵌入的方法. 這類方法主要側重于利用特征之間的相似度在圖上進行消息傳播,或者對特征進行加強, 從而直接或間接地獲得零樣本學習的推理結果. (2)基于節點嵌入的方法. 這種方法的主要思想是利用圖上節點和邊的信息產生新的節點特征, 并將這種特征應用到解決零樣本學習問題的方法中. (3) 基于混合嵌入方法. 混合嵌入指的是對不同類型圖組件同時嵌入, 例如同時對節點和邊的嵌入. 這類方法主要體現在后續使用子圖匹配[69]、圖割[70]等機器學習算法的模型上.
2.2.1 基于邊嵌入思想的零樣本圖機器學習
邊嵌入方法利用圖的邊進行消息傳遞或利用邊的關系以保持相關特征, 是零樣本圖機器學習方法中應用最為廣泛的一種方式. 一般而言, 邊描述的是節點特征相似度或節點位置關系.
邊嵌入的一種應用方式是消息傳遞, 即通過邊對于節點的連接, 聚合鄰居節點信息, 并將其與中心節點自身的信息進行整合. 在利用圖的邊進行消息傳遞的方法中, Gao 等人延續了零樣本學習問題中屬性學習的思想, 提出了一種統一的半監督學習 (semi-supervised learning, SSL) 框架[63], 通過學習嵌入數據點之間關系的最優圖來為半監督學習模型生成幾何正則化子, 以利用標記圖像和未標記圖像來學習屬性分類器, 最后通過直接屬性預測的方式完成零樣本分類任務. 而為了緩解一般零樣本識別模型僅依賴于未見類別的視覺外觀的局限性, 文獻[71,72]利用視覺特征矩陣度量多目標場景下可見類別與未見類別的相似性, 并融合知識圖譜中的語義信息來校準未見類別的預測. 此外, 層次圖的利用也是一種比較典型的圖消息傳遞方法, 主要針對類別標簽進行建模. 利用層次圖進行零樣本學習, 類別通常是監督學習中廣泛使用的常見類. 在從可見類派生出不可見類的過程中, 每對可見和不可見的類之間的關系通常是從語義空間中的相應原型獲得.Deng 等人首次提出了HEX graphs 的概念[50]. HEX graphs 對標簽之間的依賴關系進行顯式建模, 將類別原型視作圖的節點, 類別之間的聯系視作圖的邊. HEX graphs 的節點采用二值化標簽, 利用傳統機器學習算法中的條件隨機場思想建立分類器. 但是, HEX graphs是具有確定性或硬約束的概率圖形模型, 雖然減少了標簽的數量, 帶來更精確的推理結果, 但也在一定程度上造成模型擬合不好的問題. 為此, Ding 等人針對標簽之間存在的不確定性關系, 將HEX graphs 中的邊替換成“軟”聯系或概率聯系(soft or probabilistic relations),由此建立新的層次圖模型pHEX[73], 并在推理過程中,將pHEX 模型轉換為Ising 模型[74]來執行. 類似的,Kordumova 等人將層次圖的思想引入了場景分類任務中[75], 為了引導對象和場景之間的知識轉移, 研究了類別粒度之間的層次結構, 并針對這些對象建立了層次圖. 這種方法可以引導對象在語義嵌入中的表示, 在不使用任何場景圖像作為訓練數據的情況下識別實例的場景.
邊嵌入的另一種應用方式是信息保持, 主要目的是希望在應用機器學習算法時, 數據能夠盡量保有原先的特征含義. 從空間映射的角度來說, 由于視覺空間與語義空間存在流形不對齊的問題, Deutsch 等人[76]基于多尺度圖變換譜圖小波 (spectral graph wavelets,SGWs)[77]對齊算法, 提出了一種基于圖上局部多尺度變換的流形對齊框架來解決零樣本學習問題. 該方法通過線性投影的方式將語義空間的特征平滑映射到視覺特征空間. 而在文獻[78]中, Zhong 等人則針對跨模態檢索的問題提出了一種跨模態屬性哈希模型(crossmodal attribute hashing, CMAH), 分別對跨模態數據采用圖正則化約束以保持各模態的局部結構信息并減少量化損失.
2.2.2 基于節點嵌入思想的零樣本圖機器學習
節點嵌入的方法是在獲得圖數據的情況下, 根據已有的圖節點特征及特征之間的關系, 生成新的節點特征并用于后續機器學習算法. 節點嵌入的本質是語義空間和視覺空間的對齊問題, 對應的新特征往往是融合了視覺特征和語義特征的共同特點得到的, 因此能夠作為連接語義空間和視覺空間的橋梁.
一種典型的節點嵌入方式是對偶圖思想. 文獻[79]中, Long 等人針對視覺特征投影到共享語義空間的單向范式會產生視覺-語義歧義問題, 提出了一種視覺-語義歧義消除的方法 (visual-semantic ambiguity removal,VSAR). 具體是利用對偶圖正則化嵌入算法, 同時提取視覺信息和語義信息的共享成分, 并基于兩個空間的內在局部結構對齊數據分布, 以減小視覺外觀和語義表達之間的差距. 類似的, 文獻[80]中討論了給定的語義不足以描述視覺對象的情況, Ding 等人提出了一種基于增強視覺特征和潛在語義表示邊緣潛在語義編碼器 (marginalized latent semantic encoder, MLSE) 的結構, 利用語義流形中的內在關系, 通過邊緣化策略增強視覺語義的泛化能力. MLSE 通過自適應圖學習, 實現健壯的圖形引導語義編碼器, 以此尋找潛在語義表示來更好地描述視覺樣本, 有效的緩解了可見類別和未見類別在不同視覺分布上的阻礙等問題.
另一種典型的節點嵌入方法是利用帶有權重的二部圖(weighted bipartite graph)思想[81], 建立視覺空間與語義空間的連接. 這種方法主要是來源于幻影類(phantom class)的應用. 幻影類于2016 年首次被提出[82],是一種既存在于視覺空間, 也存在于語義空間的一種非真實存在類別, 主要作為連接兩種空間的基分類器.在使用幻影類時, 語義空間和視覺特征空間作為二部圖的兩個集合, 在每一個空間內, 真實類別(real class)和幻影類又分別作為二部圖的兩部分節點集合. 主要思想是在保留語義關系的前提下, 使幻影類的凸結合盡量靠近真實類別的視覺特征. 幻影類的應用隨后在Chen 等人[83]的論述中得到了一些改進. 即為了在新的圖結構保留一定的鄰域結構, 在計算邊的權重時, 加入了真實類別鄰居的信息, 從而豐富了真實類別和幻影類之間的對應關系.
隨機行走是另一種常用的基于節點嵌入方法. 文獻[84]針對深度模型的選擇性學習行為導致視覺特征的區分度降低的問題[85], 受到“分而治之”思想的啟發,提出了一種新穎的、普遍適用的框架—解耦度量學習(decoupled metric learning, DeML). DeML 是一種基于混合注意力的解耦方法, 通過將嵌入表示解耦到多個注意力特定的學習者, 并以隨機行走的方式對像素級對象特征進行加強. 類似的, 文獻[86]通過限制最大近鄰數量和最大后繼節點數量, 也以隨機行走的方式得到鄰域結構信息從而表示節點. 隨機行走作為一種無參數的空間注意力方法, 通過在卷積圖中深層反應的感受野上進行圖傳播, 從而能夠更全面的對圖進行采樣, 并進一步地對圖節點特征進行增強.
一種與節點嵌入非常相似的方法是基于全圖嵌入的零樣本學習方法. 基于節點嵌入的方法往往以特征點為融合單位, 但基于全圖嵌入的方法應用方式與節點嵌入不同, 以整個流形空間為融合基礎. Li 等人[87]提出了使用矩陣分解策略學習一個視覺對齊的語義圖,在此基礎上提出了一種非參數圖推理方法, 即流形對齊的圖推理 (graph inference with manifold alignment,GIMA). GIMA 不需要學習跨模態視覺語義映射, 而是從不同的模態空間中提取各自的內在流形, 并將它們表示為圖結構, 進而通過矩陣分解策略來學習視覺上對齊的語義圖, 最后通過簡單的圖推理算法直接預測新測試圖像的類別標簽.
2.2.3 基于混合嵌入思想的零樣本圖機器學習
混合嵌入方法同時針對節點和邊進行圖操作, 從某種程度上來說能夠更多的保留特征信息, 但是也為特征利用帶來了一定的困難.
一種混合嵌入的方式是利用最大子圖匹配算法.Castanon 等人[66]提出了一種以用戶為中心的方法, 通過創建基于屬性和區分關系的稀疏語義圖來對查詢建模. 同時, 用最大鑒別生成樹 (maximally discriminative spanning tree, MDST)來代替求解時間復雜度為NPhard 的精確子圖匹配問題(NP-hard 問題是指無法在多項式的時間里驗證一個解的問題). 該方法通過建模幀圖片內的物體以及物體間的位置關系, 通過最大鑒別子圖匹配 (maximally discriminative subgraph matching,MDSM) 在線性時間內完成了在沒有訓練過程的情況下, 直接對視頻進行跨模態搜索的目標.
另一種混合嵌入的思想來源于圖割(graph cut)算法的使用. 文獻[88]針對文檔修復任務, 提出圖割的結果可以產生更好的邊緣估計. 為此使用完全卷積神經網絡(fully connected neural network, FCNN)進行語義分割, 通過該閾值概率掩碼來構造圖, 并利用背景概率圖對圖割中的邊進行剪枝, 從而給出前景和后景的良好估計. 在計算機視覺任務中, 圖割法常被用于兩階段零樣本學習方法. 文獻[89]提出分組模擬集成(grouped simile ensemble, GSE) 框架, 以明喻 (similes) 作為顯式屬性標注, 以此建模圖片之間視覺表達上的相似性. 首先使用圖割算法和聚類算法利用視覺相似度從中發現隱含的屬性, 并判斷屬于哪一個明喻簇, 再利用語義相似度判斷具體語義類別. 此外, Huang 等人首先提出了一種基于超圖的屬性預測器(hypergraph-based attribute predictor, HAP)[90]. HAP 利用超圖來刻畫數據中屬性的高階和多重關系, 利用類信息和任何可用的輔助信息,將屬性預測問題轉化為正則化超圖割問題. 在HAP 超圖的設定中, 每個頂點對應于一個樣本, 而超邊是共享相同屬性標簽的頂點集.
目前, 雖然圖深度學習方法已經有了廣闊的發展,但在零樣本圖學習中, 應用主要聚焦于圖卷積神經網絡. 總體來說, 基于圖深度學習的零樣本學習方法可以大致分為兩類, 分別是圖信息基于譜域的傳播方法和圖信息基于空間域的傳播方法. 基于頻譜的方法從圖信號處理的角度引入濾波器來定義圖卷積, 其中圖卷積操作被解釋為從圖信號中去除噪聲; 而基于空間的方法將圖卷積表示為領域聚合的特征信息, 當圖卷積網絡的算法在節點層次運行時, 圖池化模塊可以與圖卷積層交錯, 將圖粗化為高級子結構. 譜域上的圖操作具有扎實的理論基礎, 根據圖譜理論和卷積定理, 將數據由空間域轉換到譜域做處理; 而空間域圖操作不依靠圖譜卷積理論, 直接在空間上定義卷積操作, 具有較強的靈活性. 圖6 給出了零樣本圖深度學習的一般流程.

圖6 零樣本圖深度學習的一般流程
零樣本圖深度學習的一般流程與零樣本圖機器學習的流程相似, 只是零樣本圖深度學習直接在圖上進行卷積微分操作.
2.3.1 基于譜域的傳播方法
譜圖卷積建立在圖信號處理的基礎上, 對圖像特征處理具有較大的作用. 尤其在當輸入了大量的圖像特征、語義特征及圖像-語義相關特征時, 這些特征在不經處理的情況下大量使用可能會導致特征利用率降低, 從而使零樣本學習的準確率降低. 譜圖卷積從信號處理的角度, 緩解了信號嘈雜問題, 提高了特征利用率.基于譜域的傳播方法主要遵循如下公式來更新每層的消息傳播:

其中,H(l)為上一層譜域傳播的輸出, 將作為本層傳播的輸入;H(l+1)表 示本層的傳播結果; δ (·)表示激活函數,Wθ表示權重矩陣,A是 對應圖結構的鄰接矩陣,D是對應圖結構的度矩陣. 在譜域傳播中,A一般是一個{0,1}的二值矩陣, 表示兩個節點之間是否有邊的存在; 如果邊具有權重, 則A根據相應的權重值進行調整.
Shen 等人[67]首先針對圖像-草圖檢索問題, 建立了零樣本草圖圖像哈希模型(zero-shot sketch-image hashing, ZSIH). ZSIH 利用克羅內克融合層(Kronecker fusion layer)和圖形卷積來緩解草圖圖像的異構性, 以此增強數據之間的語義關系. 在密集圖傳播模塊(dense graph propagation, DGP)中[91], 通過增加節點連接以豐富圖表達, Kampffmeyer 等人[91]也提出使用譜域卷積的方式來增強特征表達. 為了利用外部知識信息來顯示類別之間的關系, Gao 等人[92]提出了基于結構化知識圖的端到端零樣本動作識別框架, 設計了雙流圖卷積網絡(two-stream graph convolutional network, TS-GCN),使用譜圖卷積減少建模動作-屬性、屬性-屬性和動作-動作之間時產生的信號噪聲. 類似地, 在圖像注釋任務中, 為了緩解多義詞帶來的信號偏差, 以及語義損失所造成的模型泛化問題, Wang 等人[93]使用歸一化拉普拉斯矩陣的譜域卷積來建立單詞向量和圖像之間的映射, 使得目標和源標簽可以一起訓練, 從而緩解了多義詞和廣義零樣本設置中的強偏問題(指預測結果偏向可見類別的情況). Bucher 等人[94]提出的ZS3 網絡(zeroshot semantic segmentation)可以用來解決零樣本圖像分割問題, 其模型結合了豐富的文本和圖像嵌入, 并包含大量上下文信息, 因此譜域卷積的方式可以盡可能的減少由大量特征輸入所帶來的信號噪聲. 此外, 譜域卷積也被用來平衡損失. Xie 等人[95]提出一種區域圖嵌入網絡(region graph embedding network, RGEN)來捕捉圖像不同區域之間的關系, RGEN 將轉移損失和平衡損失納入框架, 緩解了一般零樣本學習模型中的極端區域偏向問題, 降低了圖像某些區域特征包含的噪聲.
2.3.2 基于空間域的傳播方法
基于空間域的圖深度學習方法通過信息聚合繼承的思想來定義相關圖操作, 目的在于利用鄰域節點特征增強中心節點的特征表示. 一般而言, 空間域傳播方法的特征輸入數量或種類比基于譜域的傳播方法少.基于空間域的傳播方法主要遵循如下公式來更新每層的消息傳播:

其中,H(l)為上一層空間域傳播的輸出, 將作為本層傳播的輸入;H(l+1)表 示本層的傳播結果; δ (·)表示激活函數,Wθ表示權重矩陣,A?是對應圖結構的歸一化鄰接矩陣, 鄰接矩陣既可以是一個{ 0,1}的二值矩陣, 表示兩個節點之間是否有邊的存在; 也可以是具有邊權重的權重矩陣.
Wang 等人[96]將語義嵌入作為輸入, 首次將圖網絡應用到了圖像識別領域, 將零樣本學習問題看做一個分類器權重回歸問題, 用視覺分類器對應權重作為監督, 建立類別語義間的圖知識結構, 顯著地提高了零樣本圖識別的準確率. Yan 等人針對零樣本目標檢測問題, 提出了基于圖卷積網絡的語義保持圖傳播模型(semantics-preserving graph propagation model, SPGP)[97].SPGP 結合了一個圖構造模塊和兩個語義保持的圖傳播模塊, 來緩解視覺-語義鴻溝, 同時利用結構知識和描述知識加強了語義表示. 在多標簽分配任務中, Lee等人[98]利用知識圖中定義的不同關系, 最大限度地通過信念傳播(belief propagation, 也稱消息傳播)[99]的方式豐富語義空間中傳播的標簽表示和信息.
在空間域中, 除了一般的圖卷積傳播方法, 受到傳統神經網絡中注意力機制、殘差模塊等思想的啟發,這些網絡設計也被應用到空間域圖神經網絡方法中來.Xiao 等人[100]提出了一種快速混合模型ARGCN-DKG(attention based residual graph convolutional network on different types of knowledge graphs) , 通過引入殘差機制和注意機制, 整合不同的知識圖, 提高不同類別間知識轉移的準確性. Zhang 等人[101]通過圖生成模型來顯式地建模關系, 其提出的可轉移圖生成(transferable graph generation, TGG)模塊旨在捕獲類概念、屬性和可視化實例之間的關系, 由多頭圖注意機制引導鄰近信息聚合, 從而緩解域轉移的適應問題. Wang 等人[102]提出的注意力圖神經網絡(attentive graph neural network,AGNN)則對幀之間的關系建立圖結構, 通過注意力機制有效地捕獲了兩幀之間的相關性, 同時使用遞歸消息傳遞在圖上迭代地傳播信息, 從而捕獲視頻幀之間的高階關系, 并從全局視圖獲得更優化的結果.
目前的零樣本圖學習主要被應用在計算機視覺和自然語言處理領域. 計算機視覺領域的典型應用包括物體識別[82,90,91,96]、圖像檢索[67,78]、圖像語義分割[94]、視頻動作識別[66,92,103]等. 自然語言處理領域的典型應用如知識圖譜表示學習[56,59,60]、知識問答[104]等. 本節重點從應用場景角度介紹零樣本圖學習的評估準則,常用數據集以及目前的最佳效果.
零樣本圖學習方法的評估準則遵循一般零樣本學習的評估方法, 一般而言有如下4 種:
(1) Top-K 精度. Top-K 精度通常用Hit@K 來表示, 指的是預測結果中最有可能的前K個中包含實際結果的概率. Top-K 精度評估被廣泛的應用于自然語言處理和計算機視覺領域. 但一般而言, 自然語言處理中的任務多只報告Top-1 準確率, 而計算機視覺領域中, 尤其是圖像識別任務, 由于類別眾多, 通常會報告更大的K值精度. 例如在ImageNet 數據集[105]上的零樣本識別任務, 研究人員多同時報告Top-1、Top-2、Top-5、Top-10、Top-20 五種識別精度.
(2)F1-score. 即F1 分數, 是另一種常被使用的評價指標, 尤其是在分類的任務中. 它同時兼顧了分類模型的精確率(precision)和召回率(recall), 可以看作是模型精確率和召回率的一種調和平均.F1 分數的計算方法為:

其中,precision指被分類器判定正例中的正樣本的比重,recall指被預測為正例的占總的正例的比重.
(3) 類平均準確度(mean average precision,mAP).一般而言, 大部分任務會采用平均準確率對整體數據集進行評價. 由于在圖像領域中實際存在的長尾分布問題, 導致數據集存在大量的樣本間數量分布不均衡的情況, 此時如果使用平均準確率進行評價, 則不能較好地反映出大數量樣本和小數量樣本之間分類準確度的差異. 因此, 目前廣泛采用全類平均準確度mAP作為零樣本分類評價指標, 即先對每個類統計類內的分類準確度, 再通過求均值計算類平均準確度, 類平均準確度計算公式為:

其中,Accytr和Accyte分別表示在可見類別標簽和未見類別標簽上得到的類平均準確度.
3.2.1 計算機視覺
在計算機視覺領域的應用中, 零樣本圖學習目前主要涉及到以下幾種應用: 目標檢測、圖像識別、動作識別.
在零樣本目標檢測任務中, 有3 個常用數據集, 分別是: PASCAL VOC 2007+2012[106], ILSVRC 2017[107]和MS COCO 2014[108]. PASCAL VOC 數據集主要含有4 大類別, 分別是人、常見動物、交通車輛、室內家具用品. ILSVRC 是ImageNet 的一個子集, 因為考慮到目標規模、圖像雜亂程度、目標平均實例數等不同因素, ILSVRC 對每個基本類別進行了仔細的選擇. MS COCO 則是一個專門為對象檢測和語義分割任務而設計的數據集, 由80 個類別組成. 表1 給出了上述3 個數據集的相關描述和目前零樣本圖學習的SOTA. 其中評估準則一欄的括號內表示評價指標.

表1 零樣本目標檢測常用數據集
在圖像識別任務中, 圖像數據集包括動物類別數據集 AwA[3]、AwA2[109], 鳥類數據集CUB[110], 場景類數據集 SUN Attribute[111]、Places2[112], 混合類別 (包含人物、動物、風景等) 的數據集 aPY[2]和 ImageNet[105]等, 其中前 4 個數據集提供屬性標注, 而 ImageNet 沒有提供屬性標注. 此外, CUB 和 SUN 是細粒度圖像分類數據集, 其中的圖像類間差異較小, 對零樣本圖像分類的挑戰性也較大. 其中屬性數據集的相關內容如表2.由于ImageNet 并沒有屬性標注, 因此在實驗中常采取不同其他數據集的組織利用形式. 在實驗中, 通常會采用“2-hops”“3-hops”和“All”, 即根據ImageNet 標簽層次結構考慮與原始看到的ImageNet 1K 類相距2 跳、3 跳和所有跳的所有類, 對應于1 549、7 860 和20 842類. 目前的ZSL 和GZSL 的SOTA 由Xiao 等人[100]給出, 以Hit@K 作數據集評價標準. 如表3 所示.

表2 零樣本圖像分類屬性數據集

表3 零樣本圖像分類數據集ImageNet 上不同任務的Hit@1 (%)
在圖像標注任務中, 常用數據集包括NUSWIDE[113],COCO[108], IAPR TC-12[114]和Corel5k[115]. 其中NUSWIDE是一個多標簽場景數據集, 并可以用于圖像文本匹配;IAPR TC-12 包含拍攝于世界各地的靜態自然圖像, 內含各種靜態自然圖像的剖面圖, 包括各類運動或行動的圖像, 可以用于評估自動圖像標注方法并研究其對多媒體信息檢索的影響; Corel5k 數據集是圖像實驗的事實標準數據集, 涵蓋多個主題, 并可以用于科學圖像實驗. 目前的SOTA 由文獻[93]給出. 數據集相關由表4 給出.

表4 零樣本圖像標注數據集
在動作識別任務中, 常用數據集包括Olympic sports[116],HMDB51[117]和UCF101[118]. Olympic sports 是從YouTube上下載的, 共783 段運動員參加16 種不同運動的視頻.HMDB51 來自YouTube, Google 視頻等, 動作類型主要包括: 一般面部動作微笑、面部操作與對象操作、一般的身體動作、與對象交互動作、人體動作.UCF101 在動作方面具有最大的多樣性, 動作類別可以分為5 種類型: 人與物體的互動、僅肢體運動、人與人的互動、演奏樂器、體育. 如表5 所示.

表5 零樣本動作識別數據集
3.2.2 自然語言處理
自然語言處理中的零樣本學習任務主要集中在動態知識圖譜補全問題, 以及利用知識圖譜進行輔助文本處理的任務, 如語義消岐、實體屬性識別.
評估知識圖譜嵌入的常用數據集有包括FB15K[51],FB20K[59]. 一般實驗中將FB15K 中的實體視為KG 內實體, 將FB20K 中的額外實體視為KG 外實體. FB20K包含4 組: 頭實體和尾實體都在KG 內(e-e), 頭實體在KG 外但尾實體在KG 內(d-e), 尾實體在KG 內但頭實體在KG 外(e-d), 頭實體和尾實體都在KG 外(d-d).最優結果由文獻[60]給出. 經過處理后, 符合訓練及測試條件的數據集情況如表6 所示, 結果由表7 所示. 更多的數據集使用可以參考文獻[86].

表6 零樣本圖學習知識圖譜嵌入數據集

表7 零樣本圖學習知識圖譜嵌入SOTA (%)
在語義消歧任務中, 常用數據語料庫包括SensEval-2(SE2)[119], SensEval-3 (SE3)[120], SemEval-2013 (SE13)[121],SemEval-2015 (SE15)[122]. 其中, SemEval 類的數據集是SensEval 類數據集的衍生. SE2 的測試集是英語全詞任務, 該數據集包含來自華爾街日報的3 篇文章中的2 282 個注釋. 大多數注釋都是名義上的, 還包含動詞, 形容詞和副詞的注釋; SE3 是對SE2 的手工注釋的改進. SE13 包括兩個消除歧義的任務: 實體鏈接和詞義消歧, 該測試集包含以前版本的統計機器翻譯研討會中的13 篇文章, 共包含1 644 個測試實例, 均為名詞. SE15 相比于SE13 更為復雜, 共包括兩個領域內6 087 條測試實例. 目前, 零樣本圖學習在語義消岐任務上的最優結果均由文獻[62]給出. 如表8 所示.

表8 零樣本圖學習語義消歧數據集(%)
在實體屬性識別的任務中, 常用的數據語料庫有NYK10[123]和WEB19[61]. 其中, NYK10 中有54 種屬性, 共99 783 條句子; WEB19 有271 種屬性, 共45 758條句子. 目前, 零樣本圖學習在文本實體屬性識別任務上的最好結果是Imrattanatrai 等人[61]的工作結果, 如表9 所示.

表9 零樣本屬性識別任務的評估結果 (%)
零樣本學習作為機器學習領域中一個新興的方向,最近幾年取得了飛速的發展. 作為一種衍生于深度學習并且和深度學習有強烈聯系的一種學習范式, 零樣本學習為難以取得大量學習樣本的問題提供了解決方案. 在零樣本學習中, 圖數據結構的利用使得解決方案能夠更好的利用訓練樣本類別和測樣樣本類別之間的關系, 從而完成輔助信息的知識遷移. 目前來看, 零樣本圖學習在未來的研究中存在以下幾個潛在的研究方向:
(1) 從數據輸入的角度來說, 零樣本學習如果想要達到更高的精度, 仍然需要使用屬性標注進行學習. 但隨著訓練類別數量和測試類別數量的增加, 屬性標注的工作量也會隨之增加. 但現有的網絡上已經有許多關于類標簽的描述, 因為這些文本內容是非常容易得到的, 可以大大減少零樣本學習的工作成本. 因而如何建立大量類別標簽之間的知識圖譜是一個值得研究的問題.
(2) 從多模態特征融合的角度來說, 目前零樣本的一個重要處理方法是基于流形對齊理論, 從語義空間向視覺空間映射, 或者從視覺空間向語義空間映射來獲得多模態數據的融合特征. 但是, 這本質上仍然是函數映射的設計, 如果想要提高準確率, 就必須要改進函數映射的設計. 圖學習的引入為這種流形對齊的思想提供了一個新的方向, 即同時考慮語義空間與視覺空間的雙向映射, 從而更全面的利用數據特征.
(3) 從與其他學習范式結合的角度來說, 單樣本學習(one-hot learning)是一個與零樣本學習十分相似的概念, 指的是在學習過程中, 對于某些類別僅使用一個或少量幾個樣本, 使模型完成任務. 零樣本學習和單樣本學習雖然在概念和方法上有一定的相似, 但在具體實現機制上仍有著區別. 如果能將單樣本學習的一些思想內涵引入零樣本學習中, 例如僅在驗證時輸入少量測試樣本對模型進行精調, 可能會提高零樣本學習的結果.
從基礎理論角度來說, 零樣本學習的任務來源是自然界存在的長尾分布而導致的數據不均衡或難以采集, 其解決問題的思想又來自人類的啟發式學習, 與深度神經網絡來源于人類大腦神經的連接模型相比, 零樣本學習范式缺少實際上的理論支撐. 人類的學習機制一直以來都是心理學界甚至生物界廣泛討論和研究的問題, 一些十分流行的假說例如“圖式”模型, 從經驗引導的角度對人類學習行為做出了解釋. 圖式, 指的正是人腦中已有的知識經驗的網絡, 因此, 零樣本學習中,如果能夠引入心理學上人類學習范式的交叉研究, 并構建與人腦中的經驗網絡相似的知識網絡, 或許可以進一步的幫助提高零樣本學習的精度.