999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實體摘要系統的解釋性評測

2021-06-09 13:20:20劉慶霞李俊宥程龔
大數據 2021年3期
關鍵詞:特征標準系統

劉慶霞,李俊宥,程龔

南京大學計算機軟件新技術國家重點實驗室,江蘇 南京 210023

1 引言

知識圖譜可描述實體屬性及實體間關系,提供豐富的知識。這種結構化的知識表示有助于數據融合與推理,便于應用對信息進行智能化處理。知識圖譜已成為大數據環境下一種常用的數據形式,有效支撐著各類互聯網應用,在搜索、電商、社交網絡[1]等領域發揮著重要作用。在知識圖譜中,實體、屬性及其取值構成了描述該實體的一條三元組,DBpedia和Wikidata等知名知識圖譜中包含的三元組總量達到十億級,一些實體被許多三元組描述,例如,DBpedia中描述實體Barack Obama的三元組有一千多條。然而,在基于知識圖譜為終端用戶提供信息服務的應用中,為了避免用戶信息過載,信息呈現空間通常有限,例如谷歌的知識卡片僅能呈現少量三元組,描述實體的三元組數量往往超過應用允許的限制。

研究者將解決上述問題的方法稱作實體摘要(entity summarization,ES),目標是從知識圖譜中描述實體的所有三元組中選取一個最優子集作為摘要呈現,在給定的容量限制內為用戶提供實體的最關鍵信息。實體摘要已為多種下游應用提供了支持[2-3]。現有研究已提出多種實體摘要方法,并實現了各類實體摘要系統。實體摘要系統通常是對多種實體摘要技術特征(以下簡稱摘要特征)的綜合,不同摘要特征體現了實體摘要關注的不同方面,例如實體摘要系統FACES-E[4]綜合了頻度、信息度和多樣度等摘要特征。參考文獻[5]對現有實體摘要系統及其覆蓋的摘要特征進行了較詳盡的介紹。

相比于對實體摘要方法和系統的研究,與實體摘要評測相關的工作較少。評測對于實體摘要問題的研究具有長遠意義,摘要系統效果的比較、摘要特征效用的評價等都亟須評測工作的支撐。近期開展的一項評測工作ESBM(entity summarization benchmark)[6]提供了目前規模最大的實體摘要評測集,并基于該評測集對9個實體摘要系統進行了評測和比較。ESBM以黑盒的形式評測實體摘要系統的效果,但未能解釋設計復雜的摘要系統表現出的具體效果的深層原因。為了推動摘要系統不斷改進,研究者需要深入分析摘要系統的效果,理解系統各組件的具體效用。因此,有必要以白盒形式解釋摘要系統的效果,從細粒度分析各項摘要特征的有效性。

為此,本文在ESBM的基礎上,提出對實體摘要系統進行解釋性評測,這項嘗試被稱為iESBM(interpretive ESBM)。相關代碼和數據已發布在GitHub,并基于ODC-By協議開源。本文仍以通用型實體摘要系統為研究對象,但關注更細粒度層面的分析,從摘要特征的角度對摘要系統的效果進行解釋。具體而言,對于每種摘要特征,使用特征效用率(feature effectiveness ratio,FER)度量該摘要特征在標準摘要中的顯示度,使用特征顯著率(feature significance ratio,FSR)度量該摘要特征在系統生成摘要中的顯示度。FER和FSR分別量化了標準摘要和摘要系統生成摘要的特點,將兩者進行對比,便可從摘要特征的維度對摘要系統的效果進行一定程度的解釋。

本文主要貢獻包括以下3個方面。

● 提出實體摘要的解釋性評測指標:本文提出計算摘要特征的FER和FSR,并具體應用于現有實體摘要系統常用的4種三元組級特征和兩種摘要級特征。

● 細粒度分析3個評測集的標準摘要:本文分析標準摘要的FER,從不同的摘要特征維度刻畫標準摘要具有的性質。

● 對11個實體摘要系統進行解釋性評測:本文分析9個非監督實體摘要系統和兩個有監督實體摘要系統生成摘要的FSR,將結果與FER對比,從摘要特征維度解釋這些摘要系統的效果。

2 相關工作

2.1 實體摘要系統

對現有實體摘要系統的詳細介紹可參見參考文獻[5]。本文關注通用型實體摘要系統,這類摘要系統可被廣泛用于各類場景,并非為特定領域、應用或用戶定制。現有通用型實體摘要系統大多采用非監督方法,利用各種模型集成多種摘要特征。例如,RELIN[7]基于三元組間的隨機游走綜合信息度和相關度對三元組進行排序。DIVERSUM[8]基于屬性的多樣度和流行度生成內容多樣化的摘要。FACES[9]及其擴展FACES-E[4]基于詞袋模型計算三元組間的相似度,對三元組進行聚類,并從不同聚類中選擇信息度和流行度較高的三元組。CD[10]通過構造并求解二次背包問題來選擇高信息度和多樣度的三元組。LinkSUM[11]對PageRank值和反向鏈接值進行線性組合。BAFREC[12]將三元組劃分為兩個層面,元信息層面的三元組根據其內容在本體中的深度進行排序,數據層面的三元組根據流行度進行排序。還有一些方法采用了更復雜的模型,例如,ES-LDA[13]、ES-LDAext[14]和MPSUM[15]等系統引入了主題模型隱含狄利克雷分布(latent Dirichlet allocation,LDA),而KAFCA[16]采用了形式概念分析(formal concept analysis,FCA)。還有一些工作[17-18]嘗試了有監督的實體摘要方法,采用深度神經網絡進行建模,從訓練集中的標準摘要學習出摘要生成模型。

2.2 實體摘要評測集

實體摘要研究者已經構建了一些評測集[6,9,19-21],這些評測集為通用型實體摘要系統的評價提供了標準摘要。然而,對實體摘要系統的全面評測仍較為少見,近期的ESBM工作[6]對9個非監督實體摘要系統進行了評測,這些摘要系統由各類摘要特征綜合而成,包括ESBM在內的現有評測僅以黑盒的方式對摘要系統進行總體效果的評測和比較,并未深入分析各摘要特征對總體效果所起到的作用。鑒于現有評測工作的這一局限性,本文提出新的評測指標,使實體摘要系統的評測不再局限于粗粒度的總體效果對比,而是更細粒度地從摘要特征維度對摘要系統的效果進行解釋。

3 評測指標與實現

3.1 基本概念

知識圖譜的一種典型格式是資源描述框架(resource description framework,RDF)[22],這類知識圖譜又被稱作RDF圖。一個RDF圖T是由形式為<主語, 謂語, 賓語>的三元組構成的集合,這些三元組描述的所有實體構成的集合記為E。對于一個實體e∈E,其描述Desc(e)?T由所有以e為主語或賓語的三元組構成。一個三元組t∈Desc(e)可寫作,描述了實體e的屬性prop(t)及其取值val(t):

其中,pred(t)-表示pred(t)的反屬性。由此,描述實體e的三元組t∈Desc(e)可簡化表示為屬性取值對

實體e的摘要S是e的描述的子集,即S?Desc(e),包含至多k個三元組。本文用Sc表示由摘要系統為實體e生成的待評測摘要,Sg表示e的一個標準摘要。需要注意的是,實體可能有多個標準摘要,因為評測集通常會提供多位專家獨立標注的標準摘要,本文將e的所有標準摘要的集合記為SG。

3.2 評測指標

對于實體摘要系統中的一個摘要特征,本文計算兩項指標:特征效用率和特征顯著率,分別用于分析標準摘要和待評測摘要,再通過兩者的比較來解釋摘要系統的效果。本文將現有摘要特征分為兩類:三元組級特征和摘要級特征。這兩類特征的FER和FSR的計算方式略有不同。

(1)三元組級特征的評測指標

三元組級特征為每個三元組t∈Desc(e)計算一個打分,記作TScore(t)。例如,屬性頻度就是一種常用的三元組級特征,若該特征在摘要中確實有效,即高頻度(或低頻度)的屬性確實更常被選入摘要S,則應觀察到出現在S中的三元組的TScore(即屬性頻度)均值高于(或低于)實體描述Desc(e)中的三元組的TScore均值。具體而言,實體描述Desc(e)與摘要S在上述均值上的差異可表示為:

對計算結果R的觀察主要在于其偏離1的方向(即高于或低于1)以及偏離程度。基于R,三元組級特征的FER和FSR的定義如下。

給定實體e的所有標準摘要的集合SG,三元組級摘要特征的FER定義為SG中各標準摘要相應R值的均值:

給定摘要系統生成的待評測摘要Sc,三元組級特征的FSR定義為Sc相應的R值:

(2)摘要級特征的評測指標

摘要級特征將摘要包含的三元組集合視作整體來計算一個打分,記作SScore。例如,摘要多樣度就是一種常用的摘要級特征,若該特征在摘要中確實有效,即摘要S確實由較多樣(或較相似)的三元組構成,則應觀察到S的SScore值(即多樣度)高于(或低于)實體描述Desc(e)的SScore值。具體而言,實體描述Desc(e)與摘要S在上述值上的差異可表示為:

摘要級特征的FER和FSR同樣采用式(3)和式(4)計算,僅將其中R的計算方法替換為式(5)。

(3)FER與FSR的意義

FER與1的偏離情況體現了摘要特征在標準摘要中的顯示度,可部分體現摘要特征的有效性。類似地,FSR體現了摘要特征在待評測摘要上的顯示度。對于由多種摘要特征綜合而成的摘要系統,這些摘要特征的FSR與相應FER間的差異能夠為摘要系統的最終效果提供部分解釋。

例如,某摘要系統以三元組屬性頻度為摘要特征,若該摘要特征的FER較高(遠大于1),則表明標準摘要包含較多具有高頻度屬性的三元組,說明該摘要特征是有效的,使用該摘要特征有助于提高摘要質量。同時,若該摘要特征的FSR也較高(遠大于1),則表明該摘要系統生成的摘要確實選取了較多具有高頻度屬性的三元組。若FER和FSR都較高且較為接近,則屬性頻度這項摘要特征可作為該摘要系統取得較好效果的解釋之一。

3.3 具體實現

本文選取若干常用摘要特征實現上述評測指標。近期的評測工作ESBM[6]對9個非監督實體摘要系統進行了評測,參考文獻[5]也全面介紹了現有實體摘要系統。本文從這些工作提及的實體摘要系統中選取摘要特征,包括4個三元組級特征和兩個摘要級特征,它們涵蓋了參考文獻[5]中歸納出的三大類摘要特征,即頻度/中心度特征、信息度特征、多樣/覆蓋度特征。

(1)三元組級特征

本文具體實現了4個三元組級特征,其TScore的計算方式互不相同,分別記為屬性局部頻度(local frequency of property,LFoP)、謂語全局頻度(global frequency of predicate,GFoP)、取值全局頻度(global frequency of value,GFoV)和屬性取值對的信息度(informativeness of propertyvalue,IoPV)。

摘要系統DIVERSUM[8]和LinkSUM[11]采用三元組的LFoP作為摘要特征。對于實體描述中的三元組t∈Desc(e),該摘要特征計算了三元組屬性在實體描述中出現的次數:

摘要系統LinkSUM[11]和BAFREC[12]采用三元組的GFoP作為摘要特征。對于實體描述中的三元組t∈Desc(e),該摘要特征計算了三元組謂語在RDF圖T中出現的次數:

摘要系統FACES[9]、FACES-E[4]和BAFREC[12]采用三元組的GFoV作為摘要特征。對于實體描述中的三元組t∈Desc(e),該摘要特征計算了取值val(t)在RDF圖T中出現的次數,即RDF圖中頂點val(t)的度數,對該值取對數,以校正過于傾斜的度數分布,于是得到:

摘 要 系 統RELIN[7]、FACES[9]、FACES-E[4]和CD[10]采用三元組的IoPV作為摘要特征。對于實體描述中的三元組t∈Desc(e),該摘要特征考慮了RDF圖描述的所有實體E,計算了“屬性取值對出現在實體 ∈E的實體描述中”這一概率事件的自信息:

(2)摘要級特征

本文具體實現了兩個摘要級特征,其SScore的計算方式不同,分別記為屬性多樣度(diversity of property,DoP)和取值多樣度(diversity of value,DoV)。

摘要系統DIVERSUM[8]和MPSUM[15]通過避免選取屬性相同的三元組來提高摘要多樣性。本文將這一思路轉化為摘要S的一種SScore值計算方式,定義S的DoP為S中三元組包含的獨特屬性的占比:

摘要系統FACES[9]、FACES-E[4]和CD[10]通過避免選取取值相似的三元組來提高摘要多樣性,相似性計算通常基于取值的文本形式。本文將這一思路轉化為摘要S的一種SScore值計算方式,定義S的DoV為S中兩兩取值的文本差異度的均值:

其中,ISub[23]是常用的字符串相似度度量,ISub(val(ti), val(tj))返回取值val(ti)和val(tj)文本形式的相似度,范圍為0~1。具體到RDF圖中取值的文本形式,對于字面量,取其字面形式(lexical form);對于非字面量,首先檢索其rdfs:label值,若檢索失敗,則取其本地名稱(local name)。

4 評測集設置

4.1 評測集

本文采用實體摘要領域常用且規模最大的兩個評測集:ESBM和FED。

ESBM v1.2是目前最新的實體摘要評測集[6],分為兩個評測子集:ESBM-D和ESBM-L。ESBM-D中的125個實體取自百科知識圖譜DBpedia 2015-10,ESBM-L中的50個實體取自電影知識圖譜LinkedMDB。該評測集為每個實體描述提供由不同專家標注的標準摘要,包括6個以k=5為容量限制的標準摘要和6個以k=10為容量限制的標準摘要。

FED是為評價FACES而專門設計的評測集[9]。該評測集中的50個實體來自百科知識圖譜DBpedia 3.9。為了匹配FACES的處理能力,FED中的實體描述僅包含取值為實體的三元組,不包含取值為類型或字面量的三元組。FED為每個實體描述提供5~8個以k=5為容量限制的標準摘要(均值為7.32)和5~8個以k=10為容量限制的標準摘要(均值為7.16)。

ESBM v1.2提供了對數據的五等份劃分,以支持統一的五折交叉驗證,每折中60%、20%、20%的實體分別用于訓練、驗證、測試。本文采用同樣方式對FED數據進行劃分。

4.2 參評系統

本節對如下11個實體摘要系統進行評測。

● 9個非監督的實體摘要系統,這些系統也在ESBM[6]的評測范圍內,即:RELIN[7]、DIVERSUM[8]、FACES[9]、FACES-E[4]、CD[10]、LinkSUM[11]、BAFREC[12]、KAFCA[16]和MPSUM[15]。

● 兩個有監督的實體摘要系統:ESA[17]和DeepLENS[18]。

對于9個非監督的實體摘要系統,本文使用其在ESBM[6]中的實現及配置,具體而言:RELIN、CD和LinkSUM系統采用超參數對多種摘要特征進行線性組合,本文在0和1之間以0.01為步長調整這些超參數。對于兩個有監督的實體摘要系統,采用其開源實現及配置,在模型訓練時采用早停機制,根據驗證集上的性能在1~50的范圍內選擇訓練迭代次數。

5 評測結果

本節首先展現傳統的非解釋性評測結果,然后基于FER分析各摘要特征的有效性,最后對比FSR和FER,并解釋各實體摘要系統的效果。限于篇幅,本節僅展現容量限制k=5時的評測結果,k=10時的結果請參見GitHub。

5.1 非解釋性評測

本文沿用ESBM[6]采用的評測指標F值(F-score)對實體摘要系統的總體效果進行評價。具體而言,針對實體e,將待評測摘要Sc與各標準摘要Sg∈SG分別進行比較并計算F值,再對這些F值求均值,作為該待評測摘要的最終F值。這里采用以0.01為統計顯著水平的雙邊雙樣本t檢驗,其零假設為:兩個摘要系統在評測集上的平均F值相同。表1給出了各摘要系統在各評測集上F值的均值和標準差。表1還給出了兩兩系統間F值對比的t檢驗結果,若拒絕零假設,則用箭頭標出,向上的箭頭表示當前系統顯著高于對比系統,向下的箭頭表示當前系統顯著低于對比系統,方塊表示兩者差異不顯著。由于FACES和LinkSUM無法處理取值為類型或字面量的三元組,因此表1未給出它們在ESBM-D和ESBM-L上的結果。

可以看出,作為采用深度神經網絡的系統,DeepLENS在3個評測集上顯著優于其他系統。此外,BAFREC和ESA在ESBM-D和ESBM-L上取得了較優結果,而ESA和LinkSUM在FED上取得了較有競爭力的結果。

通過表1,可以對不同摘要系統的效果進行粗粒度的對比。然而,這些結果無法對每個摘要系統的效果進行具體解釋。接下來,本文通過FER和FSR進行細粒度的解釋。

5.2 摘要特征的有效性

對于第3.3節介紹的6個摘要特征,首先分別計算其在3個評測集上的FER。這里采用以0.01為統計顯著水平的雙邊單樣本t檢驗,其零假設為:摘要特征的FER均值等于1。表2給出了各摘要特征在各評測集上FER的均值和標準差。若t檢驗結果顯示拒絕零假設,則用箭頭標出,向上的箭頭表示FER的均值顯著高于1,向下的箭頭表示FER的均值顯著低于1。因此,箭頭直接標記出了有效的摘要特征。

(1)LFoP與DoP

這兩個摘要特征在3個評測集上的FER均值都與1存在顯著差異,且差異的方向在各評測集上一致。

表1 各評測集上的F值(均值±標準差),均值顯著高于或低于其他摘要系統的t檢驗結果(即p<0.01)分別用↑或↓標出;不具備顯著差異的結果用?標出;不適于比較的用-標出

DoP的FER均值顯著高于1,表明標準摘要通常內容較為多樣,包含不同屬性。

LFoP的FER均值顯著低于1,表明標準摘要包含較多低頻度屬性。然而,該結論可能是受上述屬性多樣度影響的結果。具體而言,局部頻度高的屬性通常在實體描述中涉及較多三元組,而標準摘要對多樣度的傾向將導致這些具有相同屬性的三元組中僅有一個被選入標準摘要,從而降低了LFoP的FER。為此,本文追加了一個實驗,嘗試消除多樣度帶來的影響。該實驗在FER的計算中,對實體描述中具有相同屬性的不同三元組僅計一次屬性頻度值,這樣重新計算的FER在各評測集上都顯著高于1,表明由于追求多樣度而選擇不同屬性時,標準摘要實際上仍偏向于選擇局部頻度較高的屬性,如rdf:type和dct:subject。

(2)GFoV與IoPV

這兩個摘要特征在3個評測集上的FER均值都與1存在顯著差異,但在不同評測集上的差異方向有所不同。

GFoV在ESBM-L和FED上的FER均值顯著高于1,表明標準摘要傾向于選擇取值全局頻度較高的三元組。在ESBM-L的實體描述中,大部分取值是實體(83%);而FED中所有取值都是實體。因此,這些評測集上的高FER表明標準摘要更偏好流行度高的實體。然而,在ESBM-D上該摘要特征的FER均值顯著低于1,這是由于ESBM-D的組成與另外兩個評測集不同,其實體描述中大部分取值(63%)為類型或字面量,標準摘要傾向于選擇全局頻度較低的類型和字面量,以提供更具體的信息。

IoPV與GFoV截然相反,其FER均值在ESBM-D上顯著高于1,而在ESBM-L和FED上顯著低于1。這一結果是符合預期的,因為IoPV和GFoV在原理上通常起到相反作用:包含全局頻度較低取值的三元組的信息量通常較大。

(3)GFoP和DoV

這兩個摘要特征在一些評測集上的FER均值與1的差異不顯著。

GFoP在ESBM-D上的FER均值顯著低于1,表明標準摘要選入了較多全局頻度不高的屬性。類似于之前對LFoP的分析,GFoP呈現這一現象的原因同樣是受到標準摘要傾向于選擇多樣屬性的影響。通過追加實驗消除多樣度帶來的影響之后,ESBM-D和ESBM-L上GFoP的FER均值顯著高于1,表明由于追求多樣度而選擇不同屬性時,標準摘要實際上仍傾向于選擇全局頻度較高的屬性,如rdf:type、dct:subject、movie:director和movie:actor。然而,在FED上,重新計算的FER均值與1并無顯著差異。

DoV在ESBM-D和ESBM-L上的FER均值顯著高于1,在FED上略高于1,體現了標準摘要對取值多樣度的偏好。但上述差異的絕對值并不大,這是由于實體描述中取值相似的情況本就不多見。

5.3 摘要系統效果的解釋

本節嘗試基于6個摘要特征初步解釋11個實體摘要系統在各評測集上的摘要效果。對于各摘要系統在各評測集上生成的摘要,計算各摘要特征的FSR。對同一摘要特征的FSR與FER進行比較,采用以0.01為統計顯著水平的雙邊單樣本t檢驗,其零假設為:摘要特征的FSR均值和FER均值相等。表3、表4和表5分別給出了評測集ESBM-D、ESBM-L和FED上各系統各摘要特征FSR的均值和標準差。若接受零假設,則標記為方塊,稱為“相符”,即待評測摘要(對應于FSR值)與標準摘要(對應于FER值)在該摘要特征上的顯示度一致。

表2 各評測集上的FER(均值±標準差),均值顯著高于或低于1的結果(即p<0.01)分別用↑或↓標出

(1)非監督摘要系統

對于這些摘要系統,直接將其FSR結果與系統設計用到的摘要特征進行對照分析。

作為較早的實體摘要系統之一,RELIN在3個評測集上的F值都低于其他系統。從FSR可分析出該結果的兩個原因。其一,RELIN的IoPV特征的FSR在各摘要系統中最高(同時GFoV的FSR最低),事實上RELIN在設計時便強調偏好屬性取值對信息度高(取值全局頻度低)的三元組。對于IoPV特征,RELIN在ESBM-L和FED上的FSR與該摘要特征的FER在1的兩側,即RELIN生成摘要的IoPV與標準摘要的傾向相反;而在ESBM-D上,其FSR過高,遠超標準摘要對該摘要特征的傾向程度。例如,在ESBM-L上,RELIN常選擇屬性movie:filmid和movie:actor_actorid等來描述實體唯一標識的屬性,這些屬性信息度極高,但一般用戶很少希望在摘要中看到,因此極少被選入標準摘要。其二,RELIN的DoV特征的FSR在各摘要系統中最低,且與FER分布在1值的兩側。這是由于RELIN的設計傾向于取值相似的三元組,造成摘要內容的冗余并降低DoV。CD系統作為對RELIN的改進,其F值略高于RELIN。從FSR結果可知,原因之一是:CD相對于RELIN在多樣度上的效果更好,CD的DoV特征的FSR非常高,遠高于RELIN的FSR,這得益于CD最大化取值多樣度的設計。然而,由于同樣傾向于選取屬性取值對信息度高的三元組,CD的IoPV特征的FSR也顯得過高。

表3 評測集ESBM-D上的FSR(均值±標準差),與FER均值不存在顯著差異的項用?標記

表4 評測集ESBM-L上的FSR(均值±標準差),與FER均值不存在顯著差異的項用?標記

表5 評測集FED上的FSR(均值±標準差),與FER均值不存在顯著差異的項用?標記

FACES和FACES-E通常具有比RELIN和CD更高的F值。FACES-E在ESBM-L上的F值顯著優于RELIN和CD,FACES-E的GFoV和IoPV特征的FSR與FER相符,這是由該系統在信息度和取值流行度之間相互平衡導致的。然而在ESBM-D和FED評測集上,FACES-E的GFoV特征的FSR過高,對取值頻度的偏好過強。例如,FACES-E常選擇以owl:Thing為類型取值的三元組,這種三元組意義不大。在FED評測集上,FACES和FACES-E的DoP和DoV特征的FSR與FER相符,這是由于這兩個系統都通過三元組聚類有效提升了摘要多樣度。三元組聚類技術在FACES中用于處理取值為實體的三元組,而FACES-E通過自動識別字面量類型將該技術擴展到取值為字面量的三元組。然而,對于ESBM-D和ESBM-L這兩個包含取值為字面量的評測集,FACES-E的DoP和DoV特征的FSR有時與FER不完全相符,這說明FACES-E對FACES的擴展尚不夠完善。

LinkSUM系統僅處理取值為實體的三元組。在FED評測集上,LinkSUM在非監督實體摘要系統中的F值最高,其IoPV的FSR最低而GFoV的FSR高于大部分系統,并且這兩個摘要特征的FSR與1的偏離方向均與FER一致。LinkSUM主要設計原則為選擇PageRank值較高的實體取值,這通常對應取值較高的全局頻度和較低的自信息,其GFoV和IoPV的FSR印證了該設計原則在最終生成的摘要中起到了正面效果。然而,LinkSUM的DoP特征的FSR相對于FER偏低,這是因為其設計未考慮屬性多樣度。

KAFCA系統是ESBM-D上表現較好的非監督實體摘要系統之一。在ESBM-D評測集上,KAFCA的DoP和DoV特征的FSR都與FER相符,并且在其他摘要特征上的FSR與1的偏離方向均與FER相同。這是因為KAFCA是基于FCA的設計原理實現的。KAFCA優先選擇局部頻度低的屬性,這些屬性通常全局頻度也較低,并對應局部頻度較低的取值。KAFCA偶爾也選擇包含局部頻度較高詞匯的取值,這有助于選入一些盡管攜帶高頻度屬性但仍描述具體信息的三元組,同時避免過于強調屬性和取值多樣度。然而,這種機制在ESBM-L上效果不明顯,KAFCA的DoP和DoV特征的FSR相比于FER顯得過高。例如,ESBM-L中局部頻度較高的屬性movie:actor及其反向屬性movie:actor-被KAFCA完全摒棄,而標準摘要常選入這些屬性。可見,由于缺乏對全局信息的感知,KAFCA無法對具體實體進行進一步區分。

BAFREC是非監督實體摘要系統中在ESBM-D和ESBM-L上F值最高的系統,在FED上的F值也較高。BAFREC將三元組分為兩個層面,采用不同的排序選取策略,但都有多樣度要求。對于元信息層面的三元組,BAFREC傾向于全局頻度高的屬性和全局頻度低的取值(類型或字面量);對于數據層面的三元組,則傾向于全局頻度高的取值(實體)。這些傾向與第5.2節分析的標準摘要的GFoP、GFoV、IoPV和DoP特征的FER較一致,因而印證了BAFREC的良好效果。然而,這些傾向并未充分體現在BAFREC的FSR上,這是由于本文實現的FSR尚未考慮對三元組的分層分析。

(2)有監督摘要系統

對于這些采用深度學習模型的摘要系統,其用到的摘要特征并不明顯,嘗試將其FSR結果與系統設計原理進行對照分析。

DeepLENS在3個評測集上都取得了高于ESA的F值。而在摘要特征上,DeepLENS的LFoP、GFoP、GFoV和IoPV特征的FSR在3個評測集上大多比ESA更接近FER,即DeepLENS比ESA更準確地擬合了標準摘要的這些三元組級特征。在模型設計上,ESA將屬性和取值以符號的形式進行處理,而DeepLENS使用文本形式,并借助預訓練詞嵌入來理解屬性和取值的文本語義。對這一外部信息的利用可能使DeepLENS取得比ESA更好的效果。

ESA和DeepLENS的DoP和DoV特征的FSR總體上低于FER,這一結果并不意外,因為它們的設計中都未顯式考慮摘要級特征。在ESBM-D和ESBM-L評測集上,DeepLENS的DoP特征的FSR接近或高于FER,這是因為該方法在處理dct:subject和movie:actor等局部頻度較高的屬性時,由于包含這些屬性的大量三元組只有很少被選入標準摘要,訓練后的模型簡單回避了這些屬性。

5.4 案例分析

圖1和圖2給出了各摘要系統為兩個實體描述生成的摘要,這兩個實體分別來自ESBM-D和ESBM-L評測集。RELIN系統將信息度最高的屬性filmid(三元組t1a)選入了摘要,然而該屬性從未出現在標準摘要中。RELIN系統生成的摘要中還包含互相冗余的三元組(如三元組t11和t14,三元組t1b和t1c)。CD系統避免了這種冗余,但同樣也將filmid(三元組t4e)選入了摘要。對于屬性writer,CD選擇了取值H. R. Christian(三元組t44),而FACES-E系統則在信息度和取值流行度的平衡下選擇了更優的取值Leigh Chapman(三元組t33)。DIVERSUM系統重視屬性多樣度,卻較忽視對取值的篩選,導致選入不理想取值(如三元組t2b)或冗余取值(如三元組t21和t23)。MPSUM系統同樣重視屬性多樣度,但選擇的取值更易理解,盡管依然存在冗余(如三元組t7a和t7b,t7d和t7e)。KAFCA成功選到屬性為release date的三元組(t63),該三元組的屬性局部流行度較低且取值中包含局部流行度較高的詞匯“1981”。BAFREC系統通過設定超參數的方式固定從元信息層面的三元組中選擇兩個,從數據層面的三元組中選擇3個。元信息層面三元組屬性通常為rdf:type或rdfs:label,這些三元組(如t51和t55,t5a和t5e)也確實常出現在標準摘要中。有監督的兩個實體摘要系統ESA和DeepLENS生成的摘要質量更高,盡管其中也存在一些冗余(如三元組t84和t85)。

圖1 各實體摘要系統為ESBM-D評測集的實體dbr:King_of_the_Moutain_(film)生成的摘要

圖2 各實體摘要系統為ESBM-L評測集的實體film:41408(即電影“The Spiral Staircase”)生成的摘要

6 結束語

本文嘗試對實體摘要系統進行解釋性評測,從摘要特征維度對摘要系統的效果進行分析。通過計算6個常用摘要特征的FER,對3個評測集上的標準摘要進行分析,總結出標準摘要的一些典型特點:標準摘要常包含較多樣的屬性和取值,并傾向于頻度較高的屬性;在取值為實體的三元組中,傾向于較流行的實體取值;在取值為類型或字面量的三元組中,傾向于信息度較大即較低頻的內容。這些發現為未來實體摘要系統的設計改進提供了思路。本文通過計算11個系統的FSR,對這些系統生成摘要的效果進行了分析,將FSR與FER對比,細粒度地揭示了各系統的部分優缺點:非監督實體摘要系統在設計中顯式固定一組摘要特征,往往在不同評測集上表現迥異,泛化能力不足,并且常缺失一些有用摘要特征;有監督實體摘要系統利用深度神經網絡建模,在一定程度上克服了上述不足,避免了人工特征選擇,但現有模型仍較簡單,對多樣度等摘要級特征的表示能力不足。

未來工作可對本文提出的評測指標及其實現進行擴展。首先,本文僅實現了6個常用摘要特征,增加新的摘要特征有助于開展更全面的分析。其次,由于本文提出的評測指標依賴于標準摘要,增加新的評測集有助于對摘要系統的泛化能力開展更全面的檢驗。

猜你喜歡
特征標準系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
2022 年3 月實施的工程建設標準
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
抓住特征巧觀察
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 国产成本人片免费a∨短片| 亚洲91精品视频| 亚洲另类色| 国产精品污视频| 欧美午夜视频在线| 毛片手机在线看| 五月天久久综合国产一区二区| 欧美精品在线看| 在线网站18禁| 中文字幕久久波多野结衣 | 国产亚洲精久久久久久久91| 亚洲a免费| 最新国产高清在线| 成人国产精品网站在线看| 国产精品一老牛影视频| 高清码无在线看| 亚洲av日韩av制服丝袜| 成人亚洲天堂| 精品午夜国产福利观看| 亚洲男人在线| 成年免费在线观看| 男女精品视频| 亚洲最新地址| 又黄又湿又爽的视频| 91精品啪在线观看国产| 重口调教一区二区视频| 香蕉国产精品视频| 亚洲IV视频免费在线光看| 四虎在线观看视频高清无码| 日韩经典精品无码一区二区| 欧美成人一区午夜福利在线| 色婷婷亚洲综合五月| 亚洲高清在线播放| 亚洲视频二| 国产91视频观看| 成人福利在线免费观看| 国产精鲁鲁网在线视频| 亚洲福利片无码最新在线播放| www.亚洲一区| 免费jizz在线播放| 538国产在线| 亚洲第一成年人网站| 亚洲福利片无码最新在线播放| 国产精品亚洲а∨天堂免下载| 国产精品女同一区三区五区 | 国产精品偷伦在线观看| 欧美人人干| 57pao国产成视频免费播放| 欧美亚洲香蕉| 国产永久免费视频m3u8| 久久久噜噜噜| 一级福利视频| 91破解版在线亚洲| 天天躁夜夜躁狠狠躁图片| 91成人免费观看在线观看| 久久亚洲精少妇毛片午夜无码| 国产欧美中文字幕| 亚洲伊人天堂| 自偷自拍三级全三级视频 | 国产在线精品美女观看| 国产91高清视频| 九色视频在线免费观看| 久久久久人妻精品一区三寸蜜桃| 久久香蕉欧美精品| 精品人妻一区无码视频| 视频国产精品丝袜第一页| 一边摸一边做爽的视频17国产| 亚洲大学生视频在线播放| 人妻21p大胆| 亚洲性日韩精品一区二区| 久久久久国产一级毛片高清板| 日韩在线网址| 日韩免费无码人妻系列| 欧美性爱精品一区二区三区| 欧美在线天堂| 伊人色在线视频| 另类专区亚洲| 国产激情无码一区二区APP| 熟妇无码人妻| 国产成人精彩在线视频50| 内射人妻无码色AV天堂| 在线亚洲小视频|