999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)表示增強(qiáng)的類案推薦模型

2023-09-13 03:07:12惠欣恒白雄文王紅艷
關(guān)鍵詞:信息模型

惠欣恒,白雄文,王紅艷,安 娜,張 萌

(中國(guó)航天科工集團(tuán)第二研究院 七〇六所,北京 100854)

0 引 言

隨著大數(shù)據(jù)、人工智能等新一代信息技術(shù)的發(fā)展,從海量數(shù)據(jù)中偵查、檢察和審判已成為我國(guó)建設(shè)智慧司法體系的一項(xiàng)重要課題[1],也是這一領(lǐng)域的未來的發(fā)展趨勢(shì)[2]。在辦案過程中,參考類似裁判規(guī)則的案例,尤其是兩高一部發(fā)布的指導(dǎo)性案例,能夠輔助辦案人員在案件事實(shí)、案件辦理和案件裁判等方面進(jìn)行判斷,以案件相關(guān)信息為基礎(chǔ)構(gòu)建知識(shí)圖譜可以有效提高辦案質(zhì)效[3]。知識(shí)圖譜可以描述海量數(shù)據(jù)中存在的實(shí)體、實(shí)體屬性及關(guān)系[4],將案件相關(guān)信息形成具備豐富語(yǔ)義及潛在語(yǔ)義關(guān)系的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)。本文基于本體構(gòu)建技術(shù)[5,6],梳理案件相關(guān)信息知識(shí)體系與專家知識(shí)結(jié)合,歸納總結(jié)案件相關(guān)信息專業(yè)術(shù)語(yǔ),定義案件相關(guān)信息對(duì)應(yīng)的類及類關(guān)系,并使用自然語(yǔ)言處理、深度學(xué)習(xí)等信息抽取技術(shù)將案件信息結(jié)構(gòu)化,與本體類及關(guān)系建立映射,形成案件知識(shí)圖譜。基于知識(shí)圖譜信息,融合子圖知識(shí)表示和注意力知識(shí)表示,并使用文本卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步增強(qiáng)案件知識(shí)表示,提出一種基于案件知識(shí)表示融合及增強(qiáng)的類案推薦模型,將傳統(tǒng)的單一需求檢索和關(guān)鍵詞匹配檢索轉(zhuǎn)變?yōu)檗k案場(chǎng)景化感知、案件相關(guān)的智能知識(shí)服務(wù)。

1 相關(guān)工作

目前,推薦系統(tǒng)主要分為基于協(xié)同過濾、基于內(nèi)容、基于知識(shí)及混合推薦的推薦方法[7]。基于協(xié)同過濾的推薦方法依靠歷史數(shù)據(jù)進(jìn)行推薦[8],由于推薦性能受到冷啟動(dòng)、數(shù)據(jù)稀疏性等問題的制約,因此引入了聚類、輔助信息以及隱含特征來緩解數(shù)據(jù)稀疏。基于內(nèi)容的推薦方法使用描述信息進(jìn)行推薦,為了與基于知識(shí)的推薦方法進(jìn)行區(qū)分,這里的描述信息側(cè)重于文本描述內(nèi)容,如推薦信息的詳細(xì)特征描述,由于特征描述容易引入噪聲,因此會(huì)使推薦精度變差[9]。基于知識(shí)的推薦方法[10,11]依賴于推薦結(jié)果的特征知識(shí)的表征,傳統(tǒng)的知識(shí)表征取決于人工設(shè)計(jì)的特征知識(shí)是否符合推薦偏好,尤其是在眾多項(xiàng)目中,特征知識(shí)的設(shè)計(jì)需要具備深入的領(lǐng)域知識(shí),因此,將深度學(xué)習(xí)、知識(shí)圖譜等技術(shù)引入知識(shí)表示,是當(dāng)前研究的一個(gè)熱點(diǎn)。混合推薦方法[12]將多種推薦策略整合一起實(shí)現(xiàn)混合設(shè)計(jì),特征組合的混合方案將不同種類的輸入數(shù)據(jù)進(jìn)行組合,會(huì)導(dǎo)致推薦行為包含更多噪聲,對(duì)推薦行為造成干擾。

隨著人工智能、大數(shù)據(jù)技術(shù)的發(fā)展,針對(duì)使用知識(shí)圖譜以及圖譜嵌入獲取知識(shí)特征表示在推薦中的應(yīng)用[11],研究者進(jìn)行了大量研究,進(jìn)一步推動(dòng)了推薦技術(shù)的研究和發(fā)展。通過構(gòu)建知識(shí)圖譜,將領(lǐng)域知識(shí)引入點(diǎn)節(jié)點(diǎn)與邊的定義中[4],并使用知識(shí)圖譜嵌入技術(shù)將文本中包含的領(lǐng)域知識(shí)、語(yǔ)義信息進(jìn)行向量化表示,可以得到領(lǐng)域知識(shí)圖譜的特征表示[12]。

綜上所述,本文提出一種基于知識(shí)表示增強(qiáng)的類案推薦模型,該模型對(duì)文本內(nèi)容進(jìn)行知識(shí)圖譜構(gòu)建以及圖譜嵌入,得到基于知識(shí)圖譜的知識(shí)表征向量,使用注意力機(jī)制抓取關(guān)鍵語(yǔ)義信息,通過文本卷積神經(jīng)網(wǎng)絡(luò)對(duì)知識(shí)表征進(jìn)行增強(qiáng)與融合,最后預(yù)測(cè)推薦候選集的點(diǎn)擊概率。本模型的貢獻(xiàn)在于:

(1)將知識(shí)圖譜的構(gòu)建任務(wù)及圖嵌入任務(wù)進(jìn)行聯(lián)合,提高模型對(duì)特征知識(shí)的表示學(xué)習(xí)能力;

(2)融合子圖表示和注意力表示的案件知識(shí)表示,增強(qiáng)模型對(duì)文本關(guān)鍵特征的語(yǔ)義理解能力,從而進(jìn)一步提升推薦的準(zhǔn)確率;

(3)使用文本卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行案件知識(shí)增強(qiáng)能夠有效提升注意力范圍,進(jìn)一步提升模型對(duì)長(zhǎng)文本的推薦準(zhǔn)確率。

2 基于知識(shí)表示增強(qiáng)的類案推薦模型

本節(jié)提出一種基于知識(shí)表示增強(qiáng)的類案推薦模型(similar case recommendation model based on knowledge representation enhancement,KRE),以智能輔助辦案中類案推薦任務(wù)為例對(duì)模型進(jìn)行介紹。模型框架如圖1所示,首先構(gòu)建案件知識(shí)圖譜,通過知識(shí)圖譜嵌入技術(shù)學(xué)習(xí)案件知識(shí)表示向量;其次,針對(duì)查詢案件與候選案件集,獲取查詢案件與候選案件知識(shí)表示和其對(duì)應(yīng)的子圖表示,并對(duì)查詢案件表示向量與候選案件表示向量進(jìn)行注意力矩陣構(gòu)建,形成融合子圖表示和和注意力表示的案件知識(shí)向量;再基于文本卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步獲取深層次案件知識(shí)特征;最后,定義模型目標(biāo)函數(shù)及損失函數(shù),訓(xùn)練優(yōu)化模型超參數(shù),獲取最優(yōu)模型狀態(tài)。

圖1 推薦模型整體框架

2.1 案件知識(shí)圖譜構(gòu)建

本文基于司法案件研究相似案例推薦模型,屬于對(duì)長(zhǎng)文本數(shù)據(jù)的信息處理與加工。知識(shí)圖譜通過實(shí)體與關(guān)系的三元組刑事表示案件信息:一是有效緩解長(zhǎng)文本帶來的數(shù)據(jù)稀疏性;二是知識(shí)圖譜的強(qiáng)表達(dá)能力,可以更加清晰表示案件的關(guān)系信息。

案件知識(shí)圖譜構(gòu)建的數(shù)據(jù)類型包括結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本。結(jié)構(gòu)化文本涉及的案件基礎(chǔ)信息包括:“案件名稱”、“案件罪名”,非結(jié)構(gòu)化文本只包含“案件案情信息”。本文基于本體構(gòu)建技術(shù),定義案件知識(shí)本體涉及類及關(guān)系[13],并使用信息抽取技術(shù),獲取案件信息三元組 (h,r,t),h,t分別表示案件要素的頭實(shí)體和尾實(shí)體,屬于案件要素集合中的元素,r表示案件要素間的關(guān)系,屬于案件要素關(guān)系集合中的元素。將案件知識(shí)本體的類及關(guān)系與案件要素三元組數(shù)據(jù)進(jìn)行映射,形成案件知識(shí)圖譜,其構(gòu)建流程如圖2所示,由模式層和數(shù)據(jù)層兩大模塊組成。

圖2 案件知識(shí)圖譜構(gòu)建

(1)模式層

模式層作為案件知識(shí)圖譜構(gòu)建的核心,本文通過與法學(xué)專家研究和討論,以案件構(gòu)成要素為基礎(chǔ),對(duì)案件案情信息的結(jié)構(gòu)層次及各層次之間的邏輯關(guān)系進(jìn)行分析,提煉案件要素相關(guān)概念,定義案件要素類和類屬性及關(guān)系,形成案件知識(shí)圖譜模式層結(jié)構(gòu),即完成案件知識(shí)本體構(gòu)建。

本文以案件為核心,依據(jù)案件構(gòu)成要素將案件劃分為5個(gè)類,分別是“案件相關(guān)人”、“案件相關(guān)時(shí)間”、“案件相關(guān)空間”、“案件相關(guān)物”及“案件犯罪行為”,并對(duì)這5個(gè)類的子類進(jìn)行劃分,如圖3所示。

圖3 案件類及子類層次結(jié)構(gòu)

對(duì)案件類及子類進(jìn)行劃分后,形成案件知識(shí)本體整體框架,為了更準(zhǔn)確描述案件涉及語(yǔ)義信息,進(jìn)一步充實(shí)案件知識(shí)本體的內(nèi)容,對(duì)類及子類的關(guān)系屬性進(jìn)行定義,以“盜竊罪”案件案情信息為研究對(duì)象,梳理案件知識(shí)本體類及關(guān)系,見表1。本次案件知識(shí)本體設(shè)計(jì)定義15個(gè)類實(shí)體,12個(gè)關(guān)系屬性,在定義的關(guān)系屬性中,存在一個(gè)關(guān)系對(duì)應(yīng)一個(gè)實(shí)體對(duì)的情況,也存在一個(gè)關(guān)系對(duì)應(yīng)多個(gè)實(shí)體對(duì)的情況。

表1 案件知識(shí)本體類實(shí)體及關(guān)系屬性

(2)數(shù)據(jù)層

司法案件文書數(shù)據(jù)包括非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)類型。通過大量案件文書內(nèi)容分析,發(fā)現(xiàn)文書部分信息相對(duì)規(guī)范,例如報(bào)案時(shí)間、案件案由等基礎(chǔ)信息,可以采用正則規(guī)則匹配方式進(jìn)行信息抽取,而案件案情相關(guān)信息相對(duì)復(fù)雜,采用信息抽取算法抽取案件案情實(shí)體,使用知識(shí)融合及知識(shí)加工技術(shù)將所有案件信息進(jìn)行三元組表示,形成<案件要素頭實(shí)體,關(guān)系,案件要素尾實(shí)體>形式。最后,將模式層的定義的類及關(guān)系與數(shù)據(jù)層獲取的三元組進(jìn)行映射,形成案件知識(shí)圖譜。

本文以案件知識(shí)圖譜作為司法知識(shí)類案推薦模型的數(shù)據(jù)基礎(chǔ),有效解決推薦模型存在的數(shù)據(jù)稀疏性問題,進(jìn)一步提升推薦模型的準(zhǔn)確性。

2.2 知識(shí)圖譜嵌入

案件知識(shí)圖譜是將案件要素以<實(shí)體,關(guān)系,實(shí)體>三元組的方式表示。使用知識(shí)圖譜嵌入技術(shù)將三元組的實(shí)體和關(guān)系表征為低維連續(xù)空間向量,在保留結(jié)構(gòu)信息的基礎(chǔ)上方便后續(xù)的計(jì)算。同時(shí),為考慮知識(shí)圖譜中實(shí)體因長(zhǎng)尾分布導(dǎo)致在表征學(xué)習(xí)過程中變得稀疏,而且知識(shí)圖譜中往往存在噪音的問題,因此在表征學(xué)習(xí)時(shí)加入圖增廣緩解噪音問題。

2.2.1 圖增廣

在案件知識(shí)圖譜G中,為保證知識(shí)圖譜結(jié)構(gòu)的穩(wěn)定性和可解釋性,通過不同的實(shí)體來區(qū)分生成的增強(qiáng)知識(shí)圖譜視圖,以保證在圖增廣的過程中知識(shí)噪音擾動(dòng)的不變性。以案件要素e的子圖Ge為例,設(shè)計(jì)數(shù)據(jù)增廣算子η,也就是說針對(duì)子圖Ge的圖增廣η(Ge)

η(Ge)={(h,r,t)⊙Me}

(1)

這里 (h,r,t) 表示子圖Ge的三元組,即在案件知識(shí)圖譜G中以案件要素e為頭實(shí)體或者尾實(shí)體的三元組,Me∈{0,1} 是二元指標(biāo),采取隨機(jī)取值,⊙表示在三元組采樣過程中是否選擇對(duì)應(yīng)的三元組。

通過數(shù)據(jù)增廣算子η,生成具有不同擴(kuò)充結(jié)構(gòu)視圖的子圖,這樣做可以識(shí)別對(duì)結(jié)構(gòu)變化不太敏感的實(shí)體,并對(duì)有噪聲的實(shí)體連接更寬容,使知識(shí)圖譜嵌入模塊更有助于捕捉相關(guān)實(shí)體間的實(shí)際關(guān)系,并在表征學(xué)習(xí)時(shí)重點(diǎn)關(guān)注。

2.2.2 圖嵌入

考慮到嵌入的多樣性,本文使用基于距離評(píng)分的翻譯向量模型(translating embeddings for modeling multi-relational data,TransE)[14]和基于相似性匹配的語(yǔ)義匹配能量模型(semantic matching energy,SME),訓(xùn)練兩種不同類型的案件知識(shí)圖譜嵌入。

基于距離評(píng)分的TransE,是將知識(shí)圖譜中的實(shí)體集合E和關(guān)系集合R表示在同一空間中,給定的案件三元組 (h,r,t), 向量分別表示為h,r,t∈Rd, 空間結(jié)構(gòu)如圖4所示。在向量空間中對(duì)于頭實(shí)體h和尾實(shí)體t以及關(guān)系r需要滿足h+r≈t, 則對(duì)于每一個(gè)三元組 (h,r,t), 距離評(píng)分函數(shù)表達(dá)式如下

圖4 TransE中實(shí)體和關(guān)系空間表示

fr(h,t)=h+r-t1/2

(2)

其中,· 表示L2距離。

基于相似性匹配的SME在向量表示上與TransE類似,都是將案件三元組 (h,r,t) 的實(shí)體與關(guān)系映射同一空間中。假設(shè)嵌入向量h,r,t∈Rd, 頭實(shí)體嵌入向量h、尾實(shí)體嵌入向量t與關(guān)系嵌入向量r,如圖5所示,SME分別計(jì)算頭實(shí)體與關(guān)系、尾實(shí)體與關(guān)系的語(yǔ)義匹配向量為gu(h,r)、gv(t,r),并將其結(jié)果做點(diǎn)積運(yùn)算,表達(dá)式如下

圖5 SME模型說明

fr(h,t)=gu(h,r)Tgv(t,r)

(3)

進(jìn)一步,使用雙線性函數(shù)組合語(yǔ)義匹配函數(shù)gu(·)、gv(·), 其表達(dá)式如下

{gu(h,r)=(M1uh)°(M2ur)+bugv(t,r)=(M1vh)°(M2vr)+bt

(4)

其中,M1u,M2u,M1v,M2v∈Rd×d是對(duì)應(yīng)的參數(shù)矩陣,bu,bv∈Rd是對(duì)應(yīng)的偏置向量。在雙線性函數(shù)中°表示哈達(dá)瑪(Hadamard)積。

本文采用兩類知識(shí)圖譜嵌入方法是為了發(fā)揮知識(shí)圖譜特有的空間結(jié)構(gòu)性,基于距離評(píng)分的TransE表達(dá)圖結(jié)構(gòu)的性質(zhì)信息,基于相似性匹配的SME表達(dá)節(jié)點(diǎn)間、關(guān)系間的相似性。

2.3 知識(shí)表示增強(qiáng)

知識(shí)表示增強(qiáng)模塊是在圖譜嵌入的基礎(chǔ)上,融合子圖和注意力機(jī)制的知識(shí)表示,并使用文本卷積網(wǎng)絡(luò)進(jìn)一步獲取案件信息特征,增強(qiáng)案件知識(shí)表達(dá)能力。

2.3.1 子圖知識(shí)表示

子圖表示可以作為圖譜嵌入的補(bǔ)充信息,增強(qiáng)實(shí)體之間關(guān)系語(yǔ)義信息。對(duì)于每一個(gè)案件要素都可以作為頭實(shí)體或尾實(shí)體與其它案件要素建立關(guān)系鏈接,形成案件要素對(duì)應(yīng)的一階子圖結(jié)構(gòu),其表示為Ge={(e,r,t)or (h,r,e)|h,t∈Ee;r∈Re},Ee表示與案件要素e直接鏈接的案件要素集合,Re是它們之間的關(guān)系集合。

對(duì)給定的案件要素實(shí)體ei有對(duì)應(yīng)的子圖Gi,ei的子圖知識(shí)表示為其子圖中所有實(shí)體與關(guān)系的嵌入向量的平均值

ei=1|Gi|∑e,r∈Gi(e+r)

(5)

(6)

其中,d表示知識(shí)圖譜嵌入維度,n表示案件的案件要素實(shí)體數(shù)量,4是通道數(shù)量。

2.3.2 注意力知識(shí)表示

注意力機(jī)制是一種利用有限資源從大量信息篩選有效信息的手段[15],本次采用注意力機(jī)制將查詢案件的知識(shí)表示與待查案件的知識(shí)表示進(jìn)行篩選與重新分配,獲取注意力矩陣,進(jìn)一步提升案件特征表達(dá)能力。

如圖6所示,注意力矩陣的構(gòu)建是通過查詢案件知識(shí)表示S0,r∈Rd×n×4與候選案件知識(shí)表示S1,r∈Rd×m×4間矩陣的計(jì)算,形成一個(gè)大小為n×m×4的注意力矩陣,具體計(jì)算表達(dá)式如下

圖6 注意力知識(shí)表示構(gòu)建

(7)

其中,score(·)的計(jì)算方式可以是多種,本文的注意力矩陣采用score(x,y)=1/(1+|x-y|) 進(jìn)行計(jì)算,x表示查詢案件要素ei的嵌入向量,y表示待查案件要素ej的嵌入向量,|x-y| 是計(jì)算兩個(gè)向量間的歐式距離。在得到注意力矩陣A∈Rn×m×4后,將查詢案件和候選案件的注意力知識(shí)表示矩陣表示如下

S0,a=W0·ATS1,a=W1·A

(8)

W0∈Rd×n×4,W1∈Rd×m×4是對(duì)應(yīng)的注意力知識(shí)表示的計(jì)算參數(shù)。

最后,將案件知識(shí)表示矩陣Si,r和注意力知識(shí)表示矩陣Si,a進(jìn)行堆疊,形成完整的案件知識(shí)表示矩陣。其表示如下

Si=[Si,rSi,a]∈Rd×n×8

(9)

當(dāng)i=0時(shí)表示查詢案件,i=1,2,…時(shí)表示候選集合中的候選案件。

2.3.3 文本卷積神經(jīng)網(wǎng)絡(luò)

文本卷積網(wǎng)絡(luò)是對(duì)案件知識(shí)表示進(jìn)行特征提取,進(jìn)一步加深模型對(duì)案件知識(shí)的語(yǔ)義理解能力,其結(jié)構(gòu)由輸入層、卷積層、池化層和輸出層構(gòu)成,如圖7所示,輸入層是融合子圖知識(shí)和注意力知識(shí)的案件表示矩陣,卷積層選擇寬卷積形式,主要是為了在同寬池化后保證輸入的平移不變性,在提高可解釋性的同時(shí)擴(kuò)大案件知識(shí)表示范圍,使模型獲取更全面的案件信息,從而獲取案件知識(shí)更加豐富的語(yǔ)義信息。

圖7 文本卷積神經(jīng)網(wǎng)絡(luò)

輸入層:輸入是式(9)的Si∈Rd×n×8, 其中下標(biāo)i表示案件標(biāo)識(shí),n表示案件i的案件要素實(shí)體數(shù)量,d表示在知識(shí)圖譜嵌入時(shí)案件要素嵌入維度,8是通道數(shù)量,表示案件知識(shí)表示種類。

記卷積向量cj=[ej-m+1,ej-m+2,…,ej]∈Rm·d,0

pj=tanh(Wcj+b)

(10)

其中,W∈Rd1×md是卷積核的集合,是d1個(gè)維度為d×m的卷積核的權(quán)重,b∈Rd1是對(duì)應(yīng)的偏置量。

池化層:采用卷積核的寬度m,將輸入轉(zhuǎn)化為n+m-1寬度的表示向量,為保證卷積后的平移不變性,采用等寬的池化方法,沿案件要素方向進(jìn)行連續(xù)池化,將表示向量轉(zhuǎn)換回n列。

輸出層:對(duì)卷積層結(jié)果全量池化,得到最終案件表示向量。

2.4 模型訓(xùn)練

模型訓(xùn)練部分,考慮到人工神經(jīng)網(wǎng)絡(luò)的存在的過擬合問題以及在具體計(jì)算兩個(gè)向量時(shí)傳統(tǒng)受限與歐式距離的函數(shù)選取問題[16],本文使用基于注意力機(jī)制的因子分解機(jī)(attention factor machine,AFM)算法構(gòu)建推薦模型目標(biāo)函數(shù)的計(jì)算方式。

針對(duì)類案推薦,構(gòu)建查詢案件表示向量v=[v1,v2,…,vi,…]∈Rd與候選案件表示向量x=[x1,x2,…,xj,…]∈Rd。 通過組合特征將兩向量融合后,構(gòu)建自注意力網(wǎng)絡(luò)篩選重要特征,使其對(duì)模型結(jié)果提供不同的貢獻(xiàn)值,其結(jié)構(gòu)如圖8所示。

圖8 AFM計(jì)算流程

首先將兩個(gè)向量進(jìn)行交互,對(duì)特征向量V,X進(jìn)行哈達(dá)瑪積,并將向量中的元素V,X乘積進(jìn)行組合,表達(dá)式如下

fInt(v,x)=∑(i,j)∈d(v°x)vixj

(11)

其中,v,x分別表示查詢案件表示向量v與候選案件表示向量x的元素值,i,j∈d是對(duì)應(yīng)的下標(biāo)值,°表示哈達(dá)瑪積,fInt表示向量融合函數(shù)。

為實(shí)現(xiàn)區(qū)分兩個(gè)不同向量元素乘積對(duì)推薦模型的貢獻(xiàn),對(duì)上述表達(dá)式添加權(quán)重,表達(dá)式如下

fAtt(fInt(v,x))=∑(i,j)∈daij(v°x)vixj

(12)

其中,aij為注意力權(quán)重矩陣,表示不同v,x元素乘積對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。fAtt表示帶有注意力的向量融合函數(shù)。

為進(jìn)一步解決模型訓(xùn)練的泛化問題,利用多層感知器初始化注意力權(quán)重。其輸入是兩個(gè)特征的交互向量,計(jì)算表達(dá)式如下

a′ij=hTReLU(W(v°x)vixj+b)

aij=exp(a′ij)∑(i,j)∈dexp(a′ij)

(13)

其中,W∈Rd×d,b∈Rd,h∈Rd是注意力模型的參數(shù)。設(shè)置激活函數(shù)為ReLU,在初始化權(quán)重上通過softmax函數(shù)進(jìn)行歸一化。

綜上分析,本文推薦模型的目標(biāo)函數(shù)計(jì)算表達(dá)式如下

(v,x)=b0+∑di=1∑dj=1bijvixj+∑di=1∑dj=1aij(v°x)vixj

(14)

∑di=1∑dj=1bijvixj是傳統(tǒng)的線性模型,bij是其模型參數(shù);∑di=1∑dj=1aij(v°x)vixj是兩個(gè)案件特征的交互結(jié)果,aij是對(duì)應(yīng)的注意力權(quán)重,b0是模型的偏置量。

進(jìn)一步,定義模型訓(xùn)練的損失函數(shù)計(jì)算表達(dá)式如下

L=((v,x)-y(v,x))2+λW2

(15)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)來源

為了體現(xiàn)本文提出的KRE模型的有效性,本次實(shí)驗(yàn)選取了清華大學(xué)計(jì)算機(jī)系信息計(jì)算組總結(jié)的中國(guó)法律案例檢索數(shù)據(jù)集(LeCaRD)[17]作為本次的評(píng)估數(shù)據(jù)集。LeCaRD的數(shù)據(jù)都是取自中國(guó)裁判文書網(wǎng)公開的刑事案件數(shù)據(jù),并由法律專家完成候選案例的標(biāo)注與關(guān)聯(lián)判斷標(biāo)準(zhǔn)工作,其中包含107 個(gè)查詢案件和10 700 個(gè)候選案件,每個(gè)查詢案件對(duì)應(yīng)100個(gè)候選案件。與此同時(shí),根據(jù)章節(jié)2.2設(shè)計(jì)的案件本體,對(duì)全部的案件數(shù)據(jù)通過相應(yīng)的實(shí)體識(shí)別、關(guān)系抽取、實(shí)體融合等自然語(yǔ)言處理技術(shù),通過構(gòu)建三元組實(shí)現(xiàn)案件知識(shí)圖譜。具體的數(shù)據(jù)信息見表2。

表2 數(shù)據(jù)集基本統(tǒng)計(jì)信息

3.2 評(píng)價(jià)指標(biāo)

考慮具體推薦場(chǎng)景下使用推薦列表的方式判斷模型性能,基于推薦Top-K任務(wù)方式,選取參數(shù)F1@K和NDCG@K作為模型性能評(píng)估指標(biāo):

(1)F1@K是一種分類模型的評(píng)估指標(biāo),是精準(zhǔn)率(Precision)與召回率(Recall)的調(diào)和平均值,其表達(dá)式如下

F1@K=2×P@K×R@KP@K+R@K

(16)

其中,P@K表示準(zhǔn)確率指標(biāo),R@K表示召回率指標(biāo)。

(2)歸一化折損累計(jì)增益(normalized discounted cumulative gain,NDCG),是一種考慮了返回順序的評(píng)價(jià)指標(biāo),公式如下

NDCG@K=DCG@KIDCG@K

(17)

其中,DCG@K是折損累計(jì)增益(discounted cumulative gain,DCG)在考慮到排序順序的因素,使排名靠前案例的累計(jì)增益(cumulative gain,CG)更高,對(duì)排名靠后的進(jìn)行折損計(jì)算。IDCG@K是理想的折損累計(jì)增益(ideal discounted cumulative gain,IDCG),是一個(gè)完美狀態(tài)。兩者計(jì)算公式如下

DCG@K=∑Ki=1relilog2(i+1)

(18)

IDCG@K=∑|REL|i=1relilog2(i+1)

(19)

在式(18)中,reli是指推薦列表第i個(gè)結(jié)果的真實(shí)相關(guān)性分?jǐn)?shù),在式(19)中,|REL|表示按照reli真實(shí)相關(guān)性從大到小排序,取前K項(xiàng)結(jié)果組成的集合,即按照最優(yōu)的排序方式對(duì)結(jié)果進(jìn)行排序。

3.3 實(shí)驗(yàn)環(huán)境及超參數(shù)

本文提出的基于知識(shí)表示增強(qiáng)的類案推薦模型采用Torch深度學(xué)習(xí)框架和Python3編程語(yǔ)言搭建實(shí)驗(yàn)環(huán)境,并基于CentOS Linux x86_64平臺(tái),使用NVIDIA Tesla A100圖形處理單元(GPU)32 GB顯存進(jìn)行模型訓(xùn)練和驗(yàn)證。具體的實(shí)驗(yàn)參數(shù)設(shè)置如下:

通過調(diào)節(jié)模型訓(xùn)練輪次和卷積核大小,觀察模型性能變化趨勢(shì),確定模型最優(yōu)超參數(shù)。模型訓(xùn)練輪次對(duì)其性能影響如圖9所示,卷積核寬度對(duì)模型性能影響如圖10所示。

圖9 模型訓(xùn)練輪次對(duì)模型性能的影響

圖10 卷積核寬度對(duì)模型性能的影響

由圖9得出,隨著訓(xùn)練次數(shù)的增加,基于5輪次一步的模型評(píng)價(jià)指標(biāo)F1@10、NGCG@10在穩(wěn)步提升,并在訓(xùn)練輪次為35時(shí)同時(shí)達(dá)到最優(yōu),而在模型輪次超過35之后,兩個(gè)評(píng)價(jià)指標(biāo)值都處于波動(dòng)狀態(tài),由此說明,模型的訓(xùn)練輪次為35時(shí),性能達(dá)到最優(yōu)。

由圖10得出,不同卷積核大小對(duì)模型訓(xùn)練的損失函數(shù)值存在一定影響。當(dāng)卷積核大小為1,2,3,4,5,7,10時(shí),模型訓(xùn)練損失值的變化趨勢(shì)是先減后增,當(dāng)卷積核大小為4時(shí),損失值達(dá)到最低,故文本卷積核大小設(shè)置為4。同時(shí),從圖中得出,卷積核大小對(duì)模型損失的整體影響并不大,這是因?yàn)樵谥R(shí)圖譜嵌入層添加了子圖向量,并且知識(shí)圖譜嵌入的訓(xùn)練本身就保留了附近鄰域的信息。

3.4 實(shí)驗(yàn)結(jié)果及分析

基于章節(jié)3.3實(shí)驗(yàn)參數(shù)基本設(shè)置及超參數(shù)調(diào)節(jié),對(duì)基于知識(shí)表示增強(qiáng)的類案推薦模型KRE進(jìn)行實(shí)驗(yàn)分析及性能評(píng)估。本文選取NFM[16]模型、KGNN[11]模型、CKAN[18]模型、KGCL[19]模型在數(shù)據(jù)集LeCaRD上進(jìn)行實(shí)驗(yàn),分析指標(biāo)F1@5、F1@10、NDCG@10、NDCG@30的變化,進(jìn)一步對(duì)比分析模型性能。KRE模型與其它4種模型的實(shí)驗(yàn)對(duì)比結(jié)果見表3。

表3 不同模型性能指標(biāo)比較

由表3可得,KRE模型在4個(gè)計(jì)算指標(biāo)上相較于其它4種模型都取得了最好的結(jié)果。首先,當(dāng)Top-K推薦數(shù)都為10,所有模型的NDCG@10的評(píng)價(jià)指標(biāo)值較高,由此得出,推薦列表排序越靠前,模型準(zhǔn)確率越高;其次,對(duì)于F1@K和指標(biāo)NDCG@K,推薦數(shù)越大,模型性能表現(xiàn)越好,這是因?yàn)槟P屯扑]列表個(gè)數(shù)K值的小幅度增加會(huì)提高F1@K和NDCG@K的值,進(jìn)而提升模型性能。最后,從表中看出,基于知識(shí)圖譜的算法改進(jìn)模型相比沒有使用知識(shí)圖譜信息的模型NFM,F(xiàn)1@K和NDCG@K取值均較大,從而模型推薦性能更好。由此驗(yàn)證,知識(shí)圖譜技術(shù)對(duì)推薦模型性能有一定的改進(jìn)作用。然而,基于知識(shí)圖譜技術(shù)的模型KGNN相比其它模型,表現(xiàn)不是很好,這是因?yàn)镵GNN模型主要依賴節(jié)點(diǎn)的鄰域信息,而鄰域拓?fù)浣Y(jié)構(gòu)對(duì)推薦模型性能改善并不是很大,導(dǎo)致知識(shí)圖譜信息沒有更好運(yùn)用,從而使得KGNN模型性能較差。而基于知識(shí)圖譜技術(shù)的模型KGCL相比其它模型,表現(xiàn)較好,這是因?yàn)镵GCL模型對(duì)知識(shí)圖譜嵌入進(jìn)行改進(jìn),通過加入對(duì)比學(xué)習(xí)來抑制圖譜嵌入學(xué)習(xí)時(shí)存在的噪聲和長(zhǎng)尾分布問題,增加知識(shí)嵌入,豐富模型知識(shí)表達(dá)能力,提升模型推薦性能。

此外,本文還對(duì)模型進(jìn)行了消融實(shí)驗(yàn),討論本文提出的各個(gè)模塊對(duì)推薦模型的貢獻(xiàn)情況,結(jié)果見表4。

表4 消融實(shí)驗(yàn)結(jié)果

表4中w/o表示去掉某一模塊但不影響模型的整體訓(xùn)練。模塊部分包括翻譯距離嵌入(TransE)、語(yǔ)義相似嵌入(SME)兩種基礎(chǔ)嵌入模塊,消融實(shí)驗(yàn)的對(duì)比結(jié)果表明兩種不同方式的向量嵌入有互補(bǔ)效果;子圖嵌入(sub graph,SG)、注意力嵌入(attention,Att)兩種變體嵌入模塊,實(shí)驗(yàn)對(duì)比結(jié)果顯示去掉這兩個(gè)模塊對(duì)模型結(jié)果都有較大的影響,說明子圖嵌入與注意力嵌入的融合對(duì)提升模型準(zhǔn)確率有明顯的作用;點(diǎn)擊預(yù)測(cè)模塊,將模型AFM替換為多層感知器(multilayer perceptron,MLP)預(yù)測(cè),從結(jié)果上看,在預(yù)測(cè)階段使用注意力將兩個(gè)案件的表示向量進(jìn)行交互有一定的效果;最后w/oALL為參照組,表示只保留基礎(chǔ)嵌入模塊TransE和MLP預(yù)測(cè),驗(yàn)證本文提出的模型的效果以及其組成部分的有效性。

綜上分析,本文提的KRE模型在F1@K和NDCG@K下表現(xiàn)均優(yōu)于其它模型,這是因?yàn)镵RE使用知識(shí)圖譜信息作為輔助,通過融合子圖嵌入和注意力嵌入知識(shí),增加模型嵌入知識(shí),并通過文本卷積網(wǎng)絡(luò)增強(qiáng)知識(shí)表示,使得模型具備豐富的知識(shí)表達(dá)能力,更深層次理解語(yǔ)義及關(guān)系,從而提升模型推薦性能。

4 結(jié)束語(yǔ)

本文提出一種基于知識(shí)表示增強(qiáng)的類案推薦模型,基于知識(shí)圖譜構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過圖增廣技術(shù)篩選有效的案件知識(shí)實(shí)體及關(guān)系,并融合子圖嵌入和注意力嵌入進(jìn)行案件知識(shí)表示,使模型對(duì)案件知識(shí)具備更豐富的表達(dá)能力,最后,采用文本卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行案件知識(shí)表示增強(qiáng),進(jìn)一步挖掘模型對(duì)案件知識(shí)的語(yǔ)義理解力,最終提升模型的推薦性能。本文在數(shù)據(jù)集LeCaRD上進(jìn)行實(shí)驗(yàn)分析,得出基于知識(shí)表示增強(qiáng)的類案推薦模型有較好的性能。在后續(xù)的工作中,計(jì)劃針對(duì)推薦模型與圖譜嵌入學(xué)習(xí)的聯(lián)合進(jìn)行深入研究。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 91丝袜乱伦| 欧美成人aⅴ| 国产嫩草在线观看| 国产精品13页| 91九色视频网| 亚洲无码高清免费视频亚洲| 亚洲国产在一区二区三区| 亚洲天堂视频在线观看免费| 欧美日韩中文国产| 狠狠综合久久久久综| 中文国产成人精品久久| 久操中文在线| 熟女日韩精品2区| 99激情网| 丁香婷婷在线视频| 91av国产在线| 亚洲黄网在线| 亚洲精品第一在线观看视频| 欧美色视频网站| 色噜噜狠狠色综合网图区| 亚洲精品中文字幕无乱码| 色综合国产| 色婷婷成人网| 午夜精品一区二区蜜桃| 亚洲欧洲日韩久久狠狠爱| 精品福利国产| 欧美激情综合一区二区| 国产在线八区| 人妻一本久道久久综合久久鬼色| 亚洲VA中文字幕| 天天摸夜夜操| 无码啪啪精品天堂浪潮av| 日本一本在线视频| 一区二区在线视频免费观看| 91无码视频在线观看| 四虎国产永久在线观看| 精品无码国产自产野外拍在线| 亚洲欧美不卡视频| 国外欧美一区另类中文字幕| 欧美久久网| 美女视频黄频a免费高清不卡| 九色视频在线免费观看| 国产H片无码不卡在线视频| 欧美在线观看不卡| 国产91高跟丝袜| a欧美在线| 超薄丝袜足j国产在线视频| 国产乱论视频| 无码专区国产精品一区| 夜夜爽免费视频| 国产精品永久免费嫩草研究院| 91青草视频| 亚洲AV无码久久精品色欲| 久久免费看片| 18禁黄无遮挡网站| 国产女人综合久久精品视| 国产99在线观看| 人妻夜夜爽天天爽| 五月天久久综合| a级毛片免费网站| 国产综合在线观看视频| 日本91在线| 国产精品久久自在自2021| 污视频日本| 成年人免费国产视频| 免费人欧美成又黄又爽的视频| 五月婷婷丁香综合| 99久久精品无码专区免费| 亚洲综合色婷婷| 中文字幕亚洲综久久2021| 国产精品黄色片| 国产va视频| 精品1区2区3区| 又污又黄又无遮挡网站| 99久久精品国产自免费| 久久精品最新免费国产成人| 国产美女视频黄a视频全免费网站| 欧美福利在线观看| 久久频这里精品99香蕉久网址| 国产成人无码播放| 人妻丰满熟妇AV无码区| 综合人妻久久一区二区精品|