999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向航空領(lǐng)域HowNet構(gòu)建的術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注

2021-03-16 13:29:06趙超麗王裴巖蔡?hào)|風(fēng)
關(guān)鍵詞:排序語(yǔ)義分類

趙超麗 王裴巖 蔡?hào)|風(fēng)

(沈陽(yáng)航空航天大學(xué)人機(jī)智能研究中心 遼寧 沈陽(yáng) 110136)

0 引 言

HowNet是使用最為廣泛的可計(jì)算中文常識(shí)語(yǔ)義知識(shí)庫(kù),能夠支持相似度計(jì)算[1]、相關(guān)度計(jì)算[2]、傾向性計(jì)算[3]和神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[4-6]訓(xùn)練等,被廣泛應(yīng)用于自然語(yǔ)言處理的各個(gè)領(lǐng)域。HowNet面向通用領(lǐng)域,但對(duì)專業(yè)領(lǐng)域如航空領(lǐng)域的自然語(yǔ)言理解任務(wù)的支持能力尚顯不足。

近年來(lái),文獻(xiàn)[7-9]先后進(jìn)行了對(duì)面向航空領(lǐng)域的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建方法的研究,基于HowNet語(yǔ)義理論體系對(duì)HowNet在航空領(lǐng)域的應(yīng)用進(jìn)行了擴(kuò)展。但現(xiàn)有的航空領(lǐng)域HowNet構(gòu)建方法還未能實(shí)現(xiàn)大規(guī)模構(gòu)建,主要困難在于HowNet定義的動(dòng)態(tài)角色種類較多,共計(jì)116種(2012版[10]),使其選擇范圍較大,增加了航空術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注難度。而術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注是航空領(lǐng)域HowNet構(gòu)建的關(guān)鍵環(huán)節(jié),其直接影響航空領(lǐng)域HowNet的規(guī)模與質(zhì)量。就術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色的標(biāo)注方法而言,文獻(xiàn)[7]采用了手工標(biāo)注的方法,為后續(xù)開展自動(dòng)化標(biāo)注研究積累了語(yǔ)義資源。文獻(xiàn)[8]采用了基于角色框架填充的方法,該方法雖實(shí)現(xiàn)了自動(dòng)化標(biāo)注,但術(shù)語(yǔ)內(nèi)部詞語(yǔ)之間的動(dòng)態(tài)角色被固定,導(dǎo)致系統(tǒng)泛化能力較低。文獻(xiàn)[9]提出了基于最大熵分類、基于相似度計(jì)算、基于最大熵分類與相似度計(jì)算相結(jié)合的一系列方法,并且推薦多個(gè)動(dòng)態(tài)角色供用戶參考,最終實(shí)現(xiàn)了術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色的標(biāo)注,但該方法僅僅依靠將一些語(yǔ)義特征集中訓(xùn)練分類器仍未能很好地解決動(dòng)態(tài)角色種類多造成標(biāo)注困難的問題。

針對(duì)該問題,本文提出了一種基于KNN分類算法的術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注方法。首先通過(guò)對(duì)術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF項(xiàng)的分析對(duì)訓(xùn)練集進(jìn)行預(yù)選擇,有效地降低了動(dòng)態(tài)角色關(guān)系類型選擇范圍。然后利用DEF及詞向量?jī)煞N方法所蘊(yùn)含語(yǔ)義信息的差異性,提出了一種訓(xùn)練單位排序表合并算法,有效地提高了動(dòng)態(tài)角色排序準(zhǔn)確性。最后經(jīng)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,當(dāng)推薦的動(dòng)態(tài)角色數(shù)量為10時(shí),推薦結(jié)果的準(zhǔn)確性達(dá)95%以上,從116種動(dòng)態(tài)角色關(guān)系類型中過(guò)濾出10個(gè)動(dòng)態(tài)角色,有效降低了選擇范圍,且絕大多數(shù)情況下正確動(dòng)態(tài)角色關(guān)系類型被排在第一位或第二位,能夠快速選取到正確動(dòng)態(tài)角色關(guān)系,提升了標(biāo)注準(zhǔn)確率和效率。

1 相關(guān)概念

一些本文用到的相關(guān)概念定義如下:

(1) 術(shù)語(yǔ)內(nèi)部詞語(yǔ),是指構(gòu)成術(shù)語(yǔ)的詞語(yǔ),如:“工程”“管理”“標(biāo)準(zhǔn)”均為術(shù)語(yǔ)“工程管理標(biāo)準(zhǔn)”的內(nèi)部詞語(yǔ)。

(2) 標(biāo)注單位,是指術(shù)語(yǔ)經(jīng)過(guò)內(nèi)部依存結(jié)構(gòu)分析所確定的具有依存關(guān)系的詞對(duì),表示為(w1,w2),其中依存方向?yàn)閣1依存于w2。例如,術(shù)語(yǔ)“工程管理標(biāo)準(zhǔn)”經(jīng)過(guò)術(shù)語(yǔ)內(nèi)部依存結(jié)構(gòu)分析,可以得到如下2個(gè)標(biāo)注單位:(工程,管理)、(管理,標(biāo)準(zhǔn))。

(3) 訓(xùn)練單位,是指由標(biāo)注單位和動(dòng)態(tài)角色組成訓(xùn)練集中的一個(gè)樣例,表示為((w1,w2),EventRole),其中:(w1,w2)為標(biāo)注單位,EventRole為動(dòng)態(tài)角色。比如,((工程,管理),patient)。

(4) 首義原,是指術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF項(xiàng)中的第一個(gè)義原。比如術(shù)語(yǔ)“工程管理標(biāo)準(zhǔn)”中內(nèi)部詞語(yǔ)“工程”選擇的DEF項(xiàng)為:DEF={affair|事務(wù):domain={industrial|工}},則內(nèi)部詞語(yǔ)“工程”DEF項(xiàng)的首義原為“affair|事務(wù)”。

(5) 術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注,是指采用HowNet定義的動(dòng)態(tài)角色體系為術(shù)語(yǔ)中所有具有依存關(guān)系的內(nèi)部詞對(duì)之間的語(yǔ)義關(guān)系進(jìn)行標(biāo)注,明確了術(shù)語(yǔ)內(nèi)部非核心詞語(yǔ)之間以及非核心詞與核心詞之間的語(yǔ)義關(guān)系,它為領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)中術(shù)語(yǔ)DEF(概念描述)[11]的生成標(biāo)注了內(nèi)部詞語(yǔ)之間的語(yǔ)義關(guān)系,使得術(shù)語(yǔ)內(nèi)部的簡(jiǎn)單概念可以通過(guò)動(dòng)態(tài)角色有機(jī)關(guān)聯(lián)起來(lái),從而形成表示術(shù)語(yǔ)本身語(yǔ)義知識(shí)的復(fù)雜概念[9],在領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建過(guò)程中起著關(guān)鍵性的作用。例如:“((工程,管理),patient)、((管理,標(biāo)準(zhǔn)),host)”,其中:“工程”“管理”“標(biāo)準(zhǔn)”均為術(shù)語(yǔ)“工程管理標(biāo)準(zhǔn)”的內(nèi)部詞語(yǔ),“工程”依存于“管理”“管理”依存于“標(biāo)準(zhǔn)”,動(dòng)態(tài)角色“patient”表示“工程”是“管理”的受事者,動(dòng)態(tài)角色“host”表示“管理”是“標(biāo)準(zhǔn)”的宿主。根據(jù)該術(shù)語(yǔ)的內(nèi)部依存結(jié)構(gòu),將術(shù)語(yǔ)內(nèi)部詞語(yǔ)的DEF以及兩者之間的動(dòng)態(tài)角色按照知識(shí)系統(tǒng)描述語(yǔ)言(Knowledge Database Mark-up Language,KDML)[11]的規(guī)定而生成的DEF如下:DEF={Standard|標(biāo)準(zhǔn):host={manage|管理:patient={affair|事務(wù):domain={industrial|工}}}},該術(shù)語(yǔ)DEF的結(jié)構(gòu)分析如圖1所示。

圖1 術(shù)語(yǔ)“工程管理標(biāo)準(zhǔn)”DEF的結(jié)構(gòu)分析

2 術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注方法

2.1 基于首義原的KNN樣本預(yù)選擇

HowNet先把世界知識(shí)本體進(jìn)行定義,然后在定義里作具體的區(qū)分,采取自上而下的方法,并采用以義原為基的策略。基于此思想,本文首先使用術(shù)語(yǔ)內(nèi)部?jī)稍~語(yǔ)DEF項(xiàng)中的首義原對(duì)訓(xùn)練集進(jìn)行預(yù)選擇;接著對(duì)動(dòng)態(tài)角色關(guān)系做進(jìn)一步的標(biāo)注。

標(biāo)注單位(w1,w2)對(duì)應(yīng)的義原類別組合可表示為:(Class1,Class2)。其中:Class1、Class2分別表示詞語(yǔ)w1和w2已選DEF項(xiàng)的首義原所屬的義原類別。HowNet將義原分為屬性類、屬性值類、事件類、實(shí)體類四類。因此,本文根據(jù)標(biāo)注單位對(duì)應(yīng)的義原類別組合可將已有的樣本數(shù)據(jù)分為16類。

HowNet中每個(gè)動(dòng)態(tài)角色都有其特定的描述對(duì)象,使其接納標(biāo)注單位的條件比較苛刻,從而造成有些動(dòng)態(tài)角色關(guān)系類型只出現(xiàn)于固定的幾個(gè)義原類別組合對(duì)應(yīng)的訓(xùn)練單位中。比如,動(dòng)態(tài)角色host用于標(biāo)注屬性的宿主,一般多出現(xiàn)于義原類別組合為(實(shí)體類,屬性類)所對(duì)應(yīng)的訓(xùn)練單位中;動(dòng)態(tài)角色degree、scope分別用于描述屬性值的程度、范圍;動(dòng)態(tài)角色agent表示行動(dòng)的事件類型中“變關(guān)系”“變狀態(tài)”“變屬性”和“使之動(dòng)”四類事件中充當(dāng)“變”這一功能的實(shí)體,一般情況只會(huì)在義原類別組合為(實(shí)體類,事件類)所對(duì)應(yīng)的訓(xùn)練單位中出現(xiàn)。

在樣本預(yù)選擇過(guò)程中,首先利用HowNet的義原分類體系Taxonomy[10]。圖2為HowNet 2012版中義原分類體系部分展示圖,從上到下從左往右依次為屬性類、屬性值類、實(shí)體類和事件類,該四個(gè)義原類別包含的義原個(gè)數(shù)分別為245、887、154和812個(gè)。該分類體系為標(biāo)注單位中術(shù)語(yǔ)內(nèi)部詞語(yǔ)找到其DEF項(xiàng)中首義原所屬的義原類別,從而獲得標(biāo)注單位對(duì)應(yīng)的義原類別組合。然后在已有的樣本數(shù)據(jù)中選擇與其具有相同義原類別組合的數(shù)據(jù),作為下一過(guò)程即基于KNN分類算法的動(dòng)態(tài)角色標(biāo)注方法的訓(xùn)練樣本數(shù)據(jù)。

圖2 HowNet中義原分類體系部分展示圖

2.2 基于KNN分類算法的動(dòng)態(tài)角色標(biāo)注

由于目前國(guó)內(nèi)外許多大規(guī)模的知識(shí)庫(kù)大多都面向通用領(lǐng)域[12-14],在特定領(lǐng)域研究較少,造成領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的可獲得標(biāo)注資源匱乏,且標(biāo)注成本代價(jià)較高,限制了當(dāng)前需要更多數(shù)據(jù)支撐的深度學(xué)習(xí)等主流算法的使用。KNN算法是一種基于實(shí)例學(xué)習(xí)的分類算法,適合多分類任務(wù),不需要構(gòu)建分類模型,對(duì)新增類別有較好的適應(yīng)能力[15]。本文將動(dòng)態(tài)角色標(biāo)注轉(zhuǎn)化成對(duì)標(biāo)注單位的分類問題,并且將標(biāo)注單位所對(duì)應(yīng)的動(dòng)態(tài)角色關(guān)系類型作為分類的類別。

本文將待標(biāo)注動(dòng)態(tài)角色的標(biāo)注單位與訓(xùn)練集中每一個(gè)訓(xùn)練單位中的標(biāo)注單位進(jìn)行相似度計(jì)算,并將此相似度值作為訓(xùn)練單位的分值,根據(jù)分值的大小將訓(xùn)練單位按從高到低的順序進(jìn)行排序,從而得到訓(xùn)練單位排序表Score={s1,s2,…,sn},該訓(xùn)練單位排序表為KNN分類算法找到了相似度與待分類樣本數(shù)據(jù)最近的K個(gè)鄰居,具體如下所示:

(1)

(2)

本文將KNN分類算法中最近鄰樣本數(shù)據(jù)的獲取轉(zhuǎn)化為訓(xùn)練集中訓(xùn)練單位排序表的生成。KNN分類算法是對(duì)最近鄰樣本采用多數(shù)表決投票法來(lái)決定待分類樣本的類別,因此最近鄰樣本數(shù)據(jù)選取的好壞即訓(xùn)練單位排序表生成策略制定的優(yōu)劣對(duì)分類效果有著重要影響。

下面介紹生成訓(xùn)練單位排序表的三種策略,分別為基于詞語(yǔ)DEF相似度的排序表生成、基于詞向量相似度的排序表生成、訓(xùn)練單位排序表合并。其中,DEF是對(duì)詞語(yǔ)概念定義的描述,包含有豐富的義原信息,但脫離了具體上下文語(yǔ)境;而詞向量表示與詞語(yǔ)DEF所隱含的語(yǔ)義信息不同,它更能反映上下文信息、主題信息和詞的功能等,蘊(yùn)涵了詞語(yǔ)在大規(guī)模數(shù)據(jù)集中的語(yǔ)義信息,詞語(yǔ)之間的語(yǔ)義和句法關(guān)聯(lián)關(guān)系在空間中也得到很好的體現(xiàn)[16]。本文利用DEF及詞向量?jī)煞N方法蘊(yùn)涵語(yǔ)義信息的差異性,提出了一種訓(xùn)練單位排序表合并算法,該算法最大化地發(fā)揮出基于不同詞語(yǔ)語(yǔ)義表示的相似度計(jì)算的優(yōu)勢(shì),實(shí)現(xiàn)了兩者排序的互補(bǔ),提高了正確動(dòng)態(tài)角色關(guān)系類型在候選答案中的排序準(zhǔn)確性。

該算法定義了HowNet義原間的相似度計(jì)算公式。通過(guò)利用HowNet中DEF項(xiàng)由不同義原構(gòu)成,加權(quán)組合各個(gè)部分義原相似度實(shí)現(xiàn)了登錄詞的相似度計(jì)算。通過(guò)對(duì)未登錄詞進(jìn)行概念切分和語(yǔ)義自動(dòng)生成,解決了未登錄詞無(wú)法參與語(yǔ)義計(jì)算的難題,實(shí)現(xiàn)了任意詞語(yǔ)在語(yǔ)義層面上的相似度計(jì)算[17]。

(3)

3) 訓(xùn)練單位排序表合并算法。

提出了一種訓(xùn)練單位排序表合并算法。已知基于詞語(yǔ)DEF的相似度計(jì)算生成的訓(xùn)練單位排序表ScoreD={d1,d2,…,dm}和基于詞向量的相似度計(jì)算生成的訓(xùn)練單位排序表ScoreE={e1,e2,…,em}。首先將表ScoreD中的元素di和表ScoreE中的元素ei依次按照各自所在表中順序各取前n個(gè),然后根據(jù)動(dòng)態(tài)角色數(shù)量的大小將該2n個(gè)訓(xùn)練單位按從高到低的順序進(jìn)行排序,從而得到新的訓(xùn)練單位排序表ScoreC={c1,c2,…,c2n}。在該訓(xùn)練單位排序表合并算法中,未采用對(duì)兩種相似度值規(guī)范化線性組合后再排序,原因在于該方法會(huì)拉低標(biāo)注單位的相似性。

下面將舉例對(duì)該算法進(jìn)行說(shuō)明與分析。例如,待標(biāo)注動(dòng)態(tài)角色的標(biāo)注單位為(信號(hào),選擇),該標(biāo)注單位希望從訓(xùn)練集中學(xué)習(xí)到的動(dòng)態(tài)角色為“content”,動(dòng)態(tài)角色“content”表示“信號(hào)”是“選擇”的內(nèi)容,其訓(xùn)練單位形式表示為:((信號(hào),選擇),content)。由三種策略得到的訓(xùn)練單位排序表部分結(jié)果如圖3、圖4、圖5所示,訓(xùn)練單位排序表合并算法中n取值為5。

圖3 訓(xùn)練單位排序表ScoreD 圖4 訓(xùn)練單位排序表ScoreE

圖5 訓(xùn)練單位排序表ScoreC

可以看出,當(dāng)KNN分類算法中的K取值為9時(shí),基于訓(xùn)練單位排序表ScoreD、ScoreE、ScoreC生成的候選動(dòng)態(tài)角色集分別為ResultD{RelateTo、content、means}、ResultE{RelateTo、content、scope}、ResultC{content、RelateTo、time},其中候選動(dòng)態(tài)角色集中包含前三位對(duì)應(yīng)排序位置上的動(dòng)態(tài)角色,并且正確動(dòng)態(tài)角色“content”在候選動(dòng)態(tài)角色集ResultC中位列第一,而在候選答案集ResultD、ResultE中都只位列第二。由此可知,基于本文提出的訓(xùn)練單位合并算法生成最近鄰的KNN算法,提高了正確動(dòng)態(tài)角色在候選答案集中的排序準(zhǔn)確性。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)從手工構(gòu)建好的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)[7]中抽取出500條航空術(shù)語(yǔ)DEF。人工將每條術(shù)語(yǔ)DEF分解成若干個(gè)訓(xùn)練單位以及術(shù)語(yǔ)內(nèi)部詞語(yǔ)DEF,去除重復(fù)的數(shù)據(jù)后,數(shù)據(jù)集最終共有1 587個(gè)不同的訓(xùn)練單位,共出現(xiàn)了38種動(dòng)態(tài)角色,其分布情況如圖6所示。詞向量數(shù)據(jù)來(lái)源于騰訊AI實(shí)驗(yàn)室公開的中文詞向量數(shù)據(jù)集[18],包含800多萬(wàn)個(gè)中文詞匯,每個(gè)詞對(duì)應(yīng)一個(gè)200維的向量。本文從中抽取了294 144條數(shù)據(jù)作為基于詞向量的相似度計(jì)算的語(yǔ)料。該實(shí)驗(yàn)均基于十折交叉驗(yàn)證下進(jìn)行。

圖6 數(shù)據(jù)集中動(dòng)態(tài)角色的分布情況

3.2 評(píng)價(jià)指標(biāo)

由于在術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注中,如果系統(tǒng)只推薦Top1的動(dòng)態(tài)角色,準(zhǔn)確率會(huì)很差,所以在當(dāng)前自然語(yǔ)言處理技術(shù)不夠成熟的情況下,一般先推薦多個(gè)動(dòng)態(tài)角色供用戶參考。在此類問題中,不僅需要考察系統(tǒng)推薦出的動(dòng)態(tài)角色正確與否,還需要關(guān)注正確答案在系統(tǒng)推薦的多個(gè)結(jié)果中所排列的位置。這里隱含了評(píng)價(jià)術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色輔助標(biāo)注方法的兩個(gè)指標(biāo):準(zhǔn)確率P和平均倒數(shù)排名MRR(Mean Reciprocal Rank)。實(shí)驗(yàn)對(duì)所推薦動(dòng)態(tài)角色候選集合進(jìn)行排序,MRR關(guān)心推薦集合內(nèi)準(zhǔn)確答案的位置,MRR值越大說(shuō)明目標(biāo)動(dòng)態(tài)角色在推薦結(jié)果集合中的位置越靠前,位置越靠前則表明用戶體驗(yàn)越好。

(4)

(5)

式中:|Q|是測(cè)試集中的樣本個(gè)數(shù);ranki表示測(cè)試樣本i的動(dòng)態(tài)角色排名,如果目標(biāo)動(dòng)態(tài)角色出現(xiàn)在推薦結(jié)果集合中的第二位,則ranki=2。

3.3 實(shí)驗(yàn)結(jié)果分析

為了評(píng)估本文方法在術(shù)語(yǔ)內(nèi)部動(dòng)態(tài)角色標(biāo)注中推薦結(jié)果的好壞,在訓(xùn)練集經(jīng)過(guò)基于首義原預(yù)選擇的情況下,設(shè)置了排序準(zhǔn)確性實(shí)驗(yàn)、推薦準(zhǔn)確性實(shí)驗(yàn)。為了測(cè)試訓(xùn)練樣本預(yù)選擇對(duì)KNN算法分類結(jié)果的影響,設(shè)置了樣本預(yù)選擇驗(yàn)證相關(guān)實(shí)驗(yàn)。該實(shí)驗(yàn)中KNN分類算法的最近鄰生成方法均包括基于DEF相似度計(jì)算、基于詞向量相似度計(jì)算、訓(xùn)練單位排序表合并算法。

3.3.1排序準(zhǔn)確性實(shí)驗(yàn)

推薦動(dòng)態(tài)角色數(shù)量為7,K值取1到45,其得到的MRR值如圖7所示。由圖7可知,隨著K值的變化,排序表合并算法、基于DEF生成最近鄰的KNN算法的MRR值較為平穩(wěn),且均在0.72以上;而基于詞向量生成最近鄰的KNN算法在K值小于31時(shí),MRR值也在0.70以上。根據(jù)MRR的計(jì)算方法,該實(shí)驗(yàn)結(jié)果說(shuō)明絕大多數(shù)情況下正確動(dòng)態(tài)角色關(guān)系類型被排在第一位或第二位,這驗(yàn)證本文方法排序的有效性,能夠快速選取到正確動(dòng)態(tài)角色關(guān)系,一定程度上降低了人工選擇難度。當(dāng)K=9時(shí),基于排序表合并算法生成最近鄰的KNN算法的MRR值最高,不同K值下,排序表合并算法始終優(yōu)于其他兩種算法,且本實(shí)驗(yàn)是在十折交叉驗(yàn)證下進(jìn)行,因此選取K=9為本文實(shí)驗(yàn)中KNN算法的最優(yōu)K值。

圖7 不同K值下的MRR值

3.3.2推薦準(zhǔn)確性實(shí)驗(yàn)

設(shè)定K值為9,推薦動(dòng)態(tài)角色的數(shù)量取1到15,其得到的平均準(zhǔn)確率如圖8所示。可以看出,隨著推薦動(dòng)態(tài)角色數(shù)量的增加,三者的平均準(zhǔn)確率都在提高,且當(dāng)推薦的動(dòng)態(tài)角色數(shù)量大于7時(shí),三者的平均準(zhǔn)確率增長(zhǎng)趨勢(shì)逐漸趨于平緩。當(dāng)推薦的動(dòng)態(tài)角色數(shù)量為10時(shí),推薦結(jié)果的準(zhǔn)確性達(dá)95%以上,說(shuō)明推薦結(jié)果涵蓋正確動(dòng)態(tài)角色關(guān)系,使得正確動(dòng)態(tài)角色關(guān)系能被選擇到,從90種動(dòng)態(tài)角色關(guān)系類型中過(guò)濾出10個(gè)動(dòng)態(tài)角色,大大降低了選擇范圍。

圖8 不同推薦動(dòng)態(tài)角色數(shù)量下的平均準(zhǔn)確率

3.3.3樣本預(yù)選擇驗(yàn)證實(shí)驗(yàn)

表1列出了K值為9時(shí),基于DEF、基于詞向量、排序表合并算法生成最近鄰的KNN分類算法在訓(xùn)練集基于首義原預(yù)選擇與未預(yù)選擇的對(duì)比實(shí)驗(yàn)結(jié)果。以及文獻(xiàn)[9]方法在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。顯示了每種方法的1-Best、3-Best和7-Best(最有可能成為正確答案的1個(gè)、3個(gè)和7個(gè)候選動(dòng)態(tài)角色)在測(cè)試集上的平均準(zhǔn)確率以及7-Best的平均倒數(shù)排名MRR值。

表1 對(duì)比實(shí)驗(yàn)結(jié)果

續(xù)表1

表1中:“M1,M2,M3,M4”(“S1,S2,S3,S4”)是基于最大熵分類方法(基于相似度方法)獲得的動(dòng)態(tài)角色排序表中的4個(gè)不同的動(dòng)態(tài)角色。按照一定的推薦規(guī)則,類如優(yōu)先級(jí)順序?yàn)椤癕1-M2-M3-S1-S2-S3-M4”,將不同的動(dòng)態(tài)角色添加入動(dòng)態(tài)角色候選答案集。

從表1可見,本文方法即訓(xùn)練集經(jīng)過(guò)基于首義原預(yù)選擇的KNN分類算法的MRR值,均明顯高于文獻(xiàn)[9]方法,其中訓(xùn)練單位排序表合并算法生成最近鄰的KNN算法表現(xiàn)最好,平均準(zhǔn)確率P(1-Best)、P(3-Best)、P(7-Best)分別提高了9.53、3.09和0.18個(gè)百分點(diǎn),平均倒數(shù)排名MRR值提高了0.060 9。

通過(guò)表1的實(shí)驗(yàn)結(jié)果可得以下研究結(jié)論:(1) 通過(guò)對(duì)比訓(xùn)練集預(yù)選擇與未預(yù)選擇的實(shí)驗(yàn)結(jié)果可看出,基于首義原對(duì)訓(xùn)練集預(yù)選擇后,評(píng)測(cè)指標(biāo)均有大幅度提高,這說(shuō)明利用首義原對(duì)訓(xùn)練集預(yù)選擇后再使用KNN分類算法會(huì)具有更高的動(dòng)態(tài)角色標(biāo)注準(zhǔn)確率。(2) 通過(guò)對(duì)比基于DEF與基于詞向量生成最近鄰KNN算法的實(shí)驗(yàn)結(jié)果可看出,在本實(shí)驗(yàn)中基于DEF生成最近鄰的方法優(yōu)于基于詞向量生成最近鄰的方法,原因在于本文的術(shù)語(yǔ)內(nèi)部語(yǔ)義關(guān)系標(biāo)注是以HowNet為基礎(chǔ)。并且,基于DEF與基于詞向量生成最近鄰KNN算法兩者實(shí)驗(yàn)結(jié)果間的差距在訓(xùn)練集預(yù)選擇后變小,究其原因在于訓(xùn)練集預(yù)選擇階段也利用了DEF項(xiàng)信息。

圖7、圖8和表1的實(shí)驗(yàn)結(jié)果表明,基于訓(xùn)練單位排序表合并算法生成最近鄰的KNN算法明顯優(yōu)于基于詞語(yǔ)DEF、基于詞向量生成最近鄰的KNN算法,充分說(shuō)明在KNN分類算法的最近鄰樣本數(shù)據(jù)選擇方法中即訓(xùn)練單位排序表生成策略中,訓(xùn)練單位排序表合并要比只用基于詞語(yǔ)DEF相似度的排序表生成或基于詞向量相似度的排序表生成更加適合本文任務(wù)中KNN分類算法最近鄰樣本集的確定。原因在于基于詞語(yǔ)DEF的相似度算法計(jì)算出的訓(xùn)練單位其相似性更多地體現(xiàn)在義原信息方面,而基于詞向量的相似度算法計(jì)算出的訓(xùn)練單位其相似性相對(duì)較多地體現(xiàn)在上下文語(yǔ)法和語(yǔ)義信息方面。本文算法將隱含不同語(yǔ)義信息的相似度算法計(jì)算生成的訓(xùn)練單位排序表合并,實(shí)現(xiàn)了兩者排序的互補(bǔ)。

4 結(jié) 語(yǔ)

本文基于HowNet的理論體系,提出了一種面向領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建任務(wù)的術(shù)語(yǔ)內(nèi)部語(yǔ)義關(guān)系輔助標(biāo)注方法。利用術(shù)語(yǔ)內(nèi)部具有依存關(guān)系的兩詞語(yǔ)的DEF項(xiàng)首義原對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)選擇,并在最近鄰樣本選擇階段融合了基于DEF的語(yǔ)義相似性及基于詞向量的語(yǔ)境分布相似性,實(shí)現(xiàn)了基于KNN分類算法的動(dòng)態(tài)角色標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地降低動(dòng)態(tài)角色關(guān)系類型選擇范圍,提升了標(biāo)注準(zhǔn)確率和效率。

未來(lái)可以利用KNN的分類結(jié)果,在動(dòng)態(tài)角色標(biāo)注中加入主動(dòng)學(xué)習(xí)[19]技術(shù),使系統(tǒng)選取那些有潛在價(jià)值的樣例予以標(biāo)注[20],期望能在較小訓(xùn)練集合的情況下獲得較高的動(dòng)態(tài)角色推薦準(zhǔn)確率。

猜你喜歡
排序語(yǔ)義分類
排序不等式
分類算一算
恐怖排序
語(yǔ)言與語(yǔ)義
分類討論求坐標(biāo)
節(jié)日排序
數(shù)據(jù)分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數(shù)的分類
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 亚洲日韩精品伊甸| 亚洲床戏一区| 99久久精品国产精品亚洲| 91一级片| 又大又硬又爽免费视频| 久久香蕉国产线看精品| 91色在线视频| 四虎永久免费地址在线网站| 国产视频自拍一区| 日本黄色a视频| 中日韩一区二区三区中文免费视频 | 久久99这里精品8国产| 日韩无码视频播放| 欧美亚洲香蕉| 亚洲三级电影在线播放| 欧美视频在线第一页| 欧美在线一二区| 88国产经典欧美一区二区三区| 国内精品视频| 韩国福利一区| 亚洲va精品中文字幕| 久久先锋资源| 美女高潮全身流白浆福利区| 国产一区二区三区夜色 | 免费无码一区二区| 国产91丝袜在线观看| 亚洲综合网在线观看| 国产乱论视频| 一级做a爰片久久毛片毛片| 亚洲精品国产首次亮相| 在线另类稀缺国产呦| 久久77777| 成人综合网址| 欧美性爱精品一区二区三区| 亚洲伦理一区二区| 日韩大乳视频中文字幕| 凹凸国产分类在线观看| 成·人免费午夜无码视频在线观看 | 一级毛片免费播放视频| 国产精品视频观看裸模| 最新国产高清在线| 777国产精品永久免费观看| 免费观看三级毛片| 亚洲日韩久久综合中文字幕| 亚洲无码精彩视频在线观看| 九九香蕉视频| 国产乱视频网站| 亚洲自拍另类| 狠狠躁天天躁夜夜躁婷婷| 国产精品成人第一区| 青青操国产| 看国产毛片| 国产性猛交XXXX免费看| 国产亚洲欧美在线人成aaaa| 国产激情影院| 成人a免费α片在线视频网站| 国产日韩欧美视频| 毛片手机在线看| 好吊色妇女免费视频免费| 欧美午夜一区| 日韩麻豆小视频| 97无码免费人妻超级碰碰碰| 扒开粉嫩的小缝隙喷白浆视频| 亚洲免费黄色网| 久久久黄色片| 无码网站免费观看| 粉嫩国产白浆在线观看| 精久久久久无码区中文字幕| 日韩欧美中文字幕在线韩免费| 欧美va亚洲va香蕉在线| 久草青青在线视频| 亚洲激情99| 精品国产成人av免费| 日韩欧美视频第一区在线观看| 丁香五月亚洲综合在线 | 在线a网站| 欧美激情福利| 99热这里只有精品国产99| 国内精品小视频在线| 日日拍夜夜操| 曰韩免费无码AV一区二区| 国产97色在线|