999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖注意力網(wǎng)絡(luò)的突發(fā)事件觸發(fā)詞抽取

2023-08-11 07:16:06陳彥杰
現(xiàn)代計(jì)算機(jī) 2023年11期
關(guān)鍵詞:語(yǔ)義特征文本

陳彥杰,廖 濤

(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,淮南 232001)

0 引言

隨著信息技術(shù)的發(fā)展以及傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型,互聯(lián)網(wǎng)已經(jīng)滲透到人類(lèi)社會(huì)生活的各個(gè)方面,將互聯(lián)網(wǎng)作為獲取信息的首要途徑的人逐漸增多?;ヂ?lián)網(wǎng)用戶的增加,導(dǎo)致數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),大量的數(shù)據(jù)以電子文本的形式在互聯(lián)網(wǎng)中傳播,這些電子文本數(shù)據(jù)內(nèi)容豐富、要素多樣,并且包含了一種蘊(yùn)藏著極大價(jià)值的信息資源,然而目前網(wǎng)頁(yè)上的大量文本均呈非結(jié)構(gòu)化狀態(tài)并且包含大量冗余信息,使得用戶無(wú)法迅速?gòu)闹姓业接杏玫馁Y源。因此面對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),如何針對(duì)性地從文本中抽取出對(duì)用戶有用的信息,再通過(guò)結(jié)構(gòu)化形式展現(xiàn)給用戶,成為一項(xiàng)重要的課題。

1 相關(guān)工作

事件抽取在信息抽取研究領(lǐng)域[1]中至關(guān)重要,它的主要任務(wù)是把含有事件信息的非結(jié)構(gòu)化文本以結(jié)構(gòu)化[2]的形式呈現(xiàn)出來(lái),在自動(dòng)文摘、自動(dòng)問(wèn)答、信息檢索、知識(shí)圖譜[3]構(gòu)建等領(lǐng)域有著廣泛的應(yīng)用。事件觸發(fā)詞抽取是事件抽取的子任務(wù),其任務(wù)是要識(shí)別事件句中觸發(fā)詞的位置同時(shí)識(shí)別出其所屬事件類(lèi)型。觸發(fā)詞是事件句中最能體現(xiàn)事件發(fā)生的詞語(yǔ),直接決定事件類(lèi)型。事件觸發(fā)詞抽取的方法主要有三種:基于模式匹配[4]、基于機(jī)器學(xué)習(xí)[5]和基于深度學(xué)習(xí)[6]的方法。

在基于模式匹配的方法中,目標(biāo)語(yǔ)料使用適當(dāng)?shù)乃惴ㄟM(jìn)行匹配,并根據(jù)給定的模板提取事件要素。Liu 等[7]手動(dòng)創(chuàng)建模板進(jìn)行提取,并在初步處理后將文本信息嵌入模板。這種方法只遵循一個(gè)固定的模板,所以給定的模板并沒(méi)有涵蓋真實(shí)場(chǎng)景中可能出現(xiàn)的所有情況。

基于機(jī)器學(xué)習(xí)的方法通過(guò)事件觸發(fā)詞的語(yǔ)義、句法等信息構(gòu)建特征,然后根據(jù)特征采用統(tǒng)計(jì)學(xué)模型進(jìn)行分類(lèi)以達(dá)到抽取的目的,主要的機(jī)器學(xué)習(xí)模型包括最大熵模型、隱馬爾可夫模型和支持向量機(jī)等。Chieu 等[8]針對(duì)事件抽取問(wèn)題引入了最大熵模型,從人事管理中提取研討會(huì)的公告和事件。

近年來(lái),隨著詞嵌入技術(shù)的崛起,深度學(xué)習(xí)已成為一種新的研究趨勢(shì),并被應(yīng)用于各個(gè)領(lǐng)域?;谏疃葘W(xué)習(xí)的方法將事件抽取建模成為一個(gè)不依賴(lài)外部NLP 工具的端到端模型,使用特征豐富的詞向量作為輸入,避免了復(fù)雜的手工作業(yè)。Nguyen[9]解決了不平衡語(yǔ)料中的事件觸發(fā)詞抽取問(wèn)題,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)捕獲句子中的重要特征信息。武國(guó)亮等[10]提出了一種FB-Latiice-BiLSTM-CRF 模型,以解決事件抽取任務(wù)中BiLSTM-CRF 處理的低維問(wèn)題,增強(qiáng)了模型學(xué)習(xí)詞語(yǔ)和實(shí)體語(yǔ)義特征的能力,并取得了更好的識(shí)別性能。

本文提出一種基于圖注意力網(wǎng)絡(luò)的模型進(jìn)行突發(fā)事件的觸發(fā)詞抽取,實(shí)驗(yàn)結(jié)果表明文中提出的模型在突發(fā)事件領(lǐng)域事件觸發(fā)詞抽取任務(wù)中是行之有效的。

2 ETEGAN模型

2.1 模型整體架構(gòu)

本文構(gòu)建的突發(fā)事件觸發(fā)詞抽取模型(emergency triggers extraction based on graph attention network,ETEGAN)如圖1,包括:詞嵌入層、Bi-GRU層、GAT層、CRF層。

圖1 模型整體架構(gòu)

首先使用Word2vec 進(jìn)行文本向量化表示,再利用BERT模型提取動(dòng)態(tài)詞向量,將預(yù)訓(xùn)練詞向量和動(dòng)態(tài)詞向量特征融合作為模型的輸入;然后通過(guò)BiGRU 對(duì)長(zhǎng)距離語(yǔ)義特征進(jìn)行抽取;接著采用GAT 網(wǎng)絡(luò)對(duì)特征進(jìn)行權(quán)重調(diào)整,作為最終的特征表示;最后在解碼層通過(guò)CRF 進(jìn)行解碼得到模型最終輸出的結(jié)果。

2.2 詞嵌入層

詞嵌入層本質(zhì)上是對(duì)輸入字符的向量映射,即從離散的字符到分布式表示,可以很好地表示文本中的語(yǔ)義信息和語(yǔ)法關(guān)系。為了緩解由不正確的分詞造成的問(wèn)題,本文將語(yǔ)義特征進(jìn)行融合作為模型的輸入。

Word2vec 模型先通過(guò)去標(biāo)簽等操作把語(yǔ)料庫(kù)處理成文本序列,再通過(guò)分詞的工具把輸入數(shù)據(jù)處理成詞序列數(shù)據(jù)S,最后通過(guò)Word2vec將文本向量化處理成預(yù)訓(xùn)練詞向量W。

BERT 預(yù)訓(xùn)練語(yǔ)言模型可以產(chǎn)生與上下文相關(guān)的詞特征,并可以描述字的多義性和句子的句法特征等。本文使用預(yù)訓(xùn)練模型BERT,根據(jù)同一個(gè)詞的不同語(yǔ)境來(lái)計(jì)算每個(gè)單詞的語(yǔ)境表征,對(duì)于由n個(gè)字符組成的文檔作為輸入X,經(jīng)過(guò)BERT預(yù)訓(xùn)練模型得到相對(duì)應(yīng)的特征向量T。

把Word2vec 和BERT 分別訓(xùn)練的詞向量W和動(dòng)態(tài)詞向量T相結(jié)合,得到聯(lián)合詞向量U。式中⊕代表將兩個(gè)向量進(jìn)行連接,把一個(gè)維度的向量結(jié)合起來(lái)成為新向量。

2.3 BiGRU層

在自然語(yǔ)言處理中,有大量的數(shù)據(jù)無(wú)法用傳統(tǒng)的前向神經(jīng)網(wǎng)絡(luò)來(lái)建模,因此出現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN;它在理論上能夠處理任意長(zhǎng)度的序列信息,但在實(shí)踐中,當(dāng)序列過(guò)長(zhǎng)時(shí),就會(huì)出現(xiàn)梯度消失的問(wèn)題,而且很難學(xué)到長(zhǎng)期依賴(lài)的特征。

GRU 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),混合了細(xì)胞狀態(tài)和隱藏狀態(tài),其中遺忘門(mén)和輸入門(mén)被合并在一個(gè)單一的更新門(mén)中。

GRU 的結(jié)構(gòu)更簡(jiǎn)單,參數(shù)更少,從而減少了訓(xùn)練時(shí)間。GRU 由于其優(yōu)越的序列建模能力,被廣泛應(yīng)用于語(yǔ)音識(shí)別、事件抽取和詞性標(biāo)注等方面。在本文中,BiGRU 模型被用來(lái)對(duì)來(lái)自BERT 層的向量進(jìn)行初步建模;BiGRU 計(jì)算兩種不同的特征表示,即前向和后向兩種特征,然后對(duì)這兩種特征表示進(jìn)行加權(quán)求和,產(chǎn)生涵蓋語(yǔ)境特征的向量。

2.4 GAT層

相比于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)模型,因?yàn)閳D注意力網(wǎng)絡(luò)GAT 在圖結(jié)構(gòu)數(shù)據(jù)中表現(xiàn)出了優(yōu)越的特征提取能力,所以研究者將它應(yīng)用在了事件觸發(fā)詞抽取的任務(wù)中,圖注意力網(wǎng)絡(luò)的基本思想是通過(guò)計(jì)算鄰節(jié)點(diǎn)的注意力來(lái)更新每個(gè)頂點(diǎn)隱藏層的輸出,進(jìn)而調(diào)節(jié)鄰節(jié)點(diǎn)的權(quán)重。

如果m表示圖卷積網(wǎng)絡(luò)的層數(shù),GAT 層的輸入與BiGRU 的輸出的隱藏層息息相關(guān)。GAT 層中第i層節(jié)點(diǎn)輸入的隱藏狀態(tài){h1,h2,…,hn},n為序列長(zhǎng)度,同時(shí)是圖的頂點(diǎn)數(shù)。

首先做一個(gè)線性變換,可訓(xùn)練的權(quán)重參數(shù)為W(l)。

然后通過(guò)計(jì)算得到節(jié)點(diǎn)初始的注意力,通過(guò)計(jì)算i的鄰居節(jié)點(diǎn)j得到初始的注意力權(quán)重e(m)ij。將節(jié)點(diǎn)i和節(jié)點(diǎn)j的z向量相結(jié)合,再把z向量以及可學(xué)習(xí)的權(quán)重向量a→(m)T進(jìn)行點(diǎn)積操作,其中LeakyReLU是非線性激活函數(shù)。

接著將初始注意力進(jìn)行歸一化,計(jì)算出節(jié)點(diǎn)i對(duì)鄰居節(jié)點(diǎn)j的注意系數(shù),也就是注意力權(quán)重:

因?yàn)槊總€(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)都不一樣,所以節(jié)點(diǎn)i對(duì)鄰居節(jié)點(diǎn)j的注意系數(shù)與節(jié)點(diǎn)j對(duì)鄰居節(jié)點(diǎn)i的不同,這樣的結(jié)構(gòu)和詞與詞之間的依賴(lài)關(guān)系有相似之處,這樣使得關(guān)聯(lián)性強(qiáng)的特征得到更多的關(guān)注。

然后對(duì)所有鄰居節(jié)點(diǎn)的特征做基于注意力的加權(quán)求和,更新節(jié)點(diǎn)的特征向量:

接著使用多頭注意力機(jī)制拼接輸出結(jié)果:

其中:||代表拼接;代表第k組注意力機(jī)制的權(quán)重系數(shù)。

多頭注意力進(jìn)行多次運(yùn)算,在多重子空間中學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)聯(lián),戰(zhàn)勝了循環(huán)神經(jīng)網(wǎng)絡(luò)并不能成功捕獲長(zhǎng)距離單詞之間依賴(lài)特征的困難,還擁有并行的特征,不同子層之間互不影響,最后得到輸出結(jié)果h′={h′1,h′2,…,h′n}。

2.5 CRF層

條件隨機(jī)場(chǎng)(CRF)通常被用作自然語(yǔ)言處理任務(wù)中的解碼器,根據(jù)連續(xù)標(biāo)簽之間的依賴(lài)關(guān)系對(duì)標(biāo)簽進(jìn)行優(yōu)化,緩解了輸出標(biāo)簽存在的獨(dú)立假設(shè)問(wèn)題。

對(duì)于輸入序列h′={h′1,h′2,…,h′n},如果其對(duì)應(yīng)的標(biāo)注序列為y={y1,y2,…,yn} ,則標(biāo)注序列y的概率為

其中:y′表示標(biāo)簽序列,T為轉(zhuǎn)移得分矩陣。通過(guò)計(jì)算輸入序列h′對(duì)應(yīng)的輸出標(biāo)簽序列y得到預(yù)測(cè)的標(biāo)簽序列結(jié)果。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集及評(píng)測(cè)指標(biāo)

實(shí)驗(yàn)選取中文突發(fā)事件語(yǔ)料庫(kù)CEC 作為語(yǔ)料集。上海大學(xué)語(yǔ)義智能實(shí)驗(yàn)室遵守《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》的分類(lèi)規(guī)則,統(tǒng)計(jì)了5 類(lèi)突發(fā)事件(地震、交通事故、火災(zāi)、食物中毒和恐怖襲擊)的新聞報(bào)道,當(dāng)作初始語(yǔ)料,然后進(jìn)行文本分析、文本預(yù)處理、一致性檢查以及事件標(biāo)注等操作,最后在語(yǔ)料庫(kù)中保存標(biāo)注結(jié)果,語(yǔ)料庫(kù)中對(duì)突發(fā)事件以及突發(fā)事件要素的標(biāo)注非常全面。

本文將準(zhǔn)確率P、召回率R、F值當(dāng)作事件觸發(fā)詞抽取性能的評(píng)測(cè)指標(biāo)。

3.2 實(shí)驗(yàn)結(jié)果及分析

3.2.1 與其他模型對(duì)比分析

本文訓(xùn)練和測(cè)試了下面的幾種模型,以進(jìn)一步比較模型的性能。表1顯示了幾種模型的觸發(fā)詞抽取性能比較。

表1 與其他模型抽取效果的對(duì)比分析

根據(jù)表1數(shù)據(jù),在同一個(gè)數(shù)據(jù)集中訓(xùn)練和測(cè)試,與其他對(duì)比模型相比較,本文模型的F1 值和準(zhǔn)確率表現(xiàn)較好。相較于GAT+BiRNN 和GAT+BiLSTM,本文模型不僅避免了RNN 存在的梯度消失問(wèn)題,而且更容易訓(xùn)練,使模型的準(zhǔn)確率分別提高9.97和16.96個(gè)百分點(diǎn),F(xiàn)1值提高了4.87 和7.62 個(gè)百分點(diǎn),表明了BiGRU 的有效性;相較于BiGRU,本文模型添加了GAT,從數(shù)據(jù)可以看出,GAT 通過(guò)對(duì)重要特征權(quán)重的調(diào)整使得模型可以著重關(guān)注相關(guān)性較高的語(yǔ)義特征,使模型的準(zhǔn)確率提升了6.17 個(gè)百分點(diǎn),F(xiàn)1 值提升了7.92 個(gè)百分點(diǎn),表明GAT 提高了觸發(fā)詞抽取的效果;相較于GAT+GRU,本文模型多加了一層GRU 用于獲取雙向的語(yǔ)義信息,得到了更為豐富的特征,使模型的準(zhǔn)確率增長(zhǎng)了12.12個(gè)百分點(diǎn),F(xiàn)1值增長(zhǎng)了5.83個(gè)百分點(diǎn)。

3.2.2 與其他工作結(jié)果對(duì)比分析

為了更全面地評(píng)估本文提出的模型的性能,這里將其結(jié)果與以往其他工作者的研究結(jié)果進(jìn)行比較,對(duì)比情況如表2所示。

表2 與其他研究結(jié)果對(duì)比分析

對(duì)表2中的數(shù)據(jù)進(jìn)行對(duì)比分析,相比于其他的神經(jīng)網(wǎng)絡(luò)方法,本文提出的基于圖注意力網(wǎng)絡(luò)的突發(fā)事件觸發(fā)詞抽取模型表現(xiàn)出了最好的性能,表現(xiàn)了BiGRU 和圖注意力網(wǎng)絡(luò)的優(yōu)秀的性能,可以更深層地學(xué)習(xí)到豐富的語(yǔ)義特征,同時(shí)使得高度相關(guān)特征得到了更多的關(guān)注;同時(shí)采用Word2vec 和BERT 預(yù)訓(xùn)練語(yǔ)言模型,得到了豐富的語(yǔ)義信息,有助于本文的突發(fā)事件觸發(fā)詞特征識(shí)別更準(zhǔn)確。

4 結(jié)語(yǔ)

事件抽取在突發(fā)事件抽取以及知識(shí)圖譜等研究中具有不可或缺的作用。針對(duì)觸發(fā)詞提取不準(zhǔn)確的問(wèn)題,本文提出了基于圖注意力網(wǎng)絡(luò)的突發(fā)事件觸發(fā)詞抽取模型ETEGAN。模型在實(shí)驗(yàn)數(shù)據(jù)集上取得了較好的效果,有助于突發(fā)事件觸發(fā)詞抽取任務(wù)。但是仍有進(jìn)步的空間,在后續(xù)的工作中,將爭(zhēng)取觸發(fā)詞抽取準(zhǔn)確率進(jìn)一步的提高。

猜你喜歡
語(yǔ)義特征文本
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 亚洲欧美色中文字幕| 三区在线视频| 制服无码网站| 国产福利免费在线观看| 免费一看一级毛片| 播五月综合| 成人在线亚洲| 国产 日韩 欧美 第二页| 亚洲男人的天堂视频| 精品一区国产精品| 青草视频免费在线观看| 久久夜夜视频| 中文成人无码国产亚洲| 国产毛片片精品天天看视频| 在线观看亚洲成人| 午夜爽爽视频| www.亚洲一区二区三区| 很黄的网站在线观看| 久久精品丝袜| 久久精品国产免费观看频道| 一级成人欧美一区在线观看| 九九久久99精品| 97se亚洲综合在线韩国专区福利| 91区国产福利在线观看午夜| 香蕉eeww99国产在线观看| 色婷婷色丁香| 亚洲第一综合天堂另类专| 97se亚洲综合在线韩国专区福利| 88av在线| 欧美性天天| 久久久久青草线综合超碰| 99久久99视频| 欧洲高清无码在线| 香蕉综合在线视频91| 91色在线视频| 91精品专区| 天天视频在线91频| 国产精品分类视频分类一区| 久操线在视频在线观看| 一本大道AV人久久综合| 97色婷婷成人综合在线观看| 美女无遮挡免费网站| 激情综合网址| 国产打屁股免费区网站| 无码精品国产dvd在线观看9久| 四虎成人免费毛片| 国产毛片基地| 欧美无专区| 日本精品影院| 伊人激情久久综合中文字幕| 丁香六月综合网| 国产成人精品免费视频大全五级| 久久99久久无码毛片一区二区| 欧洲熟妇精品视频| 日韩一级毛一欧美一国产| 国产成人亚洲综合a∨婷婷| 久久久精品无码一二三区| 国产三级国产精品国产普男人| 自拍中文字幕| 久久99精品国产麻豆宅宅| 综合色区亚洲熟妇在线| 最新亚洲av女人的天堂| 又黄又爽视频好爽视频| 伊人欧美在线| 99伊人精品| 97超碰精品成人国产| 日韩无码视频专区| 国产精品极品美女自在线网站| 国产精品黑色丝袜的老师| 无码一区二区波多野结衣播放搜索| 国产电话自拍伊人| 99热这里只有精品5| 黄色不卡视频| 亚洲第一区在线| 99久久性生片| a级毛片免费看| 免费黄色国产视频| 亚洲成在人线av品善网好看| 成人福利一区二区视频在线| 一级香蕉视频在线观看| 国产精品免费久久久久影院无码| 亚洲天堂网在线观看视频|