999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的中文實(shí)體類型邊界識(shí)別模型研究

2023-04-29 00:00:00賀桂嬌?陳慶盛
信息系統(tǒng)工程 2023年4期

摘要:如今英文實(shí)體類型識(shí)別技術(shù)得到快速發(fā)展,但中文文本整體結(jié)構(gòu)較為復(fù)雜,經(jīng)常存在多義現(xiàn)象,同一個(gè)詞在不同的句、不同的位置有不同的含義,這為中文實(shí)體類型識(shí)別技術(shù)的研究發(fā)展造成嚴(yán)重阻礙。同時(shí),目前常用的實(shí)體類型識(shí)別模型解碼層主要使用機(jī)器學(xué)習(xí)算法,但算法整體提取精度和維特比算法執(zhí)行效率較低,難以滿足當(dāng)前需求。基于以上中文實(shí)體類型識(shí)別難點(diǎn),基于中文語(yǔ)言特性,提出基于深度學(xué)習(xí)的中文實(shí)體類型邊界識(shí)別模型。此模型主要采用基于多元卷積解碼與二分類模型訓(xùn)練方法,實(shí)現(xiàn)所有輸入通過(guò)自注意力進(jìn)行提取,可有效提高模型訓(xùn)練的針對(duì)性,解決中文實(shí)體類型邊界識(shí)別中詞語(yǔ)歧義等問題。

關(guān)鍵詞:中文實(shí)體類型識(shí)別;混合神經(jīng)網(wǎng)絡(luò);聯(lián)合學(xué)習(xí);完全自注意力機(jī)制

一、前言

近年來(lái),隨著計(jì)算機(jī)硬件、軟件技術(shù)和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,人們?nèi)粘I钪挟a(chǎn)生的數(shù)據(jù)如文本、圖像、視頻、音頻等呈爆炸式增長(zhǎng)。如何對(duì)這些數(shù)據(jù)進(jìn)行分析處理,從中提取有價(jià)值的信息,已成為推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展和科技進(jìn)步的重要因素[1]。自然語(yǔ)言處理技術(shù)在數(shù)據(jù)處理中具有重要地位,是近年來(lái)科學(xué)研究的一個(gè)重要領(lǐng)域[2]。

本文分析了統(tǒng)計(jì)機(jī)器對(duì)象識(shí)別方法和神經(jīng)網(wǎng)絡(luò)方法,根據(jù)命名對(duì)象識(shí)別函數(shù)的特點(diǎn),設(shè)計(jì)了多元卷積選擇方案和二元損失函數(shù)學(xué)習(xí)方法,對(duì)所提出的模型進(jìn)行了有效的圖形比較分析以及參數(shù)改良優(yōu)化,與當(dāng)前最優(yōu)化的建模方式進(jìn)行了比較,探究其優(yōu)勢(shì)和劣勢(shì)以及存在的問題原因,并與本文中的模型進(jìn)行驗(yàn)證。

二、基于深度學(xué)習(xí)的中文實(shí)體類型邊界識(shí)別模型的研究

(一)中文實(shí)體識(shí)別

在文本中,對(duì)象識(shí)別是從非結(jié)構(gòu)化文本中提取和分類對(duì)象。該任務(wù)通常會(huì)變成一個(gè)順序標(biāo)記問題進(jìn)行處理。文本以字序列的形式輸入到模型中,得到的結(jié)果是一個(gè)基于文本的對(duì)象標(biāo)記過(guò)程。傳統(tǒng)的識(shí)別方法維護(hù)困難,而近年來(lái)深度識(shí)別方法的快速發(fā)展則避免了這些問題。

對(duì)于中文語(yǔ)境中的自然語(yǔ)言處理操作,它不同于其他語(yǔ)言中的自然語(yǔ)言處理操作。以英語(yǔ)為例,它有明確的分詞界限。在一般描述的情況下,可以通過(guò)基于空格和標(biāo)點(diǎn)符號(hào)指定文本來(lái)獲得處理的基本單元。對(duì)于中文來(lái)說(shuō),一開始并沒有明確的詞類邊界,所以通常以一個(gè)字符為基本單位的向量表示作為輸入信息,但由于簡(jiǎn)單的詞向量不能表示多義、語(yǔ)法、形態(tài)等信息,因此識(shí)別效果不理想。對(duì)于文本分割的效果,現(xiàn)有的文本分割工具不足以解決這些問題,影響了模型的有效性。

(二)統(tǒng)計(jì)機(jī)器學(xué)習(xí)識(shí)別方法

經(jīng)典的統(tǒng)計(jì)機(jī)器學(xué)習(xí)步驟是先對(duì)原始語(yǔ)料庫(kù)上的復(fù)雜數(shù)據(jù)進(jìn)行預(yù)處理,然后手動(dòng)提取重要特征,形成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),最后選擇分類器進(jìn)行模型訓(xùn)練和評(píng)估[3]。對(duì)于機(jī)器學(xué)習(xí)方法,人工設(shè)計(jì)和特征構(gòu)建是最重要的步驟,特征的好壞決定了最終的識(shí)別結(jié)果[4]。詞提取特征模型組合的特征,分類器隨機(jī)選擇空間進(jìn)行測(cè)試。

(三)神經(jīng)網(wǎng)絡(luò)方法

在神經(jīng)網(wǎng)絡(luò)中,輸入信號(hào)的方式是透過(guò)各個(gè)網(wǎng)絡(luò)層的隱節(jié)點(diǎn)以輸出的過(guò)程作為前向定向傳播,在這個(gè)過(guò)程中,參數(shù)主要通過(guò)梯度反向傳播實(shí)現(xiàn)參數(shù)升級(jí)。在實(shí)際應(yīng)用中,反向傳播是利用鏈?zhǔn)椒▌t遞歸計(jì)算進(jìn)行表達(dá)式梯度的方法,反向傳播從最后一層神經(jīng)元開啟,根據(jù)前向傳播結(jié)果與標(biāo)簽的誤差來(lái)進(jìn)行參數(shù)的優(yōu)化升級(jí),在此基礎(chǔ)上將所產(chǎn)生的誤差逐層往前傳播并不斷優(yōu)化神經(jīng)元參數(shù)的過(guò)程。一般情況下,在進(jìn)行梯度反向傳播的過(guò)程中通常會(huì)應(yīng)用到梯度下降法作為優(yōu)化算法。在算法中,假設(shè)J(θ)為所對(duì)應(yīng)的目標(biāo)函數(shù),梯度下降法的主要目標(biāo)是把目標(biāo)函數(shù)降到最小值J(θ)。在變量過(guò)程中,如果所對(duì)應(yīng)的目標(biāo)函數(shù)處于該變量梯度的相反方向,那么必須優(yōu)化對(duì)應(yīng)的參數(shù)值,而學(xué)習(xí)率η跟參數(shù)優(yōu)化的幅度密切相關(guān),直接決定了函數(shù)到達(dá)(局部)極小值的迭代次數(shù)。換句話說(shuō),是到達(dá)超平面構(gòu)成的谷底所需要的次數(shù)數(shù)值。

LSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了一定的優(yōu)化升級(jí),不僅引入新的內(nèi)部狀態(tài),而且引入了門控機(jī)制。在該模型網(wǎng)絡(luò)結(jié)構(gòu)中,新的內(nèi)部狀態(tài)可以記錄到當(dāng)前時(shí)刻t為止的比較全面的信息,此種網(wǎng)絡(luò)模型結(jié)構(gòu)的作用主要體現(xiàn)在以下兩方面:一是進(jìn)行線性的循環(huán)信息傳遞,二是非線性地輸出信息給隱藏層的外部狀態(tài)。在門控機(jī)制過(guò)程中,LSTM模型引入了三個(gè)門進(jìn)行信息流的有效控制,這三個(gè)門主要包含輸入門、遺忘門以及輸出門。其中,遺忘門的作用主要是為了控制上一個(gè)時(shí)刻的內(nèi)部狀態(tài)需要遺忘的信息量,輸入門的主要作用是控制當(dāng)前時(shí)刻的候選狀態(tài)需要記錄的信息量,而輸出門的主要作用在于控制當(dāng)前時(shí)刻的內(nèi)部狀態(tài)需要輸出的信息量給予外部狀態(tài)。

神經(jīng)網(wǎng)絡(luò)方法的基本原理與機(jī)器學(xué)習(xí)方法的基本原理大致相同。他們都在機(jī)構(gòu)的監(jiān)督下訓(xùn)練和評(píng)估模型。最大的不同是神經(jīng)網(wǎng)絡(luò)的方法提取了模型需要處理的特征,從而完成了數(shù)據(jù)預(yù)處理過(guò)程。更簡(jiǎn)單地說(shuō),檢測(cè)器會(huì)使用一個(gè)簡(jiǎn)單的多層感知器。因此,最終的實(shí)驗(yàn)結(jié)果取決于神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),一個(gè)好的網(wǎng)絡(luò)可以更有效地提取特征。本文主要基于三種典型的神經(jīng)網(wǎng)絡(luò)模型LSTM、CNN、Transformer來(lái)自動(dòng)抽取特征,分類器使用多層感知機(jī),并結(jié)合條件隨機(jī)場(chǎng)來(lái)學(xué)習(xí)標(biāo)簽之間的轉(zhuǎn)移概率。

(四)本文模型框架

第一層是嵌入層,其中嵌入方法可以替換為訓(xùn)練之前提出的每一種方法作為最終向量,例如 Word2Vec、ELMo或BERT。

第二層為完全自注意力機(jī)制。我們使用當(dāng)前位置詞查詢向量和每個(gè)關(guān)鍵向量的符號(hào)乘積得到句子中每個(gè)詞的當(dāng)前位置得分,然后用softmax對(duì)其進(jìn)行歸一化。

第三和第四階段是解碼層,由多元卷積變換和softmax函數(shù)組成。它將全自毀系統(tǒng)生成的每個(gè)向量通過(guò)多元卷積變換連接成一個(gè)矩陣和所有向量。將全連接平面中的每個(gè)向量組合起來(lái),去掉大小為c的維度,然后使用softmax函數(shù),最高得分稱為該位置的詞或詞對(duì)象識(shí)別符號(hào) 。

此外,本文提出了一種擴(kuò)展編碼技術(shù)。這樣做的目的是豐富每個(gè)單詞的條目作為一個(gè)單獨(dú)的單詞,其中單詞的定義作為單詞的一部分并包含單詞邊界信息。我們可以用高斯核函數(shù)來(lái)計(jì)算每個(gè)術(shù)語(yǔ)的效應(yīng)擴(kuò)散權(quán)重。在高斯核函數(shù)中,u參數(shù)主要針對(duì)當(dāng)前編碼的單詞與句子中其他單詞之間的絕對(duì)位置距離。

三、基于深度學(xué)習(xí)的中文實(shí)體類型邊界識(shí)別模型的構(gòu)建

(一)多元卷積解碼層

本文的模型使用卷積運(yùn)算來(lái)確定編碼層。為了描述所謂的對(duì)象識(shí)別功能,首先將每個(gè)濾波器的卷積結(jié)果連接成一個(gè)一維向量。上述變換過(guò)程可以表示為:

其中,由于該模型中濾波器的行數(shù)等于輸入矩陣的行數(shù),因此s必須始終為1,v必須滿足0≤t≤k。filter是模板定義的過(guò)濾器,是過(guò)濾器的數(shù)量。

卷積層的輸出與多層感知器相同,最終輸出是一個(gè)1*t維的特征,其中t是命名特征類的數(shù)量。最后,softmax函數(shù)進(jìn)行歸一化。公式是:

d為倒數(shù)第二層的輸出,t為標(biāo)簽種類數(shù)量。

多元卷積變換將它與矩陣中的相鄰字符向量連接起來(lái)并旋轉(zhuǎn)它。提取項(xiàng)目類中每個(gè)過(guò)濾器的特征,得到的向量是項(xiàng)目類中當(dāng)前單詞位置的加權(quán)表示。

(二)基于二分類與多分類的多任務(wù)訓(xùn)練機(jī)制

在解碼階段,我們根據(jù)數(shù)據(jù)集中符號(hào)類型的數(shù)量來(lái)定義過(guò)濾器的數(shù)量。對(duì)于t-group,得到特征向量t。為了轉(zhuǎn)換代碼向量,兩個(gè)多任務(wù)類的損失函數(shù)必須為每個(gè)過(guò)濾器使用的損失函數(shù)分配相應(yīng)的權(quán)重,以提取特征并將它們組合起來(lái)。公式如下:

其中,σ為一個(gè)標(biāo)量的觀測(cè)噪聲。

四、基于深度學(xué)習(xí)的中文實(shí)體類型邊界識(shí)別模型的實(shí)驗(yàn)與分析

(一)實(shí)驗(yàn)配置

測(cè)試過(guò)程中,深度網(wǎng)絡(luò)模型的學(xué)習(xí)對(duì)計(jì)算機(jī)配置有一些要求。例如,深度學(xué)習(xí)需要許多并行計(jì)算資源,通常是數(shù)小時(shí)甚至數(shù)天。顯卡可以提供比CPU快數(shù)十或數(shù)百倍的速度。在深度學(xué)習(xí)方面,Windows操作系統(tǒng)的支持并不比Ubuntu系統(tǒng)多。Windows上的訓(xùn)練模型通常容易出現(xiàn)問題。基于此,所采用的計(jì)算機(jī)配置如表1所示。

(二)實(shí)驗(yàn)數(shù)據(jù)集

本文用于關(guān)系抽取實(shí)驗(yàn)的數(shù)據(jù)是互聯(lián)網(wǎng)上一個(gè)開源的人物關(guān)系數(shù)據(jù)集。該數(shù)據(jù)集中有10種人物關(guān)系,共計(jì)約10萬(wàn)條數(shù)據(jù)。 每個(gè)數(shù)據(jù)段有3列信息,即人物1和人物2,以及人物關(guān)系。選擇其中50,000個(gè)作為訓(xùn)練集,50,000個(gè)作為測(cè)試集。

(三)二分類多損函數(shù)訓(xùn)練實(shí)驗(yàn)

本文將在訓(xùn)練時(shí)修改模型上下文,為每個(gè)濾波器卷積解碼后的輸出向量添加二類實(shí)體標(biāo)簽。 結(jié)果如圖1所示。

可以看出,基于二類多損失函數(shù)的訓(xùn)練方法顯著提高了召回率和召回率。另外,由于每個(gè)后處理的有效率都非常小,所以本文的實(shí)驗(yàn)增加了一個(gè)滿刻度來(lái)擴(kuò)大樣本。加入二分類所損失函數(shù)訓(xùn)練后,準(zhǔn)確率和召回率分別提升了6.5和3.05。加入128個(gè)隱藏神經(jīng)元的全連接層進(jìn)行維度擴(kuò)充后F值又提升了3.36。

(四)實(shí)體邊界識(shí)別效果實(shí)驗(yàn)

本文對(duì)比了BiLSTM-CRF,BiGRU-CRF和中文命名實(shí)體識(shí)別等模型,實(shí)驗(yàn)結(jié)果如圖2所示。

從實(shí)驗(yàn)結(jié)果中,首先可以看出,基于預(yù)訓(xùn)練語(yǔ)言模型BERT的實(shí)體邊界識(shí)別效果要明顯優(yōu)于雙向循環(huán)神經(jīng)網(wǎng)絡(luò),這一點(diǎn)在EM指標(biāo)上提現(xiàn)尤為明顯。這是因?yàn)榛诖罅空Z(yǔ)料預(yù)訓(xùn)練的BERT學(xué)習(xí)的文本上下文編碼遠(yuǎn)豐富于由Skip-gram模型訓(xùn)練的靜態(tài)詞向量。

最后,根據(jù)BERT模型和本文模型的實(shí)驗(yàn)結(jié)果可以看出,融合多元卷積解碼層的實(shí)體邊界識(shí)別任務(wù)是有提升效果的。同時(shí),針對(duì)本文的研究?jī)?nèi)容,使用二分類與多分類的多任務(wù)訓(xùn)練機(jī)制的效果略好,證明了可以通過(guò)本文模型達(dá)到更好的識(shí)別效果。

五、結(jié)語(yǔ)

在前人提出的深度網(wǎng)絡(luò)方法的基礎(chǔ)上,我們提出了一種基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別模型,取得了一定的效果,但也存在一些局限性和不足。在未來(lái)的研究中,如果有完整的語(yǔ)料庫(kù),或者其他相關(guān)領(lǐng)域的良好語(yǔ)料庫(kù),可以做進(jìn)一步的研究。本文中抽象關(guān)系的實(shí)現(xiàn)是通過(guò)確定主體之間的關(guān)系來(lái)實(shí)現(xiàn)的。本文中文命名實(shí)體識(shí)別中無(wú)關(guān)一對(duì)多、多對(duì)一或多對(duì)多的研究。在未來(lái)的研究中,建議使用更密集的優(yōu)化方法和模型設(shè)計(jì)來(lái)解決這個(gè)問題。

參考文獻(xiàn)

[1]張汝佳,代璐,王邦,等.基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別最新研究進(jìn)展綜述[J].中文信息學(xué)報(bào),2022,36(06):20-35.

[2]秦放,曾維佳,羅佳偉,等.基于深度學(xué)習(xí)的多模態(tài)融合圖像識(shí)別研究[J].信息技術(shù),2022(04):29-34.

[3]鄧依依,鄔昌興,魏永豐,等.基于深度學(xué)習(xí)的命名實(shí)體識(shí)別綜述[J].中文信息學(xué)報(bào),2021,35(09):30-45.

[4]吳湘寧,賀鵬,鄧中港,等.一種基于注意力機(jī)制的小目標(biāo)檢測(cè)深度學(xué)習(xí)模型[J].計(jì)算機(jī)工程與科學(xué),2021,43(01):95-104.

基金項(xiàng)目:廣州軟件學(xué)院2021年科研項(xiàng)目(項(xiàng)目編號(hào):ks202112)

主站蜘蛛池模板: 五月婷婷精品| 欧美啪啪一区| 国产浮力第一页永久地址| 国产大片黄在线观看| 伊人五月丁香综合AⅤ| 欧美中文字幕在线播放| 成人一级黄色毛片| 国产欧美日韩91| 青青青国产精品国产精品美女| 亚洲国语自产一区第二页| 香蕉在线视频网站| 99re免费视频| 国产 在线视频无码| 国产自在线拍| 精品亚洲国产成人AV| 亚洲青涩在线| 久久亚洲日本不卡一区二区| 人妻一区二区三区无码精品一区| 日韩在线2020专区| 激情无码字幕综合| 特级aaaaaaaaa毛片免费视频| 一本无码在线观看| 亚洲成年人网| 精品国产中文一级毛片在线看| 精品夜恋影院亚洲欧洲| 日韩精品一区二区三区swag| 国产免费自拍视频| 无码中文字幕乱码免费2| 99人妻碰碰碰久久久久禁片| 午夜三级在线| 青草视频免费在线观看| 欧美日韩在线第一页| 91精品国产综合久久不国产大片 | 99在线国产| 国内精品视频区在线2021| 亚洲经典在线中文字幕| 国产区在线观看视频| 国产一级毛片在线| www.日韩三级| 久久一本精品久久久ー99| 色九九视频| 国产精品人成在线播放| 亚洲精品第五页| 国产亚洲精| 97国产在线播放| 99精品国产自在现线观看| 国产午夜看片| 亚洲中文字幕精品| 精品三级在线| 性色一区| 热思思久久免费视频| 亚洲综合狠狠| 国产高清在线观看91精品| 精品自窥自偷在线看| 亚洲欧美精品日韩欧美| 国产精品专区第1页| 亚洲国产天堂久久九九九| 国产在线视频导航| 露脸真实国语乱在线观看| 亚洲精品第一页不卡| 精品午夜国产福利观看| 日韩一区二区三免费高清| 日韩国产综合精选| 色妞www精品视频一级下载| 无遮挡国产高潮视频免费观看| 国产一区在线视频观看| 日韩经典精品无码一区二区| 欧美在线视频不卡第一页| 波多野结衣视频一区二区| 中国国产高清免费AV片| 国产精品九九视频| 亚洲无码高清一区二区| 伊人色在线视频| 高潮爽到爆的喷水女主播视频| 色综合a怡红院怡红院首页| jizz在线免费播放| 五月天久久综合| 久无码久无码av无码| 亚洲swag精品自拍一区| 日韩一二三区视频精品| 综合色亚洲| 中文字幕亚洲精品2页|