999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RoBERTa-CNN-BiLSTM-CRF的“數據結構”課程知識命名實體識別

2024-12-31 00:00:00甘進龍?劉青?黃小飛
信息系統工程 2024年7期

摘要:傳統命名實體方法識別準確率不高,難以在知識領域得到有效體現。基于RoBERTa-BiLSTM-CRF模型進行改進,在RoBERTa與BiLSTM層之間增加CNN進行局部特征提取。通過BERT改進版RoBERTa,將文本序列轉換為高維向量表示,捕捉深層語義信息。CNN進行卷積操作,生成捕捉文本局部信息的特征圖。BiLSTM結合前后文信息編碼序列。CRF層計算標簽序列得分,通過動態規劃找到最高得分的標簽序列作為標注結果。實驗結果的P、R、F1指標提升1.11%、1.21%、1.08%,該模型具備較高的準確性。

關鍵詞:命名實體識別; RoBERTa-BiLSTM-CRF模型;CNN

一、前言

“數據結構”課程對培養算法設計與分析能力至關重要。構建該課程知識圖譜,用三元組表達概念關系,可形成全面系統的知識體系,助力學生深入學習和進階發展。命名實體識別是構建數據結構領域知識圖譜中不可或缺的一部分。

傳統命名實體識別的方法有基于規則和詞典的方法、基于統計的方法、二者混合的方法等。基于規則和詞典的方法依賴于專家構造規則模板和詞典,該方法的優勢在于其準確性高,但需要耗費大量人力制定規則和詞典。隨著機器學習技術發展,許多算法被廣泛應用于監督命名實體識別(NER)任務中,并取得了顯著的成果,張航[1]等人基于HMM+CRF在《人民日報》進行實體抽取,并獲得較好的性能提升。段少鵬[2]等人提出基于條件隨機場和支持向量機的雙層模型對老撾的組織名稱進行識別。

深度學習技術為知識實體識別提供了新思路,基于深度學習的實體識別方法可自動學習文本特征與上下文信息,實現精準識別。預訓練語言模型則提供了強大的特征表示能力,結合深度學習模型,利用各自優勢,顯著提升了命名實體識別(NER)任務的性能與準確性。杜文然[3]等人通過數據增強的RoBERTa-BiLSTM-CRF模型應用在貨運一口價議價策略的命名實體識別,相較于傳統模型均有顯著提高。劉慧敏[4]等人提出RoBERTa-BiLSTM-CRF的解決方案應用在簡歷實體識別,可高效且準確地進行實體識別,提高從業者工作效率。

二、模型原理

(一)模型概述

本文采用RoBERTa-CNN-BiLSTM-CRF模型進行實體識別,結合了預訓練模型、卷積神經網絡、雙向長短期記憶網絡和條件隨機場。RoBERTa作為BERT的改進版,將文本序列轉換為高維向量,捕捉深層語義信息。CNN對RoBERTa的輸出進行卷積操作,生成特征圖,捕捉文本局部信息。BiLSTM接收CNN輸出,通過前向和后向LSTM編碼序列,融合上下文信息。CRF層接收BiLSTM的標簽概率分布,計算轉移和發射概率,通過動態規劃找到最高得分的標簽序列作為標注結果。模型如圖1所示:

(二)RoBERTa模塊

RoBERTa相較BERT有諸多改進,采用動態Masking,每次輸入生成新遮蓋方式,增強模型對遮蓋內容的理解。舍棄BERT的下一句預測任務,專注提升文本表示質量。繼承BERT的Transformer編碼器思想,利用自注意力機制和全連接層捕獲文本深層語義,轉化為高維向量供CNN模塊使用。Transformer編碼層主要依賴Encoder特征提取器,通過計算注意力權重并進行歸一化,從而有效捕獲并生成文本的語義向量。計算公式(1)如下:

(1)

Q,K,V表示每個字符通過線性變換乘以矩陣WQ,WK,WV得到,dK表示向量維度。

(三)CNN模塊

CNN模塊接收RoBERTa輸出的嵌入向量,利用卷積層與池化層降維進一步提取局部特征,對于捕捉文本細節和模式至關重要,特別是命名實體識別的邊界識別。

卷積層公式:

(2)

Xck表示輸入的特征圖,ωck表示卷積核,bc表示偏置向量,K表示卷積核數量,yc表示輸出特征圖。

池化層公式:

(3)

χp(i,j)表示輸入特征圖,rp表示表示池化窗口大小,yp表示池化層輸出特征圖。

(四)BiLSTM模塊

BiLSTM通過將前向和后向LSTM的輸出進行拼接,同時利用序列的前后信息,從而更準確地理解當前位置的語義。BiLSTM模塊位于CNN模塊之后。它接收CNN模塊提取的局部特征作為輸入,并通過其內部機制進一步對這些特征進行編碼和整合。

LSTM網絡本身具有記憶單元,能夠存儲和更新序列中的信息,通過輸入門、遺忘門和輸出門來控制信息的流動。這些門控機制能夠選擇性地保留或遺忘信息,從而有效地避免梯度消失或爆炸的問題,計算公式如下。

遺忘門計算公式:

(4)

輸入門計算公式:

(5)

輸出門計算公式:

(6)

長記憶計算公式:

(7)

(8)

短記憶計算公式:

(9)

遺忘門接收前一個隱藏狀態ht-1和當前輸入xt作為輸入決定丟棄的信息,通過公式(4)輸出0到1的數值ft,該數值會作用于上一個Cell狀態Ct-1,1表示“完全保留”,0表示“完全忘記”。遺忘門有助于在序列中保存長期信息;然后計算輸入門,接收前一個隱藏狀態ht-1和前一個輸入xt-1,公式(5)輸出得到一個在0到1之間的數值,用于決定當前候選狀態在信息傳遞過程中應保留或丟棄的信息量占比;至于候選C?,公式(6)tanh層負責創建候選向量,該向量作為新的信息候選,結合前一個細胞狀態Ct-1和遺忘值ft共同決定細胞狀態如何更新,再由公式(7)更新Cell狀態;通過公式(8)輸出一個在0到1之間的數值輸出門Ot;最后公式(9)決定了當前時刻隱藏狀態Ct有多少信息需要輸出。

(五)CRF模塊

CRF通過轉移概率矩陣建模標簽間依賴關系,解碼時考慮所有可能的標簽序列,并選擇聯合概率最大的序列作為輸出。CRF的損失函數關注模型輸出與真實標簽的匹配度,由發射和EmissionScore轉移分數TransitionScore組成。如公式(10)(11)所示:

PTotal計算公式:

(10)

(11)

模型計算輸入序列所有可能標簽序列的概率,并選擇概率最大的作為輸出。損失函數旨在最小化模型輸出與真實序列的差異,通過比較所有路徑總概率PToual與真實路徑概率PRealPath實現。目標是提高PRealPath在PToual中的占比。采用負對數似然損失函數衡量匹配程度,損失值越大表示序列越優,從而提高識別準確率。計算公式如(12)所示。

損失函數計算公式:

(12)

三、實驗設計與結果分析

本文數據主要來自教材和網絡資源。教材以《數據結構與算法》C語言版嚴蔚敏(第二版)為主。同時爬取CSDN、知乎等網站的數據,經過清洗整理,最終得到包含課程知識實體的句子樣本共13160條。

(一) 命名實體分類與標注

通過對樣本進行分析,本文選擇采用人工方法構建本體,將課程知識按算法、結構,以及其他定義三個實體分類。本文采取BIO實體標準法,實體分類與數據標注,見表1。

(二)評價指標

取樣本中4/5做訓練集,1/5進行測試。本文采用準確率(P)、召回率(R)和F1作為評價指標。

(13)

(14)

(15)

TP為模型正確識別的實體數,FP為模型錯誤識別的實體數,FN為模型沒有正確識別的實體數。

(三)實驗環境及參數

本文實驗服務器配置見表2。

(四)實驗結果與分析

為驗證RoBERTa-CNN-BiLSTM-CRF模型的效果,本文選取3個模型進行對比,各模型性能指標見表3。

從實驗結果可知,本文所使用RoBERTa-CNN-BiLSTM-CRF模型的P、R、F1等指標均高于其他模型,在RoBERTa-BiLSTM增加CNN對RoBERTa的輸出進行卷積操作,生成捕捉文本局部信息的特征,捕捉文本細節和模式。該模型的各項評測指標分別提升1.11%、1.21%、1.08%,可見該模型在數據結構課程知識命名實體識別上具有較大優勢和前景。

四、結語

本文提出了通過在RoBERTa與BiLSTM層之間增加CNN進行局部特征提取來改進RoBERTa-BiLSTM-CRF模型的實體識別方法。RoBERTa將文本序列轉換為高維向量表示,捕捉深層語義信息。CNN捕捉文本的局部特征。BiLSTM融合前后文信息,準確表示上下文關系。CRF層通過計算標簽轉移和發射概率,找到得分最高的標簽序列作為實體標注結果。實驗結果表明,RoBERTa-BiLSTM增加CNN對RoBERTa的輸出進行卷積操作,生成捕捉文本局部信息的特征,捕捉文本細節和模式。該模型的各項評測指標分別提升1.11%、1.21%、1.08%,可見該模型具有較高的準確性。

參考文獻

[1]張航,文斌.基于HMM+CRF詞性標注的實體抽取方法[J].計算機與數字工程,2023,51(12):2929-2933.

[2]Duan, S.P., Zhou, L.J., Zhou, F., et al. (2017) Laos Organization Name Using Cascaded Model Based on SVM and CRF. MATEC Web of Conferences, 100, Article No. 02051.

[3]杜文然,靳征,代明睿,等.基于RoBERTa-BiLSTM-CRF模型的鐵路貨運一口價議價策略命名實體識別[J].鐵路計算機應用,2023,32(05):11-15.

[4]劉慧敏,熊菲,王國慶.基于RoBERTa-BiLSTM-CRF的簡歷實體識別 [J].電腦知識與技術,2023,19(04):14-17.

作者單位:貴州水利水電職業技術學院

■ 責任編輯:王穎振、楊惠娟

主站蜘蛛池模板: 欧美精品v欧洲精品| 秘书高跟黑色丝袜国产91在线| 麻豆精品视频在线原创| 午夜福利网址| 亚洲首页在线观看| 亚洲色精品国产一区二区三区| 亚洲大学生视频在线播放| 亚洲视频免费播放| 亚洲精品va| 国产精品9| 91丝袜美腿高跟国产极品老师| 少妇极品熟妇人妻专区视频| 婷婷伊人五月| 永久免费av网站可以直接看的| 国产免费人成视频网| 欧洲极品无码一区二区三区| 国产精品制服| 国产麻豆精品在线观看| 538国产视频| 成人毛片免费观看| 热久久这里是精品6免费观看| www.youjizz.com久久| 视频一区视频二区日韩专区| 激情综合激情| 亚洲日韩在线满18点击进入| 亚洲自偷自拍另类小说| 国产污视频在线观看| 欧美爱爱网| 91精品情国产情侣高潮对白蜜| 欧美一区二区福利视频| 91啪在线| 欧美一区国产| 99视频在线免费| 国产一区二区三区视频| 国产精品福利社| 亚洲国产午夜精华无码福利| www成人国产在线观看网站| 亚洲美女高潮久久久久久久| 日韩国产亚洲一区二区在线观看| 日韩中文字幕亚洲无线码| 亚洲黄色网站视频| 欧美啪啪一区| 九色免费视频| 2020国产精品视频| 国产夜色视频| 国产成人欧美| 日本中文字幕久久网站| www.91中文字幕| 国产免费人成视频网| 极品av一区二区| 萌白酱国产一区二区| 欧美色图第一页| 手机精品视频在线观看免费| 无码高潮喷水专区久久| 亚洲天堂网在线播放| 依依成人精品无v国产| 欧美日韩中文字幕二区三区| 亚洲精品无码日韩国产不卡| 亚洲欧美成人影院| 国产va视频| 人妻精品全国免费视频| 国产乱子伦视频在线播放| 欧美日韩中文国产va另类| 波多野结衣一区二区三视频| 91国内在线观看| 国产精品主播| 伊人久久大香线蕉综合影视| 欧美精品亚洲精品日韩专区va| 久久精品aⅴ无码中文字幕| 久久成人18免费| 五月综合色婷婷| 国产一级视频在线观看网站| 婷婷午夜天| 波多野结衣二区| 国产精品微拍| 欧美精品啪啪| 伊人丁香五月天久久综合| 中日韩欧亚无码视频| 免费在线播放毛片| 在线精品亚洲一区二区古装| 91麻豆国产视频| 欧美一区二区人人喊爽|