999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種結合BERT與雙層LSTM的復雜長句意圖分類方法

2021-12-14 01:28:36楊振宇張登輝
計算機應用與軟件 2021年12期
關鍵詞:語義分類模型

楊振宇 張登輝,2

1(常州大學信息科學與工程學院 江蘇 常州 213000)2(浙江樹人大學信息科技學院 浙江 杭州 310015)

0 引 言

學術文獻是科研人員展示研究成果、交流學術觀點的主要文字載體。句子意圖為語句本身承載的語義信息和語句在上下文所體現的關聯作用。分析句子的意圖信息可洞察作者寫作邏輯,剖析文章整體結構與風格,已成為文獻質量分析[1]、信息抽取[2]和自動摘要[3]等任務的典型技術手段。學術文獻一般含有很多復雜長句,從篇章整體看,句子間注重邏輯順序[4];從句子結構看,組成句子的多個子句、詞組都具有一定的語義,通過陳述、對比等修辭方法表達句子的整體意圖。句子意圖分類旨在提取復雜長句整體語義特征,以及子句、詞組間的細粒度結構關系。然而,學術文獻復雜長句具有的多分句、一詞多義等特點給句子意圖分類任務帶來一定的挑戰。

意圖分類屬于短文本分類任務,處理該任務的模型主要有基于規則的分類模型、基于傳統機器學習的分類模型和基于神經網絡的深度學習分類模型。基于規則的分類模型需要構建分類詞典,通過規則制定一系列關鍵詞所對應的類別構建分類模型,然后根據關鍵詞匹配進行文本分類。該類模型的問題:① 依賴人工制定規則,且面向不同領域的數據需要重新制定;② 關鍵詞匹配方法無法區分不同語境下一詞多義現象。傳統機器學習分類模型大多從語言學特征考慮,特征提取與模型選擇對分類效果具有較大影響。Widyantoro等[5]對學術文獻句子的內容特征進行設計與提取,使用支持向量機、決策樹和樸素貝葉斯方法進行句子分類。姜杰等[6]結合基于規則的方法和機器學習方法提升句子分類的準確性。但傳統機器學習分類模型依賴人工設計并提取特征,且需要對特征進行組合與優化,受數據影響大,在復雜長句意圖分類任務上很難取得較好的魯棒性。

深度學習能夠從詞向量與句向量中自動提取句子的深層次抽象特征,較好地解決了句子分類任務中特征提取問題,取得較傳統機器學習模型更好的分類效果。Kim[7]將詞向量與卷積神經網絡應用于句子模型構建,提出TextCNN模型用于句子分類,雖然取得了一定效果,但該模型固定的filter_size導致獲取的文本信息具有局限性。Joulin等[8]提出一種基于CNN的特殊模型fastText,該模型只包含一個平均池化層,使用線性變換獲取更多的分類信息,雖然訓練速度較快,但其使用的詞袋結構忽略了文本序列特征。Ren等[9]采用循環神經網絡(RNN)作為特征提取器的LSTM模型,提取文本長距離序列信息。曾蒸等[10]提出一種雙向長短時記憶循環網絡(Bi-LSTM)模型,捕獲雙向語義依賴。雖然在短文本分類任務上基于深度學習的句子分類方法體現出較好性能,但這些模型采用的靜態詞向量無法表示不同上下文中一詞多義現象,且不能充分表現出詞組、分句間的細粒度關系。

為此,本文提出一種結合BERT模型與雙層的LSTM網絡的復雜長句意圖分類方法。首先使用基于遷移學習的BERT模型獲取上下文相關的動態詞向量,以解決一詞多義的表征問題;然后通過詞級、句級LSTM網絡提取復雜長句中詞組、分句間的隱含特征,獲取句子深度語義信息,提高模型分類準確度。

1 結合BERT與雙層LSTM的分類模型

句子分類任務旨在將文本映射到一組預定義的類別中,給定所有可能的文本輸入空間φ,其中x={x1,x2,…,xn}∈φ,以及包含m個標簽的輸出空間L={l1,…,li,…,lm},分類器模型需要學習從輸入樣本x∈X到正確標簽ltrue∈L的映射f:φ→L,使得:

(1)

為充分獲取多分句、一詞多義特點復雜長句中的語義信息,構建了一種結合BERT與雙層LSTM的深層次句子意圖分類模型,模型架構如圖1所示。

圖1 復雜長句意圖分類模型架構

1.1 模型輸入

對于n個單詞組成的輸入文本S={w1,…,wq,…,wn},本文使用詞根嵌入、位置嵌入進行表示。通過詞根嵌入表示單詞本身的語義信息,通過位置嵌入保留詞匯在原有句子中的位置信息。接著對兩種嵌入進行拼接,即:

E(wq)=ETE(wq)⊕EPE(wq)

(2)

式中:ETE為詞根嵌入,EPE為位置嵌入, ⊕為拼接操作。每種嵌入表示意義如下:

(1) 詞根嵌入。將輸入的單詞進行分詞和映射,使用內嵌3萬個詞單元的WordPiece[11]嵌入對詞匯進行分割。例如單詞“learning”被分割為“learn”“##ing”兩個詞單元,其中“##”表示分隔符。每個詞單元映射成一定維數的向量,作為該層的初始詞嵌入。

(2) 位置嵌入。用于標記詞單元在句子中的位置,即位置向量。初始位置向量計算方法如下:

(3)

(4)

式中:計算位置為t的dE維詞向量在j維度的位置特征值,若j為偶數使用式(3)計算,若j為奇數使用式(4)計算。

1.2 BERT模型

BERT模型[12]訓練過程分為預訓練和微調兩個階段。模型采用Transformer特征抽取器[13]雙向提取文本信息。模型結構如圖2所示。

圖2 BERT模型結構

預訓練階段利用無監督學習,從大規模數據集中訓練獲得具有強大性能的模型,通過上下文相關的動態詞向量表征不同語境下一詞多義的語義信息。該階段包含兩個任務:MLM(Masked Language Model)和NSP(Next Sentence Prediction)。MLM任務將輸入語料當中15%的單詞進行隨機遮掩,模型根據上下文預測遮掩的單詞。NSP任務用來判斷預測句子對是否為連續句子,訓練數據是從輸入語料中隨機抽取連續句子對A、B,其中將50%句子B進行保留,這些句子對具有IsNext關系。另外,將50%句子B進行隨機替換,這些句子對具有NotNext關系。分別取兩個任務的似然函數相加作為模型預訓練損失函數。過程如圖3所示。

圖3 BERT模型預訓練過程

微調階段加載預訓練獲得的網絡參數,初始化網絡,并根據任務需求,在BERT輸出層接入不同結構的網絡進行監督學習,提高網絡訓練速度,一定程度上規避了小規模數據集訓練中出現過擬合的風險[14]。針對復雜長句意圖分類任務,本文在BERT模型后接入雙層的LSTM網絡,進一步訓練網絡模型。

1.3 詞級LSTM網絡

在復雜長句意圖分類任務中,每個輸入的單元可能對最終分類結果產生不同程度的影響,LSTM網絡能夠對輸入單元進行信息篩選。該網絡在RNN的基礎上增加了用來選擇信息的門,分別為輸入門、輸出門、遺忘門,以及用來存儲信息且通過不同門更新信息的記憶單元。英文學術文獻大多由多個分句的復雜長句構成,為捕獲細粒度的意圖信息,本文通過詞級、句級LSTM網絡對句子語義特征進行提取與表示。

(5)

式中:W*表示權重矩陣,b*表示偏置項,均為網絡待學習參數;σ為sigmoid激活函數。

(6)

(7)

(8)

(9)

(10)

1.4 句級LSTM網絡

對于BERT模型輸出的特征信息,其細粒度語義提取與表示過程如圖4所示。

圖4 復雜長句細粒度語義更新與表示

(11)

(12)

式中:λ表示權重參數。

將復雜長句S={s1,…,sq,…,sn}看作由n個分句構成的序列,則其特征向量表示為:

(13)

特征向量經由句級LSTM網絡更新獲取長句語義表示ht,其過程與詞級LSTM網絡相似,即:

(14)

1.5 句子意圖分類

句級LSTM網絡的輸出作為復雜長句最后語義特征傳入全連接層,通過Softmax函數進行歸一化操作,得到復雜長句句子意圖預測結果,p(li|h)表示文本S在第i種意圖的概率,其計算方法為:

(15)

式中:w*和b*表示權重矩陣與偏置項;m表示總標簽數。本文使用梯度下降算法對模型進行優化訓練,利用交叉熵函數計算模型損失,更新模型參數。損失函數L計算方法為:

(16)

式中:yi表示文本真實標簽的one-hot向量在i維度上的值;φ表示L2正則化參數。

2 實驗與結果分析

2.1 實驗環境

本文實驗所用計算硬件為NVIDIA的GPU:Tesla P100 PCIE,所用深度學習框架為Tensorflow,實驗環境具體配置如表1所示。

表1 實驗環境配置

2.2 數據介紹

本文使用的實驗數據來自美國人工智能協會(AAAI, American Association for Artificial Intelligence)收錄的學術文獻(http://www.aaai.org/Library/AAAI/aaai-library.php),選取2016年—2019年“自然語言處理”領域中的部分英文科技文獻進行標注。基于文獻[5,15]中的句子分類方法并結合后續篇章結構與風格分析需求,將文獻中摘要以及正文部分的復雜長句按照意圖分類標注如表2所示。

表2 復雜長句標注類型

經標注之后數據集取70%作為訓練集,15%作為驗證集,15%作為測試集。參照驗證集的分類效果對模型參數進行不斷調整與優化,最后在測試集上進行測試。

2.3 模型參數設置

本文加載BooksCorpus與英文維基百科作為訓練數據的BERT-Base-Uncased預訓練模型,其Transformer層數為12,每層Transformer隱藏神經元個數為768; LSTM網絡隱層節點數為200。在網絡訓練過程中,初始學習率為10-4,批樣本大小為64,最大迭代次數為30,dropout為0.5。

2.4 評價指標

本實驗采用精確率P(Precision)、召回率R(Recall)和F1值作為實驗評價指標。精確率指分類正確的句子數量占所有預測為某分類句子數量的比重,召回率指分類正確的句子數量占某分類真實句子數量的比重。F1值是一個融合了精確率和召回率的綜合指標,F1值越高則說明模型越理想。由于本文為多類別分類任務,取每類別各個指標求平均來評估模型分類性能,上述指標計算方法如下:

(17)

(18)

(19)

式中:Ci表示模型正確預測某分類的句子數量;Ai表示預測為某分類的句子數量;Bi表示某分類實際的句子數量;N表示類別數量。

2.5 實驗結果分析

2.5.1對比實驗結果分析

為驗證本文方法在復雜長句意圖分類上的性能,在相同數據集上進行五組對比實驗。

(1) BERT-D-LSTM:即本文方法,結合BERT模型與雙層LSTM網絡對復雜長句意圖語義特征進行提取,通過Softmax層實現句子分類。

(2) BERT-LSTM:在BERT輸出層僅使用單層詞級LSTM網絡參與訓練。

(3) BERT:僅使用BERT模型,經過預訓練與微調階段將輸出層的特征表示直接傳入全連接層與softmax層預測分類結果。

(4) TextCNN:采用Word2vec模型獲取靜態詞向量,使用CNN作為特征提取器,通過移動卷積核進行卷積操作提取文本語義特征。

(5) LSTM:采用Word2vec模型獲取靜態詞向量,其語義特征提取方式與1.3節描述一致。

參考驗證集對模型參數進行不斷調整直至模型收斂,在測試集中測試模型效果,實驗結果如表3所示。

表3 模型測試結果

從表3可以得出,本文方法在所有模型中取得最高的F1值。對比第1、第2和第3組實驗可以發現,微調階段在BERT之后加入LSTM網絡,模型在評價指標上均有所提高,其中F1值較第3組實驗分別提升了0.025與0.013,表明結合LSTM網絡對語義特征進一步提取能提升模型在復雜長句意圖分類任務上的性能。對比第1和第2組實驗可以發現,加入句級LSTM較單層LSTM在F1值上提升了0.012,表明雙層LSTM網絡可以更好地捕捉復雜長句當中詞組間、分局間細粒度的意圖語義信息。對比5組實驗能夠發現,加入BERT預訓練之后,相較于傳統的TextCNN 、LSTM模型F1值具有較高提升,這是由于靜態詞向量無法捕捉上下文相關的語義信息,加入BERT預訓練之后,可以捕獲上下文相關的語義信息,從而更精確地表征句子語義。因此本文提出的方法能更好地解決復雜長句意圖分類問題。

2.5.2λ權重參數對模型的影響

1.4節中,對分句的語義特征表示中加入權重參數λ來調整分句的隱含特征與詞匯特征之間的比值。本文探究了該比值對模型分類F1值的影響,如圖5所示。

圖5 λ對模型F1值的影響

由圖5可看出,在一定范圍內隨著λ增加,模型的分類效果有所提升,其中λ在0.45左右時取得最好的效果,說明將詞級網絡獲取到的分句隱含特征與原特征結合能獲取到細粒度的語義表示,從而得到更好的分類效果。然而當λ達到0.7時,隨著λ增加,模型分類F1值低于λ為0的效果且持續下降。其原因是當λ取值較高時,句級LSTM網絡會過于關注分句的隱含特征導致丟失詞匯級語義信息,因此分類效果隨之降低。

2.5.3最大句子長度對模型的影響

在模型訓練之前,首先需要規定句子的最大長度,設置不同的最大句子長度會對模型的性能產生一定的影響。本文對數據集當中句子長度分布情況進行統計,如圖6所示。

圖6 句子長度分布

為探該設置對模型分類F1值的影響,本文采用幾種不同的最大句子長度在本文方法上進行實驗,實驗結果如圖7所示。

圖7 句子最大長度對模型F1值的影響

由圖7可以得出,當句子最大長度取25~35時,模型的F1值取得最高。若句子最大長度取值較大,對于長句而言會對模型添加很多不必要的噪聲,對于短句而言補0填充也會對模型產生影響;若句子最大長度取值較小,會丟失語義信息。

3 結 語

為對學術文獻中的復雜長句意圖進行準確識別。本文將BERT與雙層的LSTM網絡進行連接得到復雜長句意圖分類模型。通過詞級、句級LSTM網絡提取復雜長句細粒度語義表示。實驗結果表明,該方法對于多分句、一詞多義特點的復雜長句能夠較好進行特征提取與表示,表現出較好的分類效果,總體效果優于BERT、TextCNN和LSTM模型。該方法對于學術文獻中復雜長句意圖分類任務具有一定的實用性,為進一步分析篇章整體風格與結構提供了支撐。

本文僅針對于句子的單意圖進行分類,而復雜的英文句子可能會表現出多種意圖,今后將對多意圖情況展開研究。另一方面,在一些表述方式相近的類別上分類的準確度還有待提升,因此后續研究將嘗試對輸入的句子采用更多層次的詞嵌入方法表示,以提高分類的準確度。

猜你喜歡
語義分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 精品91自产拍在线| 制服丝袜一区| 欧美激情第一欧美在线| 精品少妇人妻无码久久| 日韩小视频在线观看| 欧美一级专区免费大片| 欧美一区中文字幕| 色噜噜狠狠狠综合曰曰曰| 国产小视频a在线观看| 久久综合九色综合97婷婷| 国产午夜精品鲁丝片| 一区二区午夜| 午夜视频免费试看| 综合社区亚洲熟妇p| 香蕉久久国产超碰青草| 成年女人a毛片免费视频| 亚洲av无码久久无遮挡| 亚洲h视频在线| 青青青伊人色综合久久| 国产在线97| 精品国产aⅴ一区二区三区 | 亚洲swag精品自拍一区| 国产亚洲欧美在线专区| 久久综合伊人 六十路| 国产精品青青| 欧美一区二区精品久久久| 天天操精品| 亚洲AV一二三区无码AV蜜桃| 香蕉伊思人视频| 国产在线小视频| 日韩成人免费网站| 国产精品亚洲五月天高清| 美女内射视频WWW网站午夜 | 国产精品成人AⅤ在线一二三四| 亚洲无码不卡网| 国产午夜不卡| 国产精品亚洲精品爽爽| 亚洲美女高潮久久久久久久| 九九免费观看全部免费视频| 亚洲综合激情另类专区| 在线看AV天堂| 久久久久中文字幕精品视频| 久久久久国产一级毛片高清板| 中文字幕永久视频| 国产哺乳奶水91在线播放| 亚洲成人精品| 亚洲第一国产综合| 丁香婷婷在线视频| 国产精品yjizz视频网一二区| 在线va视频| 夜色爽爽影院18禁妓女影院| 色综合狠狠操| 午夜国产精品视频黄| 久青草国产高清在线视频| 国产精女同一区二区三区久| 亚洲欧美成人在线视频| 四虎亚洲精品| 538国产视频| 国产亚洲一区二区三区在线| 日韩精品久久久久久久电影蜜臀| a级毛片在线免费| 特级毛片8级毛片免费观看| 人妻一本久道久久综合久久鬼色| 国产va在线观看免费| 国产av色站网站| 国产中文在线亚洲精品官网| 色悠久久综合| 亚洲中文字幕久久精品无码一区 | 26uuu国产精品视频| 视频二区亚洲精品| 国产97公开成人免费视频| 亚洲国产日韩一区| 2022精品国偷自产免费观看| 免费国产高清视频| 国产一区二区色淫影院| 免费国产高清精品一区在线| 久草国产在线观看| 亚洲色精品国产一区二区三区| 精品少妇人妻一区二区| 免费观看欧美性一级| 婷婷色婷婷| 无码中文字幕加勒比高清|