999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合MacBERT和多尺度融合網絡的檔案數據分類研究

2022-10-11 07:37:02劉舸舸
電子設計工程 2022年19期
關鍵詞:語義分類特征

劉舸舸

(陸軍軍醫大學第二附屬醫院醫學工程科,重慶 400037)

隨著檔案數據數字化程度的快速增加,各種電子檔案數量呈現出爆炸式的增長。面對海量的檔案數據,現有的手工分類模式費時費力,效率不高且易誤分類[1-2]。如何合理挖掘和分析檔案內容的潛在關聯性,以及快速識別檔案類別已經成為一個急需解決的問題。

傳統靜態詞向量Word2vec[3]和Glove 在訓練過程中舍棄了詞的位置信息,無法準確表示檔案文本的完整語義。動態詞向量模型ELMO[4]和BERT[5]結合了每個詞具體上下文語境進行動態學習,使得相同詞在不同語境下有著不同的詞向量表征,解決了一詞多義問題。MacBERT[6]模型引入了全詞MASK策略,并使用相似的詞替換MASK 詞,減緩預訓練和微調兩個階段的誤差,提升了模型的語義理解能力。

檔案數據自動分類方法主要有機器學習方法和深度學習方法。機器學習方法需要人為構建復雜特征工程,導致時間、人工成本高,且無法確保提取特征的準確性。而在深度學習方面,文獻[7]提出了Word2vec-ABLCNN 的文本分類模型,詞向量模型Word2vec 無法表示多義詞,詞向量語義表示質量低。針對專利分類研究,文獻[8]提出了BERT-CNN模型,該模型提升了層級專利分類性能,但CNN 模塊僅能捕獲文本局部特征,特征提取不夠全面。文獻[9]提出了BERT-BiLSTM-CRF 命名實體識別模型,BilSTM 受限于循環機制,訓練效率不高,且缺乏對局部特征的學習。以上模型未能識別出對分類結果影響更大的關鍵特征。

針對目前研究仍然存在的不足,文中提出了結合MacBERT 和多尺度融合網絡的檔案數據分類模型,主要創新和貢獻如下:

1)針對靜態詞向量無法表示多義詞的問題,MacBERT 模型獲取了文本的動態特征表示,提高了詞向量表征能力。

2)為確保特征提取的全面性,采用多尺度融合網絡捕獲檔案文本局部特征和全局序列語義特征。

3)利用軟注意力[10]模塊賦予模型識別關鍵特征的能力。

1 MacBERT-MCNN-BiSRU-AT模型

1.1 模型整體結構

文中提出的結合MacBERT 和多尺度融合網絡的檔案數據分類模型整體結構如圖1 所示。檔案數據分類的主要步驟如下:1)對檔案數據進行清洗和預處理,對錯誤分類的檔案樣本進行糾正。2)利用MacBERT 預訓練模型提取檔案文本的動態特征向量表示。3)由多尺度融合網絡提取文本局部語義特征和上下文深層序列特征。4)利用軟注意力模塊計算每個詞對分類結果的權重得分。5)分類層輸出檔案文本分類結果。

圖1 模型整體結構

1.2 MacBERT模型

MacBERT 利用雙向Transformer 編碼器提取文本語義特征,內置自注意力作為核心模塊,能夠關注到句子內部每個詞與詞之間的依賴關系,捕捉到文本句法結構,增強模型語義理解能力[11]。模型結構如圖2 所示。

圖2 MacBERT模型結構

其中,E1,E2,…,Em為輸入向量,由字嵌入、位置嵌入和分句嵌入相加而成,相關過程如圖3 所示。經多層Transform 編碼器動態語義學習后,得到文本的動態特征表示T1,T2,…,Tm,Ti為文本中詞的向量表示。

圖3 輸入向量組成

1.3 多尺度融合網絡MCNN-BiSRU

多尺度融合網絡主要由多通道卷積模塊和雙向簡單循環網絡構成。多通道卷積模塊[12]通過設置不同尺寸的卷積核,分別對特征圖進行卷積操作,捕獲詞和短語級別的局部語義特征。雙向簡單循環網絡對局部特征進行多尺度上下文序列特征學習。

在多通道卷積模塊中,對MacBERT 模型輸出的動態特征表示T進行卷積操作,為降低語義損失,不加入池化操作,得到新的特征表示ci。計算過程如式(1)、(2)所示:

其中,w為卷積核;b為偏置值;m為滑動窗口大小;?為卷積操作;f為relu()函數;Ti:i+m-1表示T中第i到i+m-1 行文本向量。

雙向簡單循環單元(Simple Recurrent Unit,SRU)[13]作為LSTM[14]和GRU[15]的優秀變體,擺脫了傳統循環模型固有的對上一個時間步輸出狀態的依賴,充分利用顯卡資源進行并行計算加速,提高訓練效率。SRU 前向計算過程如式(3)-(6)所示:

檔案文本語義不僅由上文語義決定,也與下文的語義關系密切。因此,將前向SRU 和后向SRU 疊加形成BiSRU 模塊,利用BiSRU 提取檔案文本的完整語義表示,其模型結構如圖4 所示。行向

圖4 BiSRU模型結構

其中,xt代表卷積操作得到的新特征C的第t行向量。第t時刻的狀態輸出Ht由前向和后向拼接而成。

將卷積層多個通道輸出的局部特征表示[C1,C2,…,Cn]分別輸入到BiSRU,將每個BiSRU 最后一個隱狀態輸出進行拼接,得到多尺度融合特征表示

1.4 軟注意力機制

將多尺度特征輸出H輸入到軟注意力層,計算每個特征對分類結果的注意力得分大小ai,賦予關鍵特征更高的權重。相關過程如式(7)-(9)所示:

其中,tanh()為非線性函數;exp()表示指數運算。

1.5 分類層

將注意力特征的表示A通過全連接層變換到分類空間,由Softmax 函數得到概率分布Ps,取行最大值對應的檔案類別標簽作為分類結果,其過程如式(10)、(11)所示:

2 結果分析

2.1 數據集和性能指標

采用某企業人事檔案數據資源作為實驗依據,共8 977 份檔案樣本。手動標注每份檔案文本的所屬類別,并加入到樣本首部,以 作為分隔符號,用于區分標簽和檔案內容。由于數據集中類別數量不平衡,因此僅選擇檔案樣本數量較多的類別進行實驗,分 別 是C12-User、C13-Upper computer、C14-Identity、C15-Address 和C16-Politics,按照80%、10%和10%劃分訓練集、測試集和驗證集。

模型性能評價指標采用準確率(Accuary)、精確率(Precision)、召回率(Recall)和F1 分數,計算過程如式(12)-(15)所示:

2.2 硬件環境與參數設定

模型訓練采用Linux 操作系統,顯卡為3090,顯存大小為24 GB;Python 版本為3.6.0,深度學習框架Pytorch 版本為1.7.0,使用numpy 等第三方支持庫構建模型并進行訓練。

文中采用Base版本的中文MacBERT模型;MCNN卷積核尺寸為(2,3,4),特征通道數量均為128;BiSRU隱藏層大小為256,層數為1;軟注意力機制維度為256;隨機失活概率設置為0.3;最大序列截斷長度為300。綜合訓練參數設定如表1 所示。

表1 綜合訓練參數

2.3 結果分析

模型性能指標如表2所示。由表2可知,文中模型MacBERT-MCNN-BiSRU-AT 的準確率達到了90.5%,優于近期表現較好的深度學習模型,較BERTCNN 和BERT-BiLSTM 分別提升了5.7%和5.2%,證明了MacBERT 與多尺度融合網絡結合的有效性。

表2 性能指標對比

為驗證MacBERT 作為詞向量提取層的有效性,設置Word2vec[16]、ELMO 和BERT 模型作為對比,結果表明,MacBERT 準確率最高,具有更好的應用效果。

為證明多尺度融合網絡的效果,設置消融實驗,與MacBERT-MCNN和MacBERT-BiSRU對比,結果表明,MacBERT-MCNN-BiSRU模型準確率與MacBERTMCNN 和MacBERT-BiSRU 相比分別提高了2.5%和2.2%,多尺度融合網絡能夠全面提取檔案文本的局部語義特征和全局序列特征,提升了模型分類性能。

加入軟注意力機制的MacBERT-MCNN-BiSRUAT 模型準確率較MacBERT-MCNN-BiSRU 提高了1.9%,證明了軟注意力層能夠識別關鍵特征,提高分類效果[17-18]。

綜上所述,文中提出的MacBERT-MCNN-BiSRUAT 模型有效地提高了檔案文本分類準確率。

3 結論

為提高檔案數據分類的準確率,文中提出了結合MacBERT 和多尺度融合網絡的檔案數據自動分類模型。利用MacBERT 提取檔案文本動態特征表示,解決了一詞多義問題;多尺度融合網絡充分利用文本的局部語義特征和全局上下文語義關聯,確保獲取文本特征的全面性。使用軟注意力機制計算每個特征的權重大小,識別出關鍵特征。實驗結果證明了文中模型在檔案自動分類任務上的有效性。在未來工作中,考慮在維持基本精度的前提下,降低MacBERT 模型參數,并將模型應用到其他文本分類領域。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 日本亚洲国产一区二区三区| 小蝌蚪亚洲精品国产| 国产成年女人特黄特色毛片免| 国产一区成人| 51国产偷自视频区视频手机观看| 亚洲无线国产观看| 丁香婷婷激情综合激情| 91精品啪在线观看国产91| 日韩 欧美 小说 综合网 另类| 亚洲色大成网站www国产| 亚洲无码视频喷水| аv天堂最新中文在线| 小说 亚洲 无码 精品| 亚洲精品色AV无码看| 女人av社区男人的天堂| 91福利在线看| 中文字幕亚洲精品2页| 久久国产精品77777| 2021国产乱人伦在线播放| 国产你懂得| 亚洲视频欧美不卡| 天天色天天操综合网| 在线观看亚洲精品福利片| 亚洲欧美成人网| 午夜限制老子影院888| 国产久操视频| 亚洲中文字幕23页在线| 黄色片中文字幕| 国产在线精品美女观看| 免费在线色| 最新午夜男女福利片视频| 亚洲无码免费黄色网址| 成年人国产视频| 亚洲手机在线| 亚洲性一区| 色哟哟国产精品一区二区| 欧美成一级| 亚洲福利一区二区三区| 国产精品成人一区二区不卡 | 在线无码av一区二区三区| 亚洲午夜天堂| 影音先锋亚洲无码| 日韩最新中文字幕| 全部免费特黄特色大片视频| 欧美一区二区人人喊爽| 国产丰满大乳无码免费播放 | 99久久国产综合精品2020| 国产第一页免费浮力影院| 美女潮喷出白浆在线观看视频| 久久久久人妻一区精品色奶水| 国产精品免费福利久久播放| 欧美一级高清视频在线播放| 性喷潮久久久久久久久| 99手机在线视频| 丰满人妻中出白浆| 在线播放国产99re| 亚洲精品成人片在线播放| 精品91自产拍在线| 免费A级毛片无码免费视频| 久久久久国产精品免费免费不卡| 国产激爽大片高清在线观看| 国产第一页屁屁影院| 日韩小视频在线播放| 又爽又大又光又色的午夜视频| 2020国产精品视频| 久久99精品久久久久纯品| 91色在线观看| 韩日无码在线不卡| aa级毛片毛片免费观看久| 亚洲欧美另类色图| 亚洲精品国产首次亮相| 久久久亚洲国产美女国产盗摄| 日本欧美中文字幕精品亚洲| 久久五月天国产自| 永久免费av网站可以直接看的| 亚洲精品黄| 欧美成人第一页| 亚洲av日韩综合一区尤物| 91极品美女高潮叫床在线观看| 国产女人18毛片水真多1| 亚洲午夜久久久精品电影院| 丰满人妻一区二区三区视频|