劉舸舸
(陸軍軍醫大學第二附屬醫院醫學工程科,重慶 400037)
隨著檔案數據數字化程度的快速增加,各種電子檔案數量呈現出爆炸式的增長。面對海量的檔案數據,現有的手工分類模式費時費力,效率不高且易誤分類[1-2]。如何合理挖掘和分析檔案內容的潛在關聯性,以及快速識別檔案類別已經成為一個急需解決的問題。
傳統靜態詞向量Word2vec[3]和Glove 在訓練過程中舍棄了詞的位置信息,無法準確表示檔案文本的完整語義。動態詞向量模型ELMO[4]和BERT[5]結合了每個詞具體上下文語境進行動態學習,使得相同詞在不同語境下有著不同的詞向量表征,解決了一詞多義問題。MacBERT[6]模型引入了全詞MASK策略,并使用相似的詞替換MASK 詞,減緩預訓練和微調兩個階段的誤差,提升了模型的語義理解能力。
檔案數據自動分類方法主要有機器學習方法和深度學習方法。機器學習方法需要人為構建復雜特征工程,導致時間、人工成本高,且無法確保提取特征的準確性。而在深度學習方面,文獻[7]提出了Word2vec-ABLCNN 的文本分類模型,詞向量模型Word2vec 無法表示多義詞,詞向量語義表示質量低。針對專利分類研究,文獻[8]提出了BERT-CNN模型,該模型提升了層級專利分類性能,但CNN 模塊僅能捕獲文本局部特征,特征提取不夠全面。文獻[9]提出了BERT-BiLSTM-CRF 命名實體識別模型,BilSTM 受限于循環機制,訓練效率不高,且缺乏對局部特征的學習。以上模型未能識別出對分類結果影響更大的關鍵特征。
針對目前研究仍然存在的不足,文中提出了結合MacBERT 和多尺度融合網絡的檔案數據分類模型,主要創新和貢獻如下:
1)針對靜態詞向量無法表示多義詞的問題,MacBERT 模型獲取了文本的動態特征表示,提高了詞向量表征能力。
2)為確保特征提取的全面性,采用多尺度融合網絡捕獲檔案文本局部特征和全局序列語義特征。
3)利用軟注意力[10]模塊賦予模型識別關鍵特征的能力。
文中提出的結合MacBERT 和多尺度融合網絡的檔案數據分類模型整體結構如圖1 所示。檔案數據分類的主要步驟如下:1)對檔案數據進行清洗和預處理,對錯誤分類的檔案樣本進行糾正。2)利用MacBERT 預訓練模型提取檔案文本的動態特征向量表示。3)由多尺度融合網絡提取文本局部語義特征和上下文深層序列特征。4)利用軟注意力模塊計算每個詞對分類結果的權重得分。5)分類層輸出檔案文本分類結果。

圖1 模型整體結構
MacBERT 利用雙向Transformer 編碼器提取文本語義特征,內置自注意力作為核心模塊,能夠關注到句子內部每個詞與詞之間的依賴關系,捕捉到文本句法結構,增強模型語義理解能力[11]。模型結構如圖2 所示。

圖2 MacBERT模型結構
其中,E1,E2,…,Em為輸入向量,由字嵌入、位置嵌入和分句嵌入相加而成,相關過程如圖3 所示。經多層Transform 編碼器動態語義學習后,得到文本的動態特征表示T1,T2,…,Tm,Ti為文本中詞的向量表示。

圖3 輸入向量組成
多尺度融合網絡主要由多通道卷積模塊和雙向簡單循環網絡構成。多通道卷積模塊[12]通過設置不同尺寸的卷積核,分別對特征圖進行卷積操作,捕獲詞和短語級別的局部語義特征。雙向簡單循環網絡對局部特征進行多尺度上下文序列特征學習。
在多通道卷積模塊中,對MacBERT 模型輸出的動態特征表示T進行卷積操作,為降低語義損失,不加入池化操作,得到新的特征表示ci。計算過程如式(1)、(2)所示:

其中,w為卷積核;b為偏置值;m為滑動窗口大小;?為卷積操作;f為relu()函數;Ti:i+m-1表示T中第i到i+m-1 行文本向量。
雙向簡單循環單元(Simple Recurrent Unit,SRU)[13]作為LSTM[14]和GRU[15]的優秀變體,擺脫了傳統循環模型固有的對上一個時間步輸出狀態的依賴,充分利用顯卡資源進行并行計算加速,提高訓練效率。SRU 前向計算過程如式(3)-(6)所示:

檔案文本語義不僅由上文語義決定,也與下文的語義關系密切。因此,將前向SRU 和后向SRU 疊加形成BiSRU 模塊,利用BiSRU 提取檔案文本的完整語義表示,其模型結構如圖4 所示。行向

圖4 BiSRU模型結構
其中,xt代表卷積操作得到的新特征C的第t行向量。第t時刻的狀態輸出Ht由前向和后向拼接而成。
將卷積層多個通道輸出的局部特征表示[C1,C2,…,Cn]分別輸入到BiSRU,將每個BiSRU 最后一個隱狀態輸出進行拼接,得到多尺度融合特征表示
將多尺度特征輸出H輸入到軟注意力層,計算每個特征對分類結果的注意力得分大小ai,賦予關鍵特征更高的權重。相關過程如式(7)-(9)所示:

其中,tanh()為非線性函數;exp()表示指數運算。
將注意力特征的表示A通過全連接層變換到分類空間,由Softmax 函數得到概率分布Ps,取行最大值對應的檔案類別標簽作為分類結果,其過程如式(10)、(11)所示:

采用某企業人事檔案數據資源作為實驗依據,共8 977 份檔案樣本。手動標注每份檔案文本的所屬類別,并加入到樣本首部,以 作為分隔符號,用于區分標簽和檔案內容。由于數據集中類別數量不平衡,因此僅選擇檔案樣本數量較多的類別進行實驗,分 別 是C12-User、C13-Upper computer、C14-Identity、C15-Address 和C16-Politics,按照80%、10%和10%劃分訓練集、測試集和驗證集。
模型性能評價指標采用準確率(Accuary)、精確率(Precision)、召回率(Recall)和F1 分數,計算過程如式(12)-(15)所示:

模型訓練采用Linux 操作系統,顯卡為3090,顯存大小為24 GB;Python 版本為3.6.0,深度學習框架Pytorch 版本為1.7.0,使用numpy 等第三方支持庫構建模型并進行訓練。
文中采用Base版本的中文MacBERT模型;MCNN卷積核尺寸為(2,3,4),特征通道數量均為128;BiSRU隱藏層大小為256,層數為1;軟注意力機制維度為256;隨機失活概率設置為0.3;最大序列截斷長度為300。綜合訓練參數設定如表1 所示。

表1 綜合訓練參數
模型性能指標如表2所示。由表2可知,文中模型MacBERT-MCNN-BiSRU-AT 的準確率達到了90.5%,優于近期表現較好的深度學習模型,較BERTCNN 和BERT-BiLSTM 分別提升了5.7%和5.2%,證明了MacBERT 與多尺度融合網絡結合的有效性。

表2 性能指標對比
為驗證MacBERT 作為詞向量提取層的有效性,設置Word2vec[16]、ELMO 和BERT 模型作為對比,結果表明,MacBERT 準確率最高,具有更好的應用效果。
為證明多尺度融合網絡的效果,設置消融實驗,與MacBERT-MCNN和MacBERT-BiSRU對比,結果表明,MacBERT-MCNN-BiSRU模型準確率與MacBERTMCNN 和MacBERT-BiSRU 相比分別提高了2.5%和2.2%,多尺度融合網絡能夠全面提取檔案文本的局部語義特征和全局序列特征,提升了模型分類性能。
加入軟注意力機制的MacBERT-MCNN-BiSRUAT 模型準確率較MacBERT-MCNN-BiSRU 提高了1.9%,證明了軟注意力層能夠識別關鍵特征,提高分類效果[17-18]。
綜上所述,文中提出的MacBERT-MCNN-BiSRUAT 模型有效地提高了檔案文本分類準確率。
為提高檔案數據分類的準確率,文中提出了結合MacBERT 和多尺度融合網絡的檔案數據自動分類模型。利用MacBERT 提取檔案文本動態特征表示,解決了一詞多義問題;多尺度融合網絡充分利用文本的局部語義特征和全局上下文語義關聯,確保獲取文本特征的全面性。使用軟注意力機制計算每個特征的權重大小,識別出關鍵特征。實驗結果證明了文中模型在檔案自動分類任務上的有效性。在未來工作中,考慮在維持基本精度的前提下,降低MacBERT 模型參數,并將模型應用到其他文本分類領域。