張駿強 高尚兵 蘇睿 李文婷



摘要
在對化工領域類文本進行分類任務時,由于文本的專業性以及復雜多樣性,僅僅依靠現有的詞向量表征方式,很難對其中的專業術語以及其他化工領域內相關字詞的語義進行充分表征,從而導致分類任務的準確率不高.本文提出一種融合多粒度動態語義表征的文本分類模型,首先在詞嵌入層使用動態詞向量表征語義信息并引入對抗擾動,使得詞向量具有更好的表征能力,然后利用多頭注意力機制進行詞向量權重分配,獲得帶有關鍵語義信息的文本表示,最后使用提出的多尺度殘差收縮深層金字塔形的卷積神經網絡與混合注意力膠囊雙向LSTM網絡模型分別提取不同粒度的文本表示,融合后對得到的最終文本表示進行分類.實驗結果表明,相比于現有模型,所提出的模型使用不同詞向量表示時,在化工領域文本數據集上F1-Score最高可達84.62%,提升了0.38~5.58個百分點;在公開中文數據集THUCNews和譚松波酒店評論數據集ChnSentiCorp上進行模型泛化性能評估,模型也有較好表現.
關鍵詞文本分類;對抗擾動;多粒度;多頭注意力機制;深度殘差收縮;預訓練語言模型
中圖分類號
TP391;TQ072
文獻標志碼
A
收稿日期
2022-01-12
資助項目
國家重點研發計劃(2018YFB1004904);江蘇省“六大人才高峰”資助項目(XYDXXJS-011);江蘇省“333工程”資助項目(BRA2016454);江蘇省教育廳重大研究項目(18KJA520001);淮陰工學院研究生科技創新計劃項目(HGYK202121)
作者簡介張駿強,男,碩士生,研究方向為數據挖掘與推薦系統.zhangjq0906@hyit.edu.cn
高尚兵(通信作者),男,博士,教授,主要研究方向為機器學習、數據挖掘與模式識別.gaoshangbing@hyit.edu.cn
0 引言
化工業屬于國民經濟基礎產業之一,它在中國近現代工業的發展中占據著極為重要的地位,其制造出來的各種產品滲透在人們生活的方方面面中.新冠疫情的出現使得本就不景氣的傳統工業經濟效益下滑加劇[1],而互聯網行業受其影響相對較小,各行各業的海量信息以文本、圖像、音頻等方式被呈現在其中.通過新興的計算機技術對互聯網上海量的資源加以分析,挖掘其蘊含的內在價值,從而反哺傳統工業,具有重大的現實意義.
化工領域文本涉及到化學這一自然科學,相比于其他僅涉及人文科學的文本數據,化工領域文本數據有著更高的專業程度,這使得對該領域相關人員專業水平要求很高,化工文本理解學習成本也較大.
對于化工領域內的從業人員而言,可以依據其經驗以及專業知識對領域內化工產品文本所屬衍生領域進行分類.而對于計算機而言,采用自然語言處理的方式對化工產品文本進行區別分類具有更大的可行性與便捷性.
目前針對文本分類的算法,使用的詞向量大多還是基于Word2Vec[2]等模型訓練靜態詞向量,而現如今很多有隱含價值的文本越來越趨向于碎片化,其上下文之間往往不具備很緊密的邏輯關系,靜態詞向量并不能很好地根據字詞的上下文去變化,語義表達能力較弱[3],這使得文本分類精度受到極大影響,預訓練語言模型[4]的出現很好地緩解了這個問題.Google于2018年提出了一種基于Transformer結構的雙向編碼表示模型 (Bidirectional Encoder Representation from Transformers,BERT)[5],該模型的出現使得詞向量模型的泛化能力進一步增強,并在文本分類領域做出了巨大的貢獻.Lan等[6]通過矩陣分解以及共享參數的方法在僅僅損失小部分模型性能的基礎上,進一步地減少了BERT模型的參數量.Yang等[7]通過將單詞隨機打亂詞序從而實現上下文雙向編碼,進一步提升了模型性能.雖然BERT等預訓練語言模型性能表現優秀,但該模型并不是針對中文領域文本所設計的預訓練模型,也沒有對中文領域文本特點進行針對性優化.因此,Cui等[8]提出一種新的中文預訓練語言模型(MLM as correction BERT,MacBERT),并在相關中文自然語言處理任務中取得了較好成績.
針對化工領域產品文本這一種類特殊的文本數據,本文總結了以下幾個特點:1)文本專業性強,文本中包含有大量化學專業術語名詞,主流分詞方式缺乏化學名詞詞庫,而人工理解文本進行分類成本較高,要求進行分類的人員有較高的相關知識水平;2)文本類別較多,例如本文所統計的化工領域內產品文本就涵蓋有有機原料、化工試劑、化工中間體、化學礦、無機化工、農業化工、涂料油漆、聚合物、染料、食品添加劑、生物化工等17個類別,這也增加了文本分類難度;3)文本規范性差,文本中的化學名詞由數字、中文、英文、符號組合,是文本中的重要局部特征之一,總體是一種交替間隔出現的趨勢;4)文本篇幅長且關鍵特征呈現碎片化分布,化工產品文本主要有CAS號、產品描述、形狀特征以及包裝方式等字段內容構成,通常文本篇幅較長,但是字段之間聯系較少,邏輯性弱;5)文本含噪聲比例高,化工產品文本中會存在部分文本攜帶同廠家生產的其他類型化工產品廣告推廣,但是這些廣告文本內容與其類別內的其他產品關鍵特征相似度高,這使得噪聲文本很難被常規清洗手段去除.
現有的文本分類方法大多還是針對通用領域文本,其中包含的領域專業字詞往往較少,這導致分類方法在詞向量建模階段就不能很好地表達語義信息,進而在后續使用傳統網絡模型進行文本特征提取時,會產生諸多問題.一方面,傳統卷積神經網絡(CNN)只能提取局部特征,由于化工文本邏輯性不強,并且分布呈現碎片化,這使得CNN提取到的局部特征往往不夠全面,并且無法很好利用化工長文本中蘊含的全局語義信息.另一方面,傳統循環神經網絡及其變體雖然能提取全局特征信息,但由于化工文本含噪聲比例高,這會使得提取到的全局特征受到影響.因此,如今傳統的特征提取方法已經無法很好地適應專業領域文本的分類任務,亟需針對化工領域產品特點設計一種專業性強的文本分類方法.
為了準確、高效地對化工產品文本特征進行表征,有效獲取化工文本特征語義信息,針對現有文本分類方法應用在化工文本分類任務效果欠佳的問題,本文提出一種融合多粒度動態語義表征的文本分類模型.本文貢獻可總結為以下三點:
1)由于化工文本具有較強專業性以及復雜多樣性,僅僅依靠現有的詞向量表征方式,很難對其中的專業術語以及其他化工領域內相關字詞的語義進行充分表征,從而導致分類任務準確率不高.針對這一問題,本文提出了一種融合多粒度動態語義表征的文本分類模型.該模型受對抗訓練思想啟發,將對抗擾動引入動態詞向量訓練過程中,進一步提升化工詞向量表征能力,使用多頭自注意力更好地突出化工專業名詞特征的權重,并針對下游分類任務提出了一種多尺度殘差收縮深層金字塔形的卷積神經網絡和混合注意力雙向LSTM膠囊網絡模型進行化工文本深度特征提取,有效提升了化工領域文本分類任務的準確性.
2)針對化工長文本含噪比例高,從而會導致文本特征提取困難的問題,提出MSRS-DPCNN模型應用于文本分類任務下游.通過將深度殘差收縮網絡中的注意力機制與軟閾值機制引入到DPCNN模型[9]的殘差連接中,減少化工文本中噪聲對特征提取的影響,增強模型對噪聲的抑制能力,使得模型對于含噪聲比例較高的化工領域文本樣本具有較好的魯棒性.實驗表明該模型可以有效提取含噪化工文本中的長距離關鍵依賴信息.
3)考慮到對于邏輯性差、結構性弱的化工文本,其空間語義信息本就包含較少,而MSRS-DPCNN模型在池化的過程中又無法有效提取化工文本結構空間語義信息,從而導致模型分類效果差的問題,提出HAC-BiLSTM模型,引入膠囊網絡增強空間語義信息提取能力,并通過去除原膠囊網絡中卷積特征提取模塊,改用可以更好保留化工長文本上下文語義特征的雙向循環神經網絡特征提取模塊,使得HAC-BiLSTM保留空間語義信息能力得到進一步提升,最終實現對整個化工文本上下文空間語義信息的高效提取.
1 相關工作
深度學習技術的迅猛發展使得神經網絡模型在自然語言處理任務的許多應用領域中都有極佳表現,因而逐漸受到研究學者們的關注,大量基于神經網絡的算法被應用在文本分類等任務上.
Kim[10]提出TextCNN通過對文本表示進行一維卷積的形式來獲取句子中的多尺度特征表示信息,只使用了一層卷積與一層最大池化,最后通過全連接層輸出分類.盡管該模型對文本表示的淺層特征的提取性能很強,但由于隱藏層太淺,仍然不足以提取出更高層特征,并且也沒有解決CNN模型的通病,即模型無法充分獲取上下文語義信息.Zeng等[11]使用深層卷積神經網絡進行語義特征提取,充分利用卷積深度捕捉文本語義信息,該方法摒棄了傳統特征抽取環節中對各種處理工具的依賴,從而帶來了文本分類在準確性上的提升.Liu等[12]提出了一個基于RNN的多任務結構,多任務結構由三個包含多層LSTM(Long Short-Term Memory)的模型組成,克服了CNN由于感受野大小固定,很難完全采集到文本的所有信息的缺點,并且多個多層LSTM也能較好地提取深層語義特征.Yang等[13]提出一種基于分層注意力的網絡模型,在詞級編碼和句子級編碼的過程中引入注意力機制,充分考慮到了文本之間的相關性,最終模型效果均超過LSTM、TextCNN等模型.
考慮到卷積結構抽取特征的過程中會丟失大量空間信息,且無法關注到語序結構對字詞之間的影響,Sabour等[14]提出采用膠囊網絡大量保留空間要素信息.賈旭東等[15]將可以融合多通道特征的多頭注意力機制引入到膠囊網絡中進行文本分類,通過該機制編碼文本中的字詞間依賴關系,獲取長距離詞間關聯信息,驗證了多頭注意力機制以及膠囊網絡在文本分類任務上的可行性.林悅等[16]將膠囊網絡引入到跨領域文本分類中,設計了額外的膠囊網絡層輔助目標領域的適應,有效提高了跨領域情感分類任務精度.
然而上述這些算法大多還是基于傳統靜態詞向量的文本分類方法,靜態詞向量無法很好適應語境變化帶來的語義變化,語義表達過于死板,單純的靜態詞向量表征方式已經無法滿足文本分類的要求.因此基于動態詞向量的分類方法逐漸受到研究者們的關注,Li等[17]提出一種基于BERT和特征融合的文本自動分類方法.該方法通過BERT預訓練模型生成具有更豐富語境信息的動態詞向量,然后用特征融合的方法充分利用CNN提取局部特征以及BiLSTM利用內存進行鏈接的優勢,來更好地表征文本的語義信息,從而提高中文文本分類任務的準確性.
對抗訓練[18]最早于2015年被提出并應用在圖像領域.研究發現,通過向圖像樣本[19]中添加微小擾動得到對抗樣本,使得模型經過訓練修復擾動產生的誤差,從而可以使得模型魯棒性有所提升.鑒于文本數據不同于圖像數據,是一種離散型數據,Miyato等[20]提出將對抗訓練的思想應用在文本模型的詞嵌入層上,實驗結果表明,在多個任務中都使得模型的性能得到提升.受此啟發,本文將對抗擾動同樣加入到詞嵌入層中,不同于傳統靜態詞向量,而是加入到動態詞向量中,文本表示可以始終隨著模型訓練而調優,使得文本表示的魯棒性得到提高.
深度殘差收縮網絡[21]繼承了殘差收縮網絡的優點,同時集成了注意力機制與軟閾值化,被廣泛應用于圖像領域進行樣本降噪.由于化工領域產品文本具有噪聲比例高的特性,本文將深度殘差收縮網絡加入到下游卷積神經網絡結構中,抑制噪聲文本對于模型分類產生的不利影響.
綜上,考慮到化工領域文本的特殊背景,單一種類的神經網絡使用靜態詞向量進行文本表示的不能充分表征文本信息,這些網絡結構無法很好地在化工領域文本分類任務中發揮作用.
提高化工領域文本分類任務精度的關鍵在于如何有效地考慮到因為其特殊領域背景而與常規領域文本之間產生的數據差異鴻溝.本文利用對抗擾動與動態詞向量對文本信息的強表征能力,降低模型在預處理詞向量建模過程中無法有效處理專業名詞而帶來的負面影響,同時構建深度模型結構提取長距離關鍵依賴關系,并應用深度殘差結構抑制化工文本噪聲,使用提出的混合注意力的雙向LSTM結合動態路由膠囊網絡結構提取保留全局空間語義信息,從而得到融合了長距離依賴局部關鍵信息和全局空間語義信息的多粒度特征表達,有效解決化工領域文本分類準確率低的問題.
2 融合多粒度動態語義表征的文本分類模型
本文提出的融合多粒度動態語義表征的文本分類模型主要由生成動態對抗詞嵌入的MacBERT、進行權重強化調整的多頭自注意力模型、進行關鍵語義信息深度抽取的MSRS-DPCNN模型、構建全局空間語義要素的HAC-BiLSTM模型、特征融合層和輸出層構成.其模型結構如圖1所示,下面將對各層進行詳細闡述.
2.1 動態對抗詞嵌入生成
考慮到由于化工領域文本專業性較強、文本篇幅長且詞間邏輯聯系性較差的特點,傳統靜態詞向量很難充分捕捉到化工領域字詞間的各種語義聯系,進而無法有效地表征化工領域文本的語義信息.因此,模型采用MacBERT模型生成動態詞向量,并且在詞向量動態訓練過程中加入對抗擾動,進一步提升生成的化工文本詞向量的魯棒性以及表征能力,由此生成動態對抗詞嵌入.MacBERT模型是在BERT基礎上提出的一種用于中文文本的預訓練語言模型,該模型同樣采用雙向Transformer結構.為了提升動態詞向量的表征能力,在詞向量訓練過程中加入對抗擾動[22],具體過程如下所示:
設輸入文本序列矩陣為X={x 1,x 2,…,x l(X)},l(X)為X中序列長度,輸入預訓練好的MacBERT進行向量化處理.模型對X進行tokenization分詞并轉化為向量,然后混合句子編碼和位置編碼輸入到transformer中,在此過程中疊加對抗擾動進行計算.對抗擾動計算公式具體如下:
Δx=·g‖g‖ 2,? (1)
x=x+Δx,? (2)
g= xL(x,y;θ),? (3)
式(1)中Δx表示擾動值,‖·‖ 2表示計算2范數,g表示求解的梯度,表示權重參數,用于控制產生大對抗擾動的幅度;式(2)表示對抗樣本的建立;式(3)中L表示預訓練語言模型的損失, x表示對損失函數求偏導,x表示添加過擾動后的迭代輸入,y表示真實標簽,θ表示模型參數.
最終經過對抗訓練后的詞向量序列S={s 1,s 2,…,s n,…,s l(X)},s n是第n個文本的輸出向量表示.
2.2 權重強化調整
注意力機制最早在機器翻譯任務領域取得成功[23].為了進一步地優化所生成的詞向量對化工領域文本的語義表征能力,詞向量通過注意力機制對字詞權重進行重新分配,從而獲得化工文本字詞在全局上的深層語義信息,緩解化工文本字段間聯系性差、邏輯性弱的問題.多頭注意力機制通過線性變換、分割操作、多頭線性投影、子空間注意力計算以及最后的拼接五個操作,實現對不同子空間中提取的關鍵特征進行交互,更好地關注化工文本中更為重要的語義信息,模型結構如圖2所示.
文本序列經過訓練語言模型向量化處理后生成的動態詞向量,依舊可以進一步提取語義特征.為了使動態詞向量在往后的模型訓練過程中獲取除去上游預訓練語言模型以外的模型歸納偏置,繼續使用多頭注意力機制二次強化調整詞向量之間的權重.
輸出詞向量M 0已經進一步加強了對化工文本中關鍵特征的權重,將其和動態詞向量S進行殘差連接得到最終輸出的詞向量序列E:
E=M 0+S.? (4)
2.3 關鍵語義信息深度抽取
化工領域長文本含噪比例較高,僅僅通過一般的淺層卷積結構很難在充分摒除噪聲影響的同時提取到長文本特征以及上下文語義間的聯系.為此本文提出一種多尺度殘差收縮深層金字塔形的卷積神經網絡模型(Multi-Scale Residual Shrinkage Deep Pyramid Convolutional Neural Networks,MSRS-DPCNN),通過不斷加深卷積網絡深度,在抑制噪聲的同時對化工詞向量序列中的長距離依賴關鍵信息進行有效抽取,模型結構如圖3所示,其中k為輸入詞向量維度.
MSRS-DPCNN模型考慮到化工文本詞間聯系弱進而會導致語義連貫性差的問題,所以模型在初始進行卷積時,進行了不同尺度的卷積拼接操作,用以獲得更多尺度的特征信息,增強詞間語義聯系,囊括更多語義信息.具體公式如下:
c i=f(W 1·E+b 1),? (5)
C=concat(c 1,c 2,…,c i),? (6)
其中,c i表示第i個卷積操作的輸出,E表示輸入向量序列,C表示多種卷積尺度的拼接操作最終輸出結果.
同時,為了增強模型對化工文本中噪聲的抵抗能力,模型在殘差連接之間使用了改進的殘差收縮模塊 (Residual Shrinkage Building Unit with Channel-Wise thresholds,RSBU-CW)[21].RSBU-CW模型結構如圖4所示.
RSBU-CW利用注意力機制來生成軟閾值函數所需的閾值,實現對化工文本中噪聲的弱化乃至消除處理.逐通道閾值化使得其能更好關注不同通道中的重要特征,而軟閾值化是信號降噪處理中的常用算法.通過軟閾值化機制收縮輸入的特征,當特征值低于注意力機制生成的閾值時,可以認為這部分特征即為噪聲,對這部分特征進行置零消除,其他部分特征會得到保留,通過這種方式可以實現對輸入特征向量的降噪處理,其公式如下:
y=x-τ, x>τ,
0,-τ≤x≤τ,
x+τ,x<-τ,? (7)
式(7)中x表示輸入特征向量,y表示輸出特征向量,τ為不同特征向量下注意力機制產生的自適應閾值.
最后得到MSRS-DPCNN模型的輸出向量M DP.
2.4 全局空間語義要素構建
在進行文本特征提取的過程中,考慮到上下文語義信息對于篇幅較長的化工文本尤為重要,依靠單一卷積結構只能關注到局部關鍵特征,并且在池化的過程中還會丟失大量的空間語義信息,反映到文本序列中就是詞的上下文位置順序等空間信息丟失.而化工文本本身蘊含的空間信息就少,因此如何有效捕捉這些信息對于提升化工文本分類精度就顯得更為關鍵.而前人的工作中也驗證了膠囊網絡可以有效保留特征空間結構信息[24],因此,本文提出了一種混合注意力膠囊雙向LSTM模型(Hybrid Attention Capsule Bidirectional LSTM network model,HAC-BiLSTM).其模型結構如圖5所示.
通過BiLSTM與注意力機制捕獲化工文本中隱含的全局語義信息并對關鍵信息權重進行加強,彌補卷積結構無法充分關注上下文信息的缺點.同時,由于上文構建的MSRS-DPCNN模型進行的卷積和池化操作會丟失了大量空間語序結構信息,因此在HAC-BiLSTM模型中構建了膠囊網絡模型,用以保留并獲取相關文本的空間要素信息.
2.4.1 全局語義信息構建
為了有效獲取化工長文本中的上下文語義信息,模型選擇BiLSTM對輸入進行雙向的特征計算,相比于傳統LSTM結構,BiLSTM很好地解決了序列化處理輸入而無法有效地獲取上下文信息的問題[25],然后將得到的正反雙向隱層狀態序列表示H i={h i0,h i1,…,h i(n-1)},H′ i={h′ i0,h′ i1,…,h′ i(n-1)}合并拼接得到h t,隨后送入激活函數中,得到輸出特征向量.
2.4.2 全局語義注意力權重
由于BiLSTM在對化工文本特征提取過程中仍然會存在一定程度上的梯度彌散以及上下文語義不充分的問題,模型將對BiLSTM輸出進行進一步地注意力加權操作,提高關鍵特征的權重,詳細計算過程如下所示,最終得到輸出的特征向量為V att.
h′ n=tanh(W 2h t+b 2),? (8)
a n=exp(h′ nW 3)∑Nj=1h′ nW 3,? (9)
V att=∑Nn=1a nh t,? (10)
其中,h t是BiLSTM的輸出詞向量,W 2和b 2分別是權重矩陣和偏置,h′ n 為經過tanh激活函數處理后的詞向量,W 3為權重矩陣,a n詞注意力概率權重分布,即詞的重要性信息,V att表示經過詞的加權平均后的詞向量特征表示.
2.4.3 全局語義空間要素
考慮到MSRS-DPCNN模型在使用卷積模塊對化工文本進行深度特征提取時會丟失大量空間信息,本文引入改進的膠囊網絡緩解這一問題.本文模型丟棄了原膠囊網絡中的卷積層轉而使用BiLSTM進行底層特征抽取,BiLSTM可以充分建模上下文全局語義信息,即可以關注到某個字詞在整句話中的位置語序關系.膠囊網絡最先被應用于圖像領域,局部關鍵信息相對來說更為重要,因此會選擇使用卷積對文本建模提取特征.這使得膠囊網絡在被應用于自然語言處理領域時,只能關注到某個字詞在局部一段話中的相對特征信息,很難獲取全局語義信息,而在文本特征中上下文語序信息(全局信息)是十分重要的,因此本文模型局部關鍵信息由上文的MSRS-DPCNN模型抽取,使用BiLSTM代替膠囊網絡中的卷積進行特征提取,從而使得文本空間語序要素可以進一步被保留.
膠囊網絡由主膠囊層與數字膠囊層構成,層間通過動態路由算法進行聯系.設抽取到的特征為B i,則膠囊網絡的輸出為V cap.具體計算過程如下:
首先,膠囊網絡為了更好地保留空間要素,選擇使用矢量輸出代替傳統卷積操作中的標量輸出.主膠囊層的計算如式(11)所示,u i表示第i個通過卷積操作生成的膠囊向量,實現將B i特征映射到u i的過程.
u i=squash(W 3·B i+b 3).? (11)
其次,為了獲得分類運算所需的概率預測向量,膠囊網絡通過一個squash擠壓函數實現對向量的壓縮,由此即開始動態路由的計算,詳細計算過程如式(12)至式(16)所示:
v j=squash(s j)=‖s j‖21+‖s j‖2s j‖s j‖,? (12)
式(11)與式(12) 中squash表示擠壓函數.在式(11)中利用擠壓函數對向量s j進行壓縮,規范其長度,使得v j始終保持在(0,1)之間,從而可以根據v j進行概率判斷.
s j=∑ic ij j|i,? (13)
s j的計算需要對預測向量 j|i進行加權求和,并計算膠囊層i總輸入s j,耦合系數c ij與預測向量 j|i的計算方法為
c ij=exp(b ij)∑kexp(b ik), (14)
j|i=W ju i,? (15)
式(15)中預測向量 j|i由主膠囊層的輸出u i經過權重矩陣W j加權計算得到;式(14) 中待更新權重b ij的計算公式為
b ij=b ij+ j|iv j,? (16)
b ij經過預測向量 j|i與輸出向量v j一致性計算迭代更新.
2.5 特征融合
利用集成學習的方式,將MSRS-DPCNN模型提取局部關鍵特征以及部分長距離依賴特征與HAC-BiLSTM模型提取的全局上下文語義關系特征進行特征融合,如式(17)與(18)所示:
V HAC=V att+V cap,? (17)
G=concat(M DP,V HAC),? (18)
其中:V cap與V att為HAC-BiLSTM模型提取的兩種全局語義信息,融合后得到V HAC為HAC-BiLSTM模型輸出的向量;M DP為MS-DPCNN模型輸出的特征向量,與V HAC拼接后得到特征融合層的輸出向量G.
2.6 輸出
將前面通過特征融合得到的特征向量輸入全連接層進行調整得到H:
H=liner(G),? (19)
隨后傳入softmax層進行分類,得到最終分類結果.
3 實驗過程與分析
3.1 實驗環境與數據
本文模型基于Pytorch 1.6實現,運行環境為Ubuntu 18.04.3,GPU為1塊Tesla V100(16 GB),編程語言為Python 3.7.
化工領域產品數據收集自中國化工制造網(http://www.chemmade.com)、化工產品網(http://www.chemcp.com)以及蓋德化工網(https://china.guidechem.com)等國內幾家較大的化工化學類交易平臺的化工產品信息,共包含有221 216條帶有標簽的化工領域產品文本數據,平均文本長度261.43字,標簽種類分為17種,樣本類別之間數量比例分布不均衡,最高達到130∶1.文本數據涵蓋了主要化工產品分布領域,包括有機原料、化工試劑、化工中間體、化學礦、無機化工、農業化工、涂料油漆、聚合物、染料、食品添加劑、生物化工、香精、膠粘劑、日用化工、催化劑以及植物提取物.
上述數據按照6∶2∶2的比例切分為訓練集、驗證集以及測試集,數據集的數據格式如表1所示.
為了對模型進行泛化性評估,額外在THUCNews和ChnSentiCorp兩個中文公開數據集上進行實驗.三個數據集詳細信息如表2所示.
THUCNews(http://thuctc.thunlp.org)隨機抽取20萬條數據,涉及財經、房產、股票、教育、科技、社會、時政、體育、游戲、娛樂共計10個類別,每個類別2萬條,平均數據長度22.34字,屬于短文本數據集;ChnSentiCorp(https://github.com/SophonPlus/ChineseNlpCorpus)是酒店評論數據集,一共分為正面和負面2個評價類別7 765條數據,其中,正面評價5 322條,負面評價2 443條,平均數據長度128.52字,屬于長文本數據集.
3.2 數據預處理
具體的數據預處理主要包括以下幾個步驟:
1)數據集清洗.此步驟主要包括去除重復出現的無意義字詞(例如:啊、呃、呢、用途、性狀、外觀等)、去除多余空白、去除回車換行符和制表符以及繁簡體的統一.
2)選擇性中文分詞.將數據集進行分詞用于生成靜態詞向量,對所清洗好的中文領域數據集利用jieba(https://github.com/fxsjy/jieba)分詞工具進行中文分詞,此處選用的停用詞表為哈爾濱工業大學停用詞表.
3.3 實驗參數設置
具體參數設置如表3所示.
3.4 評價指標
本文分別采用精確率(Precision,P)、準確率(Accuracy,A)以及F1值作為評價指標用以對模型的分類效果進行評價.
精確率指的是在所有預測為正例的樣本中,預測正確的樣本所占的比例,主要用于驗證特征提取效果和計算F1值,計算公式為
P=TPTP+FP.? (20)
準確率指模型預測正確樣本數占樣本總數的比例,計算公式為
A=TP+TNTP+TN+FP+FN. (21)
召回率(Recall,R)指在所有真實為正例的樣本中預測正確的樣本所占的比例,計算公式為
R=TPTP+FN.? (22)
F1值用于結合精確率和召回率,對模型效果進行綜合評價,計算公式為
F1=2×P×RP+R.? (23)
其中:TP為真正例,表示實際為正例且預測為正例;FP為假正例,表示實際為負例但預測為正例;TN為真負例,表示實際為負例且預測為負例;FN表示假負例,表示實際為正例但預測為負例.
3.5 實驗結果分析
3.5.1 模型有效性評估
為了驗證提出的模型在化工領域產品數據集上的有效性,本文將模型與TextCNN[10]、DPCNN[9]、BiLSTM[12]、Capsule Network[26]四個基線模型以及三個多階段模型進行了實驗對比,實驗結果如表4所示.
從表4可以看出,針對化工領域類文本數據,使用動態詞向量能更好地提取文本表示,從而有效提高模型性能.本文模型在使用動態詞向量的情況下相比于僅使用靜態詞向量,F1-Score值分別上升了9.91和10.42個百分點,和僅使用MacBERT中文預訓練語言模型相比F1-Score上升了0.38個百分點.在多階段模型中加入膠囊網絡可以一定程度上提升模型性能,可能原因是化工類文本邏輯性較弱且碎片化分布,單靠BiLSTM提取全局語義信息,無法兼顧到局部碎片化文本中的語序信息,而加入膠囊網絡可以有效彌補這一點.相較于原始MacBERT模型,三種多階段基線模型性能均出現不同程度下降,并且下接網絡越簡單,模型性能下降越顯著.可能原因是預訓練語言模型參數量過多,而下接的網絡由于參數量較小并且僅僅是簡單的模型拼接,并未考慮到不同下接模型特征提取方式的優缺點,以及特殊領域數據背景對模型性能產生的影響[28],故對接后很難充分發揮前者的優異性能,甚至會產生干擾,導致模型性能下降.
同時,從表4數據可知,相較于幾組基線模型,本文構建的模型在評價指標上均達到最優,在使用靜態詞向量時,本文模型較單階段基線模型中最優模型F1-Score分別提升了5.58個百分點和3.73個百分點.在使用動態詞向量時,本文模型較多階段基線模型中最優模型提升了0.89個百分點.可以看出本文構建的模型可以更好地適應化工領域文本分類任務,并提升分類任務精度.
為了更有效地說明模型各部分的作用,進行了模型消融實驗,實驗結果如表5所示.其中α代表詞消融對抗擾動機制,β代表消融多頭注意力機制,γ代表消融MSRS-DPCNN模型,δ代表消融HAC-BiLSTM模型,δ*代表在消融HAC-BiLSTM模型基礎上繼續對降噪模塊RSBU-CW進行消融的模型.
通過表5實驗數據可知,第1組消融對抗擾動機制使得模型F1-Score下降0.64個百分點,模型性能出現較大幅度下降,主要原因可能是該機制可以提高模型魯棒性,降低過擬合風險,而本文構建的化工領域文本分類模型模塊較多,參數量較大,因此消融了可以提升模型魯棒性的對抗擾動機制會讓模型性能下降較大.第2組消融多頭注意力機制使得模型F1-Score下降0.45個百分點,多頭注意力機制可以進一步優化上一層生成的詞向量對化工領域文本的語義表征能力,因此消融該部分同樣會對模型性能產生影響.第3組消融了MSRS-DPCNN模型使得模型F1-Score下降0.68個百分點.由于該模型負責對化工長文本進行深度特征提取,屬于重要的特征提取模塊,因此消融該部分同樣對模型整體性能產生較大影響.第4組先是對HAC-BiLSTM模型進行消融實驗,模型F1-Score下降1.01個百分點,在此基礎上繼續對MSRS-DPCNN模型中的降噪模塊進行消融,模型F1-Score繼續下降0.29個百分點,模型整體性能出現大幅下降,這表示該部分模型提取的上下文語義信息以及構建的空間語序等結構信息,對進行化工領域這類特殊背景的文本分類有著至關重要的地位,同時降噪模塊也在一定程度上起到了抑制文本中噪聲干擾的能力.
綜上所述,本文提出的融合多粒度動態語義表征的文本分類模型對于化工領域文本分類任務有較好的性能表現,通過抽取關鍵語義信息、全局語義信息以及空間要素這些不同粒度的語義表征可以有效提升分類任務精度.
3.5.2 模型泛化性評估
為了驗證模型在中文文本分類任務上的泛化性能,本文在THUCNews和ChnSentiCorp兩個中文公開數據集上進行實驗,實驗結果分別如表6、表7所示.
從表6中數據可知,本文提出的模型在THUCNews數據集上性能略低于MacBERT模型,主要原因是本文模型針對化工領域文本進行了針對性設計.THUCNews數據集與化工領域文本特性相差過大,屬于短文本,所含關鍵特征較少,并且本文所構建的MacBERT模型下接結構較為復雜,對較短的文本會產生語義過度解讀,同時其中的降噪機制亦會對短文本中特征的提取有一定抑制,因此本文提出模型相比較于單純使用預訓練語言模型性能有一定下降.而在消融預訓練語言模型僅使用靜態詞向量時,本文提出的下接結構可以有效提升模型性能,相比于最優基線模型提升了0.34個百分點,這表明模型在使用靜態詞向量時的下接結構在短文本數據集上可以擁有的良好泛化性能.
而對于ChnSentiCorp數據集,從表7可以看出,本文構建的模型即使是在使用靜態詞向量的情況下,準確率和F1-Score分別提升1.35和1.31個百分點.與其他三個多階段模型相比,準確率和F1-Score分別提升0.45和0.60個百分點,模型性能提升較明顯,主要是由于ChnSentiCorp數據集與化工領域數據集都屬于長文本數據集,而本文構建的網絡可以很好地提取長文本中的特征,因而模型性能表現較好.
從三個多階段模型在兩個公開數據集上的實驗結果可以看出,膠囊網絡在長文本數據集上可以發揮出更好的優勢.加入膠囊網絡的多階段模型在ChnSentiCorp數據集上的F1-Score指標比THUCNews數據集提升0.19個百分點,可能是因為長文本中字詞的空間結構(語序)信息更豐富,從而使得效果提升更為明顯.
綜合在兩個數據集上以及與七個基線模型的實驗對比結果,本文提出的模型在與化工領域數據集相似數據特點的長文本數據集上具有較好泛化性能,在短文本數據集上使用靜態詞向量時也擁有較好表現.
3.5.3 不同文本長度對模型性能影響
為了探究不同化工文本長度對模型性能的影響,本文進行了實驗對比,實驗結果如圖6所示.
從圖6可以看出,不同文本長度對模型性能有較大的影響.數據集的平均長度為261.43字,實驗結果表明當數據長度在128字時模型性能最佳.經過對數據集分析后發現,化工產品數據集文本長度中位數為148字,文本長度最長為1 946字,最短為27字,文本長度在區間[1,128]與[129,256]之間的比例達到2.02∶1.因此,文本長度超過148字時會使得大量的短文本數據被過度填充,低于148字時會使得文本數據過度截斷,因而在文本長度選擇位于中位數148字附近的128字時模型性能最佳準確率達到84.79%,F1-Score達到84.62%.
4 結束語
本文描述了融合多粒度動態語義表征的文本分類模型研究,針對化工領域產品文本這類特定領域的文本數據,將MacBERT預訓練語言模型作用在分類任務上游用以獲取句子的動態詞向量,并在其中引入對抗訓練思想,增加文本表征的魯棒性.借助多頭注意力機制對文本表征二次權重調整,在任務下游利用帶有抑制噪聲文本數據能力的MSRS-DPCNN模型以及可以有效提取全局語義信息和空間要素的HAC-BiLSTM模型對預訓練模型輸出的詞向量進行深度特征提取,輸入分類器進行分類.將本文提出的模型與其他幾種神經網絡分類算法進行比較,實驗結果表明,在兩個公開數據集中本方法對長文本分類任務有較好表現,較深的神經網絡使得模型具有提取長距離語義依賴能力,但對于短文本,較深的網絡會導致性能過剩,反而效果不佳;在化工領域的中文化工產品數據集中,本方法優于幾個基線模型,提高了分類的準確性.
盡管本文提出的模型在準確性上優于其他分類方法,但由于領域類文本相對專業且往往文本數據構成復雜,這使得構建的模型通用性不強,只能針對某一領域的特定任務.未來可以通過在領域類中文本預處理的過程中引入領域專業術語庫對文本進行規范化從而整體提升數據集質量,以及通過領域知識遷移等方式降低數據對模型的要求,使得模型的通用性和泛化性得到提升,從而可以應用到更多領域中.
參考文獻
References
[1] 李海洋,趙國偉.2020年中國石油和化學工業經濟運行報告[J].現代化工,2021,41(3):251-253
LI Haiyang,ZHAO Guowei.China petroleum and chemical industry economic operation report 2020[J].Modern Chemical Industry,2021,41(03):251-253
[2] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv e-print,2013,arXiv:1301.3781
[3] Liu W K,Xiao J E,Hong M.Comparison on feature selection methods for text classification[C]//Proceedings of the 2020 4th International Conference on Management Engineering,Software Engineering and Service Sciences,2020:82-86
[4] 陳德光,馬金林,馬自萍,等.自然語言處理預訓練技術綜述[J].計算機科學與探索,2021,15(8):1359-1389
CHEN Deguang,MA Jinlin,MA Ziping,et al.Review of pre-training techniques for natural language processing[J].Journal of Frontiers of Computer Science & Technology,2021,15(8):1359-1389
[5] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186
[6] Lan Z Z,Chen M D,Goodman S,et al.ALBERT:a lite BERT for self-supervised learning of language representations[J].arXiv e-print,2019,arXiv:1909.11942
[7] Yang Z L,Dai Z H,Yang Y M,et al.XlNet:generalized auto-regressive pretraining for language understanding[C]//Advances in Neural Information Processing Systems,2019:5754-5764
[8] Cui Y M,Che W X,Liu T,et al.Revisiting pre-trained models for Chinese natural language processing[C]//Findings of the Association for Computational Linguistics,2020:657-668
[9] Johnson R,Zhang T.Deep pyramid convolutional neural networks for text categorization[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers),2017:562-570
[10] Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014:1746-1751
[11] Zeng D J,Liu K,Lai S W,et al.Relation classification via convolutional deep neural network[C]//Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:2335-2344
[12] Liu P F,Qiu X P,Huang X J.Recurrent neural network for text classification with multi-task learning [C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2873-2879
[13] Yang Z C,Yang D Y,Dyer C,et al.Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2016:1480-1489
[14] Sabour S,Frosst N,Hinton G E.Dynamic routing between capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3856-3866
[15] 賈旭東,王莉.基于多頭注意力膠囊網絡的文本分類模型[J].清華大學學報(自然科學版),2020,60(5):415-421
JIA Xudong,WANG Li.Text classification model based on multi-head attention capsule neworks[J].Journal of Tsinghua University (Science and Technology),2020,60(5):415-421
[16] 林悅,錢鐵云.基于膠囊網絡的跨領域情感分類方法[J].南京信息工程大學學報(自然科學版),2019,11(3):286-294
LIN Yue,QIAN Tieyun.Cross-domain sentiment classification by capsule network[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(3):286-294
[17] Li W T,Gao S B,Zhou H,et al.The automatic text classification method based on BERT and feature union[C]//2019 IEEE 25th International Conference on Parallel and Distributed Systems.December 4-6,2019,Tianjin,China.IEEE,2019:774-777
[18] Goodfellow I J,Shlens J,Szegedy C.Explaining and harnessing adversarial examples[C]//3rd International Conference on Learning Representations,ICLR 2015-Conference Track Proceedings,2015
[19] 黃菲,高飛,朱靜潔,等.基于生成對抗網絡的異質人臉圖像合成:進展與挑戰[J].南京信息工程大學學報(自然科學版),2019,11(6):660-681
HUANG Fei,GAO Fei,ZHU Jingjie,et al.Heterogeneous face synthesis via generative adversarial networks:progresses and challenges[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(6):660-681
[20] Miyato T,Dai A M,Goodfellow I.Adversarial training methods for semi-supervised text classification[J].arXiv e-print,2016,arXiv:1605.07725
[21] Zhao M H,Zhong S S,Fu X Y,et al.Deep residual shrinkage networks for fault diagnosis[J].IEEE Transactions on Industrial Informatics,2020,16(7):4681-4690
[22] Huang S,Papernot N,Goodfellow I,et al.Adversarial attacks on neural network policies[J].arXiv e-print,2017,arXiv:1702.02284
[23] Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv e-print,2014,arXiv:1409.0473
[24] 倪斌,陸曉蕾,童逸琦,等.膠囊神經網絡在期刊文本分類中的應用[J].南京大學學報(自然科學),2021,57(5):750-756
NI Bin,LU Xiaolei,TONG Yiqi,et al.Automated journal text classification based on capsule neural network[J].Journal of Nanjing University (Natural Science),2021,57(5):750-756
[25] Sachan D S,Zaheer M,Salakhutdinov R.Revisiting LSTM networks for semi-supervised text classification via mixed objective function[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:6940-6948
[26] Yang M,Zhao W,Ye J B,et al.Investigating capsule networks with dynamic routing for text classification[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels,Belgium.Stroudsburg,PA,USA:Association for Computational Linguistics,2018:3110-3119
[27] Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:1532-1543
[28] 范紅杰,李雪冬,葉松濤.面向電子病歷語義解析的疾病輔助診斷方法[J].計算機科學,2022,49(1):153-158
FAN Hongjie,LI Xuedong,YE Songtao.Aided disease diagnosis method for EMR semantic analysis[J].Computer Science,2022,49(1):153-158
Text classification model incorporating multi-granularity
dynamic semantic representation
ZHANG Junqiang1 GAO Shangbing1 SU Rui1 LI Wenting1
1School of Computer and Software Engineering/Jiangsu Internet of Things Mobile Interconnection
Technology Engineering Laboratory,Huaiyin Institute of Technology,Huaian 223003
Abstract
The widely used word vector representation is incapable of fully representing the specialized texts and phrases in sphere of highly specialized chemical industry,which were quite professional and complex,resulting in the low accuracy of classification.Here,we propose a text classification model incorporating multi-granularity dynamic semantic representation.First,the adversarial perturbation was introduced into the word embedding layer of the model to enhance the ability of dynamic word vectors to represent the semantics.Then the word vector weights were redistributed by a multi-headed attention mechanism to obtain a better textual representation of key semantic information.Finally,text representations of different granularities were extracted through the proposed multi-scale residual shrinkage deep pyramidal convolutional neural network (MSRS-DPCNN) and hybrid attention capsule bidirectional LSTM (HAC-BiLSTM) network model,which were then fused for classification.The experimental results showed that the proposed model achieved an F1-score up to 84.62% on the chemical domain text dataset when using different word vector representations,an improvement of 0.38-5.58 percentage points compared with existing models.The model also had pretty good generalization performance on the publicly available Chinese dataset THUCNews and the Tan Songbo hotel review dataset ChnSentiCorp.
Key words text classification;adversarial perturbation;multi-granularity;multi-head attention mechanism;deep residual shrinkage;pre-trained language models