結(jié)合ALBERT和雙向門控循環(huán)單元的專利文本分類

2021-03-07 05:16:16溫超東任俊偉

計(jì)算機(jī)應(yīng)用 2021年2期

溫超東，曾誠(chéng)，2，3*，任俊偉，張 ?，2，3

（1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院，武漢 430062；2.湖北省軟件工程工程技術(shù)研究中心，武漢 430062；3.湖北省智慧政務(wù)與人工智能應(yīng)用工程研究中心，武漢 430062）

（*通信作者電子郵箱zc@hubu.edu.cn）

0 引言

近年來，專利申請(qǐng)數(shù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì)。2018 年全球創(chuàng)新者共提交了330 萬(wàn)件發(fā)明專利申請(qǐng)，連續(xù)九年實(shí)現(xiàn)增長(zhǎng)，漲幅為5.2%。其中，中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局受理的專利申請(qǐng)數(shù)量最多，達(dá)到154 萬(wàn)件，占全球總量的46.7%［1］。為便于專利文獻(xiàn)的檢索與管理，需要對(duì)專利文獻(xiàn)按照專業(yè)技術(shù)領(lǐng)域進(jìn)行分類。1971 年《斯特拉斯堡協(xié)定》提出的國(guó)際專利分類法（IPC 分類法）是國(guó)際上通用的專利文獻(xiàn)分類法，幾乎涵蓋了所有的科技領(lǐng)域，我國(guó)所使用的也是該專利分類法［2］。該分類標(biāo)準(zhǔn)按照專利所屬的技術(shù)領(lǐng)域?qū)＠M(jìn)行分類，包含部、大類、小類、大組和小組五個(gè)層級(jí)。然而，現(xiàn)階段專利分類的任務(wù)仍主要由專利審查員完成，不僅耗費(fèi)大量人力和時(shí)間，且無(wú)法有效保證準(zhǔn)確率。因此，需對(duì)專利文本進(jìn)行自動(dòng)化預(yù)分類，以實(shí)現(xiàn)專利文本的快速分類及快速審查。

與一般文本相比，專利文本具有以下特點(diǎn)：專業(yè)性強(qiáng)，領(lǐng)域詞匯較多；類別眾多，層級(jí)復(fù)雜；類別間相似度高，對(duì)特征表達(dá)能力要求高；各類別專利數(shù)量嚴(yán)重不均衡，給分類帶來較大挑戰(zhàn)。因此，對(duì)專利文本實(shí)現(xiàn)自動(dòng)分類需要采用更加具有針對(duì)性的分類方法。本文利用結(jié)合ALBERT（A Lite BERT）和雙向門控循環(huán)單元（Bidirectional Gated Recurrent Unit，BiGRU）的深度學(xué)習(xí)方法實(shí)現(xiàn)多層級(jí)專利文本的自動(dòng)分類，提出了專利文本分類模型ALBERT-BiGRU，以輔助專利審查員快速準(zhǔn)確地對(duì)專利文獻(xiàn)進(jìn)行分類。

1 相關(guān)研究

專利文本分類屬于自然語(yǔ)言處理領(lǐng)域，一般包括數(shù)據(jù)預(yù)處理、文本特征表示、分類器選擇及效果評(píng)價(jià)等步驟，其中文本特征表示與分類器選擇最為重要，將直接影響分類結(jié)果的準(zhǔn)確性。

1.1 文本特征表示方法

在文本特征表示方面，Mikolov 等［3-4］提出了Word2vec 模型，其本質(zhì)是一種神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型，包括CBOW（Continuous Bag-of-words）和Skip-Gram 兩種模型。這兩種模型能夠很好地進(jìn)行詞匯類比，但只考慮了文本的局部信息，未有效利用整體信息。為克服Word2vec 模型的缺陷，Pennington 等［5］提出全局詞向量（Global Vectors，GloVe）模型，該模型基于全局詞匯共現(xiàn)的統(tǒng)計(jì)信息來學(xué)習(xí)詞向量，同時(shí)考慮了文本的局部信息與整體信息。以上特征表示方法訓(xùn)練的詞向量均為靜態(tài)詞向量，舍棄了文本中大量詞語(yǔ)的位置信息，不能表示出文本的完整語(yǔ)義。為此，Peters等［6］提出了基于語(yǔ)言模型的詞向量模型（Embeddings from language models，Elmo），利用雙向長(zhǎng)短期記憶（Bidirectional Long Short-Term Memory，BiLSTM）網(wǎng)絡(luò)生成詞的上下文表示，并根據(jù)實(shí)際數(shù)據(jù)的上下文對(duì)詞的向量表達(dá)進(jìn)行動(dòng)態(tài)調(diào)整。Radford等［7］提出生成式預(yù)訓(xùn)練詞向量模型（Generative Pre-Training，GPT），該模型采用Transformer［8］結(jié)構(gòu)，在多項(xiàng)自然語(yǔ)言處理（Natural Language Processing，NLP）任務(wù)中取得了當(dāng)時(shí)的最佳效果。Devlin 等［9］結(jié) 合Elmo 和GPT各自的優(yōu)勢(shì)，提出了BERT（Bidirectional Encoder Representations from Transformers）預(yù)訓(xùn)練語(yǔ)言模型。該模型通過使用雙向Transformer編碼器對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練得到文本的雙向編碼表示，且訓(xùn)練出的詞向量為動(dòng)態(tài)詞向量，即同一個(gè)詞在不同的上下文語(yǔ)境中具有不同的詞向量表達(dá)，提升了詞向量的表征能力。增大BERT 預(yù)訓(xùn)練模型的規(guī)模對(duì)下游任務(wù)的效果有一定提升，但受計(jì)算資源的限制，所需的訓(xùn)練時(shí)間較長(zhǎng)，且進(jìn)一步提升模型的規(guī)模將導(dǎo)致顯存或內(nèi)存不足。為此，Lan 等［10］提出ALBERT（A Lite BERT）模型，該模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型，與BERT 模型均采用雙向Transformer 獲取文本的特征表示，但大大減少了模型中的參數(shù)，并在多項(xiàng)NLP任務(wù)中取得了最佳效果。

1.2 文本特征分類算法

文本特征分類算法一般分為兩種：一種是淺層學(xué)習(xí)的分類算法，如支持向量機(jī)（Support Vector Machine，SVM）、最鄰近分類（K-Nearest Neighbors，KNN）和樸素貝葉斯（Naive Bayes）等；另一種是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)分類算法。文獻(xiàn)［11］將獲取到的文本特征輸入到樸素貝葉斯分類器中，對(duì)其進(jìn)行分類；文獻(xiàn)［12］則將SVM 與KNN 進(jìn)行結(jié)合并應(yīng)用于專利文本分類中，根據(jù)樣本點(diǎn)與最優(yōu)超平面的距離來決定使用KNN 或SVM 作為分類器。但以上淺層學(xué)習(xí)的分類算法沒有考慮特征在類間、類內(nèi)的分布，分類效果較差。近年來，隨著深度學(xué)習(xí)的發(fā)展，研究人員開始嘗試使用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型。Kim［13］提出文本卷積神經(jīng)網(wǎng)絡(luò)（Text Convolutional Neural Network，TextCNN）用于文本分類，但基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法無(wú)法考慮到文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。為此，Mikolov 等［14］利用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）［15］進(jìn)行文本分類，較好地利用了當(dāng)前詞上下文信息。然而，傳統(tǒng)的RNN 存在梯度爆炸和消失問題［16］，處理長(zhǎng)序列文本的效果并不理想。Hochreiter 等［17］提出長(zhǎng)短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)，解決了傳統(tǒng)RNN 梯度爆炸和消失的問題。之后，Dey 等［18］提出了門控循環(huán)單元（Gated Recurrent Unit，GRU），在保持LSTM 的效果的同時(shí)使得模型結(jié)構(gòu)更加簡(jiǎn)單。文獻(xiàn)［19］使用LSTM-Attention 解決專利文本分類問題，有效提升了高相似度專利文本分類的準(zhǔn)確率；文獻(xiàn)［20］將文本特征輸入GRU 中進(jìn)行文本分類，有效提升了文本分類的效果。

綜合以上研究，本文旨在專利文本的特征表示層面以及分類器選擇上進(jìn)行改進(jìn)，提出了一種結(jié)合ALBERT 和BiGRU的多層級(jí)專利文本分類模型ALBERT-BiGRU。使用ALBERT作為預(yù)訓(xùn)練語(yǔ)言模型對(duì)專利文本進(jìn)行句子層面的特征表示，以提升詞向量的表征能力；并將ALBERT 模型中最后一層Transformer 層的輸出作為下游BiGRU 模型的輸入，最大限度地保留專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。最后通過在不同層級(jí)專利文本上的對(duì)比實(shí)驗(yàn)，驗(yàn)證了本文方法的有效性。

2 關(guān)鍵技術(shù)

2.1 ALBERT預(yù)訓(xùn)練語(yǔ)言模型

ALBERT 模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型，與BERT 模型均采用雙向Transformer 編碼器（Trm）獲取文本的特征表示，其模型結(jié)構(gòu)如圖1 所示。其中，E1，E2，…，EN表示序列中的每一個(gè)字符，經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練，最終得到文本的特征向量表示T1，T2，…，TN。

圖1 ALBERT模型結(jié)構(gòu)Fig.1 ALBERT model structure

其中，Transformer 編碼器是一個(gè)基于Self-Attention 的Seq2Seq（Sequence to Sequence）模型［21］，該模型的結(jié)構(gòu)為Encoder-Decoder［22-23］。ALBERT 只采用了其Encoder 部分，該部分的模型結(jié)構(gòu)如圖2所示。Encoder由N個(gè)相同的網(wǎng)絡(luò)層堆疊而成，每個(gè)網(wǎng)絡(luò)層有兩個(gè)子網(wǎng)絡(luò)層：第一層為多頭自注意力機(jī)制層；第二層為普通的前饋網(wǎng)絡(luò)層，用于融入詞語(yǔ)的位置信息。另外，每個(gè)子網(wǎng)絡(luò)層都含有一個(gè)Add&Norm 層，用于將本層的輸入與輸出相加并進(jìn)行歸一化處理［24］，隨后兩個(gè)子網(wǎng)絡(luò)層之間使用殘差連接［25］。

在Transformer 編碼器中，最主要的模塊是多頭自注意力機(jī)制，計(jì)算公式如下所示。

其中：WO是附加權(quán)重矩陣，能使拼接后的矩陣維度壓縮成序列長(zhǎng)度大小；Q、K、V分別表示輸入序列中每個(gè)詞的query、key和value 向量分別是Q、K、V的權(quán)重矩陣；dk表示每個(gè)詞的query和key向量的維度；Softmax(?)為歸一化激活函數(shù)，z表示N維的行向量。

圖2 Transformer encoder模型結(jié)構(gòu)Fig.2 Structure of Transformer encoder model

為減少BERT 模型的參數(shù)和增強(qiáng)模型的語(yǔ)義理解能力，ALBERT模型在BERT模型的基礎(chǔ)上做出了以下改進(jìn)：

1）ALBERT 模型通過嵌入層參數(shù)因式分解（Factorized Embedding Parameterization）和跨層參數(shù)共享（Cross-layer Parameter Sharing）兩個(gè)方法有效減少了BERT 模型中的參數(shù)，大大降低了訓(xùn)練時(shí)的內(nèi)存花銷，并有效提升了模型的訓(xùn)練速度。

其中：嵌入層參數(shù)因式分解為將一個(gè)大的詞嵌入矩陣分解成兩個(gè)小矩陣；跨層參數(shù)共享則為在不同層的Transformer編碼器之間共享所有的參數(shù)。進(jìn)行嵌入層參數(shù)因式分解后的時(shí)間復(fù)雜度變化如式（5）所示，其中：V表示詞表的大小，E表示嵌入層大小，H表示隱藏層大小，由于H?E，可知通過該分解能有效減少模型的參數(shù)。

在與BERT-large 模型相同配置的情況下，ALBERT 模型的參數(shù)量縮小至了原來的1/18，且訓(xùn)練速度加快了1.7倍。

2）使用SOP（Sentence Order Prediction）任務(wù) 代替NSP（Next Sentence Prediction）任務(wù)。為彌補(bǔ)Yang 等［26］提出的BERT 中NSP 任務(wù)存在的缺點(diǎn)，ALBERT 通過使用SOP 任務(wù)代替BERT 中的NSP 任務(wù)，提升了多句子輸入的下游任務(wù)的效果。SOP 任務(wù)的核心為對(duì)句子間的連貫性進(jìn)行評(píng)估，并產(chǎn)生句子間連貫損失（Inter-sentence Coherence Loss）。對(duì)于多句子輸入的下游任務(wù)，SOP相對(duì)NSP能夠提升約2%的準(zhǔn)確率。

2.2 GRU神經(jīng)網(wǎng)絡(luò)模型

GRU 是LSTM 模型的一個(gè)變體，其模型結(jié)構(gòu)如圖3 所示。LSTM模型包含三個(gè)門計(jì)算，即輸入門、輸出門和遺忘門，GRU模型在LSTM 的基礎(chǔ)之上進(jìn)行了簡(jiǎn)化，只由zt和rt兩個(gè)門控單元組成。其中zt表示更新門，用于控制前一時(shí)刻的狀態(tài)信息被代入到當(dāng)前狀態(tài)中的程度，zt的值越大說明前一時(shí)刻的狀態(tài)信息代入越多；rt表示重置門，用于控制忽略前一時(shí)刻的狀態(tài)信息的程度，rt的值越小說明忽略得越多。

圖3 GRU模型結(jié)構(gòu)Fig.3 GRU model structure

基于以上GRU的模型結(jié)構(gòu)，可以得出GRU的前向傳播計(jì)算公式如下：

其中：σ表示sigmoid 激活函數(shù)；xt表示當(dāng)前時(shí)刻的輸入，在文本分類中表示第t個(gè)詞的詞向量；ht-1和ht分別表示前一時(shí)刻隱藏層狀態(tài)和當(dāng)前時(shí)刻隱藏層狀態(tài)表示當(dāng)前時(shí)刻新的記憶；⊙表示向量的點(diǎn)乘；Wzx、Wrx和分別表示在更新門、重置門和新的記憶中對(duì)于xt的權(quán)重矩陣，Wzh、Wrh和分別表示在更新門、重置門和新的記憶中對(duì)于ht-1的權(quán)重矩陣；bz、br和分別表示在更新門、重置門和新的記憶中的偏置值。

3 ABERT-BiGRU專利文本分類模型

由于GRU 模型為單向傳播模型，不能充分利用當(dāng)前文本的下文信息，為此，本文采用雙向門控單元（BiGRU）作為分類模型，并將ALBERT預(yù)訓(xùn)練語(yǔ)言模型與BiGRU模型相結(jié)合，組成ALBERT-BiGRU綜合模型，用于多層級(jí)專利文本分類。

3.1 ALBERT-BiGRU綜合模型的結(jié)構(gòu)及工作流程

ALBERT-BiGRU 綜合模型的結(jié)構(gòu)如圖4 所示，主要由以下6 個(gè)部分組成：輸入層、ALBERT 層、BiGRU 層、全連接、Softmax層和輸出層。該模型的工作流程如下：

步驟1 從專利數(shù)據(jù)集中選取“專利名稱”和“摘要”這兩個(gè)字段的內(nèi)容組成專利文本X，并通過輸入層將其輸入到ALBERT 層中，專利文本X如式（10）所示，其中Xi表示該條專利文本中的第i個(gè)詞。

步驟2 在ALBERT層對(duì)輸入的文本數(shù)據(jù)進(jìn)行序列化，將文本數(shù)據(jù)X中的每個(gè)詞轉(zhuǎn)化為其在字典中所對(duì)應(yīng)的編號(hào)。序列化后的文本數(shù)據(jù)E如式（11）所示，其中Ei表示文本中第i個(gè)詞的序列化字符。經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練，最終輸出文本的特征表示。文本特征表示T如式（12）所示，其中Ti表示文本中第i個(gè)詞的特征向量。

步驟3 在BiGRU 層對(duì)ALBERT 層輸出的文本特征進(jìn)行訓(xùn)練，將文本特征分別輸入到前向GRU 層和后向GRU 層中，經(jīng)過多個(gè)GRU 隱藏單元的訓(xùn)練，最終得到兩個(gè)文本向量表示，分別記作Fg0和Fg1。將兩者在第一個(gè)維度進(jìn)行疊加，得到向量Fg，可知Fg的維度為2h，h為隱藏單元的個(gè)數(shù)。

步驟4 通過全連接層對(duì)Fg進(jìn)行兩次全連接，其中第一次全連接的輸出維度為h，第二次全連接的輸出維度為n，n表示標(biāo)簽的個(gè)數(shù)。

步驟5 對(duì)全連接層的輸出結(jié)果進(jìn)行Softmax 歸一化，得到專利文本屬于每一類的概率分布矩陣L，對(duì)L按行取最大值的索引，即得到最終的專利文本分類標(biāo)簽。

圖4 ALBERT-BiGRU模型結(jié)構(gòu)Fig.4 ALBERT-BiGRU model structure

3.2 ALBERT-BiGRU綜合模型的訓(xùn)練

ALBERT-BiGRU 綜合模型更新的參數(shù)包括ALBERT 和BiGRU 中的參數(shù)。為防止過擬合，在將文本特征輸入BiGRU之前，加入Dropout層，每次迭代剔除掉部分神經(jīng)元。

在進(jìn)行前向傳播時(shí)，采用的損失函數(shù)為交叉熵?fù)p失函數(shù)，計(jì)算方式如式（13）所示。其中，p()xi表示該條文本真實(shí)標(biāo)簽的概率分布，q()xi表示預(yù)測(cè)標(biāo)簽的概率分布。

在進(jìn)行反向傳播時(shí)，對(duì)模型參數(shù)W和b進(jìn)行更新，更新方式如式（14）所示。

其中，J(W，b)表示所采用的損失函數(shù)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

本文的實(shí)驗(yàn)環(huán)境如表1所示。

為評(píng)估本文模型的有效性，使用文獻(xiàn)［2］中國(guó)家信息中心提供的專利數(shù)據(jù)集進(jìn)行驗(yàn)證。該數(shù)據(jù)集包含申請(qǐng)時(shí)間為2017 年的全國(guó)專利數(shù)據(jù)，數(shù)據(jù)總量約為277 萬(wàn)條，包含申請(qǐng)?zhí)枴＠Q、摘要、專利分類等16 個(gè)核心字段。本實(shí)驗(yàn)選取“專利名稱”“摘要”和“專利分類”三個(gè)字段進(jìn)行分類模型訓(xùn)練，將“專利名稱”和“摘要”合并組成專利文本，從“專利分類”中提取分類標(biāo)簽。專利分類采用IPC 分類法，將專利分為部、大類、小類、大組和小組五個(gè)層級(jí)，如“A01D41/12”，“A”是部，“01”是大類，“D”是小類，“41”是大組，“12”是小組。

表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment

本文選擇在部和大類兩個(gè)層級(jí)對(duì)專利進(jìn)行分類。首先對(duì)原始數(shù)據(jù)進(jìn)行清洗，剔除掉分類號(hào)為非嚴(yán)格的IPC 分類標(biāo)準(zhǔn)的數(shù)據(jù)后，數(shù)據(jù)剩余約232 萬(wàn)條，包含IPC 的所有部（從A 到H），共有124 個(gè)大類，數(shù)據(jù)集詳情如表2 所示。之后對(duì)數(shù)據(jù)集進(jìn)行劃分，由于其數(shù)據(jù)量較大，本文按照98∶1∶1 的比例將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

表2 專利數(shù)據(jù)集詳情Tab.2 Patent dataset details

4.2 評(píng)價(jià)指標(biāo)

為評(píng)價(jià)模型的分類效果，采用準(zhǔn)確率Acc（Accuracy）和精確率P（Precision）與召回率R（Recall）的F1（調(diào)和平均值F1）對(duì)模型效果進(jìn)行評(píng)價(jià)。其中準(zhǔn)確率Acc指模型預(yù)測(cè)正確樣本數(shù)占樣本總數(shù)的比例；精確率P指在所有預(yù)測(cè)為正例的樣本中預(yù)測(cè)正確的樣本所占的比例；召回率R指在所有真實(shí)為正例的樣本中預(yù)測(cè)正確的樣本所占的比例；由于精確率和召回率會(huì)出現(xiàn)相互矛盾的情況，因此采用它們的調(diào)和平均值F1來進(jìn)行綜合評(píng)價(jià)。

計(jì)算公式如下：

其中：真正例TP表示實(shí)際為正例且預(yù)測(cè)為正例，假正例FP表示實(shí)際為負(fù)例但預(yù)測(cè)為正例，真負(fù)例TN表示實(shí)際為負(fù)例且預(yù)測(cè)為負(fù)例，假負(fù)例FN表示實(shí)際為正例但預(yù)測(cè)為負(fù)例。

4.3 實(shí)驗(yàn)參數(shù)設(shè)置

ALBERT-BiGRU 模型的參數(shù)主要包括ALBERT 模型和BiGRU模型的參數(shù)，在固定其他參數(shù)的前提下，依次改變可變參數(shù)的數(shù)值，以得到模型的最優(yōu)參數(shù)。

其中ALBERT 采用Google 發(fā)布的中文預(yù)訓(xùn)練模型“ALBERT-Base”，其模型參數(shù)如表3所示。

表3 ALBERT模型參數(shù)Tab.3 Parameters of ALBERT model

BiGRU 模型的隱藏層大小為128，網(wǎng)絡(luò)層數(shù)為1，選取ReLU 作為模型的激活函數(shù)，并在訓(xùn)練階段將Dropout 的比例設(shè)置為0.1。

對(duì)ALBERT-BiGRU 綜合模型設(shè)置批次大小為32，迭代輪數(shù)為4，最大序列長(zhǎng)度為300，采用交叉熵?fù)p失函數(shù)，選取Adam作為模型的優(yōu)化器，并將學(xué)習(xí)率設(shè)置為1e-5。

4.4 對(duì)比實(shí)驗(yàn)設(shè)置

為評(píng)估本文模型ALBERT-BiGRU 在多層級(jí)專利文本分類中的效果，分別與SVM、TextCNN、Word2vec-BiGRU 以及GloVe-BiGRU 進(jìn)行對(duì)比，在專利數(shù)據(jù)集的部級(jí)別和大類級(jí)別分別進(jìn)行實(shí)驗(yàn)。各對(duì)比模型的詳情如下：

1）SVM：采用傳統(tǒng)機(jī)器學(xué)習(xí)算法中的SVM，并選取高斯核作為核函數(shù)。

2）TextCNN：采用文獻(xiàn)［13］中的TextCNN模型。

3）Word2Vec-BiGRU：采用文獻(xiàn)［4］中的Word2Vec 提取文本特征，BiGRU 模型的參數(shù)同本文方法中的BiGRU 模型參數(shù)。

4）Glove-BiGRU：采用文獻(xiàn)［5］中的Glove 提取文本特征，BiGRU模型的參數(shù)同本文方法中的BiGRU模型參數(shù)。

4.5 實(shí)驗(yàn)結(jié)果及分析

經(jīng)模型對(duì)比實(shí)驗(yàn)，得出各模型在部級(jí)別和大類級(jí)別中的準(zhǔn)確率如表4 所示。可以看出，在部級(jí)別中，與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相比，ALBERTBiGRU 模型的準(zhǔn)確分別提高了9.8、6.0、9.1 和10.9 個(gè)百分點(diǎn)。由此可知，ALBERT 預(yù)訓(xùn)練語(yǔ)言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量；同時(shí)也說明基于預(yù)訓(xùn)練語(yǔ)言模型的ALBERT-BiGRU 在專利文本分類方面有著強(qiáng)大性能。大類級(jí)別上的實(shí)驗(yàn)?zāi)茯?yàn)證本文模型在多個(gè)層級(jí)專利文本分類中的有效性，由表4 也可以看出，與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相比，ALBERT-BiGRU 模型的準(zhǔn)確率分別提高了11.5、5.0、9.5和11.2個(gè)百分點(diǎn)，說明本文模型ALBERT-BiGRU 在不同層級(jí)的專利文本分類任務(wù)中均有著較好表現(xiàn)。

從各部的分類效果來看，本文模型ALBERT-BiGRU 在F1值上表現(xiàn)也突出，如圖5 所示。可知，本文模型在八個(gè)部中的F1 值均高于其他模型，且F1 值的平均值為0.860，再次驗(yàn)證了本文方法的有效性。

以上實(shí)驗(yàn)結(jié)果表明，本文模型通過ALBERT 預(yù)訓(xùn)練語(yǔ)言模型提升了詞向量的表征能力，且使用BiGRU 神經(jīng)網(wǎng)絡(luò)作為分類模型，能夠最大限度保留專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。由此得出，本文提出的專利文本分類模型ALBERTBiGRU能有效提升不同層級(jí)專利文本分類的效果。

表4 部級(jí)別和大類級(jí)別上各模型準(zhǔn)確率單位：%Tab.4 Accuracies of different models at department level and big class level unit：%

圖5 各模型在八個(gè)部中的F1值對(duì)比Fig.5 Comparison of F1 values of different models in eight departments

5 結(jié)語(yǔ)

針對(duì)現(xiàn)有的專利文本分類算法大都采用Word2vec 和GloVe 等方式獲取文本的詞向量表示，舍棄了大量詞語(yǔ)的位置信息且不能表示出文本的完整語(yǔ)義的問題，提出了一種結(jié)合ALBERT 和BiGRU 的多層級(jí)專利文本分類模型ALBERTBiGRU。該模型不僅通過ALBERT 預(yù)訓(xùn)練語(yǔ)言模型提升了詞向量的表征能力，并且利用BiGRU 最大限度地保留了專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)，從而有效提升了專利文本分類的效果。在專利數(shù)據(jù)集的部和大類兩個(gè)層級(jí)分別進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，ALBERT 預(yù)訓(xùn)練語(yǔ)言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量，且在不同層級(jí)的專利文本分類中，本文所提出的方法ALBERT-BiGRU 在各項(xiàng)評(píng)價(jià)指標(biāo)中均有著較好表現(xiàn)。在下一步工作中，將擴(kuò)展模型到小類和大組等更深層級(jí)的分類中，以應(yīng)用于實(shí)際的專利自動(dòng)分類。