999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合ALBERT和雙向門控循環(huán)單元的專利文本分類

2021-03-07 05:16:16溫超東任俊偉
計(jì)算機(jī)應(yīng)用 2021年2期
關(guān)鍵詞:分類特征文本

溫超東,曾 誠(chéng),2,3*,任俊偉,張 ?,2,3

(1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;2.湖北省軟件工程工程技術(shù)研究中心,武漢 430062;3.湖北省智慧政務(wù)與人工智能應(yīng)用工程研究中心,武漢 430062)

(*通信作者電子郵箱zc@hubu.edu.cn)

0 引言

近年來,專利申請(qǐng)數(shù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì)。2018 年全球創(chuàng)新者共提交了330 萬(wàn)件發(fā)明專利申請(qǐng),連續(xù)九年實(shí)現(xiàn)增長(zhǎng),漲幅為5.2%。其中,中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局受理的專利申請(qǐng)數(shù)量最多,達(dá)到154 萬(wàn)件,占全球總量的46.7%[1]。為便于專利文獻(xiàn)的檢索與管理,需要對(duì)專利文獻(xiàn)按照專業(yè)技術(shù)領(lǐng)域進(jìn)行分類。1971 年《斯特拉斯堡協(xié)定》提出的國(guó)際專利分類法(IPC 分類法)是國(guó)際上通用的專利文獻(xiàn)分類法,幾乎涵蓋了所有的科技領(lǐng)域,我國(guó)所使用的也是該專利分類法[2]。該分類標(biāo)準(zhǔn)按照專利所屬的技術(shù)領(lǐng)域?qū)@M(jìn)行分類,包含部、大類、小類、大組和小組五個(gè)層級(jí)。然而,現(xiàn)階段專利分類的任務(wù)仍主要由專利審查員完成,不僅耗費(fèi)大量人力和時(shí)間,且無(wú)法有效保證準(zhǔn)確率。因此,需對(duì)專利文本進(jìn)行自動(dòng)化預(yù)分類,以實(shí)現(xiàn)專利文本的快速分類及快速審查。

與一般文本相比,專利文本具有以下特點(diǎn):專業(yè)性強(qiáng),領(lǐng)域詞匯較多;類別眾多,層級(jí)復(fù)雜;類別間相似度高,對(duì)特征表達(dá)能力要求高;各類別專利數(shù)量嚴(yán)重不均衡,給分類帶來較大挑戰(zhàn)。因此,對(duì)專利文本實(shí)現(xiàn)自動(dòng)分類需要采用更加具有針對(duì)性的分類方法。本文利用結(jié)合ALBERT(A Lite BERT)和雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)的深度學(xué)習(xí)方法實(shí)現(xiàn)多層級(jí)專利文本的自動(dòng)分類,提出了專利文本分類模型ALBERT-BiGRU,以輔助專利審查員快速準(zhǔn)確地對(duì)專利文獻(xiàn)進(jìn)行分類。

1 相關(guān)研究

專利文本分類屬于自然語(yǔ)言處理領(lǐng)域,一般包括數(shù)據(jù)預(yù)處理、文本特征表示、分類器選擇及效果評(píng)價(jià)等步驟,其中文本特征表示與分類器選擇最為重要,將直接影響分類結(jié)果的準(zhǔn)確性。

1.1 文本特征表示方法

在文本特征表示方面,Mikolov 等[3-4]提出了Word2vec 模型,其本質(zhì)是一種神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型,包括CBOW(Continuous Bag-of-words)和Skip-Gram 兩種模型。這兩種模型能夠很好地進(jìn)行詞匯類比,但只考慮了文本的局部信息,未有效利用整體信息。為克服Word2vec 模型的缺陷,Pennington 等[5]提出全局詞向量(Global Vectors,GloVe)模型,該模型基于全局詞匯共現(xiàn)的統(tǒng)計(jì)信息來學(xué)習(xí)詞向量,同時(shí)考慮了文本的局部信息與整體信息。以上特征表示方法訓(xùn)練的詞向量均為靜態(tài)詞向量,舍棄了文本中大量詞語(yǔ)的位置信息,不能表示出文本的完整語(yǔ)義。為此,Peters等[6]提出了基于語(yǔ)言模型的詞向量模型(Embeddings from language models,Elmo),利用雙向長(zhǎng)短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)生成詞的上下文表示,并根據(jù)實(shí)際數(shù)據(jù)的上下文對(duì)詞的向量表達(dá)進(jìn)行動(dòng)態(tài)調(diào)整。Radford等[7]提出生成式預(yù)訓(xùn)練詞向量模型(Generative Pre-Training,GPT),該模型采用Transformer[8]結(jié)構(gòu),在多項(xiàng)自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)中取得了當(dāng)時(shí)的最佳效果。Devlin 等[9]結(jié) 合Elmo 和GPT各自的優(yōu)勢(shì),提出了BERT(Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn)練語(yǔ)言模型。該模型通過使用雙向Transformer編碼器對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練得到文本的雙向編碼表示,且訓(xùn)練出的詞向量為動(dòng)態(tài)詞向量,即同一個(gè)詞在不同的上下文語(yǔ)境中具有不同的詞向量表達(dá),提升了詞向量的表征能力。增大BERT 預(yù)訓(xùn)練模型的規(guī)模對(duì)下游任務(wù)的效果有一定提升,但受計(jì)算資源的限制,所需的訓(xùn)練時(shí)間較長(zhǎng),且進(jìn)一步提升模型的規(guī)模將導(dǎo)致顯存或內(nèi)存不足。為此,Lan 等[10]提 出ALBERT(A Lite BERT)模型,該模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型,與BERT 模型均采用雙向Transformer 獲取文本的特征表示,但大大減少了模型中的參數(shù),并在多項(xiàng)NLP任務(wù)中取得了最佳效果。

1.2 文本特征分類算法

文本特征分類算法一般分為兩種:一種是淺層學(xué)習(xí)的分類算法,如支持向量機(jī)(Support Vector Machine,SVM)、最鄰近分類(K-Nearest Neighbors,KNN)和樸素貝葉斯(Naive Bayes)等;另一種是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)分類算法。文獻(xiàn)[11]將獲取到的文本特征輸入到樸素貝葉斯分類器中,對(duì)其進(jìn)行分類;文獻(xiàn)[12]則將SVM 與KNN 進(jìn)行結(jié)合并應(yīng)用于專利文本分類中,根據(jù)樣本點(diǎn)與最優(yōu)超平面的距離來決定使用KNN 或SVM 作為分類器。但以上淺層學(xué)習(xí)的分類算法沒有考慮特征在類間、類內(nèi)的分布,分類效果較差。近年來,隨著深度學(xué)習(xí)的發(fā)展,研究人員開始嘗試使用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型。Kim[13]提出文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)用于文本分類,但基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法無(wú)法考慮到文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。為此,Mikolov 等[14]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[15]進(jìn)行文本分類,較好地利用了當(dāng)前詞上下文信息。然而,傳統(tǒng)的RNN 存在梯度爆炸和消失問題[16],處理長(zhǎng)序列文本的效果并不理想。Hochreiter 等[17]提出長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),解決了傳統(tǒng)RNN 梯度爆炸和消失的問題。之后,Dey 等[18]提出了門控循環(huán)單元(Gated Recurrent Unit,GRU),在保持LSTM 的效果的同時(shí)使得模型結(jié)構(gòu)更加簡(jiǎn)單。文獻(xiàn)[19]使用LSTM-Attention 解決專利文本分類問題,有效提升了高相似度專利文本分類的準(zhǔn)確率;文獻(xiàn)[20]將文本特征輸入GRU 中進(jìn)行文本分類,有效提升了文本分類的效果。

綜合以上研究,本文旨在專利文本的特征表示層面以及分類器選擇上進(jìn)行改進(jìn),提出了一種結(jié)合ALBERT 和BiGRU的多層級(jí)專利文本分類模型ALBERT-BiGRU。使用ALBERT作為預(yù)訓(xùn)練語(yǔ)言模型對(duì)專利文本進(jìn)行句子層面的特征表示,以提升詞向量的表征能力;并將ALBERT 模型中最后一層Transformer 層的輸出作為下游BiGRU 模型的輸入,最大限度地保留專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。最后通過在不同層級(jí)專利文本上的對(duì)比實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。

2 關(guān)鍵技術(shù)

2.1 ALBERT預(yù)訓(xùn)練語(yǔ)言模型

ALBERT 模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型,與BERT 模型均采用雙向Transformer 編碼器(Trm)獲取文本的特征表示,其模型結(jié)構(gòu)如圖1 所示。其中,E1,E2,…,EN表示序列中的每一個(gè)字符,經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練,最終得到文本的特征向量表示T1,T2,…,TN。

圖1 ALBERT模型結(jié)構(gòu)Fig.1 ALBERT model structure

其中,Transformer 編碼器是一個(gè)基于Self-Attention 的Seq2Seq(Sequence to Sequence)模型[21],該模型的結(jié)構(gòu)為Encoder-Decoder[22-23]。ALBERT 只采用了其Encoder 部分,該部分的模型結(jié)構(gòu)如圖2所示。Encoder由N個(gè)相同的網(wǎng)絡(luò)層堆疊而成,每個(gè)網(wǎng)絡(luò)層有兩個(gè)子網(wǎng)絡(luò)層:第一層為多頭自注意力機(jī)制層;第二層為普通的前饋網(wǎng)絡(luò)層,用于融入詞語(yǔ)的位置信息。另外,每個(gè)子網(wǎng)絡(luò)層都含有一個(gè)Add&Norm 層,用于將本層的輸入與輸出相加并進(jìn)行歸一化處理[24],隨后兩個(gè)子網(wǎng)絡(luò)層之間使用殘差連接[25]。

在Transformer 編碼器中,最主要的模塊是多頭自注意力機(jī)制,計(jì)算公式如下所示。

其中:WO是附加權(quán)重矩陣,能使拼接后的矩陣維度壓縮成序列長(zhǎng)度大小;Q、K、V分別表示輸入序列中每個(gè)詞的query、key和value 向量分別是Q、K、V的權(quán)重矩陣;dk表示每個(gè)詞的query和key向量的維度;Softmax(?)為歸一化激活函數(shù),z表示N維的行向量。

圖2 Transformer encoder模型結(jié)構(gòu)Fig.2 Structure of Transformer encoder model

為減少BERT 模型的參數(shù)和增強(qiáng)模型的語(yǔ)義理解能力,ALBERT模型在BERT模型的基礎(chǔ)上做出了以下改進(jìn):

1)ALBERT 模型通過嵌入層參數(shù)因式分解(Factorized Embedding Parameterization)和跨層參數(shù)共享(Cross-layer Parameter Sharing)兩個(gè)方法有效減少了BERT 模型中的參數(shù),大大降低了訓(xùn)練時(shí)的內(nèi)存花銷,并有效提升了模型的訓(xùn)練速度。

其中:嵌入層參數(shù)因式分解為將一個(gè)大的詞嵌入矩陣分解成兩個(gè)小矩陣;跨層參數(shù)共享則為在不同層的Transformer編碼器之間共享所有的參數(shù)。進(jìn)行嵌入層參數(shù)因式分解后的時(shí)間復(fù)雜度變化如式(5)所示,其中:V表示詞表的大小,E表示嵌入層大小,H表示隱藏層大小,由于H?E,可知通過該分解能有效減少模型的參數(shù)。

在與BERT-large 模型相同配置的情況下,ALBERT 模型的參數(shù)量縮小至了原來的1/18,且訓(xùn)練速度加快了1.7倍。

2)使用SOP(Sentence Order Prediction)任務(wù) 代替NSP(Next Sentence Prediction)任務(wù)。為彌補(bǔ)Yang 等[26]提出的BERT 中NSP 任務(wù)存在的缺點(diǎn),ALBERT 通過使用SOP 任務(wù)代替BERT 中的NSP 任務(wù),提升了多句子輸入的下游任務(wù)的效果。SOP 任務(wù)的核心為對(duì)句子間的連貫性進(jìn)行評(píng)估,并產(chǎn)生句子間連貫損失(Inter-sentence Coherence Loss)。對(duì)于多句子輸入的下游任務(wù),SOP相對(duì)NSP能夠提升約2%的準(zhǔn)確率。

2.2 GRU神經(jīng)網(wǎng)絡(luò)模型

GRU 是LSTM 模型的一個(gè)變體,其模型結(jié)構(gòu)如圖3 所示。LSTM模型包含三個(gè)門計(jì)算,即輸入門、輸出門和遺忘門,GRU模型在LSTM 的基礎(chǔ)之上進(jìn)行了簡(jiǎn)化,只由zt和rt兩個(gè)門控單元組成。其中zt表示更新門,用于控制前一時(shí)刻的狀態(tài)信息被代入到當(dāng)前狀態(tài)中的程度,zt的值越大說明前一時(shí)刻的狀態(tài)信息代入越多;rt表示重置門,用于控制忽略前一時(shí)刻的狀態(tài)信息的程度,rt的值越小說明忽略得越多。

圖3 GRU模型結(jié)構(gòu)Fig.3 GRU model structure

基于以上GRU的模型結(jié)構(gòu),可以得出GRU的前向傳播計(jì)算公式如下:

其中:σ表示sigmoid 激活函數(shù);xt表示當(dāng)前時(shí)刻的輸入,在文本分類中表示第t個(gè)詞的詞向量;ht-1和ht分別表示前一時(shí)刻隱藏層狀態(tài)和當(dāng)前時(shí)刻隱藏層狀態(tài)表示當(dāng)前時(shí)刻新的記憶;⊙表示向量的點(diǎn)乘;Wzx、Wrx和分別表示在更新門、重置門和新的記憶中對(duì)于xt的權(quán)重矩陣,Wzh、Wrh和分別表示在更新門、重置門和新的記憶中對(duì)于ht-1的權(quán)重矩陣;bz、br和分別表示在更新門、重置門和新的記憶中的偏置值。

3 ABERT-BiGRU專利文本分類模型

由于GRU 模型為單向傳播模型,不能充分利用當(dāng)前文本的下文信息,為此,本文采用雙向門控單元(BiGRU)作為分類模型,并將ALBERT預(yù)訓(xùn)練語(yǔ)言模型與BiGRU模型相結(jié)合,組成ALBERT-BiGRU綜合模型,用于多層級(jí)專利文本分類。

3.1 ALBERT-BiGRU綜合模型的結(jié)構(gòu)及工作流程

ALBERT-BiGRU 綜合模型的結(jié)構(gòu)如圖4 所示,主要由以下6 個(gè)部分組成:輸入層、ALBERT 層、BiGRU 層、全連接、Softmax層和輸出層。該模型的工作流程如下:

步驟1 從專利數(shù)據(jù)集中選取“專利名稱”和“摘要”這兩個(gè)字段的內(nèi)容組成專利文本X,并通過輸入層將其輸入到ALBERT 層中,專利文本X如式(10)所示,其中Xi表示該條專利文本中的第i個(gè)詞。

步驟2 在ALBERT層對(duì)輸入的文本數(shù)據(jù)進(jìn)行序列化,將文本數(shù)據(jù)X中的每個(gè)詞轉(zhuǎn)化為其在字典中所對(duì)應(yīng)的編號(hào)。序列化后的文本數(shù)據(jù)E如式(11)所示,其中Ei表示文本中第i個(gè)詞的序列化字符。經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練,最終輸出文本的特征表示。文本特征表示T如式(12)所示,其中Ti表示文本中第i個(gè)詞的特征向量。

步驟3 在BiGRU 層對(duì)ALBERT 層輸出的文本特征進(jìn)行訓(xùn)練,將文本特征分別輸入到前向GRU 層和后向GRU 層中,經(jīng)過多個(gè)GRU 隱藏單元的訓(xùn)練,最終得到兩個(gè)文本向量表示,分別記作Fg0和Fg1。將兩者在第一個(gè)維度進(jìn)行疊加,得到向量Fg,可知Fg的維度為2h,h為隱藏單元的個(gè)數(shù)。

步驟4 通過全連接層對(duì)Fg進(jìn)行兩次全連接,其中第一次全連接的輸出維度為h,第二次全連接的輸出維度為n,n表示標(biāo)簽的個(gè)數(shù)。

步驟5 對(duì)全連接層的輸出結(jié)果進(jìn)行Softmax 歸一化,得到專利文本屬于每一類的概率分布矩陣L,對(duì)L按行取最大值的索引,即得到最終的專利文本分類標(biāo)簽。

圖4 ALBERT-BiGRU模型結(jié)構(gòu)Fig.4 ALBERT-BiGRU model structure

3.2 ALBERT-BiGRU綜合模型的訓(xùn)練

ALBERT-BiGRU 綜合模型更新的參數(shù)包括ALBERT 和BiGRU 中的參數(shù)。為防止過擬合,在將文本特征輸入BiGRU之前,加入Dropout層,每次迭代剔除掉部分神經(jīng)元。

在進(jìn)行前向傳播時(shí),采用的損失函數(shù)為交叉熵?fù)p失函數(shù),計(jì)算方式如式(13)所示。其中,p()xi表示該條文本真實(shí)標(biāo)簽的概率分布,q()xi表示預(yù)測(cè)標(biāo)簽的概率分布。

在進(jìn)行反向傳播時(shí),對(duì)模型參數(shù)W和b進(jìn)行更新,更新方式如式(14)所示。

其中,J(W,b)表示所采用的損失函數(shù)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

本文的實(shí)驗(yàn)環(huán)境如表1所示。

為評(píng)估本文模型的有效性,使用文獻(xiàn)[2]中國(guó)家信息中心提供的專利數(shù)據(jù)集進(jìn)行驗(yàn)證。該數(shù)據(jù)集包含申請(qǐng)時(shí)間為2017 年的全國(guó)專利數(shù)據(jù),數(shù)據(jù)總量約為277 萬(wàn)條,包含申請(qǐng)?zhí)枴@Q、摘要、專利分類等16 個(gè)核心字段。本實(shí)驗(yàn)選取“專利名稱”“摘要”和“專利分類”三個(gè)字段進(jìn)行分類模型訓(xùn)練,將“專利名稱”和“摘要”合并組成專利文本,從“專利分類”中提取分類標(biāo)簽。專利分類采用IPC 分類法,將專利分為部、大類、小類、大組和小組五個(gè)層級(jí),如“A01D41/12”,“A”是部,“01”是大類,“D”是小類,“41”是大組,“12”是小組。

表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment

本文選擇在部和大類兩個(gè)層級(jí)對(duì)專利進(jìn)行分類。首先對(duì)原始數(shù)據(jù)進(jìn)行清洗,剔除掉分類號(hào)為非嚴(yán)格的IPC 分類標(biāo)準(zhǔn)的數(shù)據(jù)后,數(shù)據(jù)剩余約232 萬(wàn)條,包含IPC 的所有部(從A 到H),共有124 個(gè)大類,數(shù)據(jù)集詳情如表2 所示。之后對(duì)數(shù)據(jù)集進(jìn)行劃分,由于其數(shù)據(jù)量較大,本文按照98∶1∶1 的比例將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

表2 專利數(shù)據(jù)集詳情Tab.2 Patent dataset details

4.2 評(píng)價(jià)指標(biāo)

為評(píng)價(jià)模型的分類效果,采用準(zhǔn)確率Acc(Accuracy)和精確率P(Precision)與召回率R(Recall)的F1(調(diào)和平均值F1)對(duì)模型效果進(jìn)行評(píng)價(jià)。其中準(zhǔn)確率Acc指模型預(yù)測(cè)正確樣本數(shù)占樣本總數(shù)的比例;精確率P指在所有預(yù)測(cè)為正例的樣本中預(yù)測(cè)正確的樣本所占的比例;召回率R指在所有真實(shí)為正例的樣本中預(yù)測(cè)正確的樣本所占的比例;由于精確率和召回率會(huì)出現(xiàn)相互矛盾的情況,因此采用它們的調(diào)和平均值F1來進(jìn)行綜合評(píng)價(jià)。

計(jì)算公式如下:

其中:真正例TP表示實(shí)際為正例且預(yù)測(cè)為正例,假正例FP表示實(shí)際為負(fù)例但預(yù)測(cè)為正例,真負(fù)例TN表示實(shí)際為負(fù)例且預(yù)測(cè)為負(fù)例,假負(fù)例FN表示實(shí)際為正例但預(yù)測(cè)為負(fù)例。

4.3 實(shí)驗(yàn)參數(shù)設(shè)置

ALBERT-BiGRU 模型的參數(shù)主要包括ALBERT 模型和BiGRU模型的參數(shù),在固定其他參數(shù)的前提下,依次改變可變參數(shù)的數(shù)值,以得到模型的最優(yōu)參數(shù)。

其中ALBERT 采用Google 發(fā)布的中文預(yù)訓(xùn)練模型“ALBERT-Base”,其模型參數(shù)如表3所示。

表3 ALBERT模型參數(shù)Tab.3 Parameters of ALBERT model

BiGRU 模型的隱藏層大小為128,網(wǎng)絡(luò)層數(shù)為1,選取ReLU 作為模型的激活函數(shù),并在訓(xùn)練階段將Dropout 的比例設(shè)置為0.1。

對(duì)ALBERT-BiGRU 綜合模型設(shè)置批次大小為32,迭代輪數(shù)為4,最大序列長(zhǎng)度為300,采用交叉熵?fù)p失函數(shù),選取Adam作為模型的優(yōu)化器,并將學(xué)習(xí)率設(shè)置為1e-5。

4.4 對(duì)比實(shí)驗(yàn)設(shè)置

為評(píng)估本文模型ALBERT-BiGRU 在多層級(jí)專利文本分類中的效果,分別與SVM、TextCNN、Word2vec-BiGRU 以及GloVe-BiGRU 進(jìn)行對(duì)比,在專利數(shù)據(jù)集的部級(jí)別和大類級(jí)別分別進(jìn)行實(shí)驗(yàn)。各對(duì)比模型的詳情如下:

1)SVM:采用傳統(tǒng)機(jī)器學(xué)習(xí)算法中的SVM,并選取高斯核作為核函數(shù)。

2)TextCNN:采用文獻(xiàn)[13]中的TextCNN模型。

3)Word2Vec-BiGRU:采用文獻(xiàn)[4]中的Word2Vec 提取文本特征,BiGRU 模型的參數(shù)同本文方法中的BiGRU 模型參數(shù)。

4)Glove-BiGRU:采用文獻(xiàn)[5]中的Glove 提取文本特征,BiGRU模型的參數(shù)同本文方法中的BiGRU模型參數(shù)。

4.5 實(shí)驗(yàn)結(jié)果及分析

經(jīng)模型對(duì)比實(shí)驗(yàn),得出各模型在部級(jí)別和大類級(jí)別中的準(zhǔn)確率如表4 所示。可以看出,在部級(jí)別中,與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相 比,ALBERTBiGRU 模型的準(zhǔn)確分別提高了9.8、6.0、9.1 和10.9 個(gè)百分點(diǎn)。由此可知,ALBERT 預(yù)訓(xùn)練語(yǔ)言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量;同時(shí)也說明基于預(yù)訓(xùn)練語(yǔ)言模型的ALBERT-BiGRU 在專利文本分類方面有著強(qiáng)大性能。大類級(jí)別上的實(shí)驗(yàn)?zāi)茯?yàn)證本文模型在多個(gè)層級(jí)專利文本分類中的有效性,由表4 也可以看出,與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相比,ALBERT-BiGRU 模型的準(zhǔn)確率分別提高了11.5、5.0、9.5和11.2個(gè)百分點(diǎn),說明本文模型ALBERT-BiGRU 在不同層級(jí)的專利文本分類任務(wù)中均有著較好表現(xiàn)。

從各部的分類效果來看,本文模型ALBERT-BiGRU 在F1值上表現(xiàn)也突出,如圖5 所示。可知,本文模型在八個(gè)部中的F1 值均高于其他模型,且F1 值的平均值為0.860,再次驗(yàn)證了本文方法的有效性。

以上實(shí)驗(yàn)結(jié)果表明,本文模型通過ALBERT 預(yù)訓(xùn)練語(yǔ)言模型提升了詞向量的表征能力,且使用BiGRU 神經(jīng)網(wǎng)絡(luò)作為分類模型,能夠最大限度保留專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián)。由此得出,本文提出的專利文本分類模型ALBERTBiGRU能有效提升不同層級(jí)專利文本分類的效果。

表4 部級(jí)別和大類級(jí)別上各模型準(zhǔn)確率 單位:%Tab.4 Accuracies of different models at department level and big class level unit:%

圖5 各模型在八個(gè)部中的F1值對(duì)比Fig.5 Comparison of F1 values of different models in eight departments

5 結(jié)語(yǔ)

針對(duì)現(xiàn)有的專利文本分類算法大都采用Word2vec 和GloVe 等方式獲取文本的詞向量表示,舍棄了大量詞語(yǔ)的位置信息且不能表示出文本的完整語(yǔ)義的問題,提出了一種結(jié)合ALBERT 和BiGRU 的多層級(jí)專利文本分類模型ALBERTBiGRU。該模型不僅通過ALBERT 預(yù)訓(xùn)練語(yǔ)言模型提升了詞向量的表征能力,并且利用BiGRU 最大限度地保留了專利文本中長(zhǎng)距離詞之間的語(yǔ)義關(guān)聯(lián),從而有效提升了專利文本分類的效果。在專利數(shù)據(jù)集的部和大類兩個(gè)層級(jí)分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,ALBERT 預(yù)訓(xùn)練語(yǔ)言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量,且在不同層級(jí)的專利文本分類中,本文所提出的方法ALBERT-BiGRU 在各項(xiàng)評(píng)價(jià)指標(biāo)中均有著較好表現(xiàn)。在下一步工作中,將擴(kuò)展模型到小類和大組等更深層級(jí)的分類中,以應(yīng)用于實(shí)際的專利自動(dòng)分類。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: a级免费视频| 手机在线免费毛片| 国产97公开成人免费视频| 精品欧美日韩国产日漫一区不卡| 国产成人综合久久精品下载| 国产真实乱人视频| 欧美日韩亚洲国产主播第一区| 国产一区二区三区在线观看免费| 免费观看国产小粉嫩喷水| AV天堂资源福利在线观看| 午夜老司机永久免费看片| 中文无码伦av中文字幕| 国产丝袜一区二区三区视频免下载| 婷婷激情亚洲| 一级爆乳无码av| 国产丝袜无码一区二区视频| 国产一区成人| 国产浮力第一页永久地址| 中文字幕丝袜一区二区| 四虎成人免费毛片| 亚洲国产精品一区二区第一页免 | 人人爽人人爽人人片| 国产精品爆乳99久久| 亚洲综合精品香蕉久久网| 亚洲欧美国产五月天综合| 国产高清在线精品一区二区三区| 伊人激情综合网| 国产激情无码一区二区APP| 一本大道东京热无码av| 亚洲精品色AV无码看| 国产好痛疼轻点好爽的视频| 久久人人97超碰人人澡爱香蕉 | 国产亚洲视频中文字幕视频| 亚洲天堂伊人| 国产一区二区三区在线精品专区| 日本一本在线视频| 影音先锋丝袜制服| 久久性妇女精品免费| 中文字幕在线欧美| 九九这里只有精品视频| 亚洲成人黄色网址| 色亚洲激情综合精品无码视频 | 亚洲欧美人成电影在线观看| 欧美日韩一区二区在线免费观看 | 亚洲第一极品精品无码| 人妻免费无码不卡视频| 色综合天天视频在线观看| 久久婷婷五月综合色一区二区| 国产欧美日韩一区二区视频在线| 日本欧美一二三区色视频| 欧美精品在线观看视频| 国产精品3p视频| 国产女人水多毛片18| 成人免费午间影院在线观看| 亚洲福利片无码最新在线播放| 91偷拍一区| 中文字幕伦视频| 91久久偷偷做嫩草影院| 91免费观看视频| 日韩 欧美 小说 综合网 另类| 五月天久久综合| 国产色网站| 国产无码高清视频不卡| 色老头综合网| 国产精品成人啪精品视频| 国产精品美乳| 性色在线视频精品| 欧美一级在线| 亚洲国产成人久久精品软件| 一区二区三区四区在线| 精品無碼一區在線觀看 | 97精品久久久大香线焦| 国产精品色婷婷在线观看| 她的性爱视频| 日本黄色不卡视频| 亚洲 欧美 日韩综合一区| 欧美另类第一页| 国产一区二区三区精品久久呦| 理论片一区| 色亚洲激情综合精品无码视频 | 一级毛片无毒不卡直接观看| 狠狠躁天天躁夜夜躁婷婷|