楊先鳳,龔 睿,李自強(qiáng)
(1.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500;2.四川師范大學(xué) 影視與傳媒學(xué)院,四川 成都 610066)
對(duì)現(xiàn)有資源進(jìn)行分類標(biāo)識(shí),匹配學(xué)科知識(shí)圖譜,彰顯了構(gòu)建學(xué)科知識(shí)圖譜對(duì)教育的重要性[1]。非結(jié)構(gòu)化文本數(shù)據(jù)是知識(shí)圖譜構(gòu)建的重要數(shù)據(jù)來源,文獻(xiàn)[2]針對(duì)非結(jié)構(gòu)化數(shù)據(jù),圍繞知識(shí)圖譜中的信息抽取和信息融合任務(wù)開展了一系列的研究。對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘有利于后續(xù)任務(wù)的推進(jìn),文獻(xiàn)[3]針對(duì)電子病歷的非結(jié)構(gòu)化數(shù)據(jù)對(duì)電子病歷數(shù)據(jù)挖掘的4種典型任務(wù)命名實(shí)體識(shí)別、關(guān)系抽取、文本分類[4]和智能問診進(jìn)行了深入研究。文本分類是數(shù)據(jù)挖掘的重要子任務(wù),將學(xué)科非結(jié)構(gòu)化文本數(shù)據(jù)按知識(shí)類別分類不僅可以實(shí)現(xiàn)海量數(shù)據(jù)的自動(dòng)聚類,還可以在一定程度上提高后續(xù)任務(wù)如關(guān)系抽取的精度,文獻(xiàn)[5]通過文本分類識(shí)別出數(shù)據(jù)集中的積極樣例進(jìn)而提高了關(guān)系抽取的精度。
數(shù)學(xué)學(xué)科具有抽象性、簡(jiǎn)潔性和準(zhǔn)確性的特點(diǎn),具有很重要的研究?jī)r(jià)值,文獻(xiàn)[6]基于SVM實(shí)現(xiàn)了數(shù)學(xué)題目的自動(dòng)分類,可以幫助理解題意。本文以數(shù)學(xué)非結(jié)構(gòu)化數(shù)據(jù)為研究對(duì)象,首先構(gòu)建了數(shù)學(xué)數(shù)據(jù)集,然后提出了一種獲得句子級(jí)的實(shí)體信息和詞語級(jí)的實(shí)體信息并將二者與BERT生成的上下文信息結(jié)合的文本分類方法。最終實(shí)驗(yàn)結(jié)果表明該模型相比其它基準(zhǔn)模型具有更好的文本分類效果。
分類模型是實(shí)現(xiàn)文本分類任務(wù)的重要部分。傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法將文本轉(zhuǎn)換成數(shù)字或One-hot向量表示,輸入分類器如支持向量機(jī)分類器、樸素貝葉斯分類器,就可以得到分類結(jié)果。但是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的缺點(diǎn)是需要特征工程工作的支持,非常耗時(shí)耗力,并且分類效果一般。深度學(xué)習(xí)的方法不存在統(tǒng)計(jì)機(jī)器學(xué)習(xí)的缺點(diǎn),并且可以盡可能地挖掘文本中潛在的特征,進(jìn)而提高分類效果。明建華等[7]提出將TextCNN模型應(yīng)用在直播彈幕文本分類中,該模型可以更好地獲取文本特征,從而獲得比機(jī)器學(xué)習(xí)方法更好的分類效果,能夠有效識(shí)別直播彈幕中的非法短文本。文本表示是文本分類任務(wù)的另一重要部分,僅用數(shù)字或One-hot向量表示文本會(huì)因?yàn)楹雎栽~與詞之間的關(guān)系、詞與文本之間的關(guān)系而丟掉文本中的很多信息。Yao等[8]提到一種文本分類器FastText,該分類器將文本表示為詞袋,并向其加入了N-gram特征處理詞順序丟失的問題,可以在訓(xùn)練時(shí)間比深度網(wǎng)絡(luò)快許多數(shù)量級(jí)的情況下實(shí)現(xiàn)與深度網(wǎng)絡(luò)相媲美的精度。Huang等[9]提出了一種新型文本分類模型,將層次注意力機(jī)制引入了文本分類,模型能夠直觀地解釋各個(gè)句子和詞對(duì)文檔分類的重要性。王根生等[10]提出用訓(xùn)練生成的Word2vec詞向量和TF-IDF算法構(gòu)建文本的向量表示,用卷積神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)特征的提取,最后取得了不錯(cuò)的分類效果,說明實(shí)體詞信息對(duì)文本分類任務(wù)的重要性。為了更好地學(xué)習(xí)文本中字與字之間的上下文關(guān)系,段丹丹等[11]提出了將BERT運(yùn)用在中文短文本分類中,使用Transformers 編碼器作為特征抽取器可以獲得更豐富的上下文信息。特定領(lǐng)域的文本分類可以挖掘到該文本中的潛在價(jià)值,杜琳等[12]提出將BERT應(yīng)用在病歷文本分類中,能夠有效地利用寶貴的中醫(yī)病例文本資源。
BERT預(yù)訓(xùn)練模型可以有效提取文本的上下文信息。用數(shù)學(xué)文本中所有領(lǐng)域?qū)嶓w詞對(duì)應(yīng)的Word2vec詞向量的平均池化來表示句向量可以從句子級(jí)方面提取文本的實(shí)體詞信息。對(duì)數(shù)學(xué)文本中的所有領(lǐng)域?qū)嶓w詞采用注意力機(jī)制可以獲得文本中不同實(shí)體詞的權(quán)重信息,可以從詞語級(jí)方面進(jìn)一步加強(qiáng)實(shí)體詞信息的作用。MCA-BERT模型結(jié)構(gòu)如圖1所示。

圖1 MCA-BERT模型結(jié)構(gòu)
該模型網(wǎng)絡(luò)包含以下4個(gè)部分:
(1)BERT Context Information Channel(BERT_CIC)BERT上下文信息通道;
(2)Average Pool Channel(APC)平均池化通道;
(3)Attention Weight Channel(AWC)注意力權(quán)重通道;
(4)Softmax輸出層。
BERT的模型結(jié)構(gòu)如圖2所示。

圖2 BERT模型結(jié)構(gòu)
模型的輸入E是文本中每一個(gè)字對(duì)應(yīng)的輸入向量,輸入向量生成的方式如圖3所示。

圖3 輸入向量的組成
每一個(gè)字的輸入向量等于字向量TE和文本向量SE以及位置向量PE的和。Trm是指Transformers,由若干個(gè)編碼器和解碼器堆疊形成,BERT只用到了Transformers的編碼器部分,編碼器包含一個(gè)多頭自注意力機(jī)制和一個(gè)全連接層。多頭自注意力機(jī)制允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息,全連接層輸出的是每一個(gè)輸入對(duì)應(yīng)的隱藏層向量,該向量可用于下游任務(wù)。BERT與Word2vec最大的不同在于BERT的輸出向量是動(dòng)態(tài)的,不同兩句話中同一個(gè)詞生成的輸出向量會(huì)因?yàn)樯舷挛男畔⒌牟煌煌梢院芎玫亟鉀Q一詞多義的問題。
BERT模型有兩個(gè)自監(jiān)督任務(wù)Masked Language Model(MLM)和Next Sentence Prediction(NSP)。MLM是指隨機(jī)mask每一個(gè)訓(xùn)練句子中15%的詞,用其上下文來做預(yù)測(cè),在這15%中,80%是被替換成[mask],10%是隨機(jī)取一個(gè)詞來代替被mask的詞,10%維持原狀。NSP是指從語料中選擇一些句子對(duì)A和B,其中50%的數(shù)據(jù)中B是A的下一條句子,剩余50%的數(shù)據(jù)中B是語料庫(kù)中隨機(jī)選擇的,通過訓(xùn)練可以學(xué)習(xí)句子間的相關(guān)性。
BERT上下文信息通道中文本經(jīng)過BERT編碼輸出的句向量w是在文本前添加的[CLS]對(duì)應(yīng)的隱藏層向量。因?yàn)閇CLS]本身沒有語義,得到的向量是經(jīng)過多頭自注意力機(jī)制后所有詞的加權(quán)平均,相比其它的向量,可以更好地表征句子語義。
2.2.1 One-hot
詞向量可以對(duì)文本進(jìn)行編碼,One-hot是最簡(jiǎn)單的編碼方式。One-hot詞向量的分量只有一個(gè)是1,其維度是整個(gè)詞匯表的大小,雖然這樣可以唯一表示所有的詞匯,但是詞匯量一旦過多,會(huì)導(dǎo)致維度災(zāi)難問題的出現(xiàn)。除此之外,詞與詞在空間上都是垂直的關(guān)系,相關(guān)性為0,存在語義鴻溝的問題。One-hot工作原理如圖4所示。

圖4 One-hot編碼
2.2.2 Word2vec
Word2vec通過將One-hot詞向量轉(zhuǎn)化為低維度的連續(xù)值,可以解決One-hot詞向量維度災(zāi)難和語義鴻溝的問題。詞向量與詞向量之間的相似度計(jì)算用的是余弦相似度[13],其值越接近1,向量之間的相似度越高,余弦相似度公式如式(1)所示
Similarity(A,B)=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2
(1)
Word2vec模型是一個(gè)簡(jiǎn)單化的神經(jīng)網(wǎng)絡(luò),只包含輸入層、隱藏層和輸出層。該網(wǎng)絡(luò)最終的目的是獲得通過訓(xùn)練得到的權(quán)重矩陣,該權(quán)重矩陣可以唯一表示輸入的One-hot向量,從而實(shí)現(xiàn)將高維的One-hot編碼降維至Word2vec形式的表示。Word2vec模型根據(jù)輸入輸出的不同可以分為兩種,一種是CBOW,它的輸入是目標(biāo)詞對(duì)應(yīng)的上下文詞向量,而輸出就是這個(gè)目標(biāo)詞的詞向量。另一種是Skip-Gram模型,它的輸入輸出和CBOW相反。
本文用維基中文數(shù)據(jù)訓(xùn)練的Word2vec詞向量模型查詢與“有理數(shù)”余弦相似度最高的5個(gè)詞,結(jié)果見表1,由表可知關(guān)聯(lián)性越高的詞匯余弦相似度越高。

表1 與“有理數(shù)”最相似的5個(gè)詞語
2.2.3 平均池化
文本中實(shí)體詞的詞向量的平均池化可以減少特征和參數(shù),并且可以作為句向量表示文本,其公式如式(2)所示
s=∑ni=1ein
(2)
其中,ei表示文本中的第i個(gè)數(shù)學(xué)實(shí)體詞對(duì)應(yīng)的詞向量,n表示實(shí)體詞的個(gè)數(shù),s表示最終輸出的句向量。不同句子中的實(shí)體信息差別越大,最終得到的句向量之間的余弦相似度越小,所以句向量可作為句子級(jí)的實(shí)體信息,幫助判斷文本的類別。例如文本是“無理數(shù)和有理數(shù)統(tǒng)稱為實(shí)數(shù)。”,e0表示“無理數(shù)”的詞向量,e1表示“有理數(shù)”的詞向量,e2表示“實(shí)數(shù)”的詞向量,則文本的句向量s=(e0+e1+e2)/3。
句子級(jí)的實(shí)體信息對(duì)每一個(gè)實(shí)體詞的關(guān)注程度都是一樣的,只能簡(jiǎn)單地幫助判斷句子的類別。在文本分類任務(wù)中,不同實(shí)體詞的貢獻(xiàn)是不同的,注意力機(jī)制可以對(duì)輸入的每一個(gè)實(shí)體詞向量分配不同的權(quán)重,使得模型能夠多關(guān)注一些重要實(shí)體信息,注意力計(jì)算公式如下式表示
ei=uTitanh(wihi+bi)
(3)
αi=softmax(ei)
(4)
o=∑ni=1αihi
(5)
其中,hi是經(jīng)過Dense層非線性變換過后的實(shí)體詞向量,uTi是輸入hi對(duì)應(yīng)的權(quán)重向量,wi是輸入hi對(duì)應(yīng)的權(quán)重矩陣,bi是偏置向量,αi是hi的注意力權(quán)重,o是最終的加權(quán)和輸出。最終得到的輸出o會(huì)突出部分權(quán)重較高的詞的實(shí)體信息,所以可作為詞語級(jí)的實(shí)體信息,幫助判斷文本的類別。
輸出部分的公式如下式表示
yj=softmax(zj)
(6)
zj=WTjx+bj
(7)
x=xBERT_CIC⊕xAPC⊕xAWC
(8)
softmax(zj)=exp(zj)∑nj=1exp(zj)
(9)
其中,yj是指第j類的概率,WTj是權(quán)重矩陣,bj是偏置矩陣,x是輸入向量,由xBERT_CIC、xAPC、xAWC拼接而成。xBERT_CIC是BERT上下文信息通道的輸出,xAPC是平均池化通道的輸出,xAWC是注意力權(quán)重通道的輸出。
本文構(gòu)建的數(shù)據(jù)集來源包括:手動(dòng)搜索的教案文本、爬取人教版課本內(nèi)容獲得的文本、爬取中文維基百科對(duì)數(shù)學(xué)實(shí)體詞描述的部分獲得的文本、調(diào)用科大訊飛語音轉(zhuǎn)寫接口轉(zhuǎn)寫初中數(shù)學(xué)課堂視頻得到的文本。獲得數(shù)據(jù)之后,接著對(duì)上述文本進(jìn)行清洗、篩選、標(biāo)注,最終得到一共6142條數(shù)據(jù)。數(shù)據(jù)內(nèi)容是對(duì)數(shù)學(xué)概念的描述,如:“正數(shù)的絕對(duì)值是他的本身、負(fù)數(shù)的絕對(duì)值是他的相反數(shù)、0的絕對(duì)值是0。兩個(gè)負(fù)數(shù)比較大小,絕對(duì)值大的反而小。”,“解析式形如y=k/x的函數(shù)叫作反比例函數(shù),其中k也叫作反比例系數(shù),反比例函數(shù)的定義域是不等于零的一切實(shí)數(shù)。”。初中數(shù)學(xué)實(shí)體詞是指可在初中數(shù)學(xué)中能夠找到相關(guān)定義的詞,如“三角形”、“無理數(shù)”、“反比例函數(shù)”等。本文在劃分?jǐn)?shù)據(jù)類別的時(shí)候,以人教版的初中數(shù)學(xué)目錄為參照,將整個(gè)知識(shí)體系分為代數(shù)和幾何兩個(gè)大類,然后將代數(shù)繼續(xù)細(xì)分為如下3類:
(1)數(shù)與式:實(shí)數(shù)及其運(yùn)算、代數(shù)式及其運(yùn)算以及根式的相關(guān)內(nèi)容,主要包括有理數(shù)、實(shí)數(shù)、整式、分式、單項(xiàng)式、多項(xiàng)式等知識(shí)點(diǎn)。
(2)方程、不等式、函數(shù):方程、不等式、函數(shù)這3個(gè)概念是區(qū)別而又緊密聯(lián)系的,概念大量交叉,所以該類包含上述3部分的所有內(nèi)容,主要有方程與方程組、列方程解應(yīng)用題、不等式與不等式組、平面直角坐標(biāo)系、變量與函數(shù)、正比例函數(shù)、一次函數(shù)、反比例函數(shù)、二次函數(shù)等知識(shí)點(diǎn)。
(3)統(tǒng)計(jì)與概率:統(tǒng)計(jì)與概率的所有內(nèi)容,主要包括總體、個(gè)體、眾數(shù)、平均數(shù)、中位數(shù)、方差、標(biāo)準(zhǔn)差、直方圖等知識(shí)點(diǎn)。
根據(jù)初中數(shù)學(xué)知識(shí)的重要程度,本文將幾何這個(gè)大類的文本繼續(xù)細(xì)分為如下4類:
(1)三角形:三角形的所有內(nèi)容,主要包括三角形的概念與性質(zhì)、相似三角形、全等三角形、三角函數(shù)等知識(shí)點(diǎn)。
(2)四邊形:四邊形(矩形、平行四邊形、梯形、菱形)的所有內(nèi)容,主要包括四邊形邊、角的概念與性質(zhì)、四邊形的面積計(jì)算、四邊形的判定等知識(shí)點(diǎn)。
(3)圓:圓的所有內(nèi)容,主要包括圓的概念與性質(zhì)、圓和圓的位置關(guān)系、弧的概念和性質(zhì)、直線和圓的關(guān)系、弦的概念和性質(zhì)等知識(shí)點(diǎn)。
(4)幾何知識(shí)類:沒有包含在上面幾何3大類知識(shí)點(diǎn)的內(nèi)容,如視圖的概念和判斷、線的概念與性質(zhì)、角的概念與性質(zhì)、多邊形(不包括三角形和四邊形)的概念與性質(zhì)等知識(shí)點(diǎn)。
部分?jǐn)?shù)據(jù)內(nèi)容及其類別見表2。

表2 數(shù)據(jù)分類示例
為了解決現(xiàn)有Word2vec詞向量模型存在部分?jǐn)?shù)學(xué)實(shí)體詞的詞向量缺失和數(shù)學(xué)實(shí)體詞的詞向量訓(xùn)練不充分的問題,本文從初中數(shù)學(xué)中篩選出了782個(gè)數(shù)學(xué)實(shí)體詞添加到自定義用戶詞典,然后用本文的6142條數(shù)據(jù)訓(xùn)練Word2vec詞向量,訓(xùn)練的主要參數(shù)見表3。其中sg用于設(shè)置訓(xùn)練算法,默認(rèn)為0,對(duì)應(yīng)CBOW算法,sg設(shè)置為1則采用Skip-Gram算法。Skip-Gram能夠更好地處理出現(xiàn)頻率較低的詞,比如很少出現(xiàn)在文本中的實(shí)體詞“混循環(huán)小數(shù)”、“大數(shù)定理”等。size是指輸出詞的向量維數(shù),默認(rèn)為100,設(shè)定為300。window表示當(dāng)前詞與預(yù)測(cè)詞在一個(gè)句子中的最大距離是多少,設(shè)定為默認(rèn)值5,一旦當(dāng)前詞和預(yù)測(cè)詞的距離超過5就可以認(rèn)為兩詞的相關(guān)性不大。Skip-Gram神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的時(shí)候會(huì)有非常大的權(quán)重參數(shù),負(fù)采樣negative samping每次讓一個(gè)訓(xùn)練樣本僅僅更新一小部分的權(quán)重參數(shù),可以降低梯度下降過程的計(jì)算量。對(duì)于小規(guī)模數(shù)據(jù)集,一般選擇5到20個(gè)negative words,本文設(shè)定的negative值為10。workers表示控制訓(xùn)練的并行數(shù),設(shè)定為4,可以減少訓(xùn)練時(shí)間。iter表示隨機(jī)梯度下降法中迭代的次數(shù),設(shè)定為10。

表3 Word2vec訓(xùn)練參數(shù)
MCA-BERT部分網(wǎng)絡(luò)參數(shù)見表4。其中Dropout設(shè)置為0.7的含義是保留該神經(jīng)網(wǎng)絡(luò)層百分之七十的結(jié)點(diǎn),丟棄其余的結(jié)點(diǎn),可以在一定程度上減小網(wǎng)絡(luò)的大小,防止模型過擬合。損失函數(shù)選擇的是categorical_crossentropy,它適用于多分類并且Softmax作為輸出層的激活函數(shù)的文本分類問題。

表4 網(wǎng)絡(luò)參數(shù)
P=TPFP+TP
(10)
R=TPFN+TP
(11)
F1=2P·RP+R
(12)
其中,TP表示模型中預(yù)測(cè)正確的正樣本,F(xiàn)N表示模型中預(yù)測(cè)正確的負(fù)樣本,F(xiàn)P表示模型中預(yù)測(cè)錯(cuò)誤的負(fù)樣本。F1可以很好地兼顧精確率和召回率,因?yàn)楸疚氖且粋€(gè)多分類問題,所以使用宏平均作為評(píng)價(jià)指標(biāo),宏平均是所有類的F1值的算術(shù)平均,其計(jì)算公式如下式表示
Pmacro=1n∑ni=1Pi
(13)
Rmacro=1n∑ni=1Ri
(14)
F1macro=2Pmacro·RmacroPmacro+Rmacro
(15)
其中,Pi是第i類的精確率,Ri是第i類的召回率,n是類別數(shù)目,Pmacro是宏平均的精確率,Rmacro是宏平均的召回率,F(xiàn)1macro是宏平均的F1值。
3.4.1 實(shí)驗(yàn)一
為了驗(yàn)證MCA-BERT模型的有效性,本文將該模型與以下模型進(jìn)行對(duì)比:
TextCNN:首先對(duì)文本進(jìn)行編碼,然后采用3種尺寸(2、3、4),一共3*2個(gè)卷積核對(duì)文本進(jìn)行特征提取,相比單個(gè)卷積核可以得到更豐富的特征表達(dá),最后將獲取的特征拼接并輸入Softmax層完成文本分類。
FastText:首先對(duì)文本進(jìn)行編碼,然后利用N-gram挖掘文本特征,最后輸入層次Softmax完成分類。
Word2vec平均池化單通道:以文本中實(shí)體詞的詞向量的平均池化作為輸入,后接256維Dense層和Softmax層完成文本分類。
BERT單通道:以BERT生成的768維句向量作為輸入,后接256維Dense層和Softmax層完成文本分類。
BERT拼接Word2vec平均池化單通道:將BERT生成的768維句向量與Word2vec平均池化得到的300維向量拼接作為輸入,后接256維Dense層和Softmax層完成文本分類。
BERT_CIC+APC雙通道:將BERT_CIC的輸出與APC的輸出拼接再輸入Softmax完成文本分類。
BERT_CIC+AWC雙通道:將BERT_CIC的輸出與AWC的輸出拼接再接入Softmax完成文本分類。
實(shí)驗(yàn)結(jié)果見表5。

表5 模型結(jié)果(實(shí)驗(yàn)一)
3.4.2 實(shí)驗(yàn)二
為了探究不同預(yù)訓(xùn)練模型對(duì)該實(shí)驗(yàn)的影響,本文將BERT預(yù)訓(xùn)練模型與BERT-wwm[14]、BERT-wwm-ext、RoBERTa-wwm-ext[15]、ALBERT-base[16]預(yù)訓(xùn)練模型進(jìn)行了對(duì)比,每個(gè)模型輸出的向量維度都是768,各模型的特點(diǎn)如下:
BERT-wwm:BERT-wwm是在BERT基礎(chǔ)上,將Mask任務(wù)由替換字詞修改為替換一個(gè)完整的詞,訓(xùn)練完成后字的embedding具有詞的語義信息。
BERT-wwm-ext:相比BERT-wwm的改進(jìn)是預(yù)訓(xùn)練模型做了增加,次數(shù)達(dá)到5.4 B;訓(xùn)練步數(shù)增大,訓(xùn)練的第一階段1 M步,訓(xùn)練第二階段400 K,在一些中文任務(wù)上效果有提升。
RoBERTa-wwm-ext:該預(yù)訓(xùn)練模型在BERT的基礎(chǔ)上做了以下調(diào)整:引入了動(dòng)態(tài)mask,相比于靜態(tài),動(dòng)態(tài)mask是每次輸入到序列的mask都不一樣;改變了預(yù)訓(xùn)練的方法,移除了BERT的NSP任務(wù),相比于BERT,采用了連續(xù)的full-sentences和doc-sentences作為輸入(長(zhǎng)度最多為512);訓(xùn)練時(shí)間更長(zhǎng),batch size更大,訓(xùn)練數(shù)據(jù)更多。
ALBERT-base:采用了兩種減少模型參數(shù)的方法,模型比BERT占用的內(nèi)存空間小很多,同時(shí)極大提升了訓(xùn)練速度,并在一些任務(wù)中獲得比BERT更好的模型效果。
實(shí)驗(yàn)結(jié)果見表6。

表6 模型結(jié)果(實(shí)驗(yàn)二)
然后本文對(duì)BERT_CIC+APC雙通道、BERT_CIC+AWC雙通道、MCA-BERT、MCA-RoBERTa-wwm-ext的驗(yàn)證集損失進(jìn)行了對(duì)比,如圖5所示。

圖5 驗(yàn)證集損失
3.4.3 實(shí)驗(yàn)三


表7 模型結(jié)果(實(shí)驗(yàn)三)
3.4.4 實(shí)驗(yàn)分析
由實(shí)驗(yàn)一可知,傳統(tǒng)的TextCNN僅通過卷積挖掘文本的特征效果很差,原因是最大池化丟失了結(jié)構(gòu)信息,很難發(fā)現(xiàn)文本中的轉(zhuǎn)折關(guān)系等復(fù)雜模式,并且TextCNN只知道關(guān)鍵詞是否在文本中出現(xiàn),以及相似度強(qiáng)度分布,不知道關(guān)鍵詞出現(xiàn)的頻率以及這些關(guān)鍵詞出現(xiàn)的先后順序。FastText利用N-gram方法提取文本中特征,對(duì)于目標(biāo)詞來說可以獲得前N-1個(gè)詞所能提供的全部信息,但是需要相當(dāng)規(guī)模的訓(xùn)練文本來確定模型的參數(shù),可以一定程度上地提高分類效果。Word2vec平均池化單通道的方法只考慮了文本的實(shí)體詞信息,而沒有考慮到文本的上下文信息,所以效果相對(duì)較差,但是最終的結(jié)果說明句子級(jí)的實(shí)體信息對(duì)文本分類任務(wù)來說是有幫助的。BERT單通道的方法可以很好地挖掘文本的上下文信息,但是忽略了文本中實(shí)體信息的作用。BERT拼接Word2vec平均池化單通道的方法與BERT_CIC+APC雙通道的方法對(duì)比表明雙通道相比單通道的方法能夠更有效地融入句子級(jí)的實(shí)體詞信息,從而獲得更好的分類效果。BERT_CIC+AWC雙通道的實(shí)驗(yàn)結(jié)果表明詞語級(jí)的實(shí)體信息比句子級(jí)的實(shí)體信息更有效。MCA-BERT的方法同時(shí)融入句子級(jí)的實(shí)體詞信息和詞語級(jí)的實(shí)體詞信息能夠獲得更好的文本分類效果,最終的實(shí)驗(yàn)F1值相比BERT單通道的方法提高了2.1個(gè)百分點(diǎn)。實(shí)驗(yàn)二對(duì)比各種預(yù)訓(xùn)練模型發(fā)現(xiàn)將BERT替換成RoBERTa-wwm-ext能夠獲得更好的文本分類效果,驗(yàn)證集的損失收斂得更快更低。實(shí)驗(yàn)三中MCA-BERT模型得到的F1值相比BERT單通道的方法提高了0.7個(gè)百分點(diǎn),說明通用數(shù)據(jù)集的文本分類任務(wù)也可以通過增強(qiáng)實(shí)體信息而提高文本分類效果,但是提升的效果不如特定領(lǐng)域的文本分類。
為了提高數(shù)學(xué)文本分類的效果,本文構(gòu)建了數(shù)據(jù)集并根據(jù)數(shù)據(jù)集的特點(diǎn)提出了一種MCA-BERT的方法,并與其它基準(zhǔn)模型進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明該方法能夠有效提高文本分類的精度,該方法可以為特定領(lǐng)域的文本分類任務(wù)提供參考。然后本文將MCA-BERT中的BERT與其它主流預(yù)訓(xùn)練模型進(jìn)行了對(duì)比,發(fā)現(xiàn)更換RoBERTa-wwm-ext模型能夠進(jìn)一步提高文本分類效果。最后,用MCA-BERT模型在通用文本分類數(shù)據(jù)集THUCNews數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明該模型也能在一定程度上提高通用文本分類任務(wù)的效果。下一步工作,我們會(huì)在此基礎(chǔ)上實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)和關(guān)系抽取任務(wù)從而構(gòu)建基于非結(jié)構(gòu)化數(shù)據(jù)的數(shù)學(xué)知識(shí)圖譜,并探索更有效的實(shí)體詞信息獲取方法,將其拓展到其它文本分類任務(wù)中。