999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TextCNN的中國(guó)古詩(shī)文分類方法研究

2021-07-05 12:00:12史沛卓陳凱天鐘葉珂雷向欣
電子技術(shù)與軟件工程 2021年10期
關(guān)鍵詞:分類文本方法

史沛卓 陳凱天 鐘葉珂 雷向欣

(華東理工大學(xué) 上海市 200000)

1 引言

“渭城朝雨浥輕塵,客舍青青柳色新”——清晨的細(xì)雨潤(rùn)濕了塵土,楊柳也顯得青翠清新。如此明朗清新的詩(shī)句,一眼看去好像十分明快,但實(shí)際上這卻是詩(shī)人王維以樂(lè)景抒悲情的手法。正是因?yàn)槊烂畹木吧珶o(wú)法與朋友一起欣賞,王維才寫(xiě)出來(lái)以反襯自己對(duì)友人的惜別之情,這就是中國(guó)古詩(shī)文婉轉(zhuǎn)曲折、含蓄蘊(yùn)藉之處。一直以來(lái),對(duì)中國(guó)古詩(shī)文進(jìn)行風(fēng)格分析都是一個(gè)有趣但困難的課題。僅僅憑借人的主觀判斷,很有可能對(duì)古詩(shī)句產(chǎn)生錯(cuò)誤的理解,而機(jī)器學(xué)習(xí)在分類上具有優(yōu)良的應(yīng)用效果。計(jì)算機(jī)學(xué)界在這一領(lǐng)域也已經(jīng)有一些相關(guān)的研究,我們能否嘗試用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,構(gòu)建一個(gè)專門針對(duì)中國(guó)古詩(shī)文進(jìn)行分類的模型呢?這正是本文進(jìn)行探究的出發(fā)點(diǎn)。

當(dāng)前,機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)對(duì)文本分類的應(yīng)用大多數(shù)針對(duì)的是現(xiàn)代文本,而對(duì)古詩(shī)文領(lǐng)域進(jìn)行研究的相關(guān)工作并不密集,這是因?yàn)獒槍?duì)古詩(shī)文構(gòu)建分類模型具有更多的困難,有相關(guān)文獻(xiàn)提到:文言文的字?jǐn)?shù)少、語(yǔ)句精練,分類特征不顯著,并且在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后得到的特征向量更少[1]。

在這一研究領(lǐng)域,文獻(xiàn)[2]使用了樸素貝葉斯方法針對(duì)宋詞進(jìn)行風(fēng)格判別,且使用信息增益和遺傳算法進(jìn)行特征選擇,最高準(zhǔn)確率達(dá)到88.5%,不過(guò)該研究的語(yǔ)料庫(kù)和參數(shù)設(shè)置比較有限,并且樸素貝葉斯方法也屬于比較老的方法。文獻(xiàn)[3]應(yīng)用了Scikit‐learn 工具包提供的多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了對(duì)宋詞的豪放、婉約風(fēng)格二分類,并進(jìn)行了比較和回溯分析,但在數(shù)據(jù)集的選擇上仍有缺陷:該文獻(xiàn)提到,在他們進(jìn)行數(shù)據(jù)處理時(shí)將公認(rèn)為豪放派作家的作品視為“豪放”類,同樣“婉約”類數(shù)據(jù)也是如此,但實(shí)際上豪放派作家也有少量作品是婉約風(fēng)格,該文獻(xiàn)的結(jié)語(yǔ)認(rèn)為這樣的數(shù)據(jù)處理方法引入了噪聲。

文獻(xiàn)[4]分別使用了基于卷積神經(jīng)網(wǎng)絡(luò)的TextCNN 方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的TextRNN 方法和基于注意力機(jī)制的Bi‐LSTM+Attention 模型進(jìn)行特征選擇,能夠?qū)ξ谋镜木植筷P(guān)聯(lián)特征進(jìn)行捕捉,也可以很好地掌握上下文信息,提高了特征提取的質(zhì)量以及分類器的精度。文獻(xiàn)[5]提出的TextRCNN‐TextCNN 混合模型在英文數(shù)據(jù)集下能夠很好地解決文本分類問(wèn)題。我們可以看到,相比傳統(tǒng)的機(jī)器學(xué)習(xí)方法,一些專用于文本分類的深度學(xué)習(xí)方法也具有良好的效果。

利用深度學(xué)習(xí)的方法,文獻(xiàn)[6]使用TextCNN 構(gòu)建模型,將古典詩(shī)詞分為“愛(ài)國(guó)”和“其他”兩類,并將其與經(jīng)典的機(jī)器學(xué)習(xí)方法SVM 構(gòu)建的分類模型進(jìn)行比較,確定TextCNN 方法具有更好的效果,但是該文獻(xiàn)僅僅進(jìn)行了二分類。本文認(rèn)為探討多分類可能會(huì)具有更高的應(yīng)用價(jià)值。

本文認(rèn)為,我們旨在構(gòu)建一個(gè)古詩(shī)文多分類模型,將上文提到的情感或風(fēng)格作為有監(jiān)督學(xué)習(xí)的標(biāo)簽會(huì)帶來(lái)數(shù)據(jù)集構(gòu)建的困難。情感或風(fēng)格是主觀性較強(qiáng)的標(biāo)簽,經(jīng)過(guò)檢索,我們無(wú)法找到數(shù)據(jù)量大到可以避免過(guò)擬合的以情感為分類標(biāo)簽的詩(shī)句,文獻(xiàn)[1]甚至在數(shù)據(jù)處理階段對(duì)950 首唐詩(shī)采用人工手動(dòng)標(biāo)注,而我們不具有這樣的能力?;谝陨系目紤],我們?cè)趉aggle 等社區(qū)檢索后,決定選用GitHub 的chinese‐poetry 數(shù)據(jù)集,其已有的主要分類標(biāo)簽包括唐詩(shī)、宋詞、花間集等。我們選用五種詩(shī)文出處作為分類標(biāo)簽,包括唐詩(shī)、宋詞、論語(yǔ)、詩(shī)經(jīng)和四書(shū)五經(jīng),基于比較新興的TextCNN 方法構(gòu)建分類模型。

2 TextCNN模型

卷積神經(jīng)網(wǎng)絡(luò)早期是主要應(yīng)用在計(jì)算機(jī)視覺(jué)的一個(gè)算法,近年在各個(gè)新領(lǐng)域都涌現(xiàn)出研究成果,其中就包括本文的文本分析領(lǐng)域,這將在下文提到。典型的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層(下采樣層)、全連接層、輸出層組成[7],它們的原理如下。

卷積層利用卷積核對(duì)圖陣列進(jìn)行特征提取,通過(guò)卷積核與圖像對(duì)應(yīng)像素相乘求和得到神經(jīng)元的輸出值;在算力不充足的情況下可以進(jìn)行池化下采樣,池化層對(duì)特征進(jìn)行選擇、進(jìn)行信息過(guò)濾,常用的是maxpooling 和average pooling,即最大值池化和平均值池化(值得一提的是,采用池化下采樣的操作已經(jīng)越來(lái)越少,因?yàn)槌鼗癁V除的信息過(guò)多,可能包括有用的信息,更好的方法是卷積下采樣);全連接層類似于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的隱含層,將特征圖展開(kāi)為向量并通過(guò)激勵(lì)函數(shù),即對(duì)特征進(jìn)行非線性組合。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)就在于其能夠良好地捕捉局部特征。

而文本也是可以被表現(xiàn)為類似于圖片像素陣列的形式的(例如詞語(yǔ)在字典中的位置以及詞語(yǔ)在句子中的位置形成的矩陣),因此文本分類理論上也是能由卷積神經(jīng)網(wǎng)絡(luò)完成的。

2014年Yoon Kim 提出的TextCNN 首次運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類:

輸入層的形式是一個(gè)句子中的單詞以及單詞對(duì)應(yīng)的詞向量形成的n*k 矩陣,其中n 為句子的單詞數(shù),k 為詞向量維度。因此輸入層的每一行都是一個(gè)單詞對(duì)應(yīng)的k 維詞向量,并且為了保證詞向量長(zhǎng)度一致,矩陣會(huì)進(jìn)行padding 操作(即邊界填充)。

卷積層與傳統(tǒng)CNN 的卷積層原理一致,但是卷積核的寬度一定等于詞向量大小(即上文提到的k),因此卷積核只會(huì)進(jìn)行高度方向的移動(dòng),每次步進(jìn)都會(huì)劃過(guò)完整的單詞,保證了詞語(yǔ)作為語(yǔ)言中的最小粒度(粒度如果需要降低還需其他操作)。

表1:sklearn 打印的分類報(bào)告結(jié)果

池化層與傳統(tǒng)CNN 的池化層也基本一致,方法包括1‐MAX池化、K‐MAX 池化(選出每個(gè)特征向量中最大的K 個(gè)特征)和上文提到過(guò)的平均值池化等。

3 實(shí)驗(yàn)設(shè)計(jì)

在實(shí)驗(yàn)之前進(jìn)行比較常規(guī)的數(shù)據(jù)預(yù)處理。實(shí)驗(yàn)數(shù)據(jù)集來(lái)自上文提到的Chinese‐Poetry 庫(kù),庫(kù)內(nèi)收錄了從從先秦到現(xiàn)代的共計(jì)85 萬(wàn)余首古詩(shī)詞。其中供本次訓(xùn)練使用的有唐代詩(shī)詞281378 首,宋代詩(shī)詞270066 首,論語(yǔ)文本31116 段,詩(shī)經(jīng)詩(shī)詞78606 首,四書(shū)五經(jīng)文本56925 段。我們建立數(shù)據(jù)集中五種類型的映射,讀取json 文件后進(jìn)行dataframe 的拼接。古詩(shī)詞中有一些生僻字,這些生僻字屬于 utf8mb4 字符,在許多設(shè)備中無(wú)法顯示,故而使用“?”來(lái)替代,鑒于該類生僻字在古詩(shī)詞中所占比例極小(在詞袋中,含有“?”的詞僅占總詞數(shù)的2.9456e‐03%),因此在此次訓(xùn)練中忽略其影響。

隨后,使用sklearn 提供的split 方法將古詩(shī)詞按0.25 的比例生成訓(xùn)練集和測(cè)試集,并通過(guò)使用word2vec 方法,將古詩(shī)文進(jìn)行分詞后轉(zhuǎn)化成詞向量。在分詞過(guò)程中,我們認(rèn)為,數(shù)據(jù)集內(nèi)已經(jīng)比較干凈,不需要去除停頓詞之類的操作,以免發(fā)生有些繁體字取掉后識(shí)別會(huì)不精準(zhǔn)的情況。

在textCNN 網(wǎng)絡(luò)結(jié)構(gòu)上,我們?cè)诮?jīng)典的一層卷積的卷積神經(jīng)網(wǎng)絡(luò)上添加了兩層卷積層和一層全連接層,其中兩個(gè)全連接層分別采用relu 和softmax 激活函數(shù),以進(jìn)行五分類。隨后參考文獻(xiàn)[8]中的方法進(jìn)行參數(shù)調(diào)整。在多次實(shí)驗(yàn)和比較后,根據(jù)結(jié)果選定filter 大小為[3,4,5],每層卷積核個(gè)數(shù)均為128,dropout rate 為0.4,池化策略為GlobalMaxPooling,激活函數(shù)為relu 和softmax,達(dá)到取得較高準(zhǔn)確率的五分類結(jié)果的目的。

4 結(jié)果

使用sklearn 打印分類報(bào)告,在訓(xùn)練集和測(cè)試集上得到的結(jié)果如圖1 和圖2所示。

圖1:本文采用的模型訓(xùn)練原理

圖2:隨迭代次數(shù)增加loss 的變化

可以看到loss 不斷下降直到趨于穩(wěn)定,accuracy 不斷上升直到趨于穩(wěn)定,訓(xùn)練過(guò)程符合深度學(xué)習(xí)的迭代規(guī)律。最終sklearn 打印的報(bào)告給出了0.94 的macrof1 分?jǐn)?shù)和0.87 的weightedf1 分?jǐn)?shù)。

圖3:隨迭代次數(shù)增加accuracy 的變化

5 結(jié)論與展望

本文提出了一個(gè)基于TextCNN 構(gòu)建的中國(guó)古詩(shī)詞文本分類模型,并在在GitHub 的chinese‐poetry 數(shù)據(jù)集上進(jìn)行五分類。最終加權(quán)后的f1 得分為0.87 表明該模型可以有效應(yīng)用于中國(guó)古詩(shī)文的文本分類。

運(yùn)用該模型,我們已能在基本的古詩(shī)文出處分類上獲得較高的準(zhǔn)確度,例如“孔子之去魯,曰:‘遲遲吾行也,去父母國(guó)之道也?!边@樣的句子被神經(jīng)網(wǎng)絡(luò)劃為了“四書(shū)五經(jīng)”類。如果僅憑人的主觀判斷,可能會(huì)認(rèn)為其出自《論語(yǔ)》(備注:數(shù)據(jù)集中“四書(shū)五經(jīng)”類不包含《論語(yǔ)》,兩者是分開(kāi)的類,現(xiàn)實(shí)中《論語(yǔ)》是四書(shū)五經(jīng)的一部分),因?yàn)椤墩撜Z(yǔ)》內(nèi)包含大量的孔子所說(shuō)的話,但實(shí)際上這個(gè)句子的確是出自四書(shū)五經(jīng)中的《孟子》。其實(shí)神經(jīng)網(wǎng)絡(luò)將這個(gè)句子劃為“四書(shū)五經(jīng)”類,也并不違反直覺(jué),因?yàn)槭煜ぁ墩撜Z(yǔ)》和《孟子》的人也會(huì)很快地辨認(rèn)出來(lái):《論語(yǔ)》中常用的句式是“子曰”,但《孟子》常用的句式是簡(jiǎn)單的“曰”,并且《孟子》中也時(shí)常會(huì)在引用人物的語(yǔ)言之前交代一些背景,比如“孔子之去魯,曰:……”“莊暴見(jiàn)孟子,曰:……”,但《論語(yǔ)》中往往直接由“子曰”開(kāi)頭。

上述的例子是本文的模型對(duì)古詩(shī)文文本在朝代、出處上進(jìn)行分類的應(yīng)用,針對(duì)佚名詩(shī)文和來(lái)源模糊的詩(shī)文可以進(jìn)行出處上的參考。不過(guò),我們認(rèn)為進(jìn)行情感和風(fēng)格上的分類或許會(huì)有更高的應(yīng)用價(jià)值,這也正是本文的不足之處。但是正如引言中提到的,我們?nèi)鄙僮銐虻臄?shù)據(jù)集,也沒(méi)有能力進(jìn)行大量的人工手動(dòng)標(biāo)注,不過(guò)使用本文的思路,如果配合足夠良好的數(shù)據(jù)集和特征工程,相信也能構(gòu)建出在情感、風(fēng)格以及其他方面效果良好的分類模型。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
可能是方法不對(duì)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产人人乐人人爱| 久久午夜夜伦鲁鲁片不卡| 毛片在线看网站| 亚洲色图欧美视频| 四虎精品免费久久| 99热最新在线| 亚洲国产精品日韩欧美一区| 日韩欧美国产精品| yy6080理论大片一级久久| 日本不卡视频在线| 高清欧美性猛交XXXX黑人猛交| 国产女人在线视频| 亚洲精品成人福利在线电影| 国产理论精品| 亚洲视频在线网| 久久人搡人人玩人妻精品| 国产精品成人不卡在线观看 | 好吊色国产欧美日韩免费观看| 国产a v无码专区亚洲av| 97se亚洲综合在线| 欧美亚洲欧美| 午夜激情婷婷| 日韩精品免费一线在线观看| 久久激情影院| 麻豆精品在线| 亚洲欧美日韩精品专区| 69国产精品视频免费| 91外围女在线观看| 天天激情综合| 国产精品白浆无码流出在线看| 再看日本中文字幕在线观看| 久久中文字幕不卡一二区| 国产SUV精品一区二区6| a级毛片一区二区免费视频| 亚洲三级成人| 毛片免费在线视频| 色AV色 综合网站| 日本不卡视频在线| 国产精品亚洲精品爽爽| 久久久波多野结衣av一区二区| 国产一区二区福利| 亚洲黄色视频在线观看一区| 亚洲国产午夜精华无码福利| 亚洲中文无码av永久伊人| 手机精品福利在线观看| 青青青国产在线播放| 国产精品永久免费嫩草研究院| 青青草一区| 一级毛片不卡片免费观看| 免费在线播放毛片| 国产av无码日韩av无码网站| 亚洲精品波多野结衣| 青青青亚洲精品国产| 欧美全免费aaaaaa特黄在线| 色偷偷男人的天堂亚洲av| 97色伦色在线综合视频| 四虎精品国产AV二区| 成人免费午夜视频| 国产理论最新国产精品视频| 日韩成人午夜| 国产一区二区在线视频观看| 高清精品美女在线播放| 亚洲一区波多野结衣二区三区| 婷婷综合缴情亚洲五月伊| 亚洲美女一区二区三区| 97se亚洲综合在线韩国专区福利| 亚洲天堂首页| 亚洲日韩高清无码| 国内精品自在欧美一区| 免费一级α片在线观看| 欧美日一级片| 国产欧美日本在线观看| 免费观看三级毛片| 日韩免费视频播播| 亚洲黄色激情网站| 国产女人在线观看| 91色综合综合热五月激情| 欧美一区中文字幕| 亚洲天堂视频在线观看免费| 五月激激激综合网色播免费| 欧美日韩高清在线| 啦啦啦网站在线观看a毛片|