999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的紅樓夢作者鑒定

2018-12-19 05:11:24車東宇李新靚王心如吳宇航
新一代信息技術(shù) 2018年3期
關(guān)鍵詞:文本

車東宇,李新靚,王心如,吳宇航

(1. 華北理工大學(xué)理學(xué)院,河北 唐山 063210;2. 華北理工大學(xué)以升創(chuàng)新教育基地,河北 唐山 063210; 3. 華北理工大學(xué)數(shù)學(xué)建模創(chuàng)新實驗室,河北 唐山 063210;4. 河北省數(shù)據(jù)科學(xué)與應(yīng)用重點實驗室,河北 唐山 063210)

首先,對每一章節(jié)進行分詞,建立詞頻矩陣;接著使用非參數(shù)檢驗剔除顯著性不大的人稱代詞;然后篩選出所有在每一章回出現(xiàn)大于6 次的字;最后將頻繁出現(xiàn)的字創(chuàng)建指示特征,利用紅、玉等125 個特征,訓(xùn)練樸素葉貝斯分類器,成功預(yù)測出作者的不同,預(yù)測正確率高達97%。

針對詞的判斷,首先引入紅樓夢詞語等細胞詞庫,使章回分詞更加精確;接著,篩選出與文章情節(jié)關(guān)聯(lián)不大的詞語,計算詞在每一章出現(xiàn)的頻率的標(biāo)準(zhǔn)差,選擇標(biāo)準(zhǔn)差小于0.9 的詞語作為特征;最后利用“寶玉”,“咱們”等256 個詞語作為特征訓(xùn)練建立的樸素葉貝斯分類器,成功預(yù)測出作者的不同,正確率高達95%。

0 引言

紅樓夢后40 回原作散失,至今作者歸屬仍是謎團。1920 年,胡適先生“大膽假設(shè)”,認(rèn)為后四十回并非曹雪芹所著,而是高鶚續(xù)書。在學(xué)界一般認(rèn)為,《紅樓夢》后40 回并非曹雪芹所著。本文嘗試應(yīng)用機器學(xué)習(xí)的方法來分析原著文本中作者的用字與用詞習(xí)慣,從機器學(xué)習(xí)與數(shù)據(jù)判斷角度去說明《紅樓夢》前80 回和后40 回寫作風(fēng)格的差異,繼而可以確認(rèn)后40 回為高鶚續(xù)寫而并非曹雪芹所寫。

1 問題分析

通過分析作品的字詞,判斷《紅樓夢》前八十回與后四十回的作者問題,可通過文本分類實現(xiàn),樸素貝葉斯是常見的應(yīng)用方法,即使在現(xiàn)在這種分類器層出不窮的年代,在文本分類場景中,樸素貝葉斯依舊堅挺地占據(jù)著一席之地,文檔的分詞可利用R 語言實現(xiàn)[1]。

樸素貝葉斯分類器是一系列以假設(shè)特征之間強(樸素)獨立下運用貝葉斯定理為基礎(chǔ)的簡單概率分類器[2]。該分類器模型會給問題實例分配用特征值表示的類標(biāo)簽,類標(biāo)簽取自有限集合。它不是訓(xùn)練這種分類器的單一算法,而是一系列基于相同原理的算法:所有樸素貝葉斯分類器都假定樣本每個特征與其他特征都不相關(guān)。

2 模型假設(shè)

(1)假設(shè)文本數(shù)據(jù)分布相互獨立;

(2)假設(shè)《紅樓夢》前八十回由同一人所著,后四十回由同一人所著;

(3)假設(shè)拉普拉斯估計增加的數(shù)值為1,保證每一項特征的概率值非零;

2.1 模型建立

2.1.1 可視化文本數(shù)據(jù)——詞云

詞云是一個可視化的描繪字詞出現(xiàn)在文本數(shù)據(jù)中頻率的方式。詞云是由隨機分布在詞云圖中的字詞構(gòu)成的,經(jīng)常出現(xiàn)在文本中的單詞會以較大的字體呈現(xiàn),而不太常見的單詞將會以較小的字體呈現(xiàn)。最近,這種類型的圖已經(jīng)變得越來越流行,因為它提供了一種觀察社交媒體網(wǎng)站上熱門話題的方式[3]。

Wordcloud 添加包提供了一個簡單的R 函數(shù)來創(chuàng)建這種類型的圖形,應(yīng)用這個函數(shù)使文本中的字詞可視化。比較前八十回和后四十回的詞云有助于了解樸素貝葉斯過濾器是否有可能成功。

利用命令從tm 語料庫對象直接創(chuàng)建詞云。該詞云將會以非隨機的順序排列,而且出現(xiàn)頻率越高的字詞越靠近中心。

通過對詞云的對比發(fā)現(xiàn)兩部分高頻詞差別不大,仍然需對數(shù)據(jù)繼續(xù)進行篩選。

2.1.2 樸素貝葉斯主要公式:

圖1 前80 回字的詞云 Fig.1 Word cloud for the first 80 words

圖2 后40 回字的詞云 Fig.2 The word cloud of the next 40 words

圖3 前80 回詞的詞云 Fig.3 Word cloud of the first 80 returns

圖4 后40 回詞的詞云 Fig.4 The word cloud of the next 40 returns

從公式中可知,如果要計算X 條件下Y 發(fā)生的概率,只需要計算出后面等式的三個部分,X 事件的概率(P(X)),是X 的先驗概率、Y 屬于某類的概率(P(Y)),是Y 的先驗概率、以及已知Y 的某個分類下,事件X 的概率(P(X|Y)),是后驗概率[4]。

將曹雪芹與高鶚視為兩類,要判斷《紅樓夢》的前八十回與后四十回的作者分別屬于哪一類,則需要計算出歸屬不同類的概率,再從中挑選出最大的概率。

將貝葉斯公式寫為:

由公式可知,要計算最大的后驗概率,只需計算出分子的最大值,而不同水平的概率P(C)非常容易獲得,故難點就在于P(X|C)的概率計算。由于貝葉斯假設(shè)變量X 間是條件獨立的,故而P(X|C)的概率就可以計算為:

在此問題中,X 為《紅樓夢》前80 回作者為曹雪芹,Y 為后四十回作者不是曹雪芹。在第一問中,Ci 表示某字屬于某類,Xi 為特征屬于該類。在第二問中,Ci 表示某詞屬于某類,Xi 為特征屬于該類[5]。

2.2 模型建立

2.2.1 將數(shù)據(jù)導(dǎo)入R

將附件中的文檔按章回分開,對每一章回附上作者的標(biāo)簽。

2.2.2 清洗數(shù)據(jù)

文本中包含著數(shù)字、縮略的短語和標(biāo)點符號等干擾信息,因此要在建模之前對數(shù)據(jù)進行清洗。

(1)創(chuàng)建語料庫

文本是由字、詞、數(shù)學(xué)和標(biāo)點符號等符號組成的文本字符串。處理這種復(fù)雜的數(shù)據(jù)需要大量的思考和工作,一方面需要考慮如何去除數(shù)字和標(biāo)點符號,如何處理沒有意義的詞,以及如何將句子分解成單個的單詞。此利用R 語言文本挖掘添加包tm 實現(xiàn)。通過命令安裝tm 文本挖掘添加包,并應(yīng)用命令進行加載。

①創(chuàng)建字的語料庫

創(chuàng)建語料庫即創(chuàng)建一個文本文件的集合,即《紅樓夢》文本文檔。在將文本內(nèi)容分解成單詞之前,需要進行一些清理步驟去除標(biāo)點符號和可能會影響結(jié)果的其他字符,分詞之后統(tǒng)計詞頻,挑出詞頻大于100 的“紅”“玉”等字,并進行清理。

②創(chuàng)建詞的語料庫

利用R 語言中的rJava 與Rwordseg 進行分詞。因為紅樓夢的敘述為半文半白,分詞較為困難,為了得到更好的分詞結(jié)果,引用細胞詞庫。細胞詞庫的好處是使分詞更為規(guī)范,更符合漢語的語義與語句結(jié)構(gòu)。如對“一年三百六十日,風(fēng)刀霜劍嚴(yán)相逼。”進行分詞,得到“一年”“三百”“六十”“日”“風(fēng)”“刀”“霜”“劍”“嚴(yán)”“相逼”但引入了細胞詞庫后進行同樣的分詞,得到“一年”“三百六十日”“風(fēng)刀霜劍”“嚴(yán)相逼”。因此對于本題引進“紅樓夢詞庫”“紅樓夢群成員名字詞庫”“紅樓詞語”“常用文言文詞庫”等細胞詞庫,以更好的進行分詞。

(2)清理語料庫

①清理字的語料庫

在文言文中虛詞數(shù)量較多,對于一些在語句中承擔(dān)重要成分且用法復(fù)雜的字,不同作者通常因性格、寫作方式的不同有不同的運用,這些字在前后的分布也有著顯著差異,因此分析過程中要予以考慮。而對于一些不在語句中承擔(dān)角色、用法相對簡單的“乎”、“焉”等,使用量不因作者不同而產(chǎn)生較大的變化,這些字在前八十回與后四十回中的分布差異不顯著,為最終求得結(jié)果的合理準(zhǔn)確,將這些字剔除[6]。

表1 虛詞剔除 Tab.1 function word elimination

對于“你”、“我”、“他”等稱謂用詞,擁有較為固定的用法,且后四十回作者續(xù)寫能力比較強,在同一題材的敘述過程中,即使由不同作者續(xù)寫也不會有較大的差別,因此對這些字進行剔除。

表2 人稱代詞剔除 Tab.2 personal pronouns removed

②清理詞的語料庫

在《紅樓夢》中有一些人名的出現(xiàn)次數(shù)是隨情節(jié)而變化的。如小說剛開始不久,林黛玉的母親賈敏就已經(jīng)去世了,那么后文這一人物名字出現(xiàn)的次數(shù)就會大大減少。因此人名并不能作為判斷是否為同一作者的有效依據(jù),那么剔除人名將減少較大的干擾,得到更為準(zhǔn)確的判斷[7]。

利用R 中的Rwordseg 進行分詞,把分詞結(jié)果用向量表示,在將章節(jié)的詞與詞頻生成文檔——詞頻矩陣。

統(tǒng)計每一回詞語出現(xiàn)的詞頻,計算該詞語在每一回出現(xiàn)頻率的標(biāo)準(zhǔn)差,選取標(biāo)準(zhǔn)差較低的詞作為特征詞。

按照這個標(biāo)準(zhǔn),與情節(jié)最無關(guān)的20 個詞是:

表3 與情節(jié)無關(guān)的20 詞 Tab.3 20 words unrelated to the circumstances

詞頻變化最大的詞:

表4 詞頻變化最大詞 Tab.4 most frequently changed words

有趣的是,處在排名末尾的詞,也就是詞頻變化最大的詞,大部分都是人名,這與我們之前的假設(shè)吻合。可見這個篩選方法確實能去掉我們不想要的特征詞。

最終,選擇了詞頻變化最小的256 個詞作為特征詞,每個詞的修正后標(biāo)準(zhǔn)方差都小于0.9。

以前五十個為例如下:

表5 例詞 Tab.5 words

2.2.3 標(biāo)記化

將文本分解成由單個單詞組成的組。一個標(biāo)記就是一個文本字符串的單個元素,tm 添加包提供了標(biāo)記語料庫的功能。將一個語料庫作為輸入,并建立一個稱為稀疏矩陣的數(shù)據(jù)結(jié)構(gòu),其中矩陣的行表示文檔,即《紅樓夢》文本內(nèi)容,矩陣的列表示字詞。將語料庫標(biāo)記化,并返回另一個稀疏矩陣中,便可以對包括詞頻在內(nèi)的信息進行分析[8]。

(1)數(shù)據(jù)準(zhǔn)備——建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集

將一百二十回隨機打亂,把它們分為兩部分,取50 回作為訓(xùn)練集,剩余70 回作為預(yù)測集。訓(xùn)練集已知作者與章節(jié)對應(yīng)關(guān)系,作為判斷的標(biāo)準(zhǔn)。預(yù)測集未知作者與章節(jié)對應(yīng)關(guān)系,運用樸素貝葉斯分類器依據(jù)訓(xùn)練集給出作者與章節(jié)的對對應(yīng)關(guān)系。

(2)數(shù)據(jù)準(zhǔn)備——為頻繁出現(xiàn)的字詞創(chuàng)建指示特征

數(shù)據(jù)準(zhǔn)備過程中的最后一步就是把稀疏矩陣轉(zhuǎn)換成可用于訓(xùn)練樸素貝葉斯分類器的數(shù)據(jù)結(jié)構(gòu)。目前,該稀疏矩陣包含數(shù)量超過320 個的特征,即至少出現(xiàn)100 次的字詞特征,這些特征不可能都對分類發(fā)揮作用。

選取特征字時,為減少特征的數(shù)量,共選出“紅”“玉”等125 個特征字,即125 個特征,樸素貝葉斯分類器通常是訓(xùn)練具有明確特征的數(shù)據(jù)。

由于一些人名、詞組隨著情節(jié)的變化而變化,因此這些詞組并不能作為依據(jù)來判斷是否為同一作者[9]。統(tǒng)計每一回詞語出現(xiàn)的詞頻,計算該詞語在每一回出現(xiàn)頻率的標(biāo)準(zhǔn)差,選取標(biāo)準(zhǔn)差較低的詞作為特征詞共256 個。

為了評估分類器,我們需要基于測試數(shù)據(jù)中未知作者的文本來檢驗分類器的預(yù)測值。利用已經(jīng)訓(xùn)練過的分類器來產(chǎn)生預(yù)測值,并將預(yù)測值與真實值相比較。利用函數(shù)進行預(yù)測,并將這些預(yù)測值存儲在一個向量中。為了比較預(yù)測值和真實值,使用添加包中的函數(shù),增加一些額外的參數(shù)來消除不必要的元素的比例,并使用參數(shù)dnn 來重新標(biāo)記行和列。通過代碼產(chǎn)生如下表格:

從表中可以看出30 回屬于高鶚的作品中有1 回被錯誤歸為曹雪芹的作品,比例為3%,而20 回屬于曹雪芹的作品中有1 回錯判為高鶚的作品,比例為95%,表現(xiàn)水平比較好。

從表中可以看出39 回屬于高鶚的作品中有1 回被錯誤歸為曹雪芹的作品,比例為2%,表現(xiàn)水平比 較好。

表6 真實值與預(yù)測值比較 Tab.6 comparison of true and predicted values

通過采用樸素貝葉斯進行《紅樓夢》的作者分析,可證明其有效性。結(jié)合專門的R 添加包用于準(zhǔn)備需要分析的文本數(shù)據(jù)、預(yù)處理文本以及文本的可視化。

樸素貝葉斯分類器可推廣用于文本分類,簡單易懂、學(xué)習(xí)效率高。對待預(yù)測樣本進行預(yù)測,過程簡單速度快,對于多分類問題也同樣很有效,復(fù)雜度也不會有大程度上升。

2.2.4 基于數(shù)據(jù)訓(xùn)練模型 原始《紅樓夢》文本文檔已經(jīng)轉(zhuǎn)換成為可以用

一個統(tǒng)計模型代表的形式,此時應(yīng)用樸素貝葉斯算法,根據(jù)字詞在相對應(yīng)標(biāo)簽下的存在與否來估計對應(yīng)文本作者屬于曹雪芹的概率。且此算法速度較快,準(zhǔn)確率較高[10]。

表7 真實值與預(yù)測值比較 Tab.7 comparison of true and predicted values

3 結(jié)論

通過采用樸素貝葉斯進行《紅樓夢》的作者分析,可證明其有效性。結(jié)合專門的R 添加包用于準(zhǔn)備需要分析的文本數(shù)據(jù)、預(yù)處理文本以及文本的可視化。

樸素貝葉斯分類器可推廣用于文本分類,簡單易懂、學(xué)習(xí)效率高。對待預(yù)測樣本進行預(yù)測,過程簡單速度快,對于多分類問題也同樣很有效,復(fù)雜度也不會有大程度上升。

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 午夜国产在线观看| 国产主播福利在线观看| 国产又粗又猛又爽视频| av在线5g无码天天| 午夜在线不卡| 日韩精品高清自在线| 丁香婷婷久久| 久久精品只有这里有| 中文字幕啪啪| 五月激激激综合网色播免费| 2021国产在线视频| 国产精品亚洲一区二区三区在线观看| AV网站中文| 日韩第九页| 国产精欧美一区二区三区| 97国产在线观看| 久久精品女人天堂aaa| 欧美色综合久久| 亚洲天堂成人在线观看| 青青青国产精品国产精品美女| 女同国产精品一区二区| 欧美翘臀一区二区三区| 久久精品一品道久久精品 | 国产va在线观看免费| 特级精品毛片免费观看| 在线观看免费国产| 国产av剧情无码精品色午夜| 欧美日韩资源| 亚洲人成网站色7799在线播放| 久久综合国产乱子免费| 亚洲人成网站色7799在线播放| 日韩在线影院| 久热99这里只有精品视频6| 免费观看精品视频999| 亚洲免费黄色网| 国产欧美日韩另类精彩视频| 欧美视频在线不卡| 日韩精品一区二区三区大桥未久| 88av在线看| 亚洲,国产,日韩,综合一区| 日本久久网站| 成人小视频网| 国产成人综合亚洲欧洲色就色| 丝袜美女被出水视频一区| 亚洲高清资源| 国产女人在线观看| 91美女视频在线| 久久综合伊人77777| 精品福利视频导航| 成年午夜精品久久精品| 在线亚洲天堂| 国产欧美日韩一区二区视频在线| 日本国产在线| 日韩在线网址| 狠狠色丁香婷婷| 久久精品女人天堂aaa| 久久婷婷综合色一区二区| 国产va在线| 国产色婷婷视频在线观看| 91久久偷偷做嫩草影院精品| 久久美女精品| 粉嫩国产白浆在线观看| 久久精品丝袜| 国产精品伦视频观看免费| 亚洲AV无码乱码在线观看代蜜桃 | 精品人妻无码区在线视频| 91在线播放免费不卡无毒| 91在线一9|永久视频在线| 亚洲性网站| 国产91视频免费观看| 91色综合综合热五月激情| 国产色伊人| 亚洲婷婷丁香| 伊人久久影视| 日韩av手机在线| 国产成熟女人性满足视频| 欧美在线导航| 韩国v欧美v亚洲v日本v| 亚洲 欧美 偷自乱 图片| 在线日本国产成人免费的| 在线欧美国产| 永久免费无码成人网站|