999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的《紅樓夢》前后作者差異檢驗

2017-02-23 06:31:36陳恩宏劉陳帥賈學勇
西部論叢 2017年10期

陳恩宏 劉陳帥 賈學勇

摘 要:《紅樓夢》成為文學中“紅學”的代表,被越來越多的人進行研究,其中前后作者寫作風格的差異成為人們首要研究的問題。本文從數學建模的角度出發,利用前后章節字、詞、句定性定量的差異來證明前后作者不同。首先將前后章節分為兩個樣本,選取實詞“紅”、“玉”以及8個虛詞,統計得出各個詞在前80回和后40回的使用頻率,作為樣本元素,接著選取顯著性水平a=0.05,提出原假設,即兩個樣本之間不存在差異;最后將樣本集元素進行排序,分別平均計算得到秩和統計量,代入數據結合曼—惠特尼檢驗統計量使用SPSS軟件,得出檢驗值Z=11.7075,因為,拒絕原假設,可得出前后作者不同的結論。再從計算前后章回中獨有詞的出現比例,直觀體現出前后章回中詞量的差異,接著統計每十章出現二元文法前200序列的次數,進行數據的歸一化處理,形成單獨樣本,并利用歐式距離公式計算數據間的距離,利用MATLAB軟件進行依次聚類,從聚類圖可得出前80回中作者對相鄰兩詞的使用習慣相似,但與后40回表達習慣差異較大。接著將高頻的實詞和虛詞同樣進行頻數統計與歸一化,選取前后兩部分樣本均值作為聚類中心,得出前80回和后40回的樣本點分別聚集在不同的區域內。綜上,從詞量和詞頻的角度都可證明前80回與后40回作者不同。

關鍵詞:曼—惠特尼U檢驗 N元文法聚類 k-means聚類

1. 引言

《紅樓夢》流傳至今,是一部以四大家族的發展興衰為時代背景,以故事主人公的感情為主線,隨著劇情發展不斷揭示當代社會危機以及人性的善惡,已經成為我國小說的經典。本書作者曹雪芹的寫作風格新穎別致、擺脫俗套、備受后世讀者贊嘆。但是在后續的保留和傳播過程中,紅樓夢遭到損壞,只保留下完整的80章,后續作者高鶚續寫后40章,以此完善《紅樓夢》。

《紅樓夢》已經形成了獨有的文學——“紅學”,雖然《紅樓夢》故事情節大致完整,但是作者不同,寫作風格自然不同。通過建立模型,比較“紅”“玉”兩字在前80章與后40章的使用頻率,證明兩者作者的不同。

《紅樓夢》前后的作者除了對指定詞的使用頻數同外,在一些詞匯和詞義上的理解和使用同樣大相徑庭,通過建立模型,說明前后作者的不同。

若再進行深入的研究,《紅樓夢》中前80章和后40章的使用語句和語句的含義也存在差異,通過建立模型,定量的證明差異的存在性。

2.基于曼-惠特尼U檢驗的作者差異分析

在一部小說中, 作者使用詞語風格應該是一貫的、連續的, 因此,對《紅樓夢》這部小說而言,前八十章回和后四十章回的絕大部分詞語也應該保持一致。為了佐證《紅樓夢》前八十章回與后四十章回的作者不同,本文選取“紅”、“玉”和幾個虛詞統計其在前后兩部分的使用頻率,然后通過曼-惠特尼U檢驗對兩組數據進行差異性檢驗。

本文共計選擇20個字詞,分別為:

實詞:紅、玉;

虛詞:被、從、于、因、在、向、以、之、者、或、的、罷、呢、便、就、亦、未、既。

為了提高檢驗的準確性,對每一章回中各個字詞使用的次數分別統計,并在次基礎上進行標準化處理。

設前八十章回中某一個字詞的使用頻率來自正態總體N1的樣本,而后四十章回中該字詞的使用頻率來自正態總體N2的樣本,兩個樣本總體相互獨立。使用假設檢驗中的曼-惠特尼U檢驗對兩個樣本的差異性做檢驗。

3基于高頻虛詞的k-means聚類

這里對全部虛詞——副詞(d)、介詞(p)、連詞 (c)、助詞(u)、語氣詞(y)在每十章回中的使用次數進行歸一化處理,對得到的結果進行k-means聚類。

k-means聚類是一種劃分聚類。其基本思想是:從文本中隨機選擇k個文本作為聚類中心,并根據每類與中心的遠近將其余文本劃分為k類,再重新計算每類的中心并作為新的聚類中心;根據與中心的距離對所有文本重新分類;一直迭代下去,直到聚類中心不再改變為止。其最終目的是實現類內文本之間相似性最大,而類與類之間的相似性最小。

綜上所述,從高頻實詞和高頻虛詞兩方面的聚類結果分析可知,《紅樓夢》前八十章回和后四十章回的作者確實不是同一個人。

4.總結

文學風格是創作的命脈。本文從數學建模的角度出發,利用前后章節字、詞、句定性定量的差異來證明前后作者不同。本文的主要創新點有下面兩點:

1)采用曼—惠特尼檢驗模型,找出所有章回關鍵詞的頻數,進行排序與平均值求取,用SPSS軟件進行數理統計檢驗,準確性較高。

2)從詞量角度進行分析時采用獨有詞聚類和層次聚類法,都能準確具體體現出前80章回和后40章回之間的差異,其中包括前后章回出現獨有詞的比例和種類,但是前后章回有關獨有詞聚類難度大,算法運算時間長,每發現一個新的短語,算法就要從頭開始,而層次聚類,則是忽略那種介于兩個層次之間的樣本,結果可能存在較大的差異和一定的偶然性。本文將均值聚類方法用于詞匯角度分析,將高頻詞頻率進行歸一化,可較快得到聚類結果,并且結果非常直觀。

參考文獻

[1] 孟廣仕.大數據時代的計算機信息處理技術[J].電子技術與軟件工程,2018(15):164. 1]韋博成.《紅樓夢》前80回與后40回某些文風差異的統計分析(兩個獨立二項總體等價性檢驗的一個應用)[J]. 應用概率統計,2009,25(04):441-448.

[2] 楊梅.《紅樓夢》前80回程度副詞計量研究[D].蘇州大學,2011.

[3] 汪維輝.《紅樓夢》前80回和后40回的詞匯差異[J].古漢語研究,2010(03):35-40+95-96.

[4] 楊粟森,彭旭,趙映誠.基于數理統計的《紅樓夢》前80回與后40回相關性的多指標綜合分析[J].電子世界,2017(02):197-199.

主站蜘蛛池模板: 亚洲第一福利视频导航| 久久国产精品麻豆系列| 波多野结衣一区二区三视频| 免费在线成人网| 亚洲国产成人综合精品2020| 精品夜恋影院亚洲欧洲| 久久永久免费人妻精品| 欧美一级专区免费大片| 欧美丝袜高跟鞋一区二区| 中文字幕欧美日韩| 国产成人8x视频一区二区| 国产精品美女网站| 婷婷色婷婷| 国产黄在线观看| 国产成人AV综合久久| 婷婷午夜影院| 在线日本国产成人免费的| 亚洲欧美另类视频| 亚洲AV无码久久精品色欲| 亚洲精品在线影院| 国产导航在线| 萌白酱国产一区二区| 亚洲色图在线观看| 日韩久草视频| 国产中文一区a级毛片视频| 老司机精品99在线播放| 亚洲国产看片基地久久1024 | 国产女人喷水视频| 国产va免费精品观看| 国产美女在线观看| 国内精品自在欧美一区| 第一页亚洲| 日韩高清成人| 超清人妻系列无码专区| 国产乱子伦视频在线播放| 国产一级妓女av网站| 国产成人乱无码视频| 中文字幕在线观看日本| 欧美爱爱网| 91啪在线| 日本在线视频免费| 日本不卡在线| 高h视频在线| 成年人国产视频| 欧美日本在线一区二区三区| 2024av在线无码中文最新| yjizz视频最新网站在线| 在线精品视频成人网| 亚洲AV成人一区二区三区AV| 国产精品30p| 国产在线专区| 全免费a级毛片免费看不卡| 国产男女免费视频| 日本国产精品一区久久久| 国产毛片网站| 国产丰满大乳无码免费播放| 色婷婷成人网| 欧美午夜视频在线| 制服丝袜亚洲| 亚洲欧美精品日韩欧美| 2021国产精品自产拍在线| 全部无卡免费的毛片在线看| 亚洲黄网视频| 中国精品自拍| 中文字幕亚洲无线码一区女同| 国产黄色片在线看| 一区二区三区四区精品视频 | 国产精品成人观看视频国产| 四虎影视8848永久精品| 精久久久久无码区中文字幕| 69av在线| 欧美不卡视频在线观看| 欧美.成人.综合在线| 黄色网址免费在线| 亚洲av色吊丝无码| 91福利免费视频| 久视频免费精品6| 国产国产人成免费视频77777| 国产嫩草在线观看| 亚洲无限乱码| 精品1区2区3区| 日韩小视频在线播放|