999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python的數(shù)據(jù)處理和模糊層次聚類

2018-09-26 10:18:50趙金暉
無(wú)線互聯(lián)科技 2018年14期

趙金暉

摘 要:《紅樓夢(mèng)》的作者問(wèn)題一直是“紅學(xué)研究”的熱點(diǎn)。其中前80回和后40回分別由曹雪芹和高鶚?biāo)鶗恼f(shuō)法廣為流傳。通過(guò)直接調(diào)用數(shù)據(jù)分析的軟件可以直觀地看到結(jié)果,但并不能展示細(xì)節(jié)。文章將應(yīng)用模糊層次聚類的方法,并詳細(xì)展示主要步驟,比起均值聚類,文中的方法更加貼近于人的思維,便于理解和學(xué)習(xí),研究者可以通過(guò)訓(xùn)練,熟練掌握文本處理、矩陣運(yùn)算和編程等技巧。

關(guān)鍵詞:python;層次聚類;模糊數(shù)學(xué);紅樓夢(mèng)

《紅樓夢(mèng)》的作者問(wèn)題一直是紅學(xué)研究的熱點(diǎn)。多位作者、不同時(shí)期的寫作都可能是《紅樓夢(mèng)》全本風(fēng)格不一的原因。其中前80回和后40回分別由曹雪芹和高鶚?biāo)鶗恼f(shuō)法廣為流傳。文章對(duì)這一假說(shuō)進(jìn)行簡(jiǎn)單的驗(yàn)證。本文取1—70回和86—120回進(jìn)行聚類得出標(biāo)準(zhǔn)模型,并用余下的71—85回測(cè)試標(biāo)準(zhǔn)模型并驗(yàn)證所選的關(guān)于《紅樓夢(mèng)》作者的假說(shuō)。

1 驗(yàn)證準(zhǔn)備步驟

驗(yàn)證準(zhǔn)備工作主要分為以下6個(gè)步驟。

(1)分章存儲(chǔ)《紅樓夢(mèng)》全本;(2)分詞后獲取各章節(jié)共有的詞;(3)得到章節(jié)間聯(lián)系的模糊矩陣;(4)自下而上的層次聚類分析;(5)得到并驗(yàn)證標(biāo)準(zhǔn)模型;(6)掃描二維碼(見(jiàn)圖1)查看代碼和處理結(jié)果。

2 文本處理

利用正則表達(dá)式獲取《紅樓夢(mèng)》各章標(biāo)題,以字典的形式分章存儲(chǔ)紅樓夢(mèng),key為標(biāo)題,value為每章文本。對(duì)全本和各章進(jìn)行分詞后獲取公共的詞列表,共114個(gè)。統(tǒng)計(jì)公共詞個(gè)數(shù),得到長(zhǎng)度為114的各章向量,如表1所示。

3 模糊向量和模糊矩陣

求1—70回和86—120回模糊向量集合List_for_matrix_index和章節(jié)間直接聯(lián)系的模糊矩陣Direct_relation_matrix[i][j]。

4 聚類

數(shù)據(jù)準(zhǔn)備完畢,開(kāi)始聚類過(guò)程。設(shè)置閾值從1開(kāi)始按0.000 1的步長(zhǎng)逐漸減小,進(jìn)行自下而上的聚類,當(dāng)截矩陣(Cut_matrix)發(fā)生變化,以列表的形式存儲(chǔ)閾值(Change_level_l)st)和新的截矩陣(Level_matrix_list)。

各截矩陣相減得到的布爾矩陣(New_relation_matrix)是向上聚類的依據(jù),存儲(chǔ)New_relation_matrix到New_relation_matrix_list。=1時(shí),截矩陣對(duì)角線全為1其余為零,分成105類。

5 標(biāo)準(zhǔn)模型和假說(shuō)驗(yàn)證

分別取1—70回和86—120回的平均向量為標(biāo)準(zhǔn)模型,計(jì)算71—85回到標(biāo)準(zhǔn)模型的距離效果比計(jì)算貼近度的效果更好,比較71—85各章到標(biāo)準(zhǔn)模型的距離,取小得['曹', '曹', '曹', '高', '曹', '曹', '曹', '曹', '曹', '曹', '高', '高', '高', '高', '高'],只有第74章判斷錯(cuò)誤,結(jié)果良好,由此可以簡(jiǎn)單驗(yàn)證《紅樓夢(mèng)》前80回和后40回不是同一人所寫。

6 結(jié)語(yǔ)

本文在項(xiàng)目中應(yīng)用模糊數(shù)學(xué)知識(shí)和Python編程語(yǔ)言。在實(shí)踐中反復(fù)訓(xùn)練了文本處理、矩陣運(yùn)算和編程技巧等,加深了對(duì)模糊向量和模糊矩陣的認(rèn)識(shí),初步掌握了模糊層次聚類的方法和應(yīng)用,驗(yàn)證紅樓夢(mèng)前80回后40回是否為同一人所寫僅僅是模糊數(shù)學(xué)的小小應(yīng)用,通過(guò)模糊數(shù)學(xué)這一方法,我們可以發(fā)現(xiàn)更多意想不到的有趣的關(guān)聯(lián)規(guī)則。

[參考文獻(xiàn)]

[1]施建軍.關(guān)于以《紅樓夢(mèng)》120回為樣本進(jìn)行其作者聚類分析的可信度問(wèn)題研究[J].紅樓夢(mèng)學(xué)刊,2010(5):318-335.

[2]肖天久,劉穎.《紅樓夢(mèng)》詞和N元文法分析[J].現(xiàn)代圖書情報(bào)技術(shù),2015(4):50-57.

[3]葉雷.基于計(jì)量文體特征聚類的《紅樓夢(mèng)》作者分析[J].紅樓夢(mèng)學(xué)刊,2016(5):312-324.

主站蜘蛛池模板: 中国国产A一级毛片| 手机在线看片不卡中文字幕| 欧美日韩资源| 久久精品只有这里有| 国产人成网线在线播放va| 精品一区二区久久久久网站| 久久精品国产亚洲麻豆| 日本国产精品| 欧美亚洲第一页| 一级香蕉视频在线观看| 浮力影院国产第一页| 黄色三级毛片网站| 成人午夜天| 91亚洲视频下载| 成人午夜网址| 华人在线亚洲欧美精品| 亚洲欧美另类日本| 免费国产黄线在线观看| 国产麻豆精品在线观看| 青青热久免费精品视频6| 免费人成黄页在线观看国产| 99久久精品免费看国产免费软件| 国产美女在线观看| 亚洲欧美成人影院| 亚洲成人一区二区三区| 国产欧美精品一区aⅴ影院| 精品无码一区二区三区在线视频| 亚洲av无码专区久久蜜芽| 国产午夜福利亚洲第一| 98精品全国免费观看视频| 欧美色香蕉| 国产又粗又爽视频| 99精品国产电影| 97视频精品全国免费观看| 亚洲国产日韩在线观看| 亚洲无码高清视频在线观看 | 国产黄色片在线看| 国产区免费精品视频| 一本大道在线一本久道| 国产无码高清视频不卡| 亚洲国产综合自在线另类| 5555国产在线观看| 69免费在线视频| 国产av一码二码三码无码| 欧美成人免费午夜全| 国产视频a| 亚洲视屏在线观看| 久久精品国产亚洲麻豆| 成人国产一区二区三区| 亚洲91精品视频| 欧美国产菊爆免费观看 | 国产成人精品第一区二区| 91成人在线观看| 欧美午夜久久| www.亚洲一区| 成人蜜桃网| 亚洲天堂网站在线| 2021精品国产自在现线看| 毛片一级在线| 91精品国产丝袜| 91毛片网| 日本精品中文字幕在线不卡 | 毛片在线播放网址| 久久综合久久鬼| 亚洲乱亚洲乱妇24p| 欧美一区二区福利视频| 国产无码在线调教| 欧美精品H在线播放| 日本不卡视频在线| 国产福利一区视频| 欧美精品另类| 在线免费观看AV| 国产国拍精品视频免费看 | 亚洲成a∧人片在线观看无码| 好吊色国产欧美日韩免费观看| 中文字幕天无码久久精品视频免费 | 国产亚洲欧美在线视频| 波多野结衣第一页| AV无码一区二区三区四区| 在线观看91精品国产剧情免费| 成人韩免费网站| 少妇被粗大的猛烈进出免费视频|