999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網絡的小說聚類

2018-12-21 01:56:22樓鍇毅霸元婕李紹昂
軟件工程 2018年10期
關鍵詞:小說

樓鍇毅 霸元婕 李紹昂

摘 要:目前小說的受眾群體越來越大,其中蘊含著巨大的商業價值。文本聚類的研究領域也在突飛猛進,但對于其中的現實領域:小說聚類,相關的研究卻較少。本文研究了一種基于小說中的社交網絡對其進行聚類的方法。該方法首先提取出小說中的社交網絡,在得到網絡的特征向量后,基于其進行聚類,并將結果與依據小說作者的劃分進行對比。實驗結果表明,該方法可以在一定程度上反映出不同作者寫作風格的不同,效果可以接受,并擁有進一步提升的可能。

關鍵詞:小說;社交網絡;聚類算法

中圖分類號:TP391.1 文獻標識碼:A

Abstract:At present,more and more people are reading novels,which contains great commercial value.The research field of text clustering is also advancing by leaps and bounds,but for the real practice—novel clustering,there are few related researches.This paper uses a method based on social network in the novel to cluster it.The method first extracts the social network in the novel.After obtaining the feature vector of the network,it clusters based on it and compares the result with the division according to the author of the novel.The experimental result shows that the method can reflect the different writing styles of different authors to a certain extent,the effect is acceptable,and further improvement is possible.

Keywords:novels;social network;clustering algorithm

1 引言(Introduction)

隨著第三產業的發展,移動互聯網時代的到來,文娛產業對人們日常生活的影響越來越大,特別是近幾年小說的受眾群體越來越大,因此基于小說的各種文學定量分析越來越成為重要的課題。與此同時,以機器學習和統計方法為基礎,各種各樣的文本分類技術也在飛速發展。特別是在近幾年來,基于CNN、RNN等深度神經網絡的相關方法取得了很好的結果,因此人們對文學分析定量方法的研究興趣也日益增加[1,2]。

小說的關鍵維度包括形式、結構、人物、情節等。目前來講,人們對其的定量研究大多集中在形式和內容上。而對于小說中的情節、結構、人物關系等,由于其量化較為復雜,而少有研究[3]。在本文中,我們實現了基于小說中的社交網絡的聚類。我們首先提取出小說中的社交網絡,之后得到其特征向量并根據其進行聚類。因此,聚類的結果也是根據小說結構進行的分組,通過與小說作者的對比,我們也能得到小說社交網絡與小說的風格流派和作者風格特征的聯系程度。

2 相關工作(Related work)

2.1 文本分類

文本分類的相關研究可以追溯到20世紀50年代,而到目前它已經成為了NLP領域的經典問題,一直到現在都是人們研究的熱點。而其算法的發展,也伴隨著人工智能研究領域的發展而不斷地更新。在20世紀,文本分類往往基于規則和語料庫,其雖有準確率高等優點,但是耗費資源過多、可移植性很差。到了20世紀90年代的時候,人工智能的研究領域開始向基于統計和數據驅動的方法過度,與此同時基于特征工程和各種分類器的文本分類方法也開始逐漸興起。

但是傳統分類方法依然存在著諸多不足,比如特征表達能力較弱,成本較高,等等。近年來,隨著深度學習的發展,基于其的一些方法也開始被應用到了文本分類的領域。深度學習解決文本分類問題,一般都是先解決文本表示,之后利用CNN、RNN等自動獲取特征表達能力,從而端到端的解決問題[4]。

2.2 文學計算分析

自從計算機誕生之后,人們便一直嘗試將其算法應用到文學分析的領域,即文學的計算分析。這種方法往往用定量的方式,基于文本的語言結構特征對文章的風格進行刻畫。因此,這種研究方法最重要的就是兩個問題:語言特征的選擇和研究方法的選擇。不過一般來講,大多數方法利用的都是基于主題和內容的特性。然而對于一部小說來講,我們不應該只從標點、詞法、句法、語義的維度進行分析。這種文學形式還有情節、人物、敘事結構,等等。可以說每一部小說都是一個社會的縮影[5]。

因此,人們也逐漸開始關注量化情節的方法,以及人物對情節的影響。特別是可以將小說刻畫成社交網絡,并通過其研究小說中的情節結構。目前,通過提取復雜網絡并基于其分析文本已經成為了一個十分重要的學術流派。人們的研究表明,通過提取小說中的人物關系網絡來分析小說中社會結構、意義和作者觀點是完全可行的。

3 網絡的構建(Network construction)

3.1 人物的自動識別

社交網絡起源于網絡社交,目前可以理解為一種形容人際關系的網絡結構,其本身作為一種復雜網絡,可以反映出網絡中點與點之間的聯系。而在小說中,每個人物正是社交網絡中的結點,人物與人物之間的關系為社交網絡的邊。因此,一般將其分為四個步驟:人物角色標記、角色指代消解、人物關系識別與網絡關系表示[6]。在人物角色標記中,需要識別出所有表示人的單詞;在角色指代消解中,需要將代詞或者非人名的詞替換為其指代的人名;在人物關系識別中,需要識別并提取人與人之間的關系;關系網絡表示則是將網絡用數學模型表示出來。

在人物自動識別這一步驟中,需要解決的問題是人物關系識別和指代消解,其也被稱為命名實體識別。而對于這類問題,籠統地可以分為三種解決的方法:基于規則的方法、基于統計的方法和近年來興起的基于深度學習的方法。基于規則的方法一般由語言學專家手工構造規則模版,因此存在代價大、移植性差等缺點,目前只有在數據量小或者非常特殊的場合才會使用。基于統計的方法有:隱馬爾科夫模型、較大熵模型、支持向量機、條件隨機場等,這類方法一般對語料庫的依賴較大。近年來隨著深度學習的發展,人們也將其應用到了命名實體識別中,一般方法為將NN、CNN、RNN與條件隨機場結合[7,8]。本文采用的方法是條件隨機場,采用開源工具CRF++。

條件隨機場,一般簡稱為CRF,由于其具備長距離依賴性和交疊性能力,是目前一種非常常用的用于命名實體識別的,判別式的概率圖模型[9]。定義無向圖G=(V,E),單詞序列x=(x1,x2,…,xn),每個單詞x_i有對應的實體類型標記yi,標記序列集合y={yi}。則節點集合V為單詞或其對應的實體標記類型,邊集合E表示單詞對應節點與該單詞實體標記類型對應節點間的連線,于是(x,y)構成一個條件隨機場。由于鏈式結構為最簡單的結構和建模方式,因此人們一般采用的是線性鏈條件隨機場,如圖1所示。

轉移函數和狀態函數均為特征函數,一般取0或1,即滿足特征函數的為1,否則為0。若將它們統一用特征函數的形式來表示,再加上歸一化的過程,則可以得到最終條件隨機場的條件概率公式為

對于其中的參數,一般采用極大似然法進行估計,并采用迭代技術來確定參數。

3.2 網絡的構建

對于小說中的人物關系識別,一般有兩種方法:基于人物對話的方法和基于人物共現的方法[6]。第一種方法為只考慮小說中的對話,即如果兩個角色有語言或者對話的交互,就將兩個角色進行關聯,得到的網絡為人物對話網絡。這種方法為目前大多數文獻所采用,尤其是對于劇本這種只通過對話來進行角色間互動的文本,該方法十分有效。但是,對于大多數小說,人物間的許多互動都是通過敘述者的描述或者間接的互動來完成的。這時我們就應該考慮第二種方法,即通過人物間的共現關系來構建網絡,每當兩個角色出現在同一個文本窗口或者語境下時,將二者進行關聯,得到的網絡為人物共現網絡。在本文中,我們使用Python庫Networkx來構建網絡,并將其存儲在表示人物關系的鄰接矩陣中。

4 計算與聚類(Calculation and clustering)

4.1 特征選擇

我們可以把特征分為兩種。第一種為網絡的拓撲特征,其指標有度分布、集聚系數、網絡特征路徑長度、直徑、主節點的相關性等。但是對于小說而言,其更像一個小型的社會,所以我們還應該考慮社會指標。一些常考慮的社會指標包括男性角色比例、視角的比例,等等。通過這些特征,我們可以分析出小說中社交網絡的結構特性,并根據其進行聚類[5]。

4.2 聚類

本文采用k-means算法進行聚類,它是目前最簡單的聚類算法之一,也是應用最廣泛的一種聚類算法。其具體過程可以分為四步:選擇k個初始聚類中心,根據對象與中心的距離對其重新劃分,計算更新后的均值,迭代至測度函數收斂。在算法中,k值即為數據集中作者的個數,初始聚類中心為數據集中隨機選擇的k個值,距離將采用余弦距離,即通過向量空間中兩個向量夾角的余弦值來衡量個體間差異的大小,公式為

5 實驗(Experiment)

5.1 實驗語料

本文共選取了65篇小說作為語料,分別來自作家卡夫卡、張愛玲、老舍、狄更斯,數據集見表1。

5.2 評測指標

本文主要采用常見的三種指標:準確率、召回率與F1值。

其中,A表示正確識別的相關小說數,B表示識別的小說數,C表示相關的小說總數。

5.3 實驗結果

由于我們的語料分別來自四位作家,因此在我們的聚類算法中,將k設為4。最終算法將會把所有的小說分為四類,我們以每類含有的最多的小說作者作為該類的標簽,并以此作為評價的基準。我們將計算準確率、召回率、F_1值,并將其作為評價我們算法的依據。實驗結果如表2所示。

6 結論(Conclusion)

目前的文學定量分析方法大多是基于文本的形式和內容,對于結構、情節、人物關系等的量化與分析方法較少。在本文中,我們基于小說本身就是一個小型社會的特點,研究了基于社交網絡對小說進行聚類的方法。在實驗中,我們發現小說的社交網絡能夠在一定程度上反映出小說的風格流派及作者的風格特征。該方法具備一定的實用性,并且有進一步提升的可能。

參考文獻(References)

[1] Abualigah L M,Khader A T,Al-Betar M A.Unsupervised feature selection technique based on harmony search algorithm for improving the text clustering[C].International Conference on Computer Science and Information Technology,IEEE,2016:1-6.

[2] Scrivner O,Davis J.Interactive Text Mining Suite: Data Visualization for Literary Studies[C].Corpora in the Digital Humanities,2017.

[3] Jarynowski A,Boland S.Social Networks Analysis in Discovering the Narrative Structure of Literary Fiction[J].Biuletyn Instytutu Systemow Informatycznych,2013,12(2):35-42.

[4]Ji Y L,Dernoncourt F.Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[C].North American Chapter of the Association for Computational Linguistics,2016:515-520.

[5] Ardanuy M C,Sporleder C.Structure-based Clustering of Novels[C].The Workshop on Computational Linguistics for Literature,2014:31-39.

[6] 劉海燕,尹曉虎.文學作品中的“小世界”——菲茨杰拉德小說人物關系網絡的實證分析[J].統計與信息論壇,2015,30(12):102-107.

[7] Chen L C,Papandreou G,Kokkinos I,et al.Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[J].Computer Science,2015(4):357-361.

[8] Ritter A,Clark S,Etzioni O.Named entity recognition in tweets:an experimental study[J].Emnlp,2011,61(3):1524-1534.

[9] Lafferty J D,Mccallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001:282-289.

作者簡介:

樓鍇毅(1996-),女,本科生.研究領域:數據挖掘.

霸元婕(1997-),女,本科生.研究領域:數據挖掘.

李紹昂(1997-),男,本科生.研究領域:數據挖掘.

猜你喜歡
小說
叁見影(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:42
遛彎兒(微篇小說)
紅豆(2022年9期)2022-11-04 03:14:40
勸生接力(微篇小說)
紅豆(2022年3期)2022-06-28 07:03:42
何為最好的小說開場白
英語文摘(2021年2期)2021-07-22 07:57:06
小說課
文苑(2020年11期)2020-11-19 11:45:11
那些小說教我的事
我們曾經小說過(外一篇)
作品(2017年4期)2017-05-17 01:14:32
妙趣橫生的超短小說
中學語文(2015年18期)2015-03-01 03:51:29
明代圍棋與小說
西南學林(2014年0期)2014-11-12 13:09:28
閃小說二則
小說月刊(2014年8期)2014-04-19 02:39:11
主站蜘蛛池模板: 国产色网站| 日本午夜视频在线观看| 国内精自视频品线一二区| 亚洲制服丝袜第一页| 日韩成人免费网站| 精品偷拍一区二区| 少妇精品在线| 99热这里只有免费国产精品 | 激情午夜婷婷| 日本欧美成人免费| a欧美在线| 夜精品a一区二区三区| 成人在线观看不卡| 污网站在线观看视频| 亚洲欧美国产五月天综合| 伊人激情久久综合中文字幕| 日本人妻一区二区三区不卡影院| 国产三级毛片| 日韩久草视频| 视频一本大道香蕉久在线播放| 亚洲婷婷六月| 久久精品国产电影| 国产高清在线精品一区二区三区 | 日韩精品少妇无码受不了| 国产成人盗摄精品| 久久人搡人人玩人妻精品一| 综合天天色| 福利视频久久| 亚洲成人在线免费| 又爽又大又光又色的午夜视频| 日日拍夜夜操| 九九免费观看全部免费视频| 超清无码熟妇人妻AV在线绿巨人| 亚洲综合18p| 国产黑丝视频在线观看| 97国产在线观看| 国产成人亚洲精品无码电影| 国产精品私拍在线爆乳| 色哟哟国产成人精品| 在线亚洲小视频| 亚洲欧美综合在线观看| 国产成人亚洲精品色欲AV| 极品国产在线| 国产精品偷伦在线观看| 久久精品国产免费观看频道| 国产在线观看91精品亚瑟| 九九热精品视频在线| 久久毛片网| 在线观看的黄网| 亚洲无线一二三四区男男| 五月激情婷婷综合| 99久久人妻精品免费二区| 黄色网址免费在线| 99热这里只有精品5| 欧美国产成人在线| 亚洲人成影院在线观看| 久久久久免费看成人影片 | 麻豆国产精品视频| 免费毛片a| 亚洲欧美日韩另类| 亚洲va欧美va国产综合下载| 青青国产视频| 午夜电影在线观看国产1区| 四虎影院国产| 国产精品久久自在自2021| 国产日本一区二区三区| 免费国产黄线在线观看| 亚洲中文字幕97久久精品少妇| 久久一日本道色综合久久| 亚洲高清日韩heyzo| www亚洲天堂| 国产成人综合亚洲网址| 日韩黄色大片免费看| 亚洲色成人www在线观看| 国产精品永久在线| 亚洲色成人www在线观看| 日本一本在线视频| 国产原创演绎剧情有字幕的| 婷婷开心中文字幕| 激情视频综合网| 国产精品免费电影| 色综合成人|