劉朕君
(北京師范大學-香港浸會大學聯合國際學院,廣東 珠海 519000)
中文文學作品中的社會網絡抽取與研究
劉朕君
(北京師范大學-香港浸會大學聯合國際學院,廣東 珠海 519000)
文學一直以來都是人類思想的主要載體,文學作品由一個個文字組成,通過分析這些文字在作品中的意義,可以理解作品中的人物形象,明確文本的思想觀念表達。現階段,隨著電子信息技術的發展,對文學作品的社會網絡抽取已經成為了新的研究熱點。文章主要研究中文文學作品中的社會網絡抽取與研究。
中文文學;社會網絡抽取;語言
在人類歷史的長河中,人類的精神文明通過文學得以傳承,我國作為一個傳承幾千年的古老大國,具有著豐富的文學底蘊。隨著信息技術的發展,大量的文學作品被電子化。如果從這些作品中抽取出有價值的資料,利用自然語言處理以及計算機技術,是否能夠對作品中的社會現實信息進行再現與還原,這一問題值得深思。
在信息化不斷深入的今天,計算機網絡已經深入的影響到了人們生活的方方面面。在文學作品領域,電子信息化的文學早已成為了人們文化生活的常態。從最基礎的電子圖書,到作品翻譯,相關信息檢索,數據結構分析等,目前的信息水平,已經具備了智能處理分析文學作品的基本條件。自然語言處理是現階段進行文學作品處理的主要手段,其分析過程主要包括三個方面:①語言研究,例如對文學作品中的文章。詞匯使用狀態進行分析;②篇章分析,即對文本篇章中語言、結構、理論的分析;③綜合分析,這一技術還只是一種概念分析方法,目前還處于研究階段。
社會網絡是行動節點與行動節點之間構成的互相連接關系。網絡中的接點可以是單獨的個體,也可以是共同的集合體。從理論方面來理解,社會網絡可以是親緣網絡、神經網絡、信息網絡、拓撲結構等等,其中最常見的要數社交網絡。社會網絡抽取分析,就是通過矩陣以及圖對社會網絡結構進行分析。這一理論最早起源于上世紀30年代,是一種人類學以及心理學的概念,經過長時間的實踐發展,它才最終成為了一種跨學科的分析研究方法。
現階段,已經有一部分語言學專家、文學理論專家利用非計算模型對文學作品的結構進行展示。例如:社會關系圖、文本映射圖等。通過對文學招聘中的社會網絡進行抽取并分析,能夠幫助人們更好的對作品的人物、背景、環境進行分析。例如,在英國有一項研究,將作品中的人物對話進行標記,并將這些標記進行按角色分配,以此組織作品中人物的社會量化指標,形成社會網絡,以此為基礎對作品中的社會網絡進行研究。這是一種對作品中社會人物進行抽取的研究方法,其對現階段的文學作品社會網絡抽取與研究具有非常重要的參考以及指導意義。
從具象的角度理解,社會網絡是一種多節點組成的網絡結構圖,為了對文學作品中的社會網絡進行抽取并分析,必須要從作品中抽取一定的有價值片段,生成節點,以此來構建社會網絡結構。對于文本中的文字、主題、或片段,可以進行分區處理,將每一個區域看做是一個獨立的個體。以《三國演義》為例,這是一部章回體的小說著作。因此,在進行社會網絡抽取的過程中,可以將同一章節中的共現情況作為人物之間的關系紐帶。在人物識別方面,可以利用web與統計方法建立人物列表。首先,可以利用文字處理技術,對作品中的詞性成分進行分析,一次來對文本中的人文進行確定。例如,《三國演義》中共出現1191人。這種對小說中人物角色進行抽取的方式雖然比較直觀,但準確度相對較低。像《三國演義》《水滸傳》這一類的長篇小說,涉及大量的綽號、別名、字,以及省略稱呼的情況,這是在進行人物抽取過程中比較困難的部分。對此,可以采用多層次篩選的方式進行選取,先篩選名詞,再篩選角色,最后篩選語法語義。在抽取了作品人文之后,再利用章回矩陣,可以初步建立一定的社會網絡,以此作為分析的基礎。
(1)頻數分析。文學作品一般都是由人物、環境、時間、事件等因素構成,而人物是作品的核心,因此,在進行作品的社會網絡分析時可以將人物的出現頻數作為分析的指標。例如,在小說《西游記》中,可以對其在的人文頻次進行分析。通過對人物頻次的分析,能夠研究所分析人物在作品中的性格、特質,以及人文本身所代表的思想觀念。
(2)中心分析。對于網絡中心的分析,也就是對網絡中各節點在文本中心的程度。通過中心分析,可以客觀的得出在社會網絡中,該節點與主角的社會關系,以此探究作品中的重要角色。一般來說,在文本中出現的頻次越高,其中心程度也就越高。這些角色往往是作品的核心,是作品分析的重點。例如:《西游記》中出現頻次最高的是唐僧、孫悟空、豬八戒、沙僧,這也就凸顯了這幾個角色的中心程度。像龍王、二郎神這一類的角色出現的頻次低,說明其是文本中的邊緣角色,主要對作品內容起到輔助的作用。
(3)子群分析。子群即社會網絡中存在的強烈、穩定、直接的關系節點的集合。在進行社會網絡分析的過程中,分析子群,就是對統一子群集體之間關系特點的分析。例如:在《三國演義》中,就可以分為六個主要的子群,其中通過分析每個子群之間的領導者,可以分析出作品中人物的對文本表達思想的重要意義。
隨著文學作品的信息化,對文學作品的智能化分析已經成為了一種必然的研究趨勢。通過對文學作品中社會網絡的抽取以及研究,能夠實現對文本人物、結構、思想、理論等多方面的解讀。雖然,我國現階段的研究還處于不成熟的發展階段,但是,隨著科技的進步,社會網絡分析,必然會成為一種文學研究方向。
[1]趙京勝,張麗,朱巧明,等.中文文學作品中的社會網絡抽取與分析[J].中文信息學報,2017,31(2):99-106+116.
[2]肖永賀,謝亞軍.中文文學作品中人物命名的文化內涵解讀[N].內蒙古農業大學學報(社會科學版 ),2016,(6):386-387.
作 者:
劉朕君(1996-),男,山東濟南人,本科在讀,研究方向:漢語言文學。I2
A
1009-5071(2017)10-0096-02