苗艷艷



摘 要: 基于語料庫技術對文本風格進行定量研究在國外已經發展得比較成熟,而國內的文本分析大都還處于文藝風格的內省式研究。蘇童是先鋒作家的代表人物,第九屆茅盾文學獎獲得者,并且作品被翻譯成多國語言,在國內和國際文學上有很大的影響。從語言學角度研究其文本風格的很少,我們采用計算風格學理論,利用語料庫技術對蘇童的代表作品進行從高頻詞的使用、標點符號的運用以及文本閱讀難度三個方面分析。
關鍵詞: 蘇童 作品風格 計算風格學 語料庫
基于語料庫的定量分析屬于驗證性的分析,我們的研究試圖通過定量分析驗證內省式分析的結論并且發現內省式研究不能得到的結論。蘇童是先鋒作家的代表人物,第九屆茅盾文學獎獲得者,并且作品被翻譯成多國語言,在國內和國際文學上有很大的影響。蘇童擅長描寫女性,其作品中包含了不同類型的女性形象;他出生在江蘇,作品中有著江南水鄉的影子;謝光勝(2015)指出蘇童小說語言的“陌生化”程度比較高的特點,其中包括標點符號的陌生化。
上世紀30年代,西方文體學界引入了定量分析,尤其是統計學的方法。到了50年代,由最初的人工統計文本中的語言項目,到后來借助計算機進行統計,大大提高了研究的效率。這種研究方法取得了很大的成就,逐漸發展成一支獨立的學科——計算風格學(Computational Stylistics)。計算風格學是數理語言學的一個分支,其理論基礎是寫作是個人將思想通過文字表達出來的一種活動,其隱含的是作者語言編碼的方式,作者本人可能也察覺不到。因此,可以通過量化文本中語言結構的方式發現作者的寫作風格。
1.自建作品語料庫
20世紀90年代,隨著計算機技術和互聯網的快速發展,文本的搜集變得更加方便,文體學研究呈現出了Leech和Short(2001)所說的“語料庫轉向”。言語的使用差別很大,僅僅憑內省式的言語感知是不能很好地判斷的。使用語料庫則極大地提高了文本分析的效率和精確性,避免了人們主觀上的誤差,為文本分析提供了一種新的分析方法。我們自建了蘇童作品語料庫,包括了他的四部代表作品,共571477字。具體如表1:
我們自建的語料庫的語料是從網上下載的,根據權威網站的文本,加上人工校對,以紙質版書籍為依據,確保語料的正確性。語料是我們分析研究的對象,語料的正確性決定著研究結果的正確性。然后就是對語料的處理,主要是分詞。因為本研究中并沒有涉及到詞類,因此我們使用的是中科院張華平老師的分詞軟件。該分詞軟件正確率很高,但是我們也對處理后的語料進行了人工校對。分詞主要是關系到類符形符比這一分析。數據的統計,使用AntConc可以幫助我們統計高頻詞和標點符號。
2.蘇童作品分析
2.1基于語料庫的高頻詞分析
高頻詞是文本主題的反映,根據高頻詞我們可以知道作家的寫作內容主題以及關不同文本之間的差異。這里的高頻詞僅僅只是實詞,不包括虛詞。我們用AntConc的Wordlist功能處理蘇童作品語料庫可以得到前100個高頻詞。
根據表2,我們可以分析一下蘇童作品的高頻詞。關于代詞,出現了我、她、他、你、自己、這、他們、什么、怎么、誰等。名詞包括人、女人、手、母親、父親、祖父、男人、孩子、眼睛、老板、家、天、事等,這些詞中女人、母親出現的頻率最高,在代詞中,表示女性的“她”也要高于其他代詞。人名包括五龍、保潤、頌蓮、柳生、織云、綺云、慧仙等,其中七個人名中有四個是女性。可見蘇童的作品中女性比較多。動詞包括說、去、到、要、來、看、吃、住、知道、去、走、坐、想、用、會、做、出、起、跑、問、叫、拿、生、聽、打、站等,這些詞都是描述日常生活中的動作,是對日常生活的描寫。其他的名詞如米、船、河、水等,在蘇童的小說中出現了很多與南方生活相關的詞匯,這些詞匯使蘇童的作品更加具有江蘇本地特色。
2.2基于語料庫的標點符號分析
標點符號是文字序列的組成部分,相同的語言使用不同會有不同的表達效果。朱德熙先生在《語法修辭講話》中單獨對標點符號進行了解釋,他指出了標點符號在現代漢語中的重要性:“標點符號是文字里面的有機的部分,不是外面加上去的。”以及標點符號在文本中的作用:“自從有了標點符號,文章的風格也收到了影響。最顯著的,有問號……有了引號……有了破折號和省略號……”可見,標點符號在書面語的表達上的重要性。因此,我們對四部作品中的標點符號進行統計。這些標點符號分別是逗號、句號、問號、感嘆號、省略號、破折號、引號冒號和頓號。
根據表3,我們可以看出來,逗號、句號、問號、嘆號、頓號等頻率隨著文本容量的增大而增加,只有省略號、破折號、雙引號、冒號的頻次沒有出現增加的趨勢,并且也沒有規律可循。破折號、省略號根據其表達需要可以是根據作家的寫作內容而定,但是小說中的大量對話使得雙引號和冒號不可或缺。但是,在蘇童的作品中冒號和雙引號頻次這么低,原因如下:
引號分為雙引號和單引號,一般情況下用的都是雙引號,單引號是在雙引號的內部使用的。
以《妻妾成群》為例,在1991年初次出版,在第一章中有雙引號,表示直接引用的直接引語,如例1。在第二章以及以后的雙引號都是表示需要強調的成分或者表示別稱、反語等的意思,如例4和例5。有些表示人物對話的部分,并沒有出現雙引號,有的引導句都沒有出現,如例2和例3?!镀捩扇骸吩?002年出版的時候,第一章中表示直接引語的雙引號經過作者的同意也去掉了。
例1.雁兒說,“你要肥皂嗎?”頌蓮沒說話,雁兒又說,“水太涼是嗎?”(《妻妾成群》第一章)
例2.頌蓮說,你們挖蚯蚓做什么?憶容說,釣魚呀,憶云卻不客氣地白了頌蓮一眼,不要你管。(《妻妾成群》第三章)
例3.阿保上前堵住了五龍,他一把抓住五龍的衣領說,你是小偷嗎?(《米》第一章)
例4.也不知道是妒忌還是偏見,馬橋鎮人對母親的評價顯得不三不四,他們暗地里叫她“肉鋪家的王丹鳳”,這綽號暴露了我母親的出身門第,也暴露了我母系的血緣。(《河岸》第四章)
例5.這么把她帶回船上,孩子算“黑”人,對不起她,別人冤枉我們拐孩子,我們對不起自己,你趙書記要給我們個說法,要立個字據什么的吧? (《河岸》第四章)
利奇和肖特(2010)認為那些省略了引號或引導句的表示人物話語的句子稱之為“自由直接引語”。自由直接引語是敘述干預最輕、敘述距離最近的一種形式,能使讀者直接接觸人物的“原話”。它具有直接性與生動性,對通過人物的特定話語塑造人物性格起很重要的作用。自由直接引語往往和意識流、內心獨白等聯系到一起,讀完蘇童的小說,確實可以直接感受到人物性格。這種現象在西方作家的作品中也出現過,比如意識流小說代表人物詹姆斯.喬伊斯的《尤利西斯》中對于意識的描寫就是這樣的,沒有直接引語的引導句和引導符號。蘇童作品中的標點符號省略不同于普通小說文本中的人物之間的對話或者其他作家有節制的使用省略,他的作品中所有的直接引語都是自由直接引語。這就是其標點符號的“陌生化”。
2.3文本閱讀難度分析
文本閱讀難度是無法由主觀來確定的,每個人的感受不一樣,標準也就不一樣。在計算風格學理論中,文本閱讀難度可以有類符形符比來確定。形符(Token)是指一個文本中所有的詞,類符(Type)是文本中不同的詞也就是詞頻為1的詞。類符形符比(Type Token Ratio,TTR)是類符和形符之比,是衡量一個文本的詞匯豐富程度的重要指標。詞匯程度越豐富,文本閱讀難度越大。劉穎(2014)指出形符類符比受到文本長度的影響,文本長度越長,形符類符比越小。陸蕓(2012)中指出了有關于形符類符比的修正,其中Herdan的修正是:
我們對歷屆獲得茅盾文學獎的作家的代表作的修正類符形符比進行統計,得到下面的表格:
通過表4和表5的對比,我們可以看到,蘇童作品類符形符比最低是0.8,而歷屆獲得茅盾文學獎的作家的代表作大都在0.8以下。因此,蘇童的作品詞匯比較豐富,文本閱讀難度較大。
3.結論
通過對我們自建語料庫的檢索分析,可以得到以下結論:第一,蘇童的作品中以描寫女性形象為主,題材多是有關于江蘇本地的日常生活,表現出了南方作家的寫作特點。第二,在文本敘述上使用了大量的自由直接引語,可以更好地讓讀者直接感受到作者的情感波動。這些都是可以通過內省式的分析得到的,我們的定量分析為內省式分析提供了支撐。第三,在文本閱讀難度上,蘇童的小說作品閱讀難度較大。這一結論是根據類符形符比而得到的,由于人的感知能力有差別,所以在文本閱讀難度上無法統一。我們的分析通過對比蘇童作品和作家群作品的類符形符比而得到了蘇童的作品閱讀難度較高的結論。這與蘇童小說語言“陌生化”的特點有關。
參考文獻:
[1]曾毅平,朱曉進.計算方法在漢語風格學研究中的應用[J].福建師范大學學報,2006(1).
[2]謝光勝.蘇童小說語言中的陌生化[D].湖北師范大學,2015.
[3]賀湘情,劉穎.基于文本聚類的語言韻律和節奏風格特征挖掘[J].中文信息學報,2014.
[4]胡春雨.〈語料庫文體學與狄更斯小說〉述評[J].現代外語,2015.
[5]盧衛忠,夏云.語料庫文體學:文學文體學研究的新途徑[J].外國語,2010.
[6]呂叔湘,朱德熙.語法修辭講話[M].北京:中國青年出版社,1979.
[7]申丹,王麗亞.西方敘事學:經典與后經典[M].北京:北京大學出版社,2010.
[8]劉穎.統計語言學[M].北京:清華大學出版社,2014.
[9]陸蕓.詞匯豐富性測量方法及計算機程序開發:回顧與展望[J].南京工業大學學報,2012.