999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Voyant:分析文本中的“大數(shù)據(jù)”

2018-11-16 12:25:22陳銘徐麗芳
出版參考 2018年10期
關(guān)鍵詞:大數(shù)據(jù)

陳銘 徐麗芳

摘 要:隨著信息技術(shù)的發(fā)展和數(shù)字人文浪潮的來襲,常用于社會科學(xué)與自然科學(xué)的定量研究方法被帶到人文學(xué)科研究中,使數(shù)據(jù)統(tǒng)計和分析成為文本研究中被普遍接受的必備手段。作為網(wǎng)絡(luò)文本閱讀和分析平臺,Voyant旨在將基于大數(shù)據(jù)的“大分析”與傳統(tǒng)細(xì)讀文本的“小閱讀”相結(jié)合,實現(xiàn)數(shù)字人文知識的生產(chǎn)、傳播和教學(xué)功能。同時,隨著學(xué)界對“遠(yuǎn)閱讀”合理性和可行性的探討,Voyant也面臨著這種閱讀方式帶來的難題。

關(guān)鍵詞:Voyant 文本分析 遠(yuǎn)閱讀 大數(shù)據(jù) 數(shù)字人文

試想一下,如果手頭上有字符數(shù)超過4000萬的文獻(xiàn)資料,我們能用什么辦法最快了解全部文獻(xiàn)并進(jìn)行有序整理?傳統(tǒng)的文本研究方法需要大量人員開展合作閱讀(Collaborative Reading),對這些文獻(xiàn)進(jìn)行閱讀理解并整合。這是一種直接的“近閱讀”(Close Reading),但是它能夠處理的文本量非常有限,而且整合得出的內(nèi)容缺乏客觀性。2000年,針對傳統(tǒng)文本閱讀方式的不足,意大利學(xué)者弗蘭克·莫萊蒂(Franco Moretti)首次提出了“遠(yuǎn)閱讀”(Distant Reading)理論。因為依靠人力只能閱讀現(xiàn)存文本中極其微小的一部分,因而遠(yuǎn)遠(yuǎn)不能揭示人文學(xué)科的全貌。以維多利亞時代的小說研究為例,只憑學(xué)者人工閱讀是無法全面了解當(dāng)時小說這一文學(xué)體裁的全部相關(guān)狀況,因為僅僅19世紀(jì)的英格蘭就出版了多達(dá)6萬本小說。

這一理念在十年后發(fā)展為使用機(jī)器處理大量文本,進(jìn)行計算、聚類和分析,多個研究中心和學(xué)術(shù)機(jī)構(gòu)著手建立文本分析平臺和門戶網(wǎng)站。Voyant就是一個基于網(wǎng)絡(luò)的文本閱讀和分析平臺,旨在幫助數(shù)字人文學(xué)科的學(xué)者、學(xué)生以及普通大眾閱讀和整理文本。它是由麥吉爾大學(xué)的數(shù)字人文學(xué)者斯凡特·辛克萊爾(Stéfan Sinclair)和阿爾伯特大學(xué)的人文計算學(xué)學(xué)者杰弗里·羅克韋爾(Geoffrey Rockwell)開發(fā)而成,于2003年初發(fā)行,并于2016年4月發(fā)布Voyant 2.0版本,適用于英語、阿拉伯語、法語和意大利語等10種語言。Voyant平臺提供的Voyant Tools前身是早期的文本分析軟件HyperPo、Taporware和TACT,支持用戶上傳和使用多種工具分析海量文本。目前,Voyant擁有龐大的國際用戶群,僅在2016年10月其主服務(wù)器的頁面瀏覽量就已高達(dá)81686次,主服務(wù)器的工具被調(diào)用1173252次。毫無疑問,在信息體量不斷增長的數(shù)字時代,Voyant提供了更有效的文本篩選和分析方式,幫助用戶處理體量龐大的語料庫。

一、產(chǎn)品形態(tài):多功能文本分析環(huán)境

計算機(jī)技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用創(chuàng)新了現(xiàn)代科學(xué)研究方式,將常用于社會科學(xué)與自然科學(xué)的定量研究方法帶到原先以定性研究為主的人文學(xué)科中,使數(shù)據(jù)統(tǒng)計成為文本研究中被普遍接受的必備手段。Voyant允許用戶從各種格式的數(shù)字化文本中提取定量數(shù)據(jù),包括純文本、HTML和XML等格式,并通過輕量級文本分析(Lightweight Text Analytics)來增強用戶的閱讀能力。所謂輕量級,指的是用一些相對簡單的形式表示文本分析的結(jié)果,讓用戶能通過自身視覺感知的并行化處理能力輕松地獲取信息。Voyant采用基于詞頻統(tǒng)計的程序?qū)ξ谋具M(jìn)行自動聚類,歸納出人工難以總結(jié)出的模式特征,并用詞頻表、詞頻分布圖和上下文關(guān)鍵詞索引(Key Word In Context,KWIC)等方式顯示分析結(jié)果。以莎士比亞37部劇集為例,該語料庫中共有895737個單詞,包括實詞和虛詞。實詞能單獨充當(dāng)句子成分,傳達(dá)文本的重要內(nèi)容特征,一般包括名詞和動詞等。Voyant將實詞和虛詞進(jìn)行區(qū)分,根據(jù)實詞使用情況進(jìn)行單詞類型劃分。以圖2中的《愛的徒勞》(love's labor's lost)為例,它包含2萬多個單詞,其中3767種實詞共占比16%。在用戶需要獲得具有實質(zhì)內(nèi)容的關(guān)鍵詞時,提供“過濾器”選項篩掉虛詞,即to、that、this這一類本質(zhì)上的語法輔助詞匯。通過測量不同文本的“語言指紋”信息,幫助用戶識別不同作品之間的語言差異和風(fēng)格特征。

除了基于文本內(nèi)容統(tǒng)計和抽取詞語,Voyant還擅長借助視覺符號形式來表達(dá)文本中復(fù)雜的或難以通過文字和表格傳達(dá)的規(guī)律,為用戶提供與視覺信息快速交互的功能。在莎士比亞37部劇集語料庫中,Voyant按照詞頻統(tǒng)計算法生成相關(guān)詞云圖(見圖2)。King(國王)、Lord(上帝)、Love(愛)等關(guān)鍵詞在詞云中被突出顯示,大略反映了莎士比亞創(chuàng)作時期的某種時代風(fēng)貌,即當(dāng)時仍深受王室和宗教的影響。除了詞云功能,Voyant還有“Micosearch”和“TextualArc”等功能幫助用戶將復(fù)雜的文本數(shù)據(jù)轉(zhuǎn)化為可用且可辨別的圖形。Micosearch通過熱點分布的條狀圖形表示整個語料庫中某個單詞的頻率和重復(fù)情況,以及在文本的特定章節(jié)該單詞被使用的頻率。此外,受到交互設(shè)計師W.布拉德福·佩利(W. Bradford Paley)開發(fā)的TextArc文本可視化分析軟件的啟發(fā),Voyant增加了TextualArc功能選項,可針對單一文本進(jìn)行交互式可視化分析,將信息以文本原始的線性順序呈現(xiàn)。簡言之,Voyant這一多功能分析平臺讓用戶更好地探索復(fù)雜的詞匯語義關(guān)系網(wǎng)絡(luò),幫助用戶快速獲取文本大數(shù)據(jù)中所蘊含的關(guān)鍵信息。

二、技術(shù)優(yōu)勢:“大分析”與“小閱讀”交融

量化文本和基于詞頻的統(tǒng)計不是文本研究的全部內(nèi)容,Voyant也不是為了給用戶提供自動聚類的速食信息而存在。它旨在介入深度學(xué)術(shù)分析環(huán)節(jié),而不是機(jī)械地切割文本。傳統(tǒng)研究模式下的閱讀一般是線性的、帶有研究目的,研究者充分尊重文本順序和邏輯,關(guān)注單一文本中所包含的信息,可這樣的閱讀方式覆蓋的文本量相對于文獻(xiàn)整體而言極其有限。而基于計算機(jī)技術(shù)的文本分析方式可以對海量文本進(jìn)行挖掘,如當(dāng)前極具代表性的Google Ngram大規(guī)模圖書詞頻統(tǒng)計工具。它“閱讀”海量書籍并生成一個易于使用的、低門檻的智能語料庫,用戶可以在上面查到某個單詞在19世紀(jì)以來800多萬冊書中出現(xiàn)的頻率(見圖4)。但是和統(tǒng)計自身固定圖書語料庫詞頻的Ngram不同,Voyant可以靈活接受用戶提供的語料庫并加以統(tǒng)計。此外,為了更加貼近信息時代的用戶需求,Voyant一直在擴(kuò)充語料庫計算能力。相較于之前只能處理幾兆(MB)字節(jié)的HyperPo和Taporware,現(xiàn)在的Voyant可以處理幾十兆甚至更大的語料庫并進(jìn)行微觀分析。

正如學(xué)者金雯和李繩在《“大數(shù)據(jù)”分析與文學(xué)研究》一文中所表明的觀點,人腦和電腦在解釋文本時可以互補短長,互為體用。Voyant的海量文本分析功能和用戶個人的“小閱讀”存在許多可以調(diào)和與合作的空間。例如,文學(xué)研究者在解釋文學(xué)形式的變化時,很難僅憑有限的閱讀量證明自己的觀點;但是,其可以通過Voyant獲得有力的數(shù)據(jù)支持。換言之,用戶通過“小閱讀”得到的思維結(jié)果為Voyant對文本的大數(shù)據(jù)分析提供重要導(dǎo)向,或者直接得到后者的數(shù)據(jù)。此外,Voyant可以追蹤一些人腦難以注意的封閉詞類和標(biāo)點符號,幫助用戶對文體和不同文本之間的相似度進(jìn)行判斷。斯坦福研究者發(fā)現(xiàn),美國小說中“the”的出現(xiàn)頻率比在英國小說中大約低一個百分點,這或可成為小說文本國別區(qū)分的判斷依據(jù)之一。學(xué)者肯頓·蘭布西(Kenton Rambsy)利用Voyant對佐拉·尼爾·赫斯頓(Zora Neale Hurston)和理查德·賴特(Richard Wright)創(chuàng)作的10篇短篇小說進(jìn)行文本分析,通過測量語言密度探究非裔美國作者短篇小說的文體特征,發(fā)現(xiàn)赫斯頓相較于賴特在創(chuàng)作中更傾向通過描述特定對象和細(xì)節(jié)特征來塑造人物。Voyant將計算機(jī)和人腦在不同層面上觸摸到的關(guān)于文本的“事實”相結(jié)合,以實現(xiàn)“大分析”和“小閱讀”的交融。如今,越來越多的人文學(xué)者樂于使用Voyant之類的電腦算法工具為傳統(tǒng)的人文研究方法提供必要的補充。

三、發(fā)展方向:研究基礎(chǔ)設(shè)施和專業(yè)教育工具

作為一個文本分析平臺,Voyant一直專注于在人文科學(xué)領(lǐng)域推廣數(shù)據(jù)思維、數(shù)據(jù)技術(shù)和數(shù)據(jù)方法。隨著紙質(zhì)資料的數(shù)字化和數(shù)字原生型人文數(shù)據(jù)的增加,現(xiàn)代人文科學(xué)正朝著可計算的方向發(fā)展。盧森堡大學(xué)的馬克斯·肯曼(Max Kemman)在完成“電子郵件共和國”(A Republic of Emails)項目時,通過維基解密(Wikileaks)獲取了30000封希拉里的電子郵件,并借助Voyant在“遠(yuǎn)閱讀”和“近閱讀”之間來回切換,發(fā)掘出一些有價值的研究路徑。例如通過“CC”(Carbon Copy,抄送)鏈接圖可以發(fā)現(xiàn)杰克·沙利文(Jacob Sullivan)和徹列爾·米爾斯(Cheryll Milss)這兩位希拉里集團(tuán)中的核心顧問經(jīng)常出現(xiàn)在其電子郵件的抄送名單中(見圖5)。除了學(xué)者個人的小型研究,Voyant還被多個國際數(shù)字人文項目視為文本處理基礎(chǔ)設(shè)施的一部分。Huma-Num是法國一個關(guān)于數(shù)字人文研究的大型研究基礎(chǔ)設(shè)施項目(Très Grande Infrastructure de Recherche,T.G.I.R),為人文和社會科學(xué)研究中數(shù)字?jǐn)?shù)據(jù)的長期存儲、處理、顯示、傳播和保存提供一整套服務(wù)。Voyant是Huma-Num項目主要的文本處理工具,為用戶提供閱讀和分析數(shù)字文本的在線環(huán)境。此外,Voyant還為德國數(shù)字人文項目DARIAH-DE和加拿大寫作研究合作實驗室(Canadian Writing Research Collaboratory,CWRC)開展學(xué)術(shù)研究提供基礎(chǔ)設(shè)施服務(wù)。

在數(shù)字人文研究中應(yīng)用新型工具和網(wǎng)絡(luò)平臺不僅是為了提供專業(yè)技術(shù)解決方案,也有助于推動文本分析技術(shù)在與人文學(xué)科教育中創(chuàng)新型路徑的探索。Voyant現(xiàn)已在數(shù)字人文教育中占據(jù)一席之地,在多家高校圖書館網(wǎng)頁上被列為教學(xué)資源,其中包括賓夕法尼亞大學(xué)、杜克大學(xué)和加利福尼亞大學(xué)洛杉磯分校。在美國埃默里大學(xué)的本科生課堂上,學(xué)生被要求學(xué)習(xí)如何借助Voyant平臺開展原創(chuàng)性數(shù)字人文研究,以及“遠(yuǎn)閱讀”大量文學(xué)資料。除此之外,Voyant還出現(xiàn)在許多高校課程的教學(xué)大綱中。圣母大學(xué)的計算機(jī)文學(xué)史課程指導(dǎo)研究生使用Voyant平臺學(xué)習(xí)人文領(lǐng)域的量化工作,喬治梅森大學(xué)在數(shù)字人文理論與實踐課堂上借助Voyant幫助學(xué)生理解數(shù)字媒體和技術(shù)對歷史理論研究的影響。利用文本分析技術(shù)和方法改進(jìn)數(shù)字人文學(xué)科的教育已經(jīng)成為Voyant的一項重要功能。同時,這些教育活動也在幫助Voyant理解和界定數(shù)字人文學(xué)科。

四、結(jié)語

如今,雖然已經(jīng)有許多人文學(xué)者采納數(shù)據(jù)統(tǒng)計作為文本研究的必要手段,但“遠(yuǎn)閱讀”仍是一個備受爭議的理論。一方面,遠(yuǎn)距離閱讀在發(fā)現(xiàn)問題的同時并不能給出合理解釋。例如,Voyant匯總和分析海量文本時多是在探索文本之間的相關(guān)性,忽視了傳統(tǒng)文本研究一直重視的因果性分析;將科學(xué)研究范式套用到文本研究后得出的研究成果缺乏可靠的理論支撐。另一方面,對于許多讀者和文學(xué)學(xué)者而言,“遠(yuǎn)閱讀”將人文世界變成了沒有“美感”的科學(xué)領(lǐng)域:人文領(lǐng)域本身的魅力被有用的數(shù)據(jù)和信息取代,讀者對文本信息進(jìn)行深度理解的意愿被分散和降低。

過分“展示”數(shù)據(jù)和“聚合”事實并不能讓人文學(xué)科取得實質(zhì)性進(jìn)展,因此學(xué)者須進(jìn)一步探討遠(yuǎn)距離閱讀的合理性和可行性。同時,文本分析技術(shù)和工具也面臨著“遠(yuǎn)閱讀”帶來的難題:在技術(shù)實現(xiàn)方面,如何做到把文本數(shù)據(jù)分析和學(xué)者的文學(xué)闡釋結(jié)合起來,介入到更深層次的學(xué)術(shù)分析環(huán)節(jié),讓數(shù)據(jù)分析服務(wù)于研究理念。毫無疑問,文本分析技術(shù)是要創(chuàng)新傳統(tǒng)人文研究方法,而非取而代之。未來在運用“遠(yuǎn)閱讀”相關(guān)的文本分析技術(shù)和工具時,究竟要調(diào)試到怎樣一個“距離”(distance)來配合文本研究才算恰到好處?這是每個像Voyant這樣的平臺都要思考的問題。

參考文獻(xiàn):

1.王濤.18世紀(jì)德語歷史文獻(xiàn)的數(shù)據(jù)挖掘——以主題模型為例[J].學(xué)海,2017(1):206-216.

2.Lauren F.Klein. Exploratory Thematic Analysis for Digitized Archival Collections[J].Art & Humanities,2015(30):130-141.

3.胡悅?cè)冢?數(shù)字人文背景下“遠(yuǎn)距離可視化閱讀”探析[J].圖書館論壇,2017(2):1-9.

4.金雯,李繩.“大數(shù)據(jù)”分析與文學(xué)研究[J].中國圖書評論,2014(4):69-75.

5.Kathryn Schulz. What is Distant Reading[EB/OL].[2018-05-22]. https://www.nytimes.com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading.html.

6.王曉光.“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿.方法創(chuàng)新與哲學(xué)社會科學(xué)發(fā)展[M].武漢:武漢大學(xué)出版社,2010:11.

7.S.J.Nicke, G.Franzini.On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges[C].The Eurographics Association 2015.

8.Rachel Serlen.The Distant Future? Reading Franco Moretti[EB/OL].[2018-05-21].https://onlinelibrary.wiley.com/doi/full/10.1111/j.1741-4113.2009.00669.x.

(作者單位系武漢大學(xué)信息管理學(xué)院、武漢大學(xué)數(shù)字出版研究所)

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 97se亚洲综合在线韩国专区福利| 国产91精选在线观看| 尤物成AV人片在线观看| 日韩精品中文字幕一区三区| a网站在线观看| 中文字幕人成人乱码亚洲电影| 欧美笫一页| 国产免费网址| 欧美激情视频一区二区三区免费| 无遮挡国产高潮视频免费观看 | 国产精品综合色区在线观看| 99久久精品视香蕉蕉| 亚洲成在人线av品善网好看| av在线人妻熟妇| 欧美精品另类| 国产在线第二页| 狠狠ⅴ日韩v欧美v天堂| 夜色爽爽影院18禁妓女影院| 18禁黄无遮挡网站| 新SSS无码手机在线观看| 国产极品粉嫩小泬免费看| 国产免费看久久久| 亚洲日韩日本中文在线| 国产理论最新国产精品视频| 色综合手机在线| 综合久久久久久久综合网| 久久精品一品道久久精品| 国产一区二区三区在线观看视频| 国产亚洲精品在天天在线麻豆| 性欧美在线| 亚洲色图欧美视频| 国内嫩模私拍精品视频| 无码福利日韩神码福利片| 1024你懂的国产精品| 国产成人亚洲欧美激情| 国产真实乱人视频| 国产精品吹潮在线观看中文| 99爱在线| 国产乱人伦偷精品视频AAA| 国产激爽大片高清在线观看| 中国成人在线视频| 高h视频在线| 国产在线拍偷自揄观看视频网站| 免费国产好深啊好涨好硬视频| 99ri国产在线| 三上悠亚一区二区| 日韩AV无码一区| 亚洲国产系列| m男亚洲一区中文字幕| 一级成人a毛片免费播放| 国产av无码日韩av无码网站| 国产打屁股免费区网站| 精品国产成人a在线观看| 国产精品19p| 亚洲Av激情网五月天| 国产夜色视频| 亚洲无码精品在线播放| 日韩精品免费一线在线观看| 91成人精品视频| 日韩成人午夜| 天堂成人在线视频| 精品国产99久久| 久久综合亚洲色一区二区三区| 亚洲Aⅴ无码专区在线观看q| 亚洲欧美综合在线观看| 色婷婷狠狠干| 婷婷亚洲综合五月天在线| 国产肉感大码AV无码| 亚洲经典在线中文字幕| 精品综合久久久久久97| 国产精品成人观看视频国产| 美女扒开下面流白浆在线试听| 91网址在线播放| 国产成人三级在线观看视频| 亚洲av色吊丝无码| 一本大道视频精品人妻| 午夜限制老子影院888| 美女视频黄又黄又免费高清| 亚洲日韩国产精品无码专区| 久久大香伊蕉在人线观看热2| 日本道中文字幕久久一区| 精品少妇人妻无码久久|