







摘 要:數(shù)字人文為我國(guó)名人文獻(xiàn)的研究提供了新方法和新思路,地理信息系統(tǒng)和可視化等技術(shù)手段也助力了名人文獻(xiàn)的知識(shí)化服務(wù)。文章在探討數(shù)字人文視野下名人文獻(xiàn)場(chǎng)景構(gòu)建策略的基礎(chǔ)上,以宋慶齡書信為例,從數(shù)據(jù)清洗、書信知識(shí)圖譜框架設(shè)計(jì)及宋慶齡書信場(chǎng)景化應(yīng)用實(shí)踐等方面進(jìn)行了深入的剖析和闡釋,為名人文獻(xiàn)的數(shù)字人文研究提供方法支撐,使得名人文獻(xiàn)的信息和價(jià)值被充分挖掘,從而拓展其傳播深度和廣度。
關(guān)鍵詞:數(shù)字人文;名人文獻(xiàn);知識(shí)圖譜;宋慶齡書信
Research on the Construction of Digital Humanities Scene for Celebrity Literature: A Case Study of Soong Ching-ling's Letters
Abstract Digital humanities offer new methods and perspectives for studying celebrity literature in China. Technologies such as GIS and visualization tools further enhance the knowledge-based services of celebrity literature. This article explores strategies for constructing scenes of celebrity literature from a digital humanities perspective, using Soong Ching-ling's letters as a case study. It provides an in-depth analysis of data cleaning, the design of a knowledge graph framework for the letters, and the practical application of scene construction. This study offers methodological support for digital humanities research on celebrity literature, facilitating the thorough exploration of their information and value, thereby expanding their depth and breadth of dissemination.
Key words digital humanities; celebrity literature; knowledge graph; Soong Ching Ling's letters
1 引言
名人文獻(xiàn)作為傳承文明、傳播思想、積淀文化的載體,是寶貴的文化遺產(chǎn)和文獻(xiàn)資源,有著很高的學(xué)術(shù)研究?jī)r(jià)值和參考價(jià)值[1]。名人文獻(xiàn)資源是較為重要的一類特藏資源和珍貴史料,蘊(yùn)含大量有待開發(fā)和利用的信息資源[2]。加大對(duì)名人文獻(xiàn)資源的開發(fā)利用力度,深入挖掘名人文獻(xiàn)資源,有助于推動(dòng)文化事業(yè)發(fā)展。近年來(lái),學(xué)界積極開展名人文獻(xiàn)數(shù)字資源建設(shè)的探索,如宋慶齡文獻(xiàn)數(shù)據(jù)中心[3]、沈從文專題數(shù)據(jù)庫(kù)[1]、賀龍?zhí)厣墨I(xiàn)數(shù)據(jù)庫(kù)[4]、周恩來(lái)研究專題數(shù)據(jù)庫(kù)[5]、蔣介石資料數(shù)據(jù)庫(kù)[6],等等。目前,對(duì)名人文獻(xiàn)的開發(fā)利用多以數(shù)字化為主,這也是名人文獻(xiàn)整理過程中必不可少的組成部分,而對(duì)于名人文獻(xiàn)的深度價(jià)值挖掘(如事件抽取、命名實(shí)體標(biāo)注、社會(huì)網(wǎng)絡(luò)分析等)與可視化知識(shí)服務(wù)的研究尚處于起步階段。
數(shù)字人文(Digital Humanities, DH),源于人文計(jì)算(Humanities Computing)[7],通過將數(shù)據(jù)挖掘、可視化技術(shù)、開放關(guān)聯(lián)等數(shù)字技術(shù)融入學(xué)術(shù)研究,深刻影響人文學(xué)科研究的范式[8],引發(fā)社會(huì)各界的廣泛關(guān)注與探索,日益成為一個(gè)新興的研究領(lǐng)域[9]。數(shù)字人文作為一個(gè)跨學(xué)科領(lǐng)域[7],它的出現(xiàn)深刻地影響著人文學(xué)術(shù)的研究過程與內(nèi)容,并自然而然地與以知識(shí)組織為主要功能的圖書館相遇[10],被認(rèn)為是圖書館重要的發(fā)展趨勢(shì)之一[11]。此外,數(shù)字人文在提高資源的生動(dòng)性、場(chǎng)景化服務(wù)以及用戶體驗(yàn)等方面都發(fā)揮著重要作用。因此,數(shù)字人文技術(shù)的發(fā)展,為我國(guó)名人文獻(xiàn)的知識(shí)化研究提供了新方法和新思路,也是名人文獻(xiàn)資源知識(shí)發(fā)現(xiàn)研究的趨勢(shì)。
宋慶齡是中華人民共和國(guó)名譽(yù)主席,也是一位愛國(guó)主義、民主主義、國(guó)際主義和共產(chǎn)主義的偉大戰(zhàn)士,被譽(yù)為“國(guó)之瑰寶”[12]和二十世紀(jì)的偉大女性[13-14]。“永遠(yuǎn)和黨在一起”[15],不僅是宋慶齡一生秉持的堅(jiān)定信念,也是她光輝一生的真實(shí)寫照。宋慶齡在革命的一生中,寫出了大量文章,發(fā)表過不少著名的宣言和聲明,這些都是中國(guó)革命史上的重要文獻(xiàn)。宋慶齡的書信,表現(xiàn)了她同海內(nèi)外各方面人士、親屬和故舊的交往,大體上涵蓋了她一生各個(gè)重要?dú)v史時(shí)期的工作和生活,是留給我們的重要?dú)v史文獻(xiàn)和寶貴的精神財(cái)富,對(duì)學(xué)習(xí)和研究宋慶齡的思想和品德,研究中國(guó)近現(xiàn)代史,都具有重要的意義[16]。學(xué)界對(duì)宋慶齡書信的研究大多通過書信內(nèi)容研究其政治思想的演變[17]或革命友誼[18]等。讓書信講述歷史,對(duì)我們了解中國(guó)人民偉大的革命事業(yè)的前進(jìn)路程,有很大的幫助。
本文旨在拋磚引玉,以宋慶齡書信為例,從數(shù)字人文視角出發(fā),探討名人文獻(xiàn)數(shù)字人文場(chǎng)景的構(gòu)建,嘗試?yán)玫乩硇畔⑾到y(tǒng)(Geographic Information System, GIS)、知識(shí)圖譜等技術(shù)整合名人文獻(xiàn)資源,一方面可以為相關(guān)領(lǐng)域的學(xué)者提供已有研究成果的客觀佐證,直觀且形象地呈現(xiàn)宋慶齡書信所蘊(yùn)藏的深層次知識(shí),提升名人文獻(xiàn)的知識(shí)發(fā)現(xiàn)深度與價(jià)值呈現(xiàn)維度,為名人文獻(xiàn)的數(shù)字人文研究提供方法支撐;另一方面,可以推動(dòng)名人文獻(xiàn)資源建設(shè)從數(shù)字化向語(yǔ)義化轉(zhuǎn)變,從而促進(jìn)相關(guān)數(shù)字資源的深度開發(fā)利用。
2 相關(guān)研究及數(shù)字人文項(xiàng)目調(diào)研
2.1 相關(guān)研究
國(guó)內(nèi)利用數(shù)字人文對(duì)人文特藏資源進(jìn)行研究起步比較晚,主要集中在GIS、可視化、文本挖掘以及關(guān)聯(lián)數(shù)據(jù)等領(lǐng)域[19]。劉寧?kù)o等人以學(xué)術(shù)名人為核心,構(gòu)建學(xué)術(shù)名人描述框架模型和學(xué)術(shù)名人與其他實(shí)體關(guān)系模型,對(duì)以李政道為代表的學(xué)術(shù)名人特色資源從知識(shí)顆粒的角度進(jìn)行有效的組織和展示[20]。牛力等人梳理數(shù)字記憶視角下學(xué)術(shù)名人知識(shí)庫(kù)的基本屬性和構(gòu)建要求,據(jù)此形成“融合、建構(gòu)與服務(wù)”的學(xué)術(shù)名人知識(shí)庫(kù)建設(shè)路徑,并以學(xué)術(shù)名人吳寶康先生的知識(shí)庫(kù)建設(shè)為案例進(jìn)行應(yīng)用闡釋[21]。孫鳴蕾等人以中國(guó)作家?guī)斓淖骷覚n案為例,闡述構(gòu)建名人檔案知識(shí)圖譜的方法,使名人檔案的利用價(jià)值得到進(jìn)一步提升[22]。上述研究多以學(xué)術(shù)名人的數(shù)字資源對(duì)象為核心,實(shí)現(xiàn)對(duì)學(xué)術(shù)名人的數(shù)字資源組織及利用。
此外,國(guó)內(nèi)對(duì)名人文獻(xiàn)的研究,除了上述以學(xué)術(shù)名人的數(shù)字資源對(duì)象為主外,還側(cè)重于部分人物的資源內(nèi)容挖掘,如宋雪雁等人以王世杰日記為例開發(fā)名人日記數(shù)字化資源,形成人物關(guān)系、地域熱點(diǎn)、情感傾向等可視化圖譜,探索具有可行性的日記資源內(nèi)容挖掘方法[2]。宋雪雁等人還以人物關(guān)系挖掘?yàn)榍腥朦c(diǎn),發(fā)現(xiàn)和提煉《譚延闿日記》中蘊(yùn)含的知識(shí),形成能夠呈現(xiàn)日記人物同現(xiàn)關(guān)系的可視化圖譜,將非結(jié)構(gòu)化的日記文本以更加清晰直觀的方式進(jìn)行展示[23]。李惠等人基于曾國(guó)藩個(gè)人書信集數(shù)據(jù)構(gòu)建古代書信網(wǎng)絡(luò)模型,探索個(gè)人書信集里的群體人際關(guān)系[24]。國(guó)外的書信研究大多數(shù)聚焦于知名學(xué)者的個(gè)人書信網(wǎng)絡(luò)[25-26],分析特定學(xué)者的學(xué)術(shù)思想交流情況。以上研究多以單個(gè)人物的文本內(nèi)容挖掘?yàn)橹鳎剿髌涮N(yùn)含的深層知識(shí)并進(jìn)行可視化呈現(xiàn)。
2.2 數(shù)字人文項(xiàng)目調(diào)研及其可借鑒之處
2.2.1 項(xiàng)目調(diào)研
隨著數(shù)字人文技術(shù)的發(fā)展,各科研院校及圖書館開展了數(shù)量眾多的數(shù)字人文項(xiàng)目。在調(diào)研眾多數(shù)字人文項(xiàng)目的基礎(chǔ)上,筆者最終選取了8個(gè)案例,分別是:上海圖書館的盛宣懷檔案知識(shí)庫(kù)、中國(guó)家譜知識(shí)服務(wù)平臺(tái)、香港中文大學(xué)的盛宣懷檔案、浙江大學(xué)的智慧古籍平臺(tái)、上海博物館的董其昌書畫藝術(shù)展、中南民族大學(xué)的唐宋文學(xué)編年地圖、中國(guó)人民大學(xué)高遷古村數(shù)字記憶網(wǎng)站、華東師范大學(xué)數(shù)字方志集成平臺(tái)。對(duì)上述數(shù)字人文項(xiàng)目進(jìn)行分析,收集不同故事性應(yīng)用場(chǎng)景設(shè)計(jì)、主要技術(shù)及特色功能點(diǎn),并歸納總結(jié)出可借鑒之處,能夠?yàn)樗螒c齡相關(guān)文獻(xiàn)的故事性應(yīng)用場(chǎng)景構(gòu)建打下基礎(chǔ)。
2.2.2 可借鑒之處
(1)時(shí)間與人物關(guān)系可視化相結(jié)合
除了文本分析之外,時(shí)空分析、社會(huì)關(guān)系分析也是數(shù)字人文研究通常采用的方法,成為許多數(shù)字人文平臺(tái)提供的基本功能[27]。上海圖書館的盛宣懷檔案知識(shí)庫(kù)可以通過時(shí)間、地點(diǎn)、主題、人物、數(shù)量,查詢信函、電報(bào)收發(fā)關(guān)系圖;香港中文大學(xué)的盛宣懷檔案以年為單位,將每年的盛宣懷檔案涉及的人物以圖譜的形式進(jìn)行展示。因此,可以按照書信的寫信時(shí)間,對(duì)宋慶齡往來(lái)書信進(jìn)行可視化展示。
(2)時(shí)空檢索
現(xiàn)代歷史地理學(xué)為人文研究貢獻(xiàn)了多維時(shí)空框架下的數(shù)據(jù)、技術(shù)、平臺(tái)與方法。歷史地理數(shù)據(jù)及其相關(guān)技術(shù)、平臺(tái)和方法的利用,已成為數(shù)字人文中不容忽視的要素和不可或缺的一部分[28]。華東師范大學(xué)數(shù)字方志集成平臺(tái)上的時(shí)空檢索,可查看并檢索不同朝代方志的地區(qū)分布情況,方志越多的地區(qū),地圖中的圓點(diǎn)就越大。因此,可以對(duì)宋慶齡的書信進(jìn)行時(shí)空呈現(xiàn)及檢索。
3 名人文獻(xiàn)的數(shù)字人文場(chǎng)景構(gòu)建策略
宋慶齡文獻(xiàn)數(shù)據(jù)中心的建設(shè),為后續(xù)知識(shí)組織及知識(shí)發(fā)現(xiàn)提供了資源保障。宋慶齡文獻(xiàn)數(shù)據(jù)中心是由上海宋慶齡研究會(huì)、上海圖書館、上海市孫中山宋慶齡文物管理委員會(huì)三家單位合作,共同建設(shè)的上海“四史”學(xué)習(xí)成果展示平臺(tái)和上海圖書館紅色資源揭示展示的試點(diǎn)平臺(tái),也是一個(gè)集文獻(xiàn)、圖片、音視頻等多種資源類型的平臺(tái)。如何提高資源的開發(fā)利用效率和知識(shí)服務(wù)水平?針對(duì)這一問題,項(xiàng)目組以場(chǎng)景構(gòu)建為抓手,從數(shù)據(jù)賦能、知識(shí)賦能、工具賦能三個(gè)方面入手,探討數(shù)字人文視野下名人文獻(xiàn)場(chǎng)景的構(gòu)建策略,以期充分挖掘宋慶齡書信中的知識(shí)關(guān)聯(lián),促進(jìn)名人文獻(xiàn)資源的深度開發(fā)利用。
3.1 數(shù)據(jù)賦能
數(shù)據(jù)是數(shù)字人文研究的基石,也是知識(shí)服務(wù)的基礎(chǔ)。數(shù)字人文對(duì)數(shù)據(jù)的精細(xì)度、顆粒度及結(jié)構(gòu)化程度提出了更高要求,從文獻(xiàn)外部特征的組織揭示向文獻(xiàn)內(nèi)容的深度加工挖掘轉(zhuǎn)變,通過更加細(xì)顆粒度的數(shù)據(jù)化建設(shè)搭建不同類型數(shù)據(jù)之間的空間聯(lián)系。宋慶齡文獻(xiàn)數(shù)據(jù)中心在建設(shè)之初,為了對(duì)史料進(jìn)行精細(xì)化的加工,充分挖掘其內(nèi)在價(jià)值,在參考一系列國(guó)家及行業(yè)標(biāo)準(zhǔn)的基礎(chǔ)上,制定了詳細(xì)的元數(shù)據(jù)規(guī)則。以宋慶齡書信為例,除了基礎(chǔ)元數(shù)據(jù)項(xiàng)外,還對(duì)寫信人、收信人、寫信時(shí)間、寫信地點(diǎn)、文中人名、文中事件組織等進(jìn)行著錄。元數(shù)據(jù)著錄完善,為人、地、時(shí)、事的實(shí)體化奠定了堅(jiān)實(shí)基礎(chǔ),也為知識(shí)關(guān)聯(lián)創(chuàng)造了條件。
3.2 知識(shí)賦能
數(shù)字人文通過知識(shí)關(guān)聯(lián),可實(shí)現(xiàn)資源的整合以及知識(shí)的廣度拓展和延伸。因此,在宋慶齡文獻(xiàn)數(shù)據(jù)中心的基礎(chǔ)上,充分利用網(wǎng)絡(luò)資源為場(chǎng)景提供更多的知識(shí)服務(wù)成為項(xiàng)目組考慮的重點(diǎn)之一。關(guān)聯(lián)數(shù)據(jù)可以將各種數(shù)據(jù)源無(wú)縫關(guān)聯(lián),形成一個(gè)廣泛的知識(shí)網(wǎng)絡(luò),目前,上海圖書館已使用關(guān)聯(lián)數(shù)據(jù)對(duì)館藏書目文獻(xiàn)進(jìn)行組織和發(fā)布。以宋慶齡為核心的知識(shí)關(guān)聯(lián)思路如圖1所示。
其中文獻(xiàn)資源庫(kù)方面,主要基于宋慶齡文獻(xiàn)數(shù)據(jù)中心、全國(guó)報(bào)刊索引數(shù)據(jù)庫(kù)。例如,宋慶齡文獻(xiàn)數(shù)據(jù)中心收錄的資源中,宋慶齡與國(guó)際友人如艾黎、愛潑斯坦、斯諾、馬海德等的相關(guān)文獻(xiàn)占了一定的比重,尤其是書信;在全國(guó)報(bào)刊索引數(shù)據(jù)庫(kù)中,以艾黎、馬海德、斯諾、史沫特萊、愛潑斯坦等國(guó)際友人的名字為檢索詞進(jìn)行檢索,發(fā)現(xiàn)相關(guān)的文獻(xiàn)資源比較豐富。此外,宋慶齡往來(lái)書信中涉及的人物、機(jī)構(gòu)、地點(diǎn)、事件等,也通過上海圖書館基礎(chǔ)知識(shí)庫(kù)進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)資源的整合,以知識(shí)賦能場(chǎng)景,進(jìn)一步豐富以宋慶齡為核心的知識(shí)化服務(wù)。
3.3 工具賦能
數(shù)字人文具有很強(qiáng)的工具屬性,借助可視化、GIS等工具,可以提升場(chǎng)景服務(wù)及用戶體驗(yàn)。可視化在數(shù)字人文領(lǐng)域的重要性不言自明,甚至可以說(shuō)數(shù)字人文就等同于對(duì)人文語(yǔ)料的可視化[29]。目前,古籍文本閱讀可視化、檔案及文物可視化以及名人日記可視化等都受到了數(shù)字人文學(xué)者的關(guān)注。而以GIS技術(shù)為核心的數(shù)字人文注重地理空間和人地關(guān)系;歷史地理數(shù)據(jù)及其相關(guān)技術(shù)、平臺(tái)和方法的利用,也成為數(shù)字人文中不容忽視的要素和不可或缺的部分。
因此,以知識(shí)圖譜的形式對(duì)宋慶齡的來(lái)往書信進(jìn)行可視化展示,側(cè)重揭示書信中的社會(huì)網(wǎng)絡(luò)關(guān)系,對(duì)其書信網(wǎng)進(jìn)行更加直觀的視覺呈現(xiàn);同時(shí),宋慶齡往來(lái)書信主要涉及人(寫信人和收信人)、地(寫信地點(diǎn))、時(shí)(寫信時(shí)間)、事(文中事件),與在數(shù)字人文領(lǐng)域應(yīng)用非常廣泛的GIS技術(shù)吻合。因此,依托宋慶齡文獻(xiàn)數(shù)據(jù)中心豐富的資源,從人物、時(shí)間、地點(diǎn)、事件等多維要素出發(fā),在敘事視域下豐富和完善宋慶齡書信集內(nèi)容,探索挖掘名人文獻(xiàn)價(jià)值的新路徑。在此基礎(chǔ)上,還可以對(duì)宋慶齡的事業(yè)網(wǎng)(如宋慶齡的婦女兒童事業(yè))和其足跡進(jìn)行場(chǎng)景構(gòu)建及可視化嘗試和探索。
4 名人文獻(xiàn)的數(shù)字人文場(chǎng)景構(gòu)建實(shí)踐
4.1 數(shù)據(jù)來(lái)源
1981年,宋慶齡逝世后,上海有關(guān)部門在上海宋慶齡故居中整理出孫中山、宋慶齡與各界往來(lái)函電共計(jì)1 100多封,除當(dāng)時(shí)即移交中央檔案館保管的部分外,仍存有1 000多封,其中以致宋慶齡的函電居多[30]。宋慶齡一生與中外友人和親人有大量的書信往來(lái),她的書信大多是親自執(zhí)筆或用打字機(jī)書就的英文信,是留給我們的重要?dú)v史文獻(xiàn)和寶貴的精神財(cái)富。但是由于社會(huì)環(huán)境和保護(hù)同志以及其他種種原因,宋慶齡的大批信件或散失或銷毀。多年來(lái),宋慶齡基金會(huì)和中國(guó)福利會(huì)等有關(guān)部門又向國(guó)內(nèi)外人士征集了許多書信,但這些書信也僅僅是她一生幾十萬(wàn)件書信中極小的一部分[16],已在有關(guān)部門主持下進(jìn)行翻譯和編輯出版。
宋慶齡文獻(xiàn)數(shù)據(jù)中心平臺(tái)上收錄的函電(信函、電報(bào)類文獻(xiàn))數(shù)據(jù)共2 024篇,剔除部分非宋慶齡的函電后將近2 000篇,時(shí)間跨度從1909年宋慶齡少女時(shí)代至1981年逝世為止,是她長(zhǎng)達(dá)72年的生活記錄。這些書信記錄了她與國(guó)內(nèi)外政要、親朋故舊的交往情況,從側(cè)面反映其政治觀點(diǎn)、人生經(jīng)歷、思想情感等,作為中國(guó)近現(xiàn)代史的寶貴文獻(xiàn)傳之于世,有著重大的補(bǔ)史和證史作用[31]。這些書信大部分來(lái)源于已出版的《宋慶齡書信集》《宋慶齡書信集(續(xù)編)》《孫中山宋慶齡文獻(xiàn)與研究》《鄧廣殷、孫君蓮及鄧勤藏宋慶齡書信集》等圖書,且被宋慶齡文獻(xiàn)數(shù)據(jù)中心收錄并提供原始圖像,確保了數(shù)據(jù)的原始真實(shí)且可靠。為了驗(yàn)證技術(shù)路線的可行性,項(xiàng)目組選取部分?jǐn)?shù)據(jù)進(jìn)行試驗(yàn)。
4.2 數(shù)據(jù)清洗
由于書信中對(duì)人物的記載伴隨著大量的姓氏、職位、別稱、身份等指代稱謂,為了從書信中準(zhǔn)確提取有利用價(jià)值的實(shí)體要素?cái)?shù)據(jù)并進(jìn)行可視化分析,需要對(duì)數(shù)據(jù)進(jìn)行清洗。本研究人工識(shí)別和提取宋慶齡往來(lái)書信中的人物實(shí)體要素,為了確保人物數(shù)據(jù)便于加工著錄,針對(duì)人物稱謂不統(tǒng)一、不規(guī)范的情況,制定人物實(shí)體著錄細(xì)則,并結(jié)合書信文獻(xiàn)、人物傳記等有關(guān)資料,對(duì)指代稱謂進(jìn)行查找和統(tǒng)一替換。以宋慶齡為例,寫信時(shí)常用的落款有宋慶齡、羅莎蒙德·宋、孫夫人、孫宋慶齡、SCL、孫逸仙夫人、孫中山夫人等,數(shù)據(jù)清洗時(shí)將這些寫信落款統(tǒng)一聚合為宋慶齡;由于宋慶齡往來(lái)書信中,有部分書信是發(fā)給某某夫婦(如致愛潑斯坦夫婦)的,在人物實(shí)體提取時(shí),需將夫婦分開處理,并為其添加親屬關(guān)系;還有部分書信,收信人為某人物親屬或家屬(如致陳賡親屬)等泛稱,在著錄人物的親屬關(guān)系時(shí),新增一個(gè)人物節(jié)點(diǎn),節(jié)點(diǎn)名稱為人物親屬,專門用于勾連這些指代不明確的親屬關(guān)系。
此外,宋慶齡部分書信是寫給某個(gè)機(jī)構(gòu)或機(jī)構(gòu)中的小團(tuán)體的,如中國(guó)福利基金會(huì)全體工作人員、中共中國(guó)福利基金會(huì)支部,收信人則統(tǒng)一以機(jī)構(gòu)名為主,即中國(guó)福利基金會(huì),并著錄機(jī)構(gòu)實(shí)體。同時(shí),由于書信涉及寫信時(shí)間和寫信地點(diǎn),寫信地點(diǎn)統(tǒng)一處理為市級(jí)行政區(qū)劃。
4.3 書信知識(shí)圖譜框架設(shè)計(jì)
近年來(lái),知識(shí)組織領(lǐng)域的研究熱點(diǎn)之一是知識(shí)圖譜。知識(shí)圖譜在人文領(lǐng)域的研究中也得到了應(yīng)用,是名人文獻(xiàn)資源高效利用及細(xì)粒度呈現(xiàn)并實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián)的有效途徑,為名人文獻(xiàn)資源知識(shí)發(fā)現(xiàn)提供了可能。知識(shí)圖譜作為以結(jié)構(gòu)化三元組形式存儲(chǔ)現(xiàn)實(shí)世界中實(shí)體以及實(shí)體間關(guān)系的知識(shí)庫(kù)[32],通過可視化手段,顯示知識(shí)內(nèi)部結(jié)構(gòu)與發(fā)展進(jìn)程,其中圖的結(jié)點(diǎn)代表實(shí)體或者概念,而圖的邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。項(xiàng)目組在比較各種知識(shí)圖譜存儲(chǔ)的優(yōu)缺點(diǎn)后,采用圖數(shù)據(jù)庫(kù)Neo4j對(duì)書信知識(shí)圖譜進(jìn)行存儲(chǔ)。
4.3.1 書信知識(shí)圖譜實(shí)體類型
在宋慶齡文獻(xiàn)數(shù)據(jù)中心建設(shè)過程中,為了對(duì)史料進(jìn)行精細(xì)化加工,元數(shù)據(jù)方案采用多層級(jí)結(jié)構(gòu),即資源層、劃到層、篇層以及文中附圖(或子圖)。宋慶齡書信均以函電篇為單位進(jìn)行加工,同一封書信刊載在不同的圖書上時(shí),為了保證數(shù)據(jù)的完整性,將作為不同的函電篇進(jìn)行加工。
項(xiàng)目組在全國(guó)報(bào)刊索引數(shù)據(jù)庫(kù)框架構(gòu)建的基礎(chǔ)上,借鑒上海圖書館人名規(guī)范庫(kù)本體及手稿檔案本體中與書信相關(guān)的實(shí)體、實(shí)體屬性以及實(shí)體關(guān)系,最終完成書信知識(shí)圖譜框架設(shè)計(jì)。書信知識(shí)圖譜的核心是寫信人收信人對(duì)應(yīng)的人物、涉及的部分機(jī)構(gòu)、寫信地點(diǎn)對(duì)應(yīng)的地名信息以及刊載書信的不同文獻(xiàn)資源(如圖書、報(bào)紙、期刊等),由于文獻(xiàn)資源涉及連續(xù)出版物,因此還包括不同文獻(xiàn)資源的劃到信息。為了解決同一信件對(duì)應(yīng)多個(gè)函電篇的問題,項(xiàng)目組在設(shè)計(jì)書信知識(shí)圖譜的框架時(shí),既要包括書信的外在屬性,又要包括書信本身的隱含知識(shí)。因此,將信件分為內(nèi)容層和篇層,內(nèi)容層主要是信件本身,即寫信人、收信人、寫信時(shí)間、寫信地點(diǎn),篇層即為函電篇,可看作內(nèi)容層的不同版本。
在宋慶齡文獻(xiàn)數(shù)據(jù)中心函電元數(shù)據(jù)框架元素的基礎(chǔ)上,從概念上將書信知識(shí)圖譜歸為信件(Letter)、人物(Person)、機(jī)構(gòu)(Organization)、地名(Place)、資源(Resource)、資源劃到(Item)、函電篇(Pian),其中資源(Resource)對(duì)應(yīng)的子類有報(bào)紙(Newspaper)、期刊(Periodical)、圖書(Books),資源劃到對(duì)應(yīng)的子類有報(bào)紙劃到(Newspaper_Item)、期刊劃到(Periodical_Item)、圖書劃到(Books_Item)。書信知識(shí)圖譜的實(shí)體類型如表1所示。
4.3.2 書信知識(shí)圖譜實(shí)體關(guān)系類型
實(shí)體關(guān)系(entity relation)是指某一時(shí)間段內(nèi)實(shí)體之間存在的關(guān)系[33]。書信知識(shí)圖譜實(shí)體之間存在多種關(guān)系,主要有信件與人物、信件與機(jī)構(gòu)、信件與地名、人物與人物、人物與機(jī)構(gòu)、信件與函電篇、信件與資源劃到、資源劃到與資源、資源劃到與機(jī)構(gòu)之間的關(guān)系。由于信件分為內(nèi)容層和篇層,一個(gè)函電篇可看作信件內(nèi)容的一個(gè)版本,當(dāng)某個(gè)信件刊載于不同的資源劃到時(shí),那么該信件就有多個(gè)版本,對(duì)應(yīng)多個(gè)相關(guān)的函電篇。信件與人物和機(jī)構(gòu)的關(guān)系主要是信件都有寫信人(機(jī)構(gòu))及收信人(機(jī)構(gòu)),信件與地名主要是寫信地點(diǎn)的關(guān)系,人物與人物、人物與機(jī)構(gòu)主要是收發(fā)信關(guān)系,信件與資源劃到主要是刊載于的關(guān)系,資源劃到與資源之間主要是資源劃到是資源的單件的關(guān)系,資源劃到與機(jī)構(gòu)也存在關(guān)系,即機(jī)構(gòu)是資源劃到的出版方(見表2)。
4.3.3 書信知識(shí)圖譜實(shí)現(xiàn)
以宋慶齡與周恩來(lái)之間的書信往來(lái)為例,對(duì)書信框架進(jìn)行詳細(xì)解讀。宋慶齡與周恩來(lái)的往來(lái)書信主要集中在1950年,這些書信大部分收錄在《宋慶齡書信集》(1999年出版)下冊(cè),宋慶齡書信集的上冊(cè)及下冊(cè)的出版機(jī)構(gòu)均為人民出版社,這些數(shù)據(jù)在圖數(shù)據(jù)庫(kù)中的呈現(xiàn)如圖2所示。
書信知識(shí)圖譜是對(duì)宋慶齡書信進(jìn)行深層次開發(fā)利用的一次嘗試,大大增強(qiáng)了書信的知識(shí)服務(wù)功能。宋慶齡與周恩來(lái)的往來(lái)書信集中在中華人民共和國(guó)成立初期反映了一段重要史實(shí)。中華人民共和國(guó)成立之初,遭到了西方國(guó)家的多重封鎖,在當(dāng)時(shí)惡劣的國(guó)際形勢(shì)下,將我國(guó)的正面形象及時(shí)傳播到世界各國(guó),顯得十分迫切與重要。由于宋慶齡在國(guó)內(nèi)外享有崇高威望,抗戰(zhàn)時(shí)期有著豐富的國(guó)際傳播實(shí)踐,是最適合擔(dān)此重任的特殊人選。1950年10月,周恩來(lái)代表黨中央正式向宋慶齡提出,由她創(chuàng)辦對(duì)外宣傳刊物,打破西方霸權(quán)主義的封鎖,向全世界介紹我國(guó)真實(shí)的情況。在宋慶齡和中國(guó)福利會(huì)的努力下,1952年1月,《中國(guó)建設(shè)》創(chuàng)刊號(hào)公開發(fā)行。作為當(dāng)時(shí)唯一能夠進(jìn)入美國(guó)的期刊,《中國(guó)建設(shè)》可以說(shuō)是“講好中國(guó)故事”的先聲。
4.4 書信知識(shí)圖譜應(yīng)用
在對(duì)宋慶齡書信進(jìn)行數(shù)據(jù)清洗處理,并完成了書信知識(shí)圖譜框架設(shè)計(jì)的基礎(chǔ)上,借助可視化技術(shù)手段,從時(shí)間、空間以及人際關(guān)系等維度進(jìn)行可視化的知識(shí)服務(wù),從而促進(jìn)名人文獻(xiàn)資源的知識(shí)服務(wù)和價(jià)值挖掘。
按照書信知識(shí)圖譜的框架設(shè)計(jì),將實(shí)體嵌入特定的時(shí)空或場(chǎng)景,從特定角度對(duì)宋慶齡往來(lái)書信進(jìn)行知識(shí)服務(wù),實(shí)現(xiàn)時(shí)間、空間及人際關(guān)系的概覽。時(shí)間維度以時(shí)間軸為基線,將寫信時(shí)間與實(shí)體進(jìn)行融合并串聯(lián);空間維度則采用“時(shí)間-空間”雙重基線,不僅能展示不同寫信時(shí)段內(nèi)宋慶齡書信的地區(qū)分布,還能夠?qū)⑺螒c齡在不同寫信時(shí)間段內(nèi)位于同一地點(diǎn)的書信進(jìn)行聚合,形成名人文獻(xiàn)的追溯。此外,書信網(wǎng)絡(luò)能夠呈現(xiàn)與宋慶齡有書信往來(lái)的人物,如周恩來(lái)、鄧穎超等黨和國(guó)家的卓越領(lǐng)導(dǎo)人,以及斯諾、馬海德、艾黎、愛潑斯坦等國(guó)際友人,這一關(guān)系網(wǎng)絡(luò)基本包括了以宋慶齡為中心的,她與國(guó)內(nèi)外政要、親朋故舊的交往情況。通過知識(shí)圖譜可以了解宋慶齡的書信往來(lái),增強(qiáng)文化傳播。
目前,宋慶齡文獻(xiàn)數(shù)據(jù)中心已實(shí)現(xiàn)對(duì)其往來(lái)書信的檢索和全文瀏覽服務(wù)。用戶可以在文獻(xiàn)類型中選擇函電,進(jìn)行檢索、瀏覽PDF。在此基礎(chǔ)上,為了更好地服務(wù)用戶,項(xiàng)目組選擇可視化工具vis.js將Neo4j圖數(shù)據(jù)庫(kù)中的數(shù)據(jù)可視化。此外,在可視化表達(dá)中,時(shí)間和空間也是兩個(gè)重要的維度,采用CSS3實(shí)現(xiàn)時(shí)間軸的可視化,采用高德地圖開放的應(yīng)用程序接口(Application Program Interface,API)實(shí)現(xiàn)時(shí)空分析及呈現(xiàn)。
4.4.1 宋慶齡書信可視化
為了驗(yàn)證技術(shù)路線的可行性,項(xiàng)目組先選取100余封書信,并按照上述書信知識(shí)圖譜的框架進(jìn)行數(shù)據(jù)梳理,從而對(duì)書信進(jìn)行可視化呈現(xiàn)和時(shí)空檢索。宋慶齡書信可視化呈現(xiàn)的頁(yè)面設(shè)計(jì)包括三部分:人物關(guān)系圖譜、時(shí)間軸、人物/機(jī)構(gòu)簡(jiǎn)介,如圖3所示。默認(rèn)中心人物是宋慶齡,時(shí)間軸上顯示宋慶齡每年的發(fā)信數(shù)量,人物關(guān)系圖譜上節(jié)點(diǎn)的大小可根據(jù)發(fā)信量的多少進(jìn)行調(diào)整,發(fā)信量越多的節(jié)點(diǎn)越大。此外,可以按寫信時(shí)間進(jìn)行過濾,查看一段時(shí)間內(nèi)跟宋慶齡有書信往來(lái)的人物/機(jī)構(gòu),如圖4所示。
點(diǎn)擊兩個(gè)人物實(shí)體中間的邊,可以查看兩者之間所有的書信。例如,點(diǎn)擊宋慶齡發(fā)信給蔣介石這條邊,可查看宋慶齡發(fā)給蔣介石的所有信件,如圖5所示。在圖5上,單擊某個(gè)信件實(shí)體,可顯示與其相關(guān)的屬性字段;雙擊某個(gè)信件實(shí)體,則跳轉(zhuǎn)至新頁(yè)面,以單個(gè)信件為核心,展示與其相關(guān)的實(shí)體,如圖6所示,額外顯示出該信件實(shí)體刊載于的資源劃到實(shí)體。點(diǎn)擊資源劃到實(shí)體,以圖6為例,資源劃到實(shí)體為《宋慶齡選集》(1992年版)上卷,可跳轉(zhuǎn)至PDF瀏覽頁(yè)面,查看該篇書信的全文內(nèi)容。
4.4.2 宋慶齡書信時(shí)空檢索
由于宋慶齡書信的時(shí)間跨度長(zhǎng)達(dá)72年,如果按年進(jìn)行時(shí)空呈現(xiàn)和檢索的話,每年的數(shù)據(jù)量較少,效果可能不甚理想。因此,項(xiàng)目組考慮按時(shí)間段進(jìn)行處理,時(shí)間段劃分參考《中國(guó)圖書館分類法》通用復(fù)分表中的中國(guó)時(shí)代表[34]。以寫信地點(diǎn)是國(guó)內(nèi)的城市為例,對(duì)宋慶齡各時(shí)段書信的地區(qū)分布進(jìn)行可視化展示,默認(rèn)顯示全部時(shí)段的書信分布。頁(yè)面分為兩部分:時(shí)空地圖、檢索結(jié)果顯示區(qū)。為了更直觀地顯示出每個(gè)地區(qū)書信分布情況,項(xiàng)目組采用三維地圖,并按書信量的多少,將寫信地點(diǎn)以柱狀圖的形式在時(shí)空地圖上進(jìn)行呈現(xiàn)。
鼠標(biāo)放至?xí)r空地圖上的某個(gè)地點(diǎn),就可以顯示這個(gè)地點(diǎn)寫的所有書信數(shù)量;點(diǎn)擊這個(gè)地點(diǎn),則可對(duì)寫信地點(diǎn)為該地點(diǎn)的書信進(jìn)行檢索,并將檢索結(jié)果以篇名列表的形式顯示在時(shí)空地圖下方;左上角的寫信時(shí)段,勾選后也可以按寫信時(shí)段進(jìn)行檢索。在檢索結(jié)果顯示區(qū),點(diǎn)擊某個(gè)信件標(biāo)題,則調(diào)用宋慶齡書信可視化場(chǎng)景的單個(gè)信件相關(guān)圖譜展示頁(yè)面,即彈出類似圖6的頁(yè)面,可以查看該信件實(shí)體的相關(guān)知識(shí)圖譜。此外,點(diǎn)擊資源劃到實(shí)體即可跳轉(zhuǎn)至PDF瀏覽頁(yè)面,查看該篇書信的全文內(nèi)容。由于宋慶齡部分書信的寫信地點(diǎn)在莫斯科、東京等,項(xiàng)目組后續(xù)考慮將時(shí)空地圖進(jìn)行切換,以便更完整地展示宋慶齡書信的地區(qū)分布。
5 結(jié)語(yǔ)
盡管數(shù)字人文在國(guó)內(nèi)的研究還處于起步階段,但是已經(jīng)為圖書館服務(wù)模式的創(chuàng)新提供了新的思路和方法,GIS和可視化等技術(shù)手段也能有效助力名人文獻(xiàn)資源的揭示和知識(shí)化服務(wù),從而更好地服務(wù)讀者。本研究從數(shù)字人文視角對(duì)名人文獻(xiàn)進(jìn)行知識(shí)關(guān)聯(lián)化的探索,通過對(duì)書信知識(shí)圖譜模型的構(gòu)建及應(yīng)用,為相關(guān)人文學(xué)者提供數(shù)據(jù)基礎(chǔ)和方法支撐,兩個(gè)場(chǎng)景的前臺(tái)展示也驗(yàn)證了技術(shù)路線的可行性。同時(shí),知識(shí)圖譜化的宋慶齡書信展示頁(yè)面以實(shí)體為紐帶,實(shí)現(xiàn)了宋慶齡相關(guān)文獻(xiàn)的廣泛匯聚和深度融合,形成立體化知識(shí)網(wǎng)絡(luò)并予以呈現(xiàn),大大增強(qiáng)了書信知識(shí)服務(wù)功能。此外,可視化技術(shù)又為名人文獻(xiàn)資源的展示帶來(lái)了新的體驗(yàn),拓展其傳播深度和廣度。
本研究對(duì)名人文獻(xiàn)的數(shù)字人文場(chǎng)景構(gòu)建尚處于起步階段,仍存在不足之處。其中場(chǎng)景涵蓋的數(shù)據(jù)量有限,尚不能達(dá)到規(guī)模化應(yīng)用;GIS技術(shù)目前主要用于書信的時(shí)空呈現(xiàn)和檢索,后續(xù)可考慮深入書信內(nèi)容進(jìn)行分析。接下來(lái)擬建立線上平臺(tái),吸引更多的學(xué)者參與,通過線上互動(dòng),使名人文獻(xiàn)的信息和價(jià)值被充分挖掘。名人文獻(xiàn)資源知識(shí)發(fā)現(xiàn)研究也將煥發(fā)生機(jī),推動(dòng)文化遺產(chǎn)“活起來(lái)、亮起來(lái)、傳起來(lái)”。
參考文獻(xiàn):
[1] 張?bào)?名人專題數(shù)據(jù)庫(kù)建設(shè)的理論與實(shí)踐探索:以沈從文專題數(shù)據(jù)庫(kù)建設(shè)為例[J].吉首大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2012,33(1): 150-152.
[2] 宋雪雁,崔浩男,梁穎,等.數(shù)字人文視角下名人日記資源知識(shí)發(fā)現(xiàn)研究:以王世杰日記為例[J].情報(bào)理論與實(shí)踐,2021,44(6): 105-111.
[3] 宋慶齡文獻(xiàn)數(shù)據(jù)中心[DB/OL].[2022-07-11].http://www.sclrd.net.cn/index.html.
[4] 袁子英.紅色資源數(shù)據(jù)庫(kù)建設(shè)研究:以籌建賀龍圖書館為例[J].圖書館學(xué)研究,2012(14):46-48.
[5] 周恩來(lái)研究專題數(shù)據(jù)庫(kù)[DB/OL].[2022-07-11].https://lib.hytc.edu.cn/info/1062/1467.htm.
[6] 趙曉紅,周維煦.人物數(shù)據(jù)庫(kù)建設(shè)新模式探索:以蔣介石資料數(shù)據(jù)庫(kù)為例[J].浙江檔案,2016(6):15-17.
[7] 劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國(guó)圖書館報(bào),2017,43(5):32-41.
[8] UNSWORTH J.What is Humanities Computing and What is not?[J].Jahrbuch für Computerphilologie,2002,4:71-83.
[9] 王曉光.“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿[C]//全國(guó)高校社會(huì)科學(xué)科研管理研究會(huì).方法創(chuàng)新與哲學(xué)社會(huì)科學(xué)發(fā)展.武漢:武漢大學(xué)出版社,2010:207-221.
[10] SULA C A.Digital humanities and libraries:a conceptual model[J].Journal of Library Administration,2013,53(1):10-26.
[11] 杜宗明.數(shù)字人文環(huán)境下的圖書館角色定位與實(shí)踐路徑[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2017,29(10):103-106.
[12] 鄧穎超.向宋慶齡同志致崇高的敬禮![N].人民日?qǐng)?bào),1981-5-29(1).
[13] 愛潑斯坦.宋慶齡:二十世紀(jì)的偉大女性[M].北京:人民出版社,1992.
[14] 盛永華.20世紀(jì)的偉大女性:宋慶齡[M].廣州:廣東人民出版社,2006.
[15] 宋慶齡.永遠(yuǎn)和黨在一起[M].上海:上海人民出版社,1983.
[16] 宋慶齡基金會(huì),中國(guó)福利會(huì).宋慶齡書信集[M].北京:人民出版社,1999:1.
[17] 凌霄.淺析宋慶齡20世紀(jì)20—30年代政治思想的演變:基于1925—1932年宋慶齡致楊杏佛書信的考察[J].蘇區(qū)研究,2017(5):88-96.
[18] 陳孜穎.革命的情誼——宋慶齡致魯迅書信考辨[J].紹興魯迅研究,2022(1):215-221.
[19] 張毅,李欣.面向數(shù)字人文的特藏資源揭示研究:以方志數(shù)據(jù)庫(kù)建設(shè)為例[J].圖書館,2019(6):100-105.
[20] 劉寧?kù)o,劉音,王莫言,等.數(shù)字人文視角下學(xué)術(shù)名人知識(shí)模型構(gòu)建研究:以李政道數(shù)字資源中心為例[J].圖書情報(bào)工作,2019,63(23):113-121.
[21] 牛力,高晨翔,劉力超,等.層次與空間:數(shù)字記憶視角下名人檔案的價(jià)值挖掘研究[J].檔案學(xué)研究,2021(5):138-144.
[22] 孫鳴蕾,房小可,陳忻.數(shù)字人文視角下名人檔案知識(shí)圖譜構(gòu)建研究:以作家檔案為例[J].山西檔案,2020(6):79-88.
[23] 宋雪雁,鐘文敏.數(shù)字人文視角下《譚延闿日記》人物關(guān)系挖掘及可視化研究[J].情報(bào)科學(xué),2022,40(6):25-35.
[24] 李惠,侯君明,陳濤,等.星漢窈渺——書信網(wǎng)絡(luò)中蘊(yùn)藏的人際關(guān)系挖掘[J].圖書館雜志,2020,39(5):86-92,80.
[25] Darwin Correspondence Project[EB/OL].[2022-09-02].http://www.darwinproject.ac.uk/.
[26] The Newton Project[EB/OL].[2022-03-01].http://www.newtonproject.ox.ac.uk.
[27] 劉煒,謝蓉,張磊,等.面向人文研究的國(guó)家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[J].中國(guó)圖書館學(xué)報(bào),2016,42(5):29-39.
[28] 夏翠娟.中國(guó)歷史地理數(shù)據(jù)在圖書館數(shù)字人文項(xiàng)目中的開放應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2017,43(2):40-53.
[29] 王軍.從人文計(jì)算到可視化——數(shù)字人文的發(fā)展脈絡(luò)梳理[EB/OL].(2020-05-10)[2023-07-10].https://m.sohu.com/a/394279713_786014.
[30] 秦量.上海孫中山宋慶齡文物圖錄[M].上海:上海辭書出版社,2005:64.
[31] 葉建華.心靈的鏡子 寶貴的遺產(chǎn)——《宋慶齡書信集》評(píng)介[J].今日中國(guó)(中文版),2001(5):10-11.
[32] 曾蕾,譚旭.數(shù)據(jù)的語(yǔ)義增強(qiáng)——解讀圖檔博支持?jǐn)?shù)字人文的新動(dòng)向[J].數(shù)字人文研究,2021,1(1):65-86.
[33] 歐陽(yáng)劍,梁珠芳,任樹懷.大規(guī)模中國(guó)歷代存世典籍知識(shí)圖譜構(gòu)建研究[J].圖書情報(bào)工作,2021,65(5):126-135.
[34] 國(guó)家圖書館《中國(guó)圖書館分類法》編輯委員會(huì).中國(guó)圖書館分類法:第五版[M].北京:國(guó)家圖書館出版社,2010.
作者簡(jiǎn)介:王靜,通訊作者,上海圖書館館員,研究方向?yàn)橹R(shí)組織與知識(shí)發(fā)現(xiàn)、數(shù)字人文;朱蓓琳,上海圖書館館員,研究方向?yàn)橹R(shí)組織與知識(shí)挖掘;姜鵬,上海圖書館,工程師,研究方向?yàn)橹袌D分類、數(shù)字人文。
收稿日期:2024-03-18本文責(zé)編:王曉琳
本文系上海圖書館青年揚(yáng)帆計(jì)劃專項(xiàng)“名人文獻(xiàn)的數(shù)字人文場(chǎng)景構(gòu)建——以宋慶齡為例”的研究成果之一,榮獲2023年中國(guó)數(shù)字人文年會(huì)(CDH2023)優(yōu)秀論文。