

摘 要:隨著《地方志工作條例》的頒布,地方志工作從傳統(tǒng)方志向數(shù)字方志轉(zhuǎn)型,但數(shù)字方志不應(yīng)僅停留在掃描存檔、文本識(shí)別階段,而應(yīng)實(shí)現(xiàn)從“數(shù)據(jù)化”向“知識(shí)化”的過渡,將技術(shù)融入學(xué)術(shù)研究,通過對(duì)數(shù)據(jù)的歸納與整理,發(fā)揮語義提取、信息挖掘、建立關(guān)聯(lián)、文本分析等功能。文章以《中國(guó)天津通鑒》為例,從數(shù)字人文視角對(duì)地方志的研究路徑進(jìn)行了探索,以期找尋更豐富、更有價(jià)值的線索,為地方志工作的持續(xù)開展提供參考和借鑒。
關(guān)鍵詞:數(shù)字人文;可視化展示;文本分析;智慧數(shù)據(jù)庫
中圖分類號(hào):G250 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2024)07-0086-04
便攜移動(dòng)設(shè)備等數(shù)字媒介的更新?lián)Q代改變了資料儲(chǔ)存、查閱及傳播方式。相關(guān)調(diào)查結(jié)果顯示,我國(guó)成年國(guó)民數(shù)字化閱讀(網(wǎng)絡(luò)、手機(jī)、電子閱讀器等)方式的接觸率為68.2%[1],數(shù)字化閱讀已成為民眾獲取知識(shí)信息的重要方式,相關(guān)部門應(yīng)積極利用信息技術(shù),推動(dòng)志書閱讀方式與搜索方式的轉(zhuǎn)變升級(jí)。
1 《中國(guó)天津通鑒》研究路徑分析
《中國(guó)天津通鑒》內(nèi)容上始于公元1404年,下至2004年,分上下兩卷。上卷以天津的自然地理環(huán)境及明清時(shí)期的重要?dú)v史文獻(xiàn)為主,下卷以1979—2000年天津黨派政務(wù)、政法軍事、工農(nóng)商等行業(yè)發(fā)生的重大事件、民風(fēng)民俗的演變等為主,詳細(xì)記載了2004年之前天津城市變遷演進(jìn)的脈絡(luò)[2]。作為研究天津歷史的重要史料,《中國(guó)天津通鑒》的數(shù)字化具有重要意義,其承載的歷史細(xì)節(jié)能為天津歷史的研究帶來新的論題。
1.1 可視化展示
志書最早的形式是輿圖與說明文字相結(jié)合的圖經(jīng),后來方志記敘的重點(diǎn)從地理情況延展到社會(huì)的眾多方面,兼史、地之長(zhǎng)。《中國(guó)天津通鑒》上卷以自然地理環(huán)境開篇,囊括了天津的地理位置、地質(zhì)構(gòu)造、海河水系等形成歷史,受紙質(zhì)版條件的限制,這類動(dòng)態(tài)的地理演變僅能以文字形式呈現(xiàn)。
在編輯電子版時(shí),一方面,地方志研究機(jī)構(gòu)可與天津市地質(zhì)資料信息服務(wù)平臺(tái)建立共享關(guān)系,直接插入或鏈接平臺(tái)內(nèi)對(duì)應(yīng)的基巖地質(zhì)圖、第四紀(jì)地質(zhì)圖等圖片及地質(zhì)模型,建立古今地理時(shí)空對(duì)位系統(tǒng),豐富資料呈現(xiàn)形式;另一方面,地方志研究機(jī)構(gòu)可借助GIS技術(shù),對(duì)空間信息進(jìn)行分析處理,通過基礎(chǔ)數(shù)據(jù)生成虛擬的三維示意圖,演示地形或河流水系的變化,如:“第一種是地理實(shí)體本身的變化”[3],即地理實(shí)體的出現(xiàn)與消失、融合與拆分,“第二種是地理實(shí)體的位置或者幾何形態(tài)的變化”[4],即其發(fā)生運(yùn)動(dòng)的過程。隨著地理實(shí)體的變化,某些相關(guān)屬性也發(fā)生改變,如城市名稱、面積及人口數(shù)量等,地方志研究機(jī)構(gòu)可將這些抽象的測(cè)繪數(shù)據(jù)及相關(guān)屬性信息制作成圖表或圖像,以圖表或圖像的形式揭示文本內(nèi)在聯(lián)系。
創(chuàng)建時(shí)間軸能有效地將過去的事物系統(tǒng)化、完整化,地方志研究機(jī)構(gòu)可依據(jù)時(shí)間順序,對(duì)相關(guān)事件進(jìn)行歸類和排序,輔以視頻片段、圖像或聲音,形成相對(duì)完整的記錄體系。例如,《中國(guó)天津通鑒》中“氣候?yàn)?zāi)害”一章,將不同災(zāi)害分類記敘,脈絡(luò)分明,在電子版中插入時(shí)間點(diǎn)數(shù)軸,將全部災(zāi)害事件按時(shí)間順序統(tǒng)一排列,能揭示更多信息。1933—1936年,天津連旱4年,禾苗枯槁、寸草不生,1937年洪水又接踵而至,這種情況分開記錄或許不如時(shí)間軸更能凸顯天津當(dāng)時(shí)旱澇交替與旱澇并重的規(guī)律與特點(diǎn)。除局部的比較分析外,時(shí)間軸的方向性也更能反映出災(zāi)害階段性的演變規(guī)律,如:天津旱澇災(zāi)害的頻率超過其他災(zāi)害,20世紀(jì)旱災(zāi)、澇災(zāi)發(fā)生時(shí)間比較接近,20世紀(jì)80年代以來旱災(zāi)呈增長(zhǎng)趨勢(shì)。同時(shí),地方志研究機(jī)構(gòu)利用時(shí)間數(shù)軸,可建立視頻與音頻通道,插入歷史事件的影像素材,使平鋪直敘的文字變得有聲有色。
1.2 文本分析
文本分析是指通過對(duì)文本內(nèi)部特征的提取,獲取隱含的語義信息或概括性主題,產(chǎn)生高質(zhì)量的結(jié)構(gòu)化信息。文本分析法主要包括詞頻分析、文本挖掘、主題分析和關(guān)系提取等。
字詞的重要性與其在當(dāng)前文檔中出現(xiàn)的次數(shù)成正比,地方志研究機(jī)構(gòu)通過詞頻統(tǒng)計(jì),可找出文本隱藏的線索。例如,“明以前天津地區(qū)的建置沿革”章節(jié)主要講述了天津地區(qū)兼具河、海匯輸之便,以航運(yùn)樞紐的身份開始孕育雛形,形成“屏藩羽翼京師”的重要地位。該章節(jié)共有22段,雖然“樞紐”為本節(jié)中心(出現(xiàn)2次),但“樞紐”“航運(yùn)”“海運(yùn)”“漕運(yùn)”幾個(gè)詞語共出現(xiàn)13次,“鹽”一詞出現(xiàn)23次,表明早期天津的發(fā)展與鹽業(yè)的興盛息息相關(guān)、相倚為強(qiáng)。數(shù)字技術(shù)提供了一種新的研究工具,“新”指的是“技術(shù)本質(zhì)意義上的新,能夠揭示出文本對(duì)象新的內(nèi)在關(guān)聯(lián)”[5],并找到理性的確證。
文本挖掘的關(guān)鍵在于分詞,摘取事件中人物、時(shí)間與地點(diǎn)等要素,從不同角度和層次對(duì)信息進(jìn)行分解與整序,“制作人物關(guān)系網(wǎng)和行跡,統(tǒng)計(jì)時(shí)間空間場(chǎng)景關(guān)聯(lián)度……立足數(shù)據(jù)分析的新型志書或?qū)⒕邆涓Ⅲw的文本表達(dá)”[6]。將正文中人物有關(guān)事件進(jìn)行摘取,以編年體的形式統(tǒng)一羅列,能夠發(fā)現(xiàn)人物結(jié)識(shí)的契機(jī)、人物關(guān)系的交叉點(diǎn),甚至是人物之間的矛盾點(diǎn)。以《中國(guó)天津通鑒》中的嚴(yán)修和張伯苓為例,1898年戊戌變法失敗,嚴(yán)修辭職返鄉(xiāng),合并京津兩地家塾,力求革新封建教育,推動(dòng)中國(guó)改革,而此時(shí),張伯苓經(jīng)甲午敗績(jī),認(rèn)為海軍報(bào)國(guó)無望,深感“自強(qiáng)之道,端在教育”,兩個(gè)失意之人因此機(jī)緣共同走上艱難的辦學(xué)之路。嚴(yán)氏家塾的創(chuàng)辦讓張伯苓得到實(shí)踐教育理想的機(jī)會(huì),之后民立第一小學(xué)及私立第一中學(xué)堂的創(chuàng)立,使兩人更加志同道合、惺惺相惜。他們共赴日、美,考察學(xué)校及教育制度,一起建立了南開大學(xué)。兩個(gè)人的信息脈絡(luò)較簡(jiǎn)單,地方志研究機(jī)構(gòu)可借助計(jì)算機(jī)技術(shù),挖掘更多歷史人物及事件,構(gòu)建涵蓋面更廣、信息點(diǎn)更豐富的人物關(guān)系網(wǎng)。
主題分析是文本分析的一種方法,即通過計(jì)算機(jī)算法,“從文獻(xiàn)所包含的所有主題出發(fā),分析出構(gòu)成主題的各個(gè)要素……依主題因素性質(zhì)歸類”[7],從而將文本轉(zhuǎn)化為更易于分析的形式。在“明清時(shí)期”章節(jié)中,正文按照時(shí)間順序?qū)⑴c天津相關(guān)的重大歷史事件逐一記錄,挖掘相應(yīng)的主題詞匯,能夠縱深分析事件的因果關(guān)系。以“漕糧”為例,天津運(yùn)河是漕糧抵達(dá)京師的要道,漕糧運(yùn)輸方式的改變對(duì)天津的發(fā)展具有重要作用。如表1所示,以“漕糧”為主題視角,雖然每個(gè)歷史事件不是孤立存在的,但在標(biāo)記提取之后,其中的起因、經(jīng)過、結(jié)果一目了然,為讀者了解這一時(shí)期漕運(yùn)制度及方式變遷的整個(gè)過程提供了便利。1412年,會(huì)通河疏浚,京杭大運(yùn)河全線貫通,漕運(yùn)南糧改以河運(yùn)為主,開創(chuàng)“支運(yùn)法”;為提高效率,改行“兌運(yùn)法”,明廷每年北調(diào)南糧的數(shù)量急劇增長(zhǎng),天津漕運(yùn)稅款成為朝廷收入之大宗,于是在天津衛(wèi)城設(shè)立戶部分司,職掌漕運(yùn)的稅收事務(wù);明崇禎年間,清兵攻入寶坻,運(yùn)河線路受阻,明廷意識(shí)到海運(yùn)的必要性,開始恢復(fù)漕糧海運(yùn);清道光年間,北運(yùn)河決口,河道時(shí)遇洪水,清政府試圖以海運(yùn)取代河漕,重開海上漕運(yùn)。
1.3 智慧數(shù)據(jù)庫
地方志數(shù)據(jù)庫的構(gòu)建為讀者檢索和獲取資料提供了便利,但“資料庫還僅僅停留在‘Big Data’(大數(shù)據(jù))而不是結(jié)構(gòu)化的‘Smart Data’(智慧數(shù)據(jù))局面”。地方志研究機(jī)構(gòu)須依托數(shù)字技術(shù)與文本分析法,打造文本分析與圖像分析平臺(tái),開發(fā)文本標(biāo)記、詞頻統(tǒng)計(jì)、時(shí)空資料整合分析、圖像比對(duì)等功能,對(duì)標(biāo)記出的人物、時(shí)間、地點(diǎn)、社會(huì)關(guān)系等進(jìn)行編碼,將方志資源轉(zhuǎn)化成關(guān)系型數(shù)據(jù)庫。
關(guān)系型數(shù)據(jù)庫以行和列的方式存儲(chǔ)數(shù)據(jù),橫版表格中的一行被稱為記錄,視為元組,一列被稱為字段,視為屬性,豎向表格反之,在定義好每個(gè)字段及表的結(jié)構(gòu)后,搭建結(jié)構(gòu)化的二維表格模型。知識(shí)結(jié)構(gòu)化是知識(shí)智能化研究的重要方法,即“將一個(gè)領(lǐng)域內(nèi)的各個(gè)類型的知識(shí)依據(jù)所設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)與計(jì)算機(jī)學(xué)科相融合”[8],以發(fā)現(xiàn)更多新問題。如表2所示,筆者基于近代天津“時(shí)間第一”的概念,即在中國(guó)出現(xiàn)最早之意,對(duì)《中國(guó)天津通鑒》中的素材進(jìn)行標(biāo)記,重組篩選后的歷史事件,將數(shù)據(jù)儲(chǔ)存在同一屬性中,如“軍事”“郵政通訊”“工業(yè)”等,建立事與事之間的聯(lián)系,搭建了關(guān)系模型。內(nèi)容既可相互佐證,也可相互補(bǔ)充。關(guān)系型數(shù)據(jù)庫還具備縱向擴(kuò)展能力,使內(nèi)容更豐富,數(shù)據(jù)更完整。因篇幅限制,筆者僅列舉部分內(nèi)容以作說明,有待補(bǔ)充。
2 數(shù)字人文背景下地方志數(shù)字化的實(shí)現(xiàn)要素
2.1 資源整合
“方志乃一方全史”,分門別類地記述了一個(gè)地方從自然地理到社會(huì)歷史、風(fēng)俗、教育、物產(chǎn)、人物等方面的歷史和現(xiàn)狀。地方志研究機(jī)構(gòu)需要加強(qiáng)與專業(yè)社會(huì)組織、高校研究機(jī)構(gòu)的合作,拓寬志書的資料供給渠道,解決部分資料短缺的難題。地方志研究機(jī)構(gòu)可引入云計(jì)算、大數(shù)據(jù)等先進(jìn)技術(shù),打造開放式的地方志網(wǎng)絡(luò)平臺(tái),“提供基于互聯(lián)網(wǎng)環(huán)境的數(shù)字化內(nèi)容生產(chǎn)系統(tǒng),滿足內(nèi)部編輯、外部作者、合作機(jī)構(gòu)、新媒體讀者等不同角色之間跨地域、跨終端的協(xié)同工作需求”[9]。地方志編撰的過程是資源整合的過程,因此,地方志研究機(jī)構(gòu)可搭建跨界云平臺(tái),將各部門及學(xué)會(huì)協(xié)會(huì)等單位的數(shù)據(jù)資源統(tǒng)一存儲(chǔ)到互聯(lián)網(wǎng)云端,以便隨時(shí)調(diào)用參考;與其他機(jī)構(gòu)共建平臺(tái),為各組稿單位在線編輯稿件提供便利,以實(shí)現(xiàn)跨網(wǎng)站數(shù)據(jù)訪問、數(shù)據(jù)遷移,保持?jǐn)?shù)據(jù)的一致性;通過線上征稿與投稿等方式,拓寬地方志資料獲取渠道,制定編撰規(guī)則,設(shè)計(jì)條目模板,建立行之有效的質(zhì)量管控機(jī)制或?qū)彶轵?yàn)收機(jī)制。
2.2 技術(shù)賦能
許多地方的地情信息系統(tǒng)已正式上線,成為具有存史、資政、育人功能的地方智庫,而要提供更智慧的檢索功能和更準(zhǔn)確的分析數(shù)據(jù),就需要借助先進(jìn)的數(shù)字技術(shù)。地方志研究機(jī)構(gòu)可基于計(jì)算機(jī)圖形技術(shù)與可視化技術(shù),利用增強(qiáng)現(xiàn)實(shí)技術(shù)生成一種逼真的虛擬環(huán)境,“在視覺驅(qū)動(dòng)的敘述中添加數(shù)據(jù)等多類別語義信息并指向關(guān)鍵特征與元素,為特定區(qū)域提供更多解釋闡述”[10],將志書內(nèi)容從平面轉(zhuǎn)為立體,豐富志書表達(dá)形式。地方志數(shù)字化不僅僅是將志書內(nèi)容轉(zhuǎn)變?yōu)镻DF格式,而是要打通志書之間的壁壘,建立一脈相通的數(shù)據(jù)庫,擴(kuò)大查詢范圍。基于此,地方志研究機(jī)構(gòu)可利用關(guān)鍵詞標(biāo)記與抽取、段落篩選等方法,發(fā)現(xiàn)詞匯的位置特征與統(tǒng)計(jì)特征,了解詞頻、詞性、詞跨度等信息;利用智能關(guān)聯(lián)與語義分析技術(shù),理解多文本節(jié)點(diǎn)之間的信息交流,為知識(shí)推理與分析提供結(jié)構(gòu)與框架;利用數(shù)字技術(shù),打造“掌上志書”平臺(tái),將地情資料的數(shù)字化開發(fā)利用成果展示給大眾,以實(shí)現(xiàn)地方志的開放與便捷化使用。技術(shù)賦能使志書的閱讀方式、搜索方式及利用模式不斷更新升級(jí),地方志研究機(jī)構(gòu)要關(guān)注最新的數(shù)字技術(shù),推動(dòng)志書的數(shù)字化開發(fā)利用,以實(shí)現(xiàn)人文學(xué)科與數(shù)字技術(shù)的跨界融合。
2.3 人員支撐
調(diào)查結(jié)果顯示,天津各區(qū)地方志部門一般由具備文史專業(yè)背景和工作經(jīng)驗(yàn)的人員構(gòu)成,缺少數(shù)字化相關(guān)專業(yè)的人員;天津地區(qū)每部年鑒的專職編輯人員為3~5人,《天津開發(fā)區(qū)年鑒》擁有具備地方志專業(yè)與計(jì)算機(jī)專業(yè)知識(shí)的人員,《天津科技年鑒》依托科技局建設(shè)完成“天津科技年鑒在線編纂系統(tǒng)平臺(tái)”,而其他年鑒仍以人工收稿、組稿為主要形式。由此可見,志書成果的數(shù)字化工作離不開具備信息開發(fā)能力及地方志專業(yè)知識(shí)的綜合型人才。數(shù)字人文并不是要將方志學(xué)者變成數(shù)字技術(shù)人員,而是要求方志學(xué)者掌握一定的數(shù)字技術(shù)。方志學(xué)者可針對(duì)研究題目與問題,快速從海量的文本中找到對(duì)應(yīng)信息,試圖從原有的理解中產(chǎn)生新的認(rèn)識(shí)。但是,“技術(shù)是被動(dòng)的,是人的延伸……其能幫助人解放數(shù)據(jù)構(gòu)建的體力,但不能代替人的審美和感知”[11],數(shù)字人文有計(jì)算機(jī)的助力,但核心仍在于研究人員的人文素養(yǎng)與思考能力。數(shù)字人文倡導(dǎo)合作理念,技術(shù)人員負(fù)責(zé)文本信息的開發(fā)、提取與挖掘,形成知識(shí)關(guān)聯(lián),促進(jìn)信息聚合,而方志學(xué)者負(fù)責(zé)提出研究問題,發(fā)現(xiàn)隱含信息,找尋研究線索,以實(shí)現(xiàn)地方志資源的深層次開發(fā)。
3 結(jié)語
地方志書保存地方史料,歸類地情信息,不間斷地進(jìn)行記述,形成了分層次、貫通式的縱向信息流,是具有重要價(jià)值的文字信息載體。數(shù)字人文視角為地方志資源的開發(fā)利用提供了新思路:文本分析能將非結(jié)構(gòu)化的文本轉(zhuǎn)換為有意義的數(shù)據(jù),促進(jìn)深層次研究;智慧數(shù)據(jù)庫的建立能帶動(dòng)資源的共建共享,擴(kuò)大檢索范圍,高效篩選出有用信息;可視化技術(shù)有利于立體方志的構(gòu)建,技術(shù)賦能使地方志資源具備更多動(dòng)能。地方志研究機(jī)構(gòu)作為歷史性資料與時(shí)代接軌的推動(dòng)者,要積極推動(dòng)數(shù)字人文與地方志的融合,時(shí)刻關(guān)注數(shù)字技術(shù)在人文社科領(lǐng)域的最新應(yīng)用,優(yōu)化人員結(jié)構(gòu),建立長(zhǎng)效的人才培養(yǎng)機(jī)制,培養(yǎng)綜合型人才,推動(dòng)地方志資源開發(fā)利用工作的高效開展。
參考文獻(xiàn):
[1] 天津市區(qū)縣志書數(shù)字化組稿與應(yīng)用分析[EB/OL].[2024-05-10].https://www.tjdag.gov.cn/fz_tjdfz/fzyd/llyj/details/1596620463433.html.
[2] 天津市地方志編修委員會(huì).中國(guó)天津通鑒[M].北京:中國(guó)青年出版社,2005:9.
[3][4] 徐蒙蒙.地方志時(shí)空數(shù)據(jù)組織與應(yīng)用[D].南京:南京師范大學(xué),2014.
[5] 楊慶峰.數(shù)字人文的方法理解及其反思[J].數(shù)字人文研究,2021(4):3-10.
[6] 徐鵬.第二輪修志的實(shí)踐檢視與進(jìn)路思考:以浙江市縣志書編纂為例[J].中國(guó)地方志,2023(1):4-14.
[7] 劉延章.關(guān)于文獻(xiàn)主題分析的幾種方法:文獻(xiàn)分類基本方法探討之二[J].河南圖書館學(xué)刊,1989(2):9-11.
[8] 姜宗林,李志軍,顧海軍.融合知識(shí)表示的關(guān)系型數(shù)據(jù)庫操作框架[J].計(jì)算機(jī)科學(xué),2022(S2):280-288.
[9] 王玥.芻議特殊時(shí)期傳統(tǒng)出版企業(yè)融合發(fā)展的數(shù)字化變革[J].科技論壇,2020(4):184-185.
[10] 邵澍赟.檔案編研出版中增強(qiáng)現(xiàn)實(shí)技術(shù)的應(yīng)用場(chǎng)景與路徑探究[J].檔案與建設(shè),2022(12):36-39.
[11] 包平,陳佳勇,左亮.基于數(shù)字人文的方志物產(chǎn)知識(shí)庫實(shí)踐與思考[J].南京師范大學(xué)文學(xué)院學(xué)報(bào),2023(1):44-52.
(編校:孫新梅)