摘 要 隨著信息科技與數位人文研究的發展,過去僅提供古籍文本掃描影像及詮釋資料檢索的系統已無法滿足研究者與使用者的需求。為尋求古籍數位新的定位與價值,論文以“通用型古籍數位人文研究平臺”為例,介紹了該平臺以明人文集全文轉換成文本內容為契機,通過對各種統計分析、信息視覺、斷詞標注等工具的開發,輔助研究者從多元化角度發掘研究問題。該平臺所建構的古籍全文資料環境,不僅可藉由量的文本分析、資料探勘工具,擴大學者的研究視野,并促進一般大眾對古籍價值的認識與學習,同時藉由使用者標注評分等友善互動界面,達成資料提供者、平臺構建者、使用者合作挖掘古籍內容多元價值的目的。
關鍵詞 古籍 數位人文 數位加值
分類號 G250.78
DOI 10.16810/j.cnki.1672-514X.2019.02.006
Abstract With the development of information technology and digital humanity research, the old system which only provides scan images of ancient books and retrieval of explanatory documents cannot keep up with researchers and users demands. In order to explore new orientation and value of ancient books digitization, this paper investigates the universal digital humanity research platform of ancient books and introduces how the platform helps researchers find and research problems from different angles by introducing the process of converting Ming dynasty collected works and developing tools including statistical analysis, information visualization, words label and so on. The full texts of ancient books environment built by the platform could expand research horizon of researchers and promote normal peoples learning and recognition of ancient books by text analysis and material exploring tools. Moreover, through using interactive interface such as users rating system, the cooperation research on ancient books among material providers, platform constructors and users can be realized.
Keywords Ancient books. Digital humanity. Digital value-added.
0 引言
數位典藏技術的運用,為古籍資源的永續保存與整理利用開啟了前所未有的契機,而網絡無邊界的傳播特性,也為古籍資源的開放共享與廣泛傳播奠定了堅實的基礎,并在“藏”與“用”之間搭建起橋梁。然而,隨著數位科技日新月異的發展,數位技術逐步滲透到人文研究的各個領域,數位人文研究因之興起,在這股新的研究潮流下,用戶對古籍資源的整理與開發也有了新的需求與時代思維。
當前,我們若僅靜態提供古籍文本掃描影像及詮釋資料檢索的系統,將無法滿足眾多研究者的專業需要與一般使用者的文化需求。人文學者對于古籍的使用,不再只限于對文本內容的大量閱讀[1],他們期望“數位數據庫不應只是被動應對檢索的關鍵詞,它還應該積極地揣測需要,并提供相關的文本或分析,以便對于其研究有所助益”[2]。古籍文本內容能被更靈活搜索,且能提供符合個人需要的詮釋、比對、分析等功能的需求,也使得古籍數位應用在支撐知識服務上“不再拘泥于傳統數位數據庫常見的單一關鍵詞檢索,而是要跳脫出窠臼,透過數字化數據庫優越于紙本的靈活性和穿透力,為研究者提供多種觀察、比較、分析、類比文本的視野,以達到更強大的、輔助研究工作的功能”[2]。
此外,隨著數位工具的開發,諸如“關聯式數據庫(Relational Database)”“地理信息系統(Geographical Information System, GIS)”“社會網絡分析(Social Network Analysis, SNA )”“文本標記(Text Tagging)”“文本分析(Text Analysis)”等功能的廣泛運用,對于文獻資料的整理、解析或視覺化呈現,不僅開啟了人文研究的新視野,也將連帶地改變古籍知識的獲取、標注、闡釋與表現的方式[3-4],有助于實現古籍資源的深度分析、價值挖掘與增值研究。
針對未來以數位人文為思維導向的使用者需求,筆者所在圖書館于2018年6月與政治大學社會科學資料中心(簡稱政大社資中心)開始合作,以筆者所在圖書館豐沛的古籍數位典藏成果為基礎,結合政治大學數位人文技術,開發建置“通用型古籍數位人文研究平臺”(http://ming.ncl.edu.tw/),以期通過支援數位人文之研究,發掘古籍數位加值,創新應用成果,并以科普化界面推廣讓全民認識古籍之價值。
本文將以“通用型古籍數位人文研究平臺”的建置為例,介紹該平臺藉由明人文集全文轉換為文本內容,透過全文檢索、斷詞標注、各種統計分析、信息視覺等工具的開發,輔助使用者由多樣角度發掘研究問題。
1 平臺建置緣起與架構規劃
1.1 建置緣起
筆者所在圖書館(以下簡稱“本館”) 以豐富的古籍特藏聞名于世,多年來致力于古籍數字化與加值推廣,并期待隨著科技發展的與時俱進,發掘古籍在數位時代的新定位,創新古籍數位應用之成果。
“通用型古籍數位人文研究平臺”計劃奠基于本館多年來古籍數字化之豐碩成果,優先擇取本館特藏文獻中最具代表性之明人文集為文本進行數位人文研究平臺的開發,以提供人文研究知識服務。本館館藏明人文集共有1497種,含別集1415種與總集82種。該批明人文集多為四庫未收本,文集所涵蓋的時代長、地域廣、種類豐富,作者及刻校者、出版者亦深具時代代表性,能反映出明代之印刷史、版本史、思想史、文人及仕宦階段之社會網絡,為本館傲居世界之特色館藏。該批文集迄今已掃描完成之影像檔逾1100種,相關數字化作業仍在持續進行中。
“通用型古籍數位人文研究平臺”之建置有別于以往與商業廠商合作建置之模式,是由本館與臺灣知名學術機構政大社資中心合作,結合該中心的研發力量與信息處理技術,與之協力共同建置的一個既符合當代人文學者研究需求,又能提供大眾古籍內容分析運用的數位人文研究平臺。
政大社資中心與該校圖書信息與檔案學研究所為臺灣知名圖情人才培育單位,具有專業的資料處理、組織、使用分析能力。在合作方式上,由本館負責文集挑選、后設資料及影像檔提供,以及平臺架構之人文研究視角切入,以研究者觀點提供平臺各項功能設計具體建議。政大社資中心則負責全文建置與匯入、系統開發、程序設計與各項數位人文工具套用。整體而言,本平臺之開發乃著重發展實驗性功能與使用者經驗反饋之數位人文研究工具,透過工具性分析與輔助,幫助學者從宏觀與多樣角度拓展研究觀察的視野。本次計劃的執行也為該校相關系所學生提供了參與的機會,強化了系所的教學與研究能力。
1.2 架構規劃
平臺之架構由數位人文平臺系統功能建置及全文資料轉換與導入兩大部分組成,分述如下[5]。
1.2.1 數位人文平臺系統建置
數位人文平臺中,除包含全文數據庫平臺系統,以提供數位資料的典藏、查詢與在線閱讀功能外,也包含了數位資料整理及數位研究分析等的工具開發,總體規劃架構如圖1所示。
(1) 建立包含全文數據庫之數位典藏系統,使其具備承載全文及后設資料功能,提供完善的資料瀏覽、檢索、檢索后分類等查詢功能,以及全文文本與掃描影像的對照閱讀環境。(2) 開發通用性數位人文研究工具,在數位資料整理層面,以公開的人名、地名、官職名、年號等詞庫,進行文本中對應詞匯的標記與調整,形成全文半自動標記系統,同時可通過API連接查詢解釋專有名詞等外部參考資源,如中國歷代人物傳記數據庫(China Biographical Database Project, CBDB)、中國歷史地理信息系統(China Historical GIS, CHGIS)等公開詞匯工具。(3) 加入合作標注系統之概念,讓人文學者能對文本加注個人的解釋及補充資料,并可進行合作資料解讀與討論辨證。(4) 在數位研究分析層面,提供統計分析、量化計算、視覺化呈現及社會網絡等數位人文計算與可視化工具,并進一步納入使用記錄,以供分析使用者在系統中調取使用資源查看。
圖1 “通用型古籍數位人文研究平臺”規劃架構
1.2.2 全文資料轉換與導入
根據過往明人文集著作之研究主題與內容取向,優先選擇具有研究需求與使用族群之文本進行全文轉換,同時規劃數位影像轉換全文之作業流程與規范。在全文轉換作業上,由于古籍全文辨識問題復雜度高,故兼采取光學文字辨識(Optical Character Recognition, OCR)、人工輸入校正等彈性交叉運用方式。在文本的選擇原則上,主要有以下考量:(1) 分析已發表之明人研究論著內容,找出過往研究探討之文集名稱、研究議題;(2) 探詢明人研究學者認為重要的主題與文本作為優先轉換的全文標的;(3) 網絡或數據庫已有載錄部分或完整全文的明人文集,如已有前人使用記錄,亦為優先考量因素。
2 平臺功能
“通用型古籍數位人文研究平臺”于2017年完成第一階段系統基礎開發,此階段著重系統規劃與研究工具之功能開發,并就本館館藏之明人文集數位資料進行整理與圖文轉換,目前共完成70部273冊明人文集之全文轉換與影像匯入,并持續充實中。
系統規劃上選擇以Dspace系統為建置平臺,以此導入明人文集古籍數字化成果,于此平臺進行全文典藏、后設資料建置、全文檢索、檢索后分類等基本功能開發。此階段就平臺風格設計、圖文界面配置等進行使用者訪談,搜集研究者研究需求與界面呈現之可接受方式,經多方嘗試與調整后,擇定以左圖右文、同步卷動方式呈現圖文。實驗性功能開發包含自動斷詞技術、文本標注功能、社會網絡分析等,并提供使用者經驗反饋機制,期待數位人文研究工具的導入,建構古籍全文數位人文資料環境。各項功能分述如下[5]。
2.1 數位資料提供
2.1.1 詳細后設資料
為便于使用者獲取古籍詳細信息,縮短瀏覽、研究時間,除基本的題名、作者、版本、出版信息與外部形體特征的稽核項外,尚有序跋、落款、印記、版本行款等詳細記載古籍特征的后設資料。
2.1.2 圖文顯示界面
平臺采用掃描圖檔與文集全文共同顯示的圖文界面,提供同時閱覽。使用者可利用字體大小與圖片大小的調整功能,隨著顯示熒幕尺寸與使用需求自行調整字體大小與圖片大小,以方便瀏覽閱讀。此外,此圖文顯示界面亦擁有文集目錄功能,可讓使用者文集的整體架構,并且搭配超鏈接功能,可迅速閱讀點選的章節。使用者除可以通過掃描圖檔瀏覽文集版式、字型等原本的樣貌,并搭配平臺系統所提供的刻工、印記、牌記、序跋與裝訂等后設資料相互參照研究版本學外,亦可搭配以現代字體呈現的全文,加速了解文集內容,且搭配全文檢索功能迅速查找所需內容,以達到更有效地利用明人文集的目的。
2.1.3 全文檢索及檢索后分類
平臺提供全文檢索功能,提高典藏資料之使用率,同時提供作者及年代之分類功能,幫助使用者快速了解檢索結果的資料分布概況。此外,也提供“雙關鍵字”檢索功能,方便使用者比對兩組關鍵字,展示明人文集中的分布差異。
2.2 數位資料整理
2.2.1 標注系統
平臺提供已轉換之全文基本詞匯斷詞與自動標注功能,使用者可就單部文集自動標注結果,藉由“關聯數據”(Linked Data) 的方法連接至CBDB萌典、TGAZ、維基百科等外部參考資源,查詢各在線工具對文集中已標注之字詞、專有名詞內容釋義或地理信息等進行自動注解,以方便實時參照其他數據庫資源,在短時間內了解文本內容,并設計友好的標注閱讀界面,以方便資料解讀。此外,使用者可根據標注詞在各在線工具的釋義內容進行判斷后,通過簡單的點擊方式反饋給平臺,提高該詞匯在特定外部參考資源中顯示順序之權重,以實現增加使用者合作標注,自行編定知識結構等互動功能。
以《平橋詩藳》 的目次斷詞為例,系統斷詞后自動標注出“草堂”一詞,并提供萌典、CBDB及英漢字典等三種在線工具對該詞的解釋鏈接,經查以萌典所釋最接近“草堂”在《平橋詩藳》 此處的用法,則使用者可于萌典釋義下點擊“有幫助”鍵,以提高“萌典”在此處的顯示順序權重,亦即在三個并列的外部參考資源中,萌典將往前排在CBDB及英漢字典之前,有利于下個查詢者直接查看最佳釋義。
2.2.2 新詞探勘
除可進行古籍全文基本詞匯斷詞外,使用者在閱讀文本的過程中,若發現未自動標注但為新詞的詞匯,可以自行將詞匯標注為新詞,此時系統會自動將詞匯新增至詞庫中,進而提高斷詞與自動標注之正確性。
2.3 數位研究分析
2.3.1 信息視覺化呈現與資料統計分析
平臺提供查詢結果信息可視化,以及資料統計分析等工具,輔助人文學者進行量化研究,并有效縮短使用者理解資料的時間。其中,包括根據不同的搜尋條件進行資料的呈現、各種統計資料的展示等。
以雙關鍵字檢索功能為例,使用者可擇取兩組有關連性的關鍵字進行查詢,比對兩組關鍵字于平臺收錄內容之分布差異,平臺提供雙關鍵字于全文檢索,結果以雙色顯示、并可連接關鍵字所在圖文頁面,可回到關鍵字所在卷次進行圖文比對閱讀。除此之外,亦提供雙關鍵字檢索結果年代分布、作者分布、文集分布等,并提供資料統計分析可視化結果。如以“梅花”和“蘭花”為雙關鍵字查詢明人文集全文,從平臺所提供的信息可視化呈現及各式資料統計來看,可發現明人喜詠“梅”多于詠“蘭”。以檢索結果年代分布來看,則詠梅之作品多集中于明嘉靖年間,學者可就此結果進一步探討是否與當時之社會背景與時代氛圍有關。
2.3.2 社會網絡關系圖
本平臺提供人物關系分析工具,以幫助使用者了解文集內之人物關系。本平臺所提供的社會網絡關系工具經多次功能升級,最新版本于2018年7月更新,正持續進行已開發文集之套用。系統根據使用者所選擇之文集進行人物社會網絡關系自動擷取,以協助使用者掌握該部文集所提及之人物關系。整體系統界面包含文集人物關系圖、全文閱讀界面、關鍵字內文搜尋與外部工具搜尋、記事本等五個部分。在文集人物關系圖中,以橘色與紫色節點標志系統判斷出的人物關系,以橘色代表使用者所選取單卷卷次提及之人物,以紫色代表其他卷人物,人物間的關系可以進行編輯(如政治關系、學術關系、家庭關系等)。
本系統亦整合人物關系圖、閱讀界面與外部查詢功能。當使用者點擊文集人物關系圖中的人物節點時,閱讀界面會提示該人物于文本中的位置,方便使用者閱讀文本,分析文本中人物彼此間的關系,同時該人物亦標注于外部工具搜尋框中,方便使用者進行查詢。
2.3.3 使用歷史記錄
平臺嵌入使用者操作歷史監控模塊,可精確且真實地記錄每位使用者的操作歷史,以此充分了解數位人文學者的瀏覽資料行為、查詢資料方法,以及資料解讀行為等細節。除有助于分析使用者行為作為協助改善平臺界面操作功能,增加平臺的可操作性(Usability) 的依據外,更有助于了解數位人文學者解讀資料的思維、方法與歷程,有助于發展更符合人文學者使用之數位人文研究平臺工具。
3 未來展望
綜上所述,“通用型古籍數位人文研究平臺”是具備信息協作機能之數據庫,除結合文史研究與數位科技運用能力,建構古籍全文資料環境外,還可作為未來學界協作發展人文研究數據庫之基礎。該平臺已完成各項系統功能之基礎開發,并持續進行內容新增,迄今累計完成70種明人文集分析,并預計于2018年再新增40種館藏明人文集,進行全文轉換與影像匯入,藉此提升該平臺內容之豐富度,使收錄文獻轉換數位全文內容質量及數量有所提升,并持續探索轉置不同版式、書寫格式之全文文本最佳模式與作業流程,方便學者藉由平臺上之各項文獻分析工具,宏觀而多角度地拓展研究觀察的視野,發掘古籍之應用價值。
未來,本系統平臺將持續新增平臺內之明人文集數量,并將所收錄之文本內容擴增至館藏其他特藏文獻。而在系統功能方面,將持續導入數位人文研究工具,增益各項系統功能,如自動斷詞技術、數位瀏覽與閱讀工具、文本標注、資料檢索、詞頻分析、資料探勘、信息視覺化、地理信息等,讓研究者整合不同領域,進行跨時段、跨地域的長期研究。期望通過大量的文本分析、資料探勘與使用者標注評分等互動,達成資料提供者、平臺建置者、使用者合作發掘古籍內容多元價值之積極目的,并反饋到研究工具功能之調整,讓平臺所提供之資料探勘功能與各項檢索反饋更趨精準有效[6]。
4 結語
信息技術與網絡科技的發展,促成數位人文研究的勃興,人文學科與數位技術的融合,為古籍資源的深度開發與研究利用注入了新的理念與創造性的思維?!巴ㄓ眯凸偶當滴蝗宋难芯科脚_”的建置,即在嘗試以“大數據”的視角,藉由數位人文的研究方法,針對古籍進行整理、斷詞、標注等處理,并采用視覺化分析方法,對古籍文本進行探勘、關聯挖掘,以期創建一個既可輔助研究者進行人文學科研究,又能兼顧一般大眾查詢與分析使用需求的數位人文平臺。雖在創建初始階段,在文本內容的累積上尚需積極擴充,并于數位工具的調整應用及平臺界面的友善設計上亦有待持續精進,但相信透過此平臺之建置與持續發展,將能在數位革命的時代延續古籍數位典藏的基礎成果,充分支援數位人文的研究,并在倡議協作與分享的理念上,為古籍數位應用的再創新提供一個可資參考的模式。
參考文獻:
[ 1 ]吳明德、黃文琪、陳世娟.人文學者使用中文古籍全文數據庫之研究[J].圖書信息學刊,2006,4(1/2):1-15.
[ 12]項潔.數位資源對于歷史學研究的意義:一個數位人文研究者的觀察[J].國史研究通訊,2014(7):4-9.
[ 3]祝平次.搭起數位與人文的橋[J].人文與社會科學簡訊,2017,19(1):85-89.
[ 4?]李明杰.數字環境下古籍整理范式的傳承與拓新[J].中國圖書館學報,2015,41(219):99-110.
[ 5?]林巧敏,陳志銘.古籍風華再現:關于古籍數位人文平臺
[ 6?]之建置[J].臺灣圖書館館刊,2016,106(1):111-132.
[ 7?]呂姿玲,莊惠茹.通用型古籍數位人文研究平臺[J].臺灣圖書館館刊,2018(156):26-27.