張攀峰 張彥斌
摘 要:傳統紙質書法古籍作品在保護、傳承方面存在諸多不便,很難滿足書法愛好者個性化閱讀需求,因此古籍數字化非常必要。古籍數字化研究內容已經從載體轉換、存儲技術升級發展到基于個性化需求的檢索。設計一套基于JPEG2000的圖像內容檢索技術,并應用于米芾書法資源數字化。具體步驟包括:以宋代書法家米芾現存最經典的書法作品為藍本,采用JPEG2000格式進行圖像數據庫存儲,并將與其相關的索引資料進行匹配并保存于資料數據庫中,將每幅書法作品相關解釋性文字信息存儲于文字數據庫中,用戶可以檢索米芾書法中任意一種字體,既可以對某一作品進行搜索,也可以對整個數據庫進行搜索,實現個性化檢索。實踐證明,利用該系統可對掃描作品數據庫所有文字進行對應檢索工作。
關鍵詞:JPEG2000格式;圖像檢索技術;古籍數字化;米芾書法
DOI:10. 11907/rjdk. 191124
中圖分類號:TP319文獻標識碼:A文章編號:1672-7800(2019)004-0115-04
0 引言
隨著數字化時代的到來,電腦、手機和移動互聯網設備在日常生活中日益普及,數字化技術對傳統書法古籍也產生了重大影響[1]:利用現代技術手段,對書法古籍進行有效整理和挖掘,發揮其對現代社會發展有益的部分;同時用戶查閱古籍的方式發生了改變,用戶可以使用移動硬盤或存儲器隨時隨地查閱互聯網資源[2]。正如學者所言:“中文古籍數字化所使用的知識和技術方法不同于傳統的古籍整理所積累的經驗和方法。它是使用計算機、語言學、學術等現代科學知識和技術。”對于古籍的屬性處理不應僅局限于文本本身(包括圖像),而對于古籍的“聲、色、味、觸覺”等方面恰恰是古籍數字化目前瓶頸和不足之處[3]。
古籍數字化是傳統與現代、古籍特點與數字技術特點的結合[4]。最初古籍數據庫檢索技術主要應用于書目數據庫,方便讀者建立館藏古籍書目檢索;而后發展至全文數據庫,將古籍資源全文錄入并轉化為電子本,可提供一種以字符為主要處理對象的查詢手段。圖像版利用掃描技術將古籍以圖像方式存入光盤,技術簡單,容易保存古籍全貌[5]。古籍原始面貌可為研究者提供豐富的有用信息,但是傳統古籍圖版數據庫不能滿足書法研究者高級個性化需求,圖片放大后會失真,不能更好地查看書法細節,無法同時檢索同一個文字的不同寫法。JPEG2000圖像文件可以在保證圖像質量前提下提供更高的壓縮比,對用戶感興趣區域進行壓縮保存,同時保證放大后的高清晰度。因此,本文利用JPEG2000圖像基于內容檢索的優勢,選取古代書法家米芾的書法作品全集作為藍本,將米芾的書法進行整理歸檔,制作米芾書法檢索系統。用戶可以通過該系統進行碑帖原圖檢索與文字個別化檢索,更加全面了解、研究米芾書法的特點。
1 圖像檢索技術發展現狀
1.1 數字存儲技術
數字存儲技術飛速發展,使許多事物數字化成為可能 [6]。目前世界各國都在積極建設數字圖書館,數字圖書館的內容不僅包含紙質圖書,還包含許多具有民族特色的、以書畫、歌曲、文物等為載體的物質或非物質人類文化。書法作品是我國民族文化最具代表性的部分,不僅記錄歷史文化、歷史事件、歷史環境、歷史人物情感及互相交往狀況,而且書法本身是一種擁有兩千多年歷史的藝術。將歷代書法書籍數字化圖像存于磁盤庫中,使書法作品擁有數字備份,從而可更好地傳承民族文化。但如何管理書法作品圖像,并提供方便、準確的書法檢索服務成為難題。
數字化存儲技術主要集中于存儲介質與存儲格式的選擇。目前古籍數字化產品存儲格式主要有文本文件格式、數據庫格式、電子書格式、超文本格式、圖片格式、多媒體格式、數字化古籍格式[7]。書法字檢索主要基于圖像檢索,傳統圖像信息檢索方法常使用文字標識符,先對所有圖像進行文字標注,再使用數據庫技術與文本信息檢索技術搜索圖像。該方法的優點在于檢索操作簡單、速度快,但存在工作量大等缺點。近年來隨著技術發展,基于內容的圖像檢索成為研究熱點,目前多數基于內容的圖像檢索技術主要是針對非壓縮格式的原始點陣數據進行的。但在實踐中,由于原始圖像數據量較大,大部分圖像均經過壓縮處理。對于壓縮格式圖像,一般需先進行解壓操作,造成大量時耗。通過挖掘圖像壓縮時的中間結果或最終碼流包含的信息,力爭在不解碼或部分解碼的情況下提取圖像內容特征,并進行相應圖像處理以縮短檢索時間,提高檢索效率。
JPEG2000是為了彌補JPEG的不足而提出的新一代靜止圖像壓縮國際標準。JPEG 2000與傳統 JPEG 最大區別在于其放棄了 JPEG 采用的以離散馀弦轉換(Discrete Cosine Transform)為主的區塊編碼方式,改用以小波轉換(Wavelet transform)為主的多解析編碼方式。小波轉換的主要目的是將影像頻率成分抽取出來。因此JPEG 2000不僅在性能上超越JPEG,而且增加和增強了可縮放性與可編輯性的特性。在高壓縮比有損壓縮的情況下,JPEG 2000的一個顯著優點是沒有JPEG壓縮中的馬賽克失真問題,所以在高清顯示重要圖片時具有獨特優勢。
1.2 古籍數字化存在的問題
書法古籍作品存世不多,且不容易保存和廣泛傳播,因此書法古籍數字化工作非常有意義。以米芾書法為例:米芾作為宋代行書四大家之一,其書法對后世影響深遠,具有很高的學習、研究與欣賞價值。因此,將米芾書法進行整理歸納,制作成米芾書法光盤,可以使后人以更便捷的方式深入、全面地學習、研究米芾書法特點,多角度欣賞米芾書法藝術。傳統書法數字化技術不能滿足用戶高清晰度觀賞字體細節和個別化檢索的需求。古籍數字化在不損傷古籍原件的同時給古籍閱讀和利用帶來了革命性改變,既不直接接觸古籍,讀者也可以檢索、瀏覽、閱讀利用古籍,挖掘古籍信息資源 [8]。本研究采用JPEG2000圖像檢索技術在中國傳統書法教學與研究中的應用作出積極探索,促進了信息技術與書法課程整合,使書法學習不僅局限于對字帖的簡單臨摹。
古籍信息采集方法主要分為兩類:①通過掃描或拍照等方式存儲古籍整體圖像信息;②對古籍版本進行文獻歸納統計 [9]。但是對于古籍作品原有整體圖像信息進行采集、加工、保存、傳播,已經不能滿足專業用戶在高清放大基礎上查看細節筆畫的需求,其次用戶無法對比查看同一文字的不同書寫。日本在書法文化保護和傳承方面做得非常好,相關研究者在原有圖像壓縮技術的基礎上,采用基于內容檢索的圖像壓縮算法,對書法進行高清晰度掃描,從而對每一個文字進行定位編碼,進行精確的數字化處理,為書法個性化檢索提供了基礎數據。本文將米芾現今存世的所有書法作品轉化為300dpi的JPEG2000格式的圖片存儲于圖片數據庫中,并附上相關資料及所有文字信息。用戶可檢索米芾書法中任何一個字體,既可以對某一作品進行搜索,也可以對整個數據庫進行搜索。搜索完畢后,可以點擊檢索結果再跳轉至所搜內容。根據當前畫面大小以最為合適的尺寸顯示圖像。
書法作品精確檢索的基礎是建立大批數據庫,需要大量人工和前期投入,書法作品初期采集工作量龐大,且比較枯燥、單調,但是對于構建書法作品數字庫的基礎數據采集工作必不可少。構建米芾書法光盤系統主要包括數據層、邏輯層和表示層等。其中數據層主要包括用于存放掃描書法原件的圖片數據庫、用于存放資料相關信息的資料數據庫以及用于記錄書法作品中每個文字信息的文字數據庫。邏輯層主要處理系統邏輯關系,用于連接數據層和表示層。表示層主要處理數據顯示問題。
在現實生活中使用的大部分圖像都經過高壓縮處理,而相關數據壓縮算法無法滿足特殊領域的需求。因此,如何在保持數據原始清晰度的基礎上進行圖像保存是目前圖像數據壓縮面臨的難題。原始基于問題的圖像處理以及現在流行的基于無壓縮圖像內容的圖像處理技術無法滿足日常應用,所以JPEG2000壓縮域圖像檢索技術的研究將對圖像檢索技術應用產生積極意義。
2 米芾書法古籍資源數字化過程設計
2.1 基于內容檢索的古籍數字化基本原理
隨著多媒體技術的不斷發展,產生了巨大的多媒體信息庫資源,使用戶接觸到豐富的多媒體信息,因此用戶需要更快捷、準確的多媒體檢索技術,滿足其個性化需求。基于內容的圖像檢索(CBIR)技術通過分析圖像內容,建立特征索引并存儲在特征庫中,用戶在查詢時,只需描述相關圖像需求,即可在大量圖像庫中快速找到想要的圖像 [10]。本文主要關注基于內容的多媒體檢索技術在基于內容的靜態圖像檢索中的應用。基于內容的檢索突破了傳統基于文本檢索技術的局限,直接對圖像等多媒體內容進行分析,提取并利用關鍵特征建立索引進行檢索。將傳統數字化JPG格式的碑帖放大后會失真,書法愛好者不能很好地欣賞書法大家筆韻風格,對感興趣的文字內容也無法快速檢索,使其欣賞書法作品的需求難以充分滿足。本文主要采用JPEG2000圖像編碼技術解決該問題,JPEG2000是JPEG的升級版,其壓縮率比JPEG高約30%,同時支持有損和無損壓縮。JPEG2000格式一個極其重要的特征在于可實現漸進傳輸,即先傳輸圖像輪廓,然后逐步傳輸數據,不斷提高圖像質量,使圖像由朦朧變化至清晰。它是一個對圖像檢索友好的編碼標準,有利于對圖像進行快速、有效的檢索,因此JPEG2000圖像可滿足書法愛好者查看書法細節和進行個性化檢索的需求。
基于內容的圖像檢索系統一般包括圖像檢索模塊、查詢模塊、對象庫與特征庫、知識庫等,系統主要可分為圖像庫檢索模塊與圖像庫建庫模塊兩部分。建庫模塊主要用來建立與維護整個圖像庫圖像抽取特定特征生成相應的特征矢量,其與圖像一起存入圖像庫,從而形成基于內容的圖像數據庫 [11]。對書法字的檢索本質上是一種基于內容的圖像檢索,書法字形狀是書法字的關鍵特征[12]。本研究系統核心是基于JPEG2000的圖像檢索系統。該系統主要包含3個數據庫:圖片數據庫、資料數據庫、文字數據庫。圖片數據庫主要用于存放書法原件的掃描圖片,資料數據庫用于存放相關資料信息,文字數據庫主要用于記錄書法作品各個文字的信息,系統以3個數據庫為基礎,構建可從圖片中檢索出相應文字的書法檢索系統,其中文字數據庫及檢索方法的設計是系統重難點。為提高光盤檢索效率,需先對作品圖片進行預處理,將書法作品中每個文字的信息提取后存儲于文字數據庫。當進行數據檢索時,采用相應數據庫檢索技術,檢索出需要的文字信息。系統既可以針對某一作品進行文字檢索,也可以針對全庫進行檢索。
2.2 古籍資源數字化一般流程
古籍文獻數字化指通過信息技術對古籍文獻進行加工,使其成為可重復利用的數據資源。古籍紙質載體轉換為數據載體后,古籍數據被賦予復制、傳播屬性。通過建模采集、分析等方式將古籍文獻數字化資源建成數據庫,既能保護珍貴的古籍,又能擴大其實用性,方便大眾使用[13]。古籍資源數字化一般流程包括:數字采集、數字存儲、數字處理、數字展示、數字傳播、數字解讀等環節。將書法古籍作品通過數字轉換、數字再現復原成可共享、可再生的數字形態,并以新的視角加以解讀,以新的方式進行保存,根據新的需求加以利用。
基于內容的數字資源檢索體系一般包括:數據庫特征子系統提取與數據庫子系統查詢,其中數據庫特征子系統由媒體庫與特征庫組成,采集書法原始媒體數據之后根據特征進行提取,再將目標識別錄入媒體庫中進行編碼,用戶可通過查詢界面,利用系統檢索引擎與索引過濾功能在知識庫中進行內容檢索和知識呈現。
2.3 米芾書法古籍檢索系統功能實現
一般古籍文本的數字化是通過人工錄入古籍文字或光學字符識別(OCR)的方式進行數據庫輸入,從而形成文獻。用戶可閱讀、定位檢索該類數字古籍文獻,雖然古籍數據資源具有一定的檢索性,但是對于古籍原貌的客觀表現不夠完善[13]。本文將米芾書法作品分為卷冊、碑銘及拓本三大類,原版古籍作品量大、書目紛雜,如何在保持作品原貌基礎上進行個性化檢索,是本文研究重點,其核心是構建基于JPEG2000的圖像檢索系統。該系統主要包含3個數據庫:圖片數據庫、資料數據庫、文字數據庫。系統以3個數據庫為基礎構造書法檢索系統,使相應文字可從圖片中檢索出來。為提高使用光盤的檢索效率,需要先對作品圖片進行預處理,提取書法作品文字信息后存儲于文字數據庫中,再采用相應數據庫檢索技術檢索出需要的文字信息,實現單一作品文字檢索和全庫檢索。
2.3.1 基于內容檢索的新模型創建
數字化古籍按載體形式可分磁盤資源和網絡資源兩大類。磁盤版古籍資源一般有3種類型:①圖像版,即將古籍直接以圖像格式掃描存儲;②全文版,即存儲的不是古籍圖像,而是數字化古籍文本,以便全文檢索與查找;③圖文版,即在古籍書頁圖像存儲基礎上,將書中具有檢索意義的內容數字化,為用戶提供多種檢索功能[14]。本文主要采用第3種方法為用戶提供更高質量的檢索服務。以米芾書齋“寶晉齋”為名設計可視化檢索系統平臺,搜集、整理米芾書法法書(米芾書法作品原件)、法帖(米芾書法作品裝裱成冊的刻帖)、碑刻(米芾書法碑刻拓片)等作品珍本。首先將原始書法作品由專業人員高清晰度掃描為JPEG2000圖片格式(掃描精度300dpi),形成圖片數據庫;其次,將每幅書法作品進行編號,包括卷號、碑帖名字、碑帖說明、頁碼、碑帖尺寸等信息,形成資料數據庫;最后由技術人員對書法作品的每一個文字進行切割、編碼,記錄每個文字的大小及在圖片中的位置信息,形成文字數據庫。通過3個主要數據庫建立相關索引機制,用戶可以通過作品檢索模式快速查看感興趣的書法作品,也可以通過文字檢索模式,快速查找某一個文字在不同碑帖中的不同寫法,以上是傳統方法不能實現的功能。本文在原有內容檢索模式基礎上進行模式創新與改進,模型結構如圖1所示。
2.3.2 書法圖像數據采集與圖片數據庫建立
古籍數字化主要是利用微縮攝影、拍照或掃描技術采集古籍原始圖像,建立影像數據庫或進行影印出版,以及在此基礎上通過文字自動識別(OCR)或人工錄入等方式進行元數據著錄,從而生成基礎的文本數據庫或進行文字出版[15]。書法鑒賞已經從紙張方式延伸到數字方式,通常可將書法作品頁面切分成單字,建立書法單字庫,用戶可從中選擇單字進行分類欣賞、比較研究等[16]。本文將原始米芾書法資料數據進行編號,錄入數據庫系統。分別按照原資料名稱(卷號)、原資料尺寸、合成后文件名、掃描分辨率、色彩模式、合成圖像橫縱向個數、掃描文件名,掃描人員,掃描日期等分類并建立初始資料數據庫。其中分辨率300dpi,色彩模式RGB,圖像保存格式TIF。合成圖像橫縱向個數指圖像從單張到合成時縱向和橫向的個數。錄入書法碑帖卷號、圖版題名、頁數、原始尺寸等。原始數據采集數據量大,工作繁瑣,但是它是數據入庫的基礎環節,也是后續進行數據特征提取、建立數據圖片子庫的基礎。
2.3.3 書法資料數據庫整理與入庫
古籍數字化需要對原始數據進行標準化處理,以實現數據交流、共享。古籍數字化元數據包括書法古籍版本信息、收藏信息、作者信息、作品信息等[17]。在書法圖像數據采集完畢之后,還需錄入每幅書法碑帖原版文字說明,以便后期制作時進行匹配信息顯示,如將以書法卷號、圖版題名、圖版文字說明、頁碼、圖版大小等信息一一錄入數據表格中,這些信息是后續文字資料庫的基礎數據。
2.3.4 書法古籍檢索平臺原型設計
中華古籍資源庫以國家圖書館藏善本古籍為主體,依托全國圖書館文獻微縮復制中心,采用模轉數技術將善本古籍縮微膠片轉換為高清數字化影像資源。其中中華古籍資源庫設置了3種檢索途徑,即題名、善本書號和責任者,簡繁體通用 [18]。本文米芾書法作品檢索系統以米芾書齋“寶晉齋”為主界面,為用戶提供2種模式:瀏覽模式和搜索模式。第一種模式將米芾法帖、碑刻以作品名和作品略圖等方式進行展示,右側配有圖版說明和釋文,下方提供文字檢索功能;第二種模式提供類似百度的檢索框界面,用戶輸入書法作品中的關鍵詞后,可檢索出作品相關信息,點擊后可進行作品細節瀏覽。在作品檢索模式中,作品可以進行放大、縮小、移動查看;在文字檢索模式中,可查找不同作品中相同文字的不同書寫效果。
2.3.5 書法古籍檢索系統界面設計
古籍數字化為中華文化傳承與發揚帶來巨大積極影響的同時,也產生了一些問題,例如:降低了讀者閱讀紙質古籍的樂趣,缺少閱讀情境性[19]。因此本系統在界面設計時采用米芾書齋“寶晉齋”為界面主風格,家具均為宋代代表性桌椅、書齋、瓶飾等,界面采用隱形熱點交互設計,文案上的硯臺和書畫即為進入兩種不同瀏覽模式的熱區,瀏覽方式也采用古軸書畫徐徐展開的方式。整體界面古樸典雅,使瀏覽者可靜心體會書法家當時的環境和心境。
3 結語
基于內容的檢索技術是多媒體技術研究熱點,并逐漸在多個領域得到了廣泛應用。隨著超大型多媒體信息資源庫的產生,用戶對信息檢索的要求越來越高,單純基于關鍵詞的檢索已經不能滿足用戶檢索需求,基于個性化需求的檢索技術成為研究重點。隨著教育大數據的迅猛發展,多媒體檢索技術勢必與用戶個性化需求相匹配,如何為用戶(研究者)推送符合其個性需求的學習資源,如何將學習資源以個性化的形式呈現,如何將現代媒體手段與中國傳統文化相結合,孕育出新型媒體形式,將中國傳統文化發揚光大,是今后研究方向與目標。同時,利用書法古籍數字化可以有效減少紙質古籍流通量,降低由于人為使用造成的古籍文獻資料損傷率,有效保護歷經歲月滄桑的古籍文本,還可通過數字化技術保存古籍真實原貌 [20]。
參考文獻:
[1] 向彬,南彬. 數字化時代的書法教育與文化傳承[EB/OL]. https://news.artron.net/20180820/n1019749.html.
[2] 劉偉紅. 中文古籍數字化的現狀與意義[J]. 圖書與情報,2009(4):134-135.
[3] 劉明華,趙天一. 古籍數字化背景下的技術與學養[EB/OL].? http://www.guoxue.com/?p=14527.
[4] 姜春鈺. 論古籍數字化對古籍文獻 “藏用矛盾”的影響[J]. 內蒙古科技與經濟,2017(11):145-146.
[5] 陳陽. 中文古籍數字化的成果與存在問題[EB/OL]. http://blog.sina.com.cn/s/blog_8f298e570101igsn.html.
[6] 王春賀. 個性化推薦技術研究及其在數字圖書館中應用[D]. 杭州:浙江大學,2007.
[7] 郭偉玲,戴艷清. 論古籍數字化的檢索問題[J]. 圖書館理論與實踐,2011(10):13-15.
[8] 石光蓮,鄭偉偉. 中國古籍文獻數字化研究綜述[J]. 重慶圖情研究,2014(3):49-51.
[9] 劉冬雪. 古籍數字化信息采集技術研究——以文物保護為視角[D]. 北京: 北京印刷學院 ,2017.
[10] 肖丹卉. 基于內容的圖像檢索技術在外觀設計專利檢索系統中的應用[J]. 數字化用戶,2017(5):12-14.
[11] 陳仕先,尹丹. 基于內容的圖像檢索關鍵技術[J]. 內江科技,2011(4):103-104.
[12] 章夏芬. 自適應書法字圖像匹配和檢索[J]. 浙江大學學報:工學版,2016(4):134-135.
[13] 楊凡. 大數據框架下古籍數字化發展趨勢研究[J]. 圖書館學刊,2017(9):74-76.
[14] 魏芳. 古籍數字化技術發展的幾點建議[J]. 絲綢之路,2012(22):101-102.
[15] 郭靜. 淺述古籍出版項目數字化標準和操作規范[J]. 古籍數字化推廣,2018(11):17-21.
[16] 石雷等. 基于輪廓擬合的新風格書法字合成[J]. 計算機應用與軟件,2017(6):134-135.
[17] 胡紅. 古籍數字化的現狀及建議[J]. 重慶圖情研究,2014(3):57-60.
[18] 劉明. 善本古籍數字化實踐的意義和啟示范[J]. 古籍整理出版情況簡報,2017(2-3):47-49.
[19] 曹天曉. 新技術下古籍數字化分類及意義探究[J]. 圖書館研究與工作,2017(9): 37-38.
[20] 萬晶晶. 淺論古籍數字化優點[J]. 青年文學家,2016(92):194.
(責任編輯:江 艷)