


摘 要:將珍貴館藏數字化是新時代公共圖書館特色化提升影響力的有效途徑,體現了現代科技與傳統文獻知識信息的結合,更凸顯了傳統圖書館的發展要求,順應了歷史發展趨勢,為特色珍貴文化傳播打開了新的信息傳播途徑。
關鍵詞:特色館藏;古籍文獻;數字化;OCR識別;版權
Abstract: The rare collection is the new era of digital public libraries characteristics of an effective way to enhance the impact of embodied knowledge of modern information technology and documentation as well as traditional library development requirements,conforms to historical trends,featuring precious cultural communication open the new information and communication channels.
Keywords: Special Collection; ancient literature; digital; OCR recognition; copyright
進入21世紀,人類便步入了數字化信息時代,在全新的數字化生活中,人們提出了全球化的主張,而實現全球化的重點就是構建起一個能夠保存和傳播人類文明、保證信息傳播便捷的數字化地球,這也為數字圖書館的建設發展帶來了機遇,館藏數字化是網絡世界對圖書館這樣一個強大的信息存儲、處理和服務體系的迫切需求,如果圖書館能夠以自身館藏資源為原料,生產出更多樣的信息產品,那么就可以更好的滿足新時代的需要。這種現代信息技術與圖書館的完美結合,能夠有效地提升圖書館的信息服務能力。而要想有別于眾多數字圖書館體現自身特色,那就唯有在數字化館藏中重點將資源特色化,有針對性的應對讀者需求。
近年來,圖書館館藏資源的電子化、虛擬化、特色化問題受到了圖書館界與相關人士的積極關注和研究,對這種特殊的數字化館藏所具有的不受地理位置和時間限制,僅通過相互連接的計算機網絡,把分布在世界各地各具特色的數據庫和知識庫有組織的互聯,并能夠超越了空間和時間的約束的借閱方式報以極大地熱情,這也是時代沖擊下,圖書館被推到數字化變革的發展浪頭上的結果。
1 圖書館館藏資源電子化、虛擬化、特色化具備了傳統紙質館藏不具備的大量優勢。
1)可以輕松解決資源跨時空限制,實現超大規模知識的集成化、網絡化。圖書館館藏資源電子化、虛擬化是數字圖書館的基礎,它將存貯在傳統物質介質上的圖、文、聲、像等信息轉化為具有聲、光、圖像、影視等多媒體形式,存儲的載體也相繼轉變成了更加方便攜帶的光盤、硬盤,這些數字化資源通過網絡系統服務器設備(域名服務器、代理服務器、光盤塔服務器、打印服務器)、網絡交換設備(中心交換機、工作組交換機)、遠程通訊設備(遠程訪問服務器、路由器)等方式實現資源的跨地域傳輸。同時,利用這些資源和設備還可以實現與其它數字網絡對接、館藏資源互借互補,既能使各個圖書館通過網絡交換數字化館藏,又可以使大眾方便的使用到分散在不同城市的圖書館信息資源。
2)數字化后的館藏資源對傳統文獻資源的檢索方式起到了極大地拓展作用,不但可以將過去流通率不高的珍貴文獻古籍善本再生,而且還可以實現用很低的成本將印刷版的書籍報刊逆向生成排版文件,令圖書館文獻檢索實現了智能化,打破傳統文獻檢索的局限,用戶只需懂得一些基本電腦操作方法,就可以在短短的四到五秒左右的時間里檢索到自己所需的資料。
這些傳統形式僅能間接地查找到館藏資源分布,而不能得到具體內容(如圖1所示傳統檢索形式)。館藏資源數字化后,可以按檢索者的特定方式對所查的文獻進行智能分析,并且還可以自行組織和編輯,不僅速度快,而且查找準確率高,實現了以往不具備的全文檢索、文本摘錄、多級導航等功能。甚至達到了對多媒體的圖像、視頻進行顏色、灰度、大小的檢索;對聲音的音調、曲調、旋律的檢索,大大增強了檢索形式的多樣化。
3)圖書館特色館藏資源數字化后可以更方便存儲,特別是對珍貴文獻資源的數字化后,就能更好的保護珍貴資源。隨著高密度存貯技術的發展,一塊1TB的硬盤上就可以記錄上萬本書籍,這樣大的數據貯存不但攜帶方便而且更便于保存。
4)數字化信息的存儲、傳輸,不僅成本低、效率高,而且能夠適應排版、網絡數據處理等不斷發展的需要。目前我國有很多歷史遺留下來的大量書籍善本、報刊雜志等紙質珍品急需保護性數字化備份。備份后不但能把前輩留下來的古老文獻,利用現代最新科技,通過數字化處理讓其煥發出新的活力,而且也為古籍資源的保護和開發提供了便利條件,將那些過去秘不示人的“鎮館之寶”轉化成數字資源,可以令更多的讀者欣賞到珍貴的古籍資源,豐富了借閱渠道和文化傳播途徑。
2 數字化特色館藏可以實現資源互補、二次館藏,有利于文化的交流和傳承
數字化館藏并非將圖書館的館藏資源都進行數字化加工處理,而是重點突出特色化的館藏資源,每個圖書館都有自身的特色館藏,能將這些特色館藏進行數字化,不但有利于圖書館文獻資源的保護,而且利用網絡技術還可以實現將分布在各地的大量特色數字館藏資源共享,使人們能夠有機會欣賞到更多、更珍貴的資源??v觀目前各個圖書館構建的數字館,基本上都是千篇一律,不但更新慢而且可以突出自身館藏特色的很少、缺乏針對性,大多都鏈接各種數據庫,如:超星數據庫、中國學術期刊數據庫等。數字圖書館缺乏特色化、針對性的館藏,是目前制約數字圖書館發展的瓶頸。
3 數字化信息的處理技術
對圖書館書籍數字化技術的研究工作吸引了大批的人才和資金,近年來,獲得了大批具有我國自主知識產權的技術成果,現就書籍數字化技術做簡要論述:
數字化加工的流程圖:
1)從紙質資源到數字資源,最關鍵的第一步就是圖像的掃描和獲取,掃描儀在掃描前都需要針對不同的書籍進行分辨率的設置,分辨率是和圖像相關的一個重要概念,它是衡量圖像細節表現力的技術參數,它的單位是dpi(dot per inch)即指每英寸長度內的點數,該值越大掃描出的圖形文件所占磁盤空間也就越多,即文件的大小與其圖形分辨率的平方成正比。比如:對于書籍保存比較好的年代較近的書籍一般采用300dpi的掃描分辨率,但對于年代久遠、紙質變色的古籍善本,可以適當將分辨率提高到500dpi。設置完分辨率,機器就開始進行逐點掃描并存儲為圖片,存儲的格式可以是TIFF、JPEG、BMP等。
2)針對掃描后的圖像中可能會出現的旋轉、柔化問題,要對圖像進行旋轉復位、剪切、去污、調整亮度、對比度和色調、銳化等處理,其中亮度和對比度的調整對整個數字加工尤為重要,直接影響到后面的計算機文字識別。
3)圖像處理好后,要想實現數字化資源的全文檢索、文本摘錄、多級導航以便檢索者快速檢索并查閱,對照圖片進行文字輸入是根本不可能的,這樣會花費大量人力去錄入,假如僅僅對處理好的圖片進行關鍵字命名,也不可能實現全文檢索。這就需要光學字符的自動識別技術(OCR)的幫忙了,它可以利用計算機將圖片中的文字自動識別出來,并保存為文本格式,這種方式可以實現漢字信息的高速輸入,只要將掃描并處理好的圖像輸入計算機,就可以通過OCR軟件自動識別并轉化為文本,不論是印刷體還是手寫體的圖像,都可以通過計算機辨認出來。
我國OCR技術的發展,起步于20世紀70年代末,雖然起步晚,但自1986年以后,我國文字識別技術(OCR)的研究在漢字建模和識別方法上都取得了創新性的豐碩成果。它的基本原理就是采用光電轉換裝置將圖片中的漢字或字符轉換成電信號,并送入計算機自動辨認,閱讀,因此,漢字識別歸根到底是圖像識別問題。目前比較流行的OCR軟件很多,英文OCR主要有Omnipage,中文識別主要有清華紫光OCR、尚書、漢王等,盡管漢字字量大,字形復雜,但OCR技術已經相當成熟,不僅能識別黑白印刷體漢字,還能識別灰度和彩色印刷體漢字,識別速度快,識別正確率達到99%以上,能識別宋體、黑體、楷體等多種字符的簡繁體,并且可以對不同字號的文字混排進行識別,大大減輕了文字輸入的勞動強度、節省了人力、降低了費用。
從圖3中可以看出OCR軟件的整個加工過程:圖像處理模塊集成了圖像掃描,圖像銳化等圖像處理加工功能,提高掃描圖像的清晰度。文字識別不能做到一目十行,版面劃分模塊就是自動將圖像逐行分割,然后再一個字一個字的辨認,即單字識別后在進行合并,文字識別模塊通過對不同樣本漢字的特征進行提取,完成識別,自動查找可疑字體,并通過前后聯想等模糊識別技術對較難識別的漢字進行彌補性識別。然后再通過文字編輯模塊對識別的文字進行修改、編輯。
4)計算機識別并非不出錯,以最新的漢王OCR易識全能圖文識別系統軟件為例,以每分鐘錄入6000字的速度,連續識別1000頁保存完好的現代書籍文獻,也會出現0.78%的識別錯誤率,雖然已經很不錯了,但圖書館肩負著知識傳播的責任,首要保證數字書籍資料的正確性,所以最后還需要專人輔助校驗計算機識別的文字,并輔以人工排版、留下圖書館標識等。
4 圖書館館藏數字化帶來便利的同時也會伴隨著數字化版權保護等問題
特色館藏資源的數字化可以有效地提高公共圖書館的綜合實力,提高圖書館的影響力。但是好多圖書館都心懷畏忌,主要是害怕特色館藏數字化后被竊取、流失,這種因為安全而產生的恐慌只能導致圖書館數字化進程走向一個矛盾的極端。國家863計劃專項研究專家組組長,中國工程院院士,何德全院士指出:“信息安全保障能力是21世紀綜合國力、經濟競爭實力、生存發展能力的重要組成部分”。每個館“鎮館藏書”的價值都是無法估量的,將這些寶貝數字化后,一定會顧慮版權安全問題,其實大可以放心。數字館藏的版權保護問題一直是開發數字圖書館研究的熱點,目前做得比較成功的超星電子圖書就是一個很好的例子,在紙張圖文資料數字化技術及相關應用與推廣方面都取得了長足進展。
數字版權管理(Digital Right Management)技術已日漸完善,特色館藏數字化在技術上也相當成熟,目前我國對保護數字信息版權方面大多依賴加密技術解決非授權拷貝問題,實現對珍貴數字館藏的加鎖。特色館藏數字化后,圖書館在堅持無償服務于普通知識需求的同時,對增值性的或需要專門授權的珍貴特色書籍,可以采用有償服務,通過那些對數字書籍版本支付的版權使用費,獲得圖書館特色化服務和書籍善本保護的資金支持。例如,在網絡上,將閱覽權限進行有針對性的開放,可以實現有效的屏蔽無權訪問者所進行非法獲取館藏數字資源的行為。細化到具體管理,圖書館可以利用辦借閱證人員的實名認證,來確定用戶的閱覽權限的信用關系,對需要參閱珍貴數字館藏的讀者,可以開辟專用網絡通道,并利用數字水印技術,避免非法復制和盜用,服務中可以適當收取服務費用,用于資源的維護和開發。
總之,將珍貴館藏數字化是新時代公共圖書館特色化提升影響力的有效途徑,體現了現代高科技和文獻知識信息以及傳統圖書館的發展要求,順應了歷史發展趨勢,為特色珍貴文化傳播打開了新的信息傳播途徑。古代先賢們留下的珍貴古籍善本和寶貴文獻如果能利用現代科技進行數字化加工傳播,無疑會使我國古文明煥發出新的生機。
參考文獻
[1]楊向明.現代化圖書館鉤沉[C].北京:中國廣播電視出版社,2005.
[2]郭連生.讀者失信行為調查分析與高校圖書館誠信教育[J].圖書館工作與研究,2008(8);72-74.
[3]劉乃強.關于我國基層圖書館的現狀與思考[J].大學圖書情報學刊,2009(6);6-9.
[4]魯松,楊云.基于普適計算的智能圖書館系統的構建[J].情報雜志,2008(9);36-39.
作者簡介
李晶晶(1980-),女,開封市圖書館。