張 帆(無錫市檔案局,江蘇無錫,214023)
報紙作為一種獨特的館藏信息資源記載了人類社會政治、經濟、文化、科學發展的歷程,是傳播知識、社會教育的媒介,具有特殊的參考價值和史料價值。傳統紙質報紙的保存很大程度上受到客觀條件的限制,隨著時間的推移會出現泛黃、老化、褪色等問題。隨著信息技術的高速發展,數字報紙已經成為一種主流的媒體出現在大眾的視線里,它易于保存,且隨時能夠進行再版印刷。數字報紙還能夠實現目錄及全文檢索,簡化了手工查找報紙信息的復雜程序,同時可以對文章、圖片、廣告等進行分類統計,提高了利用效率。
2010年無錫市檔案館選擇與無錫日報社合作,進行歷史報紙數字化項目,將《無錫日報》作為首批數字化加工對象。《無錫日報》是無錫市檔案館的重要館藏資源,同時也是中共無錫市委機關報,發行量居無錫地區新聞類報紙第一位,具有極強的可信性,一直是無錫最大的主流媒體。通過本次工作的研究和實施,我總結了一些報紙數字化處理的途徑與方法,和大家分享一下。
首先在工作初期,我們對于《無錫日報》進行了詳細的調研。《無錫日報》是從1949年8月創刊的,至今已有60余年的歷史,期間經歷了數次更名,且多次進行出版周期調整。從2009年起,無錫日報社已有數字報紙出版,因此我們需要加工的《無錫日報》是1949年8月至2008年的所有出版報紙。為了更好地進行下一步工作,我們首先將無錫市檔案館和無錫日報社所收藏的《無錫日報》進行了整理,并作了詳細的情況記錄,經過半個月的時間,基本摸清了現有報紙的版面和保存情況。我們發現現有報紙主要存在四種問題:一是版面不全;二是部分版面存在缺角、破損、開天窗等情況,尤其是“文化大革命”期間出版的報紙被剪和被亂劃的問題比較突出;三是由于保存條件原因,80年代以前的報紙出現了泛黃、老化、內容模糊等現象;四是部分報紙采用了中縫裝訂的方式,導致中縫內容破損嚴重。為了解決這些問題,我們與多家《無錫日報》收藏單位取得聯系,其中包括無錫市圖書館、南京市圖書館、北京國家圖書館等,最終共補得報紙近10000版,報紙的補齊率達到了99%以上。
我們通過研究和測試,將報紙數字化分為三個步驟:
1.報紙圖像的采集。初期我們嘗試了掃描和翻拍兩種方式進行報紙圖像的采集。由于報紙版面比較大,開始我們認為采用翻拍的方式比較省力,同時對報紙的損傷比較小,但是這種方式采集下來的圖像精度較差,后期進行文字識別時識別率太差并不適用。后來改用平板掃描儀掃描的方式進行圖像采集,掃描方式取得的圖像字跡清晰,精度高,考慮到后期有再版印刷等需求,將掃描的分辨率定為400DPI,存儲格式為JPG。在報紙掃描環節需要根據報紙的實際情況調整掃描儀設置以便能更好地識別報紙。其中“輝度”調整報紙上字顏色的深淺。字的顏色不能太深,不然字就會成墨團,不能很好地識別;字的顏色也不能太淺,不然字的筆畫間會出現斷點,后期就會識別成幾個字。“對比度”調整報紙底紋的深淺,對比度數值低底紋顏色深,不利于識別文字,同時也不美觀;數值過高,底紋淺了,會出現很多雜點,報紙識別時又會造成很多錯字。每次更換一個時間段的報紙,我們都需要通過多次測試來確定這批報紙掃描的設置參數。
2.報紙圖像處理。通過掃描儀采集到的報紙版面圖像需要進一步通過圖像處理,進行傾斜矯正、裁邊、去雜點、去黃色底等步驟來提高清晰度,同時也有利于OCR識別率的提高。在圖像處理階段,根據不同時間段的報紙情況也要采用不同的處理方式。如五六十年代的報紙紙質泛黃,還有較嚴重的破損情況,圖像處理時就要通過做圖軟件中“色階”等的設置將報紙底紋去黃,然后再調整文字顏色以便于后面的識別。同時還需要通過畫布、圖層等的設置,把破損的地方取相近顏色補齊,達到美觀的效果。
3.報紙數字信息轉換及加工。在取得清晰美觀的報紙圖像以后,如何將圖像信息轉換為數字信息是工作的主要環節。由于報紙數字化技術已經相對成熟,我們通過多方面的比較,選擇使用漢王的報紙OCR技術進行轉換。轉換后的數據再通過針對性開發的二次加工處理系統進行標引和分類的深度加工,最終形成完整的數字報紙。
主要步驟見圖1。
(1)版面分析:對于版面圖片的布局、內容進行邏輯分析,在系統中具體操作是根據不同的類型用不同顏色的屬性框對版面進行劃分。每個框所標示的屬性主要有序號、標引屬性、欄的識別類型屬性等。其中序號描述的是篇序號與框序號,例如1-1表示第一篇第一個框;標引屬性分為標題、副題、正文等;欄的識別類型表示的是識別的類別和順序,例如:左排橫欄、右排橫欄、表格、圖片等。版面分析后效果如圖2。

(2)OCR識別:根據版面分析的結果,將圖像識別為可編輯的文字信息,并輸出識別的結果。此項工作主要由OCR系統自動完成。
(3)縱向校對:縱向校對是對圖像的識別結果按字型逐字與原文對比校對,將可疑字列出、并標記為紅色,以便操作人員修改。如圖3。
(4)橫向校對:橫向校對是逐行逐字地把識別文本與相應圖像做對比的校對方式,方便利用上下文信息進行判斷。如圖4。
(5)版面還原:將識別結果進行版面還原形成雙層PDF文件。
(6)數據入庫:將前面形成的初步識別數據批量導入到數字報紙利用平臺數據庫中。
(7)二次加工:通過二次加工對數據進行深加工,主要完成對各個字段的補充,以及對文章、圖片、廣告等按照要求進行分類。
(8)最終數據:將最終形成的完整數字報紙數據保存備份。
通過多次測試和實施,最終形成了完整的報紙數字化加工技術規范,為未來展開館藏報紙數字化工作奠定了扎實的基礎。
有了數字報紙資源,要真正將信息資源利用起來還需要軟件平臺的支撐。在工作的第三階段,無錫市檔案館與軟件開發單位合作開發了擁有自主知識產權的數字報紙利用平臺。開發主要經歷兩個階段,歷時5個月。第一版系統采用SQL Server數據庫,由于數據量逐漸增多,數據庫結構及檢索利用響應速度等問題,后進行第二版系統開發。第二版系統采用Orcal數據庫,開發環境為.NET,并優化了數據結構,通過不斷測試改進,平均響應速度達到10秒以內。系統分為前臺展示系統和后臺二次加工系統兩部分。前臺展示系統為B/S結構,主要功能為:導航瀏覽、各類檢索功能、顯示打印、統計功能、系統管理等。后臺二次加工系統為C/S結構,主要功能為:報刊維護、期號維護、版面維護、內容維護、二次加工、數據統計、數據管理、用戶管理等。

圖2

圖3

圖4
通過數字報紙利用平臺,突破了手工利用報紙的局限性,我們可以快捷方便地實現對于報紙信息資源的分類檢索和全文檢索,并且能夠對報紙文章、圖片、廣告、字頻等進行統計分析,進一步深化對報紙數字化資源的利用。
以上是對于報紙數字化工作的一些經驗和探討,在今后的工作中我們將繼續優化報紙信息數據庫結構,并就報紙數字資源的利用模式展開更深入的探索和研究。