廈門市集美圖書館技術部〔福建省廈門市 361021〕
金石亻全*
在現今的信息化時代,作為站在信息前沿的圖書館行業來說,應該充分利用好互聯網這個龐大的平臺來更好地提供文獻信息服務。目前,全國許多公共圖書館都如火如荼地推出了不少具有地方特色的自建文獻信息數據庫,極大地豐富了各地公共圖書館的館藏和知識體系。從互聯網信息角度看,這種狀況則是增加了很多公益性和權威性知識與信息提供方,極大地方便了讀者獲取知識與信息,也使一些地區的特色文化得到了很好的保存和推廣,又提高了公共圖書館的社會效益,實現了讀者文獻信息和公共圖書館的多贏。作為一個積極參與數字化建設的地方公共圖書館——集美圖書館也開展了對廈門地方特色展會文獻自建數據庫的研發工作。本文將對展會文獻建庫過程中的 IT問題談談自己的看法。
由于展會文獻一般用的是銅版紙,色彩豐富,幅面以 A4和 A3居多,因此在選擇掃描儀的時候必須考慮到這種文獻特性。選用彩色CCD元件,掃描 A3幅面的掃描儀,光學分辨率高達 600DPI,可以進行多種灰度模式的掃描,接口為最新 SCSI版本。考慮到展會的會刊文獻一般都比較厚,選用零邊距掃描儀為佳。
服務器是數據處理和存儲的核心。服務器必須有很強的穩定性以保證數據處理和存儲的安全,要有足夠的 CPU與內存,總線性能優秀可以保證數據處理的效率,必須有強大的系統兼容性來保證各種軟件的安全運行。數據庫建成后一般都要長期保存與使用,因此良好的可擴展性也是服務器的必備要求之一。還應該考慮到對應的服務器生產商提供的技術支持和售后服務。
從根本上說,數據庫建設就是數據存儲工作。在展會文獻紙質文獻數字化中產生的數字圖書本身一般都比較大,比一首 MP3歌曲要大得多。首先帶來的問題便是存儲容量要足夠大,以保證今后數據添加時有足夠的存儲空間,至少也必須是可以擴展的存儲。其次,數據的安全性與可靠性必須給予足夠的重視,存儲必須穩定而易用。采用磁盤陣列、支持速度較高的 SATA硬盤接口以及 IP-SAN或者 NAS存儲,以充分利用館內的千兆網絡來分布服務器和存儲,達到負載平衡和較高水平的合理化存儲。
網絡是數據庫發布的最方便快捷的途徑,必須以帶寬大、出口穩定、內部局域網交換穩定、速率高為標準進行建設。出口可以采用光纖接入主流網絡。為了滿足數據庫海量數據的傳輸要求,館內局域網應構建千兆級的內部網絡,以便無縫連接服務器和進行數據存儲。
目前,比較主流的數據庫建庫平臺有清華同方TPI專題數據庫制作與管理系統、北京拓爾思 TRS信息雷達系統、清華文通IT-CENTER系統等。這些建庫系統,都具有覆蓋整個建庫流程的一整套功能強大的軟件平臺,包括掃描軟件、OCR識別模塊、數據庫發布平臺、Web發布和檢索平臺。結合展會文獻數據庫和圖書館工作人員結構的特點,遵循標準化、開放性、穩定性、易用性和可擴展性原則,展會文獻數據庫建設最好選用清華同方 TPI專題數據庫制作與管理系統。
清華同方TPI專題數據庫制作與管理系統是一套基于網絡平臺進行知識倉庫創建、生產、管理、維護和發布的工具軟件系統。 TPI是一套相對成熟的軟件體系,能與CNMARC數據兼容。這一建庫系統擁有OCR工具、bookshop電子書加工工具、CPS內容發布工具、TPICD光盤發布工具、Data Processing元數據加工工具,以及服務器端的Kbase和服務器管理工具。此外,其多個數據并發的特點,可以滿足建庫過程中工作人員之間的協作要求。Web發布頁面自定義功能豐富,可以自定義出簡潔、高效與易用的頁面 ,提升數據庫系統的易用性。
1.紙質文獻。首先由采編部工作人員對進入圖書館的圖書進行分編處理,做好 MARC數據錄入,使之入庫成為館藏;再交由數字化部門對紙質文獻進行圖片掃描與校正;再按一定的壓縮比率,在兼顧清晰度、OCR識別程度和文件大小的要求下,壓縮成 CAJ或者 PDF格式的目標文件;然后在自建數據庫發布平臺上,建立相應的數據庫,對具體條目進行標引入庫;最后,檢驗數據,建立導航,發布數據。
2.電子文獻。包括電子文檔、圖像、音頻、視頻等格式的文獻。由自建數據庫研發工作人員在互聯網上搜集獲取,或者向相關文獻收藏單位通過索取、獲贈與購買等方式搜集相關的電子文獻信息,包括網頁內容、PDF文件、WORD文件、TXT文本文件、MP3/CD音頻與VCD/DVD/光盤等各種電子檔文件,轉換成展會文獻數據庫平臺所需的電子格式,再進行細致的標引入庫。
紙質文獻在分編進入 IlasII系統形成館藏的同時,IlasII系統中也就相應地擁有了符合標準的MARC數據。 TPI系統能夠兼容MARC數據格式,可以直接將元數據導入TPI數據庫中。但是,并非所有的 MARC數據字段都適合導入 TPI數據庫。例如,頁數、價格等字段就不導入 TPI數據庫中。從IlasII導入的這些元數據顯然還不能夠滿足 TPI數據庫的建庫要求。 TPI的元數據能夠更好地向讀者揭示文獻的各方面屬性,以及描述數據之間的關系。根據展會文獻的特點,可以采取在 TPI數據庫中增加“展會分類”、“全文”、“網址”、“展會屆期”等字段,細化標引“主題詞”字段。其中:展會分類、展會屆期字段主要用于整個數據庫導航樹的建立;主題詞細化標引主要用于揭示數據之間的關系,是數據庫中數據挖掘的必要步驟。
展會文獻是具有宣傳性質的檔案文獻,包括各類參展商資訊、政策宣導、法律法規、主辦者信息與展會風采等內容。全文字段的主要功能是給數據庫使用者提供更加全面的檢索途徑,但是綜合考慮展會文獻的性質和檢索效率,并不是將展會文獻的所有文字都應該進行全文字段標引到數據庫中。因此,如何標引全文字段在整個展會文獻數據庫建設過程中是很關鍵的。展會文獻數據庫建設是個創新性的工作,在目前并沒有可以借鑒的項目。因此,集美圖書館在建庫過程中,堅持以面向讀者需求為出發點,從讀者的角度觀察發現讀者的需求,從版本形式上一步步完善全文標引規范,形成了以下一些具有可操作性的規范。這些規范,對于工作人員之間的協作和效率的提高,都有顯而易見的效果。 (1)對于產品宣傳類的彩頁資料,數字化工作組提出需要標引入全文字段的有:公司的中英文名稱,主營產品,產品類別、型號,公司地址等。 (2)對于招商引資類的資料,需要標引入全文字段的有:招商項目及介紹、招商地區、招商地區投資環境、招商優惠政策,以及對應的英文內容。 (3)對于人居樓盤類資料,需要標引入全文字段的有:樓盤名稱、開發商名稱、地理環境、周邊設施與地標性建筑等內容。(4)對于旅游推介類資料,需要標引入全文字段的有:旅游地名稱、地理、歷史、宗教、文化、氣候、經濟、政治、語言、民族、主要城市、交通等相關有用信息的中英文名詞。 (5)對于展會雜志、會刊類資料,需要標引入全文字段的有:雜志名稱或會刊期數與目錄(文章標題)等概略信息。 (6)對于刊登有很多廠商信息的類似于黃頁性質的會刊,比較常見的,如中國石材展會刊和海峽兩岸機電臺交會會刊,數字化工作組提出,可以建立相應的企業數據庫,目前集美圖書館已經建立有石材企業數據庫和臺交會企業數據庫,共收集近 2000條數據,具有很大的社會效益。
經過摸索實踐,結合廈門幾大展會的特點,集美圖書館目前已經形成了九八投洽會、國際石材展、機電臺交會、中國人居展、中國櫥柜展、海西汽博會、兩岸文博會與廈門世博會等幾個主要的廈門展會數據庫。每個展會數據庫按媒介介質的思路又分成幾個數據庫。以九八投洽會為例,紙質文獻數字化后完成標引,形成了九八投洽會書籍文獻庫;電子文檔從互聯網等各處收集起來,經過格式轉換到目標 PDF文件之后標引入庫,形成九八投洽會文獻資料庫。從橫向關系上,兩個文獻數據庫之間通過題名、責任者、主題詞與全文字段可以進行跨庫檢索,形成一個統一的檢索結果呈現給讀者;從縱向關系上,兩個文獻數據庫都有展會分類和展會屆期字段,這兩個字段用于形成數據庫導航樹。讀者可以先點擊整個展會數據庫根目錄,展開來呈現出以上的八大展會導航樹,接著點擊具體的展會數據庫,展開以展會屆期為分類的二級樹,清晰明了,易于使用。
通過展會文獻數據庫建設,集美圖書館深刻體會到:以中小型公共圖書館的技術和人員力量要做出一個能夠展現專業水平和社會效益的自建數據庫需要付出更多的努力和精力,需要持續摸索改進,需要多方學習吸收好的經驗,亦需要大家同心協力、耐心細致,以負責認真的態度持之以恒地長久工作,才能完成任務。但是,這是公共圖書館人在信息時代的開創性工作,是很有意義的一項重要工作。
[1]王天亮.文獻數字化技術在自建數據庫中的應用策略研究 [J].現代情報,2009,29(12):135~ 138.
[2]吳濤,李鋒.基于 TPI的特色數據庫建設實踐 [J].現代情報,2005,25(7):165~ 168.
[3]趙捷,蘆曉,張金治.地方文獻數字化的實現方法與途徑[J].數字與縮微影像,2007,(2):1~ 4.
[4]姚宏偉.地方文獻數字化及在我館實踐的探討 [J].圖書館學研究,2004,(11):13~ 15.