漆月 石璐
(1.西南大學圖書館,重慶 400715;2.上海諾基亞貝爾股份有限公司研發部,北京 100010)
圖書同質化是指相同或不同出版社出版的不同圖書在內容上基本相同,甚至改變原書名和封面再次出版的現象[1]。當今的出版市場圖書同質化現象嚴重[2],導致館藏圖書的重復率逐年增加,尤其是名著類、教科類圖書,多數高校圖書館都存在較嚴重的內容重合現象。以西南大學圖書館為例,僅C語言教材類圖書的館藏就在200種以上,且大部分借閱量為0。同質化圖書的采購不僅影響圖書館的藏書質量,而且造成不必要的資源浪費。然而,逐年遞增的圖書出版量正在不斷增加圖書查重的工作量和復雜度,圖書采選人員難以在海量的征訂目錄中深入了解每一種圖書的具體內容。因此,圖書館需要尋求一種新的技術和策略,對同質化圖書進行高效率的自動化判別,以減輕采選人員的工作負擔,提升館藏建設質量。
圖書查重是在擬購書單中檢查是否存在已入藏的相同圖書,避免因重復采購造成資源浪費和館藏臃腫。早期的查重方法主要以ISBN號為檢索點,但并不能應對ISBN編號不規范或一書多號等問題[3]。雖然改進后的圖書管理系統增加了對題名、著者、出版日期、出版社等多種書目數據的排列組合與匹配功能,對查重工作起到一定的輔助作用,但基于字符串的模糊匹配方式,對于同質化圖書的識別能力非常有限。
對于圖書同質化問題,已有一些學者進行了研究和探討。……