曾紹文(三明學院圖書館 福建 三明 365004)
利用Excel實現對圖書館大數據編目質量篩查
曾紹文
(三明學院圖書館 福建 三明 365004)
從計算機對圖書館編目大數據進行智能化自動處理的角度,針對圖書館索書號中著者號拼音錯誤問題和形式索書號中流水號的跳號問題,根據表面一致性原則和連續性邏輯關系,選擇以Excel2007做為工具,通過一系列的組合操作、函數運用和公網VBA代碼導入等方法,簡單易行且有針對性的展示對編目大數據相關字段進行智能化篩查的可行性,用以量化編目錯誤率,提高編目質量,并提出該方法的局限性和今后的研究方向
編目質量 Excel篩查 索書
100多年前,美國圖書館學家克特提出了圖書館目錄的3大功能,即查詢(檢索)功能、聚集功能和辨識功能。隨著圖書館學科的不斷發展,圖書館目錄的功能也在不斷擴大。于良芝在《圖書館學導論》種介紹了圖書館目錄功能的發展演變后,總結了5點圖書館目錄功能,即確認、聚合、選擇、獲取和導航[1]。為了保證圖書館目錄功能的實現,提高知識資源的利用效率,圖書館編目部門在開展文獻工作前,必須事先確定和準備所采用的著錄規則、分類法、主題詞表、著者號碼表、分類規則、主題標引規則以及目錄組織規則等[2],并嚴格按照既定規則對本館圖書進行編目工作,確保編目數據準確,以實現本館圖書館目錄功能,然而在實際的編目過程中,無論是原始編目還是聯機編目,都不可避免的發生著各種問題,導致編目質量下降。楊以赟[3]和金小璞[4]等通過實證分析,應用先進的理論和方法分析了影響編目質量的若干因素,從管理和實際業務操作層面提出了提高編目質量的措施與構想,對編目質量提高的實現能夠起到積極的作用,但是對于編目質量的量化分析方面缺乏論述。普通圖書館需要尋找到高效、便捷、易執行和可量化的方法進行編目數據的質量篩查,從計算機智能化處理的角度去展開研究,加強事后監督,提高編目質量。
微軟公司OFFICE辦公軟件中的Excel對于圖書館工作人員來說并不陌生,通過對Excel的功能研究,利用一系列的組合操作、函數運用和公網VBA代碼導入等,針對編目數據中索書號項下存在的某些常見的特殊錯誤,基本可以實現對其大數據智能篩查,量化編目錯誤率,提高編目質量。
索書號[5]是圖書館藏書排架用的編碼,又稱索取號,是文獻外借和館藏清點的主要依據。編目數據錯誤最直接的表現之一就是索書號錯誤。索書號可以分為分類索書號和形式索書號兩大類。大數據智能化處理是一個很復雜的問題,本文僅從2種簡單但是常見的錯誤類型入手,有針對性的展開研究,展示Excel在圖書館編目大數據篩查應用的可行性。
篩查的前期準備,主要包括Excel的版本選擇、電腦的配置檢查和圖書館大數據的導出。
Excel版本眾多,常見的有Excel2003和Excel2007等。Excel2007支持最多1,048,576行和16,384列,即其支持運算記錄條數超過100萬條,內存管理可以達到2G,而Excel 2003只能支持65,536行和256列,內存管理為1G[6]。圖書館編目數據常常以百萬為計量單位,Excel2003顯然無法高效的運行大數據篩查,所以需要選擇Excel 2007或更高版本作為工作軟件。為了更快速流暢的實現篩查功能,需要電腦配置達到或超過2G內存,CPU在2.5 GHz以上,可根據需要按批次從圖書館管理系統后臺進行數據批量導出生成Excel格式文件備查。篩查大數據前可以事先截取系統中少量數據作為篩查實驗的數據,用以反復調試制作好的函數功能模塊,確定其運行無誤后應用于大數據電子表格中,以提高工作效率避免差錯。
3.1 著者號碼拼音錯誤篩查
由于漢字本身的特點及存在眾多的漢字排檢法,中文著者號碼表的統一甚為困難,根據中國大百科全書圖書館學情報學檔案學分冊[7]指出,分類/著者字順索書號是中國圖書館廣泛采用的分類索書號形式之一,且1988年在杭州召開的專題討論會上,多數人認為漢語拼音著者號碼表將成為中文著者號碼表發展的主流[8]。從表面來看,中文普通圖書著者號碼取號的一種常見形式為作者姓名按姓在前名在后著錄,取著者號時按順序取姓名的頭2個字的首字母,第3個字的首字母用相對應的1到2位數字代碼代替,如周恩來(zhou En Lai)著者號取ZE11,這樣,就可以根據表面一致性原則,將編目數據中"索書號"項所包含的2個英文字母與利用Excel函數自動生成的"責任者"項中著者姓名頭2個字的首字母進行自動比對,出現不一致即可能出現編目錯誤。具體操作方法如圖1和圖2所示。

圖2 簡化實例電子表格公式視圖
⑴從索書號中分類號與著者號的分隔符開始提取字母
在系統導出數據中,分割分類號與著者號的為"/",形式如D693.09/ZE11。利用FIND和MID函數組合可以實現提取"/"后2位英文字母功能,新建"提取著者號拼音首字母"D列,輸入公式為"=MID(C2,FIND("/",C2,1)+1,2)",得到提取結果。
⑵利用公網獲取開源代碼自動生成責任者拼音首字母
針對導出數據中的"責任者"項,在百度搜索"EXCEL中如何取漢字拼音首字母",得到一系列的VBA解決方法,將網上提供的代碼應用于數據表格,將其內容插入VBAproject模塊,在新建G列"責任者拼音首字母"單元格G2中輸入公式"=getpy(F2)",而后將所得結果復制后選擇性粘貼其文本信息到本列,便可基本實現自動生成責任者拼音首字母功能。
⑶修正自動生成責任者拼音首字母
由于自動生成責任者拼音首字母中含有少量無法自動轉換的漢字,如"瞿"和"麟"等,需要利用查找替換功能對其進行批量替換成英文字母。
⑷去除國別內容
某些責任者項中含有國別項,如著者開頭[美]被轉換成了[M],需要利用查找替換功能將其刪除。
⑸截取修正后的數據左邊2位英文字母并將其與"提取著者號拼音首字母"項進行對比。
在H列利用公式"=LEFT(G2,2)"截取修正后的責任者,用"=IF(D2=H2,)"對2列進行對比,然后自動篩選返回值為"FALSE"的數據,即為不一致數據,其可能存在著者號錯誤,可將其篩選出來備查,如圖1第4行控制號為1547的數據。
3.2 形式索書號中流水號的跳號錯誤篩查
形式索書號常見的有財產登記號索書號和層架編號索書號。以密集書庫流水號排架法為例,書籍使用的財產登記號索書號形式為英文字母+連續的數字,如M006431。根據書籍典藏的連續性原則,如果登錄號出現跳號,在典藏過程中可能出現漏做或者登錄號輸入錯誤,這樣就可以利用RIGHT函數、IF函數和簡單的運算達到檢查形式索書號是否錄入正確的效果,形式如圖3和圖4所示。

圖3 簡化實例電子表格普通視圖

圖4 簡化實例電子表格公式視圖
在圖3中,第3行形式索書號為M0064302之后就漏了2本書,需要檢查修正。同時,可以通過篩選功能找出分配地址為非"密集書庫"的漏典藏書籍。
以分類索書號的表面一致性和形式索書號的連續性邏輯關系作為標準,利用Excel對圖書館大編目數據中的索書號項進行整體和分段質量篩查,可以方便快捷地檢查歷史數據,量化錯誤數據,對新編的數據能夠執行定期定量的事后監督,及時發現特定編目問題且易于操作,節省圖書館人力和智力資源。
由于大數據智能化篩查是一個技術難題,本方法僅針對索書號中常見的2類問題通過簡化實例進行研究以供參考,對于其他類型的編目質量問題,比如與圖書內容相關的圖書的分類錯誤,其他組成類型的分類索書號錯誤,非邏輯關系的形式索書號錯誤,編目數據中其他字段的錯誤等,本研究并沒有涵蓋,且本方法還存在技術缺陷,比如對多音字的判斷等,無法完全實現全自動智能篩查,遇到問題需要人工參與把關和修正,更完美的實現對圖書館大數據編目質量篩查還有待進一步研究。
在編目質量的控制上,以往的研究更多的是立足于管理層面,缺少對實際編目質量的量化分析,其可控性和實施效果很難得到較全面的衡量,對各種歷史遺留問題往往力不從心,而且容易忽視人力資源和人力成本問題,控制效率不高。針對相關問題,需要開辟利用計算機智能化處理的新思路。通過Excel2007對數據處理的強大功能,利用軟件幫助文件、相關書籍和公網信息等多渠道獲取解決問題的相關資料和實例,并有針對性的進行修改和靈活運用于編目數據質量篩查中,對編目質量的控制研究具有重要意義。
[1]編目精靈.編目的未來[M].北京:國家圖書館出版社,2010.
[2]中國大百科全書總編輯委員會.中國大百科全書圖書館學情報學檔案學分冊[M].北京:中國大百科全書出版社,2002.
[3]楊以赟.原始編目質量問題分析與對策[J].圖書館論壇,2007 (10):117-120.
[4]金小璞,徐 芳.網絡環境下聯機編目質量分析與控制[J].圖書館論壇,2008(8):57-59.
[5]中國大百科全書總編輯委員會.中國大百科全書圖書館學情報學檔案學分冊[M].北京:中國大百科全書出版社,2002: 468.
[6]李東博.中文版Excel2007寶典[M].北京:電子工業出版社, 2008.
[7]中國大百科全書總編輯委員會.中國大百科全書圖書館學情報學檔案學分冊[M].北京:中國大百科全書出版社,2002: 408.
[8]中國大百科全書總編輯委員會.中國大百科全書圖書館學情報學檔案學分冊[M].北京:中國大百科全書出版社,2002: 613.
Screening on Large Data Cataloguing Quality of Library Based on Exce
ZENG Shao-wen
(Sanming University Library,Sanming Fujian 365004,China)
From the aspect of intelligent automatic processing of library cataloguing large data by computer,aiming at the problems of spelling mistakes of author number in the library call number and jumping number of serial number in the form call number,and based on the surface consistent principle and the logical consistency relationship,this paper simply and pertinently presents the feasibility of intelligent screening of related fields in cataloguing large data by using Excel2007 and performing a series of methods such as combination operation,function application and public VBA code import,in order to quantify the cataloguing error rate,improve the cataloguing quality.Finally it proposes the limitation and future research direction of this method.
cataloguing quality;Excel;screening;call number
TP305
A
1008-1739(2014)22-71-3
定稿日期:2014-10-26