目前,大多數圖書館進行采訪查重主要是利用圖書館自身的自動化管理系統、館配商提供的圖書查重平臺、購買具有查重功能的采集器以及自己開發的查重軟件幾種方式進行查重,這幾種方式對數據的個性化要求,處理的繁簡層次、所耗費的時間以及成本費用都不盡相同。幾種方式各有長處,也各有弊端。本人也先后嘗試過各種查重方式,最終的結果都不那么令人滿意。經過長時間的體會和摸索,發現還是office辦公軟件靠得住些。以下就如何利用office進行查重,與同行切磋。
1 利用Excel進行查看
由于一張Excel表格只能容納6萬多條記錄,采用Excel查重主要是針對比較小的數據,在這里我把它稱為局部查重,特別適合采訪數據間的相互查重(館藏小的也適合),對圖書驗收特別有用,可以有效地杜絕塞書現象。我們可以把來自不同館配商的采訪預訂數據做成一個文件,分別放在不同的工作表中,比如將從人天、儒林和三新的預訂數據做成一個名叫圖書預訂數據.xls文件,該文件中就包含人天、儒林和三新三個工作表,也可以把不同館配商的預訂數據分別做成不同的文件,如人天.xls、懦林.xls和三新.xls三個文件,本人習慣做成一個文件。當每新訂購一批圖書,就將其采訪數據加入相應的工作表中或文件中,并作一備注,標明是第幾批,以供圖書到館驗收查重用。
1.1 同一表中數據的處理
包括對書號及重復數據的處理,進行這種處理有助于表與表中查重的效率和準確性的提高。書號的處理主要是針對10位同13位ISBN號間進行轉換,建議將10位和13位的ISBN號各入一列,這樣就可以用10位查,也可以用13位查。由于同一表中可能會出現幾條相同的記錄,會造成統計的誤差,這就需要對這一重復記錄進行剔除,用手動的方法不僅費時而且費神,用表中高級篩選的話,效率就大大提高了。具體操作為選中工具欄中數據下拉菜單一篩選一高級篩選,選中列表區域和條件區域,在復選選擇不重復記錄,單擊確定,表中就會隱藏重復的記錄,顯示的則是不重復的記錄,我們也可以將其記錄復制到其它表中。建議以上的操作最好是以ISBN號為條件,書名因同名的太多而不宜用,同一書號的叢書或套書則要單獨進行處理。
1.2 不同表或不同文件間數據的查重
采購的圖書入館后,先不急著一包一單驗收,因為一包一單的圖書不一定是本館訂購的書。用訂購數據同館配商的發貨數據比對,進行查重,可以將館配商的塞書剔除,從而有效地杜絕塞書現象。數據的比對實際上是引用Excel自帶的統計函數COUNTIF進行統計,最終達到查重的目的。假若本館現在要對人天公司的發貨圖書進行驗收,只要打開人天的訂購數據和發貨數據,在ISBN的格式一致時用ISBN號查重:在人天發貨數據插入一列,在要插入的列中調用統計函數COUNTIF,這個函數主要用于計算區域中滿足給定條件的單元格的個數,語法為COUNTIF(range,criteria),Range為需要計算其中滿足條件的單元格數目的單元格區域Criteria為確定哪些單元格將被計算在內的條件,其形式可以為數字、表達式、單元格引用或文本。本例中的Range為人天訂購數據中的ISBN列,Criteria為人天發貨數據中的ISBN列。通過計算后,數字為0的是未訂購的數據,即人天塞書,非零的就是本館的訂購圖書。記住插入列前的一列數據不能為空,計算完畢后最好將計算好的值替換成文本,這樣會提高處理數據的效率。為了防止館配商將所到圖書在下次重發,最好將已驗收的訂購圖書作一備注,供下次再查重用。這樣,就可以從根本上杜絕館配商塞書情況的發生。在掌握這個函數后,我們可以很方便地進行表與表的比對,不過數據太大會影響計算速度,建議太大的數據比對不用Excel,改用Access。
2 利用Access查重
Access同Excel相比,具有更強大的功能,支持廣泛的數據格式,可以處理大型的數據,在查重和去重方面有不可比擬的優越性,其操作方法如下。
在去重和查重之前,將要處理的數據導入Access表中,包括采訪數據,館藏數據以及其它相關的數據,其數據各字段的格式要保持一致。導入數據后,接著我們就要進行數據的處理。
2.1 同一文件中的數據去重
我們先在查詢中建立一個去重文件,在設計視圖中寫入去重命令(sELECT DISTINCT字段名INTO表FROM需要去重的數據文件),其中,字段名指導人數據的各字段,如書號,書名等,“表”是經過處理后的沒有重復記錄的表,點擊執行后,不重的數據就進入“表”中,打開“表”,全是不重的數據記錄。
2.2 不同文件的數據去重
若要將采訪數據A中同館藏數據B中相重復的記錄去掉,可以用DELETE*FROM A WHERE字段名iIl(select字段名from B);命令,其字段名必須相對應,即為同一條件。執行命令后,重復的數據就在A中刪除沒有了。
2.3 不同文件的數據的查重
如果說我們只要知道采訪數據A中的哪些數據同館藏數據B中的數據重了,而不動采訪數據A,也好辦,用命令SELECT A* INTO c FROM AWHERE字段名in(select字段名from B);命令執行后,重復的數據記錄就在表c了,只要打開表c就可以查看重復的數據記錄,而采訪數據A沒有任何變化。
用Access查重去重很容易實現,只需用簡短的命令執行操作,不過,查重前務必要確保導人數據的準確性,否則,查重去重的準確性就沒有保障。
關于用office查重去重,更深層次的東西有待大家進一步挖掘,希望本文起到拋磚引玉之效。筆者以為,為了科學建設館藏資源及優化館藏資源,圖書館采購人員必須具備一定的數據處理能力,通過在整個業務鏈的前端把好圖書的質量關,確保提高全館的服務水平。