NSTL聯合目錄書目數據質量控制體系建設*

2021-11-03 07:45:14徐晶晶葛紅梅

數字圖書館論壇 2021年9期

徐晶晶葛紅梅

（中國醫學科學院醫學信息研究所，北京 100005）

聯合目錄能夠一站式揭示、報道多個文獻收藏機構所藏文獻情況，通常由若干文獻收藏機構共同遵循統一著錄原則和標準合作編制而成[1]。目前國內具有代表性的聯合目錄有全國圖書館聯合編目中心（Online Library Cataloging Center，OLCC）的全國圖書館聯合館藏目錄和中國高等教育文獻保障系統（China Academic Library & Information System，CALIS）的CALIS聯合目錄公共檢索系統，其合作模式為聯機編目，使用標準機讀目錄格式，按照相關文獻著錄標準和標引詞表進行，但是由于參與單位眾多，參與人員水平參差不齊，使用標準不統一、數據監控管理措施不夠嚴格等原因，導致存在重復數據、簡單記錄數據多、著錄格式不統一、缺少必備字段等問題[2-3]。

NSTL聯合目錄是在計算機和網絡環境下，國家科技圖書文獻中心（National Science and Technology Library，NSTL）9家成員館遵循一套資源描述規則、書目交互協議，按學科分工合作，建立的具有統一標準的科技文獻資源聯合目錄數據庫[4]。NSTL聯合目錄收錄各成員館訂購或采集的各類科技文獻資源。具體而言，文獻類型包括期刊、會議錄、科技叢書、文集匯編、科技報告、工具書、科技專著7種類型；載體類型分為印刷版、電子版；媒介類型包括光盤、網絡及其他如Email、USB等形式；采集類型有NSTL經費支持的印本資源、以印本方式訂購的單品種電子資源、開放獲取資源、全國開通回溯數據庫資源、全國開通現刊數據庫資源、成員館捆綁訂購的數據庫資源、以書評方式贈閱的文獻資源、本地自有經費采集的資源。截至2021年6月30日，已累積392 123條書目數據及2 523 722條期刊單冊數據（簽到數據）。

NSTL聯合目錄系統是NSTL多個數字業務系統的集成連接樞紐和唯一輸出源頭；NSTL聯合目錄建設是NSTL文獻信息資源揭示服務的重要基礎性工作；NSTL聯合目錄是NSTL經費支持的訂購和采集資源的實際清單，發揮著至關重要的作用，下游各種文獻信息服務和更細顆粒的加工揭示工作都以此為依據。因此，NSTL聯合目錄數據質量控制尤為重要，有著牽一發而動全身的影響。

1 NSTL聯合目錄書目數據質量控制體系

NSTL聯合目錄采用自主研發的系統，根據NSTL圖書文獻資源管理的需求，進行定制開發，自2012年上線以來在實際應用中不斷升級改進，完善系統功能，經過多年探索和實踐，逐漸形成一套利用規則、系統和人員相互作用、互相制約的相對完善可靠具有可行性的書目數據質量控制方案。

書目質量控制是“建立、組織、管理和維護特定書目記錄文檔的所有活動”[5]。具體到NSTL聯合目錄，書目數據質量控制的重點主要有兩個層面。

一是單條書目數據的質量，包括字段的豐富和完備性以及著錄內容的準確性，錯誤的（特別是題名、標準號和責任者著錄錯誤的）、不規范的書目數據會影響讀者查找文獻的查全率和查準率，從而降低該資源的利用率，同時錯誤或不完善數據的修改維護會牽涉到下游多個系統的數據同步更新。

二是整個書目數據庫的質量，主要指數據是否重復，重復數據除了在服務上給讀者甄別、選擇帶來困惑和不便外，同時也會給下游以篇為單位的文摘引文加工系統、全文存儲系統和開放資源采集系統帶來大量重復勞動。

為了提升數據質量，NSTL聯合目錄運行維護項目組反復審視書目數據的生命周期，提取各流程環節涉及的關鍵因素，形成規則、系統、人員“三位一體”的質量控制體系（見圖1）。通過嚴格周密的規則制定，明確需要的數據；通過系統對明顯不符合規則的數據進行攔截；通過人員對規則體系、系統功能進行維護，盡可能利用系統和規則控制數據質量。具體而言，通過制定和選用相關編目規則、元數據規范、控制詞表、校驗規則、查重規則及其他補充規則，在成員館本地自動化系統、NSTL聯合目錄預處理工具和NSTL聯合目錄中心書目數據庫（下文簡稱“聯目中心庫”）三級系統的輔助下，本地編目員、中心質檢員和系統管理員三級人員對數據從編目源頭到入庫后的各環節進行監控，最終通過“規則制定→編目人員培訓&實踐→系統自動校驗→系統自動查重→人工質檢→數據定期清洗”6個關鍵環節，對書目數據質量進行有效控制。

圖1 NSTL聯合目錄書目數據控制體系

2 書目數據質量控制規則

NSTL聯合目錄書目數據質量控制規則體系包括管理政策和操作手冊、編目元數據標準以及機器處理規則三部分（見表1）。管理政策和操作手冊包括對中心編目工作的規范要求如《國家科技圖書文獻中心聯合目錄系統管理實施辦法》《NSTL文獻資源界定和分類劃定規則》，相關系統的操作手冊如《國家科技圖書文獻中心聯合目錄系統使用手冊》《國家科技圖書文獻中心預處理工具用戶使用手冊》等，保證NSTL編目工作操作規范性和對相關概念理解的一致性。

表1 NSTL聯合目錄書目數據質量控制規則體系

編目元數據標準是書目數據質量控制規則體系的核心，可分為4類，即數據結構標準、數據內容標準、數據取值標準和數據交換標準。MARC屬于結構標準，編目規則屬于內容標準，分類法、主題詞表、名稱規范檔等屬于取值標準，2709格式或XML等屬于交互標準[6]。NSTL聯合目錄的9家成員單位在本地著錄時使用CNMARC或MARC21格式，按照相關編目規則、取值標準（控制詞表）建立本地書目數據，然后上傳、轉換和審核后，生成XML格式的NSTL聯合目錄元數據。

從本地MARC數據到NSTL聯合目錄元數據的過程中，需要利用機器處理規則包括轉換規則、校驗規則和查重規則，對書目質量進行控制。轉換規則即MARC數據與NSTL聯合目錄元數據的映射關系，本地書目通過預處理工具上傳到NSTL聯合目錄主系統，在上傳過程中，根據轉換規則將本地MARC數據轉換為NSTL聯合目錄元數據，并利用校驗規則對轉換后的聯目元數據進行校驗，對不符合校驗規則的數據進行回退并返回意見。校驗規則對元素的格式、取值范圍、必備性和可重復性等進行約束。查重規則是數據進入聯合目錄主程序后，與聯合目錄已有書目數據進行查重時遵循的規則，將在下文系統控制部分詳細闡述查重邏輯。

2.1 NSTL編目手冊

2004年NSTL聯機聯合編目指導委員會成立了標準規范研制課題組，對國際國內各類文獻描述規則進行研究、分析并結合國內實際情況進行本地化改造，在參考《西文文獻著錄條例（修訂擴大版）》[7]、《新版中國機讀目錄格式使用手冊》[8]的基礎上，制定NSTL聯機聯合編目系統數據制作的標準編目手冊。該編目手冊自2004年發布實施以來，根據NSTL文獻采集政策和精細化管理的要求，歷經2007年、2013年、2016年、2020年4次主要修訂，目前為2020年發布的第五版。2020年版編目手冊分為《NSTL連續出版物編目手冊》和《NSTL圖書文獻編目手冊》兩個分冊，在充分揭示各類資源在文獻類型、媒介類型、獲取方式、權益等特征的基礎上，按照統一體例說明各類型期刊和圖書文獻的編目規則，包括著錄用語言和文字，著錄信息源、字段和子字段的必備性和可重復性（利用字段簡表對不同類型資源的著錄項目的必備性和可重復性分別規定）、著錄內容、著錄格式等規則，并輔以實例說明，可以用以描述NSTL收錄的各類型中西文資源。目前各成員單位根據2020年版NSTL編目手冊，使用MARC格式和圖書館自動化系統進行本地資源編目，并且通過定期培訓、線上指導等方式加強編目員對編目規則的理解的一致性。

除了基本的編目手冊之外，輔以《NSTL期刊編目和簽到工作規則》對簽到數據的規范性進行控制，《NSTL西文會議文獻編目工作規則》對期刊中的會議文獻進行分析描述。

2.2 控制詞表

除了利用編目規則對編目工作進行規范外，采用多個控制詞表對數據質量進行控制。成員館在著錄部分關鍵字段時，根據編目規則指導，利用控制詞表限定范圍內的術語進行描述，系統根據控制詞表對著錄的結果進行檢查。控制詞表有兩類，一類為強制詞表，包括：《世界各國和地區名稱代碼》（GB/T 2659—2000）、《語種名稱代碼第2部分：3字母代碼》（GB/T 4880.2—2000）、文獻類型代碼表、媒介類型代碼表、采集類型代碼表、成員館代碼表等，對系統校驗和數據交互具有重大意義的字段使用強制詞表進行著錄并對著錄結果進行檢驗；另一類為推薦詞表，包括OA權益相關描述詞表、出版頻率詞表、責任方式詞表等，推薦詞表可以更好地保障不同編目人員著錄結果的一致性。在資源分類方面，除了統一使用《中國圖書館分類法》（第五版）[9]之外，根據NSTL資源的學科特點，制定了《NSTL統一資源分類表》[10]，該分類法能與中圖法進行自動映射，并且著重調整NSTL重點領域的類目層級并補充部分新興和交叉領域類目，更適應科技文獻分類標引和檢索的需要。

2.3 NSTL聯合目錄元數據規范

2010年起，NSTL聯合目錄系統為適應多業務系統的協同運行和交互需求，摒棄了傳統MARC描述書目數據格式，根據NSTL資源與服務特點，制定了基于DC的《NSTL聯合目錄系統基本元數據規范》，用以描述NSTL聯合目錄系統中的科技資源。2016年7月11日，《NSTL統一文獻元數據標準》[11]發布實施，NSTL聯合目錄系統作為NSTL主要業務系統之一，對原有NSTL聯合目錄元數據進行轉換升級，形成新版《NSTL聯合目錄元數據規范》作為NSTL聯合目錄系統使用的數據格式與上下游系統進行數據交互。這套元數據方案刪繁就簡，摒棄MARC格式中復雜的字段間呼應關系和標點符號，僅保留對于資源描述和識別具有重要意義的描述字段，減輕數據轉換和校驗壓力。

3 書目數據質量控制系統

NSTL聯合目錄系統分為“成員館本地自動化系統→預處理工具→NSTL聯合目錄中心書目數據庫”三級結構，成員館通過本地自動化系統進行本地資源的描述，然后通過預處理工具轉換上傳到聯目中心庫。聯目中心庫對上傳的數據進行查重處理并將處理結果通過預處理工具反饋給本地。書目數據質量的系統自動控制通過本地自動化系統字段設置、預處理工具校驗和聯目中心庫查重三個環節實現（見圖2）。

圖2 NSTL聯合目錄書目質量系統控制機制

3.1 本地自動化系統

成員館編目員根據編目規則在本地自動化系統進行編目，將NSTL編目規則涉及的字段和子字段添加到自動化系統的MARC字段規則設置模塊中，并設置相應的必備性和可重復性，在編目完成審校保存時，本地自動化系統根據設置完成相應校驗。由于不同文獻類型、載體類型、采集方式的資源對字段的必備性、可重復性要求并不完全一致，編目員可以根據自己負責的資源類型對字段進行個性化設置，往往一位編目員需要同時處理多種類型的資源，那么在成員館自動化系統中的字段約束則是較為粗略的。

3.2 預處理工具

預處理工具作為本地自動化系統和聯目中心庫之間的橋梁，主要功能有兩個：①利用轉換規則將本地MARC數據轉換成NSTL聯合目錄元數據；②利用校驗規則對轉換后的元數據進行校驗，并攔截不符合要求的數據，攔截數據主要有兩類。

（1）不符合字段必備性和可重復性要求的數據。為了保證數據字段著錄的完備性，NSTL聯合目錄對著錄信息的詳細級別要求比較高。除了規定所有資源必須具備題名、出版年、語種、出版國、分類號等基本信息外，對于不同文獻類型的資源分別規定字段的必備性和可重復性，如期刊的出版頻率、出版卷期范圍，會議的名稱、時間、地點、舉辦機構，叢書的叢書信息等都要求必備。尤其OA資源，NSTL聯合目錄要求OA資源必須具有OA標志、OA系統號并提供資源的平臺信息、權益信息和獲取鏈接等，涉及多個字段和子字段，且各字段間有關聯關系，則預處理工具處理數據時會對具有OA標志的資源去查找各子字段和字段著錄是否符合要求，這類判斷比較復雜，但是對于提高數據質量意義重大。OA資源特征字段描述見圖3：310字段著錄資源的權益信息；317字段著錄資源來源平臺信息；856字段著錄資源的獲取鏈接、該鏈接所屬平臺、該鏈接提供的卷期范圍；905字段著錄本館館藏信息，$v子字段著錄實際采集的館藏范圍，$z子字段標識該資源為OA資源；930$b子字段著錄OA系統的ID。

圖3 OA資源特征字段著錄示例

在校驗過程中，通過905$z的OA標志，判斷該數據應該必備“310”“317”“856”“930”及相關子字段，且310$y、317$a、856$y的內容應該一致。

（2）不符合取值格式要求的數據。取值格式的要求包括數值類型、數值長度、取值范圍等不同類型。如對ISSN進行格式的規定，必須為XXXX-XXXX，ISBN的長度僅能為10位或13位；對語種、國家通過語種代碼表、國家代碼表等控制詞表進行控制，僅能使用詞表中的詞匯進行描述；對資源的出版年、書目記錄的創建時間和修改時間等進行取值類型和長度的限制等。

3.3 聯目中心庫

前述提到NSTL聯合目錄收錄多種類型、來源的資源，同一種資源可能通過不同的途徑編目后進入NSTL聯合目錄系統，如一種期刊，可能會有2家以上的成員館訂購，由于訂購的資源載體類型不同，可能對應不同的ISSN；同時，此刊可能是混合OA期刊，根據NSTL資源采集政策，可以增加OA采集，并且可能被收錄在成員館訂購的捆綁數據庫中，則該刊可能從多個途徑進行編目后進入NSTL聯合目錄系統。NSTL聯合目錄系統需要對這些書目進行歸并處理，否則將會造成大量的冗余和錯亂。具體書目界定邏輯可以利用RDA的實體-關系模型來厘清。從RDA的核心元素定義[12]來看，作品是指獨特的知識或藝術形式，內容表達是指作品的知識或藝術創作得以實現的方式，作品和內容表達決定了資源本身在內容上的獨特性。載體表現指作品的一個內容表達的物理體現，不同載體表達在內容上高度雷同。根據NSTL資源政策，不同文獻類型、載體類型、采集類型的資源對應不同的采集、加工、服務政策，需要區別對待，但是又需要揭示同一種資源的不同形式之間的關系。NSTL聯合目錄建立新書目的標準基于載體表現，印本、CD、Online的資源在內容上具有較高的相似性，但是在物理體現上截然不同，在使用和服務中具有可替代性，因此為不同的載體表現分別建立分散書目，并且將具有不同載體表現的資源作為同一作品進行關聯聚合，生成融合書目。單件指載體表現的一個樣例或實例，內容和形式上完全相同，在聯合目錄中對應不同的館藏。

根據上述書目界定標準設計NSTL聯合目錄的查重策略，從作品級、載體表現級、單件級逐級檢查，并且結合系統管理的需求配置相應查重和處理操作，著重對區分資源品種的關鍵字段進行查重，關鍵字段包括題名、ISSN/ISBN、載體類型、媒介類型、采集類型、本地書目ID；此外，對于多卷書增加分輯號/分輯名查重；對于會議錄，增加會議名稱和會議時間作為查重字段，具體查重邏輯見圖4。

圖4 查重邏輯圖

查重步驟為：首先對每日入庫數據的自查重，通過本地書目ID、題名、ISSN對數據進行查重，對于重復數據保留最后一次修改的記錄，減輕重復入庫給聯目中心庫查重的壓力；所有當日上傳的有效數據進入臨時庫根據對應的文獻類型查重規則與聯目中心庫進行查重，可以系統自動判斷處理的機器根據預先設置的入庫規則進行自動處理操作，包括生成新書目、更新書目、添加館藏等，如查重后對載體類型、媒介類型、采集類型完全一致的同種資源進行館藏合并，不完全一致的同種資源則生成新記錄同時生成融合記錄，融合記錄下掛接同一種資源的不同形態的書目記錄。其他疑似重復，系統無法自動判斷的數據，留待人工質檢。

由于上下游系統對于NSTL聯合目錄數據的依賴程度較高，系統自動查重采取比較嚴格的策略，對所有疑似重復的數據進行攔截。如NSTL聯合目錄查重的一個重點是ISSN與EISSN的交叉匹配，NSTL編目規則對于ISSN和EISSN的著錄要求是有則必備，要求著錄所有能夠獲取到的ISSN，以便提供更多的查重匹配信息，在具體查重過程中會對所有ISSN和EISSN進行跨字段匹配（包括廢止或注銷的ISSN），這樣任何疑似重復的ISSN和EISSN在聯目中心庫中被檢索到，待審記錄都會被判疑似重復，等待人工審核。

4 書目數據質量控制人員

4.1 本地書目編目員

NSTL成員館包括理、工、農、醫、冶金、計量、機械、化工、標準等各個科技領域，要求成員館編目員除了具備圖書館專業知識還需要相關領域學科背景，一般編目員可能只側重其中一項技能。目前NSTL聯合目錄項目組通過定期培訓、線上指導、線下走訪等培養了一批熟悉NSTL聯合目錄編目規則的編目員，數據質量穩步提升，數據回退率明顯下降。具體人員培養方案包括：保證編目隊伍的可持續發展，通過成員館老帶新保持各成員館編目隊伍的穩定性，通過定期培訓保證不同成員館之間對于編目規則理解的一致性，對于新到館的圖情背景工作人員著重培養傳統圖書館技能到NSTL特定編目規則的轉換遷移，有學科背景的館員加強圖書館員相關資源描述和標引技能培訓。

4.2 中心書目質檢員

從各成員單位選用科班出身、編目經驗豐富、對NSTL資源政策了解的資深編目員組建合格的質檢員隊伍。質檢組負責的工作包括4個方面。①數據質檢。對每天新上傳的通過系統自動查重過濾后有疑似的數據進行人工甄別檢查。②NSTL聯合目錄編目規范指導與答疑。通過在線工作群對成員館編目員遇到的各種編目中的問題進行解答。③規則制定。追蹤國內外資源描述進展，分析NSTL聯合目錄資源描述需求變化，定期更新維護編目規則。④組織培訓。每年兩次固定培訓，一次為編目規則系統培訓，尤其針對新修訂的規則進行培訓；一次年底總結，對各成員館上傳的書目質量進行總結評估，針對易錯案例重點培訓。

4.3 系統管理員

在對新入庫資源進行日常系統查重和人工質檢外，系統管理員需要定期對歷史數據進行清洗。一是隨著對資源理解的不斷加深，查重策略不斷優化，校驗規則不斷細化，需要對歷史數據進行一致性處理；二是對人工質檢結果進行復核，進一步減少人工失誤導致的錯誤。除此之外，系統管理員要及時糾正中心質檢員、上下游系統反饋的問題數據。

5 結語

就體量而言，NSTL作為全國科技圖書文獻保障機構，NSTL聯合目錄相對于高校圖書館和公共圖書館系統聯盟目錄，參與單位和人員相對較少，收錄文獻類型相對集中，中心與成員館聯系緊密，有條件進行精細化管理，對數據質量提出更高的要求。目前利用這套質量控制體系，經過日常維護和2015年、2020年兩次大規模數據清洗，NSTL聯合目錄的書目數據質量得到有效控制，重復數據基本全部清除，新增數據錯誤率控制在0.2%以內，早期信息不完善數據應補盡補，下游反饋問題數據量顯著減少。準確完善的書目數據能夠為多單位協調采集和訂購資源提供有效參考，為資源統一發布和服務提供數據支撐，為篇級文獻加工和全文采集任務管理提供有力協助，有效減少了NSTL資源重復建設問題，提高了資源利用率。

目前NSTL聯合目錄系統質量控制主要集中在字段完備性和數據重復性檢查方面，未來希望通過進一步優化校驗規則、查重策略數據處理邏輯，減輕人工質檢的工作量，質檢人員的工作更多地集中在主動發現問題、提前預測問題而非事后補救和數據清洗。或可嘗試利用語義分析和機器學習，對字段內容進行進一步的控制，進一步提高書目數據的準確性，如對出版地和出版國的對應關系、對題名語種和作品語種著錄的對應關系、對分類號和主題詞的對應關系、對作者名稱的著錄格式等進行自動審核和規范[13]。