999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術電子書元數據質量檢測及控制

2019-07-06 01:21:30翟中會
圖書館研究與工作 2019年7期
關鍵詞:圖書館質量

翟中會 周 琴 蔡 勤

(西安交通大學圖書館 陜西西安 710061)

1 引言

過去10年里,電子書數量及質量得到了迅猛發展,僅2016年全球出版了大約45萬種英文語種的學術電子書,佛羅里達大學圖書館電子書占所有圖書比例已經上升到73%[1]。電子書與物理館藏相比有其優點,如電子書不會錯架和丟失、實時在線訪問、不用去圖書館借閱;但也有其缺點,如用戶可以通過檢索或瀏覽書架兩種方式發現物理館藏,而電子書只能通過計算機檢索的方式發現,如果電子書的元數據不完整或錯誤,用戶很難檢索到該書[2]。所以書目元數據和其他描述信息元素是保證用戶發現和利用電子書的關鍵,用戶根據電子書第一個頁面的元數據決定是否閱讀該書。

影響用戶使用電子書的因素很多,包括電子書格式、個人書架、添加注釋、打印、下載以及移動端訪問等,但這些都必須建立在用戶可發現的基礎上,一旦電子書元數據錯誤、不全或不一致會對用戶發現電子圖書造成影響。因此元數據質量是數字館藏可靠并高效操作的必要條件,元數據能夠執行發現、使用、出處、流通、認證和管理這些核心書目功能[3]。本文介紹了出版社和電子書聚合平臺元數據的質量問題,進而提出質量控制方法,以促進圖書館建立高質量的元數據,增加電子圖書的使用效率。

2 電子書元數據質量及評價

2.1 出版社和圖書館元數據的差異

大部分出版社除了提供電子書外還提供大量的電子期刊,電子期刊發展時間較長,已形成了成熟的標準和生產流程,這些出版社將電子期刊元數據標準直接應用于電子書,但電子書和電子期刊的發現方式完全不同,比如用戶通過數據庫、索引和A—Z期刊列表發現電子期刊內容,而用戶訪問電子書的途徑主要有OPAC(Online Public Access Catalogue,聯機公共查詢目錄)、資源發現系統、出版社平臺、聚合器平臺(EBSCO、MyiLibrary等)、Google等方式。這些平臺的元數據來源于出版社提供的MARC(Machine Readable Catalogue,機器可讀目錄)記錄,電子圖書的發現完全依賴這些MARC記錄,所以用戶很難發現按照電子期刊方式組織的電子圖書。

圖書館和出版商使用的元數據格式不同,出版商使用ONIX(Online Information Exchange,在線信息交換)元數據,圖書館使用MARC元數據。ONIX元數據包括數字版權管理、銷售記錄和國際分銷等內容,這些特點有利用出版商管理電子圖書的銷售。出版商為了方便圖書館將電子書目加載到本館的ILS(Integrated Library System,圖書館集成系統),采用第三方軟件增強ONIX數據或將ONIX轉換為MARC,有時也從一些提供商或OCLC(Online Computer Library Center,聯機計算機圖書館中心)訂購MARC記錄。但在這些轉化或增強過程中,由于一些字段對出版社并不重要,所以可能遺漏對于圖書館非常重要的字段信息(如美國國會圖書館標題表LCSH)。另外出版社也很難制定出滿足不同ILS系統的元數據。電子書可以按照年度、系列或兩者結合方式銷售,這些銷售信息很容易在ONIX元數據中表示,在MARC元數據中幾乎不可能實現。

2.2 MARC記錄不適用于電子圖書

2011年美國國會圖書館提出重新評估MARC21,認為已有40多年歷史的MARC21不能適應大量數字資源描述。盡管MARC標準是一個非常成熟的標準,但不同的編目人員使用時存在差異,在書目聚合平臺(發現系統)能夠發現許多標題編目級別上的差異。出版商將許可協議年份作為“版權年”,版權年有利于出版社銷售給圖書館的電子圖書時間范圍。雖然MARC中包括了出版年和版權年,但出版商所定義的版權年沒有納入MARC記錄,因此MARC記錄中僅包括出版年。在新的標準出現之前,我們應該盡最大努力改善MARC21標準,使之盡可能滿足電子書元數據要求。

3 電子書元數據質量檢測及使用情況

3.1 檢測內容及方法

電子書平臺包括商業出版社平臺、大學出版平臺、電子書聚合平臺(ebrary、E-Book Library、MyiLibrary和EBSCO等)3種形式。圖書館購買的電子書分布在在這3種類型的平臺上。目前,大量出版社不僅在私有的平臺上提供電子書訪問,也在一些供應商的聚合器平臺提供電子書的訪問權限。本次測試選擇了CABI(Center for Agriculture and Bioscience International,國際農業與生物科學中心)等8個出版社和EBSCO等3個平臺測試電子書元數據的準確性。

電子書MARC記錄最常見的錯誤有哪些?不同出版社存在的錯誤是否相同?MARC記錄質量是否一致?為了分析這些問題,我們從資源發現系統中收集電子書MARC記錄,包括標題、作者、出版年,樣本大小基于99%的置信度和5%的置信區間,采用一個通用ID標識電子書,然后輸入Excel工作表,使用Excel中的RANDBETWEEN函數選擇隨機抽樣的電子書標題進行元數據檢查。檢查內容包括:①對比電子書元數據和PDF格式電子書中的標題、作者、出版年和ISBN是否一致;②檢查PDF電子書全文頁碼、章節是否完整;③電子書全文是否可以下載;④目錄表是否能正確鏈接到PDF全文對應頁面(目錄通常來源于附加的XML文件或PDF文件中的TOC)。

3.2 檢測結果

書的完整性、PDF下載、MARC記錄和PDF全文中標題、出版年、作者、內容匹配情況、TOC鏈接精確度范圍為90.3%到99.6%之間,不同出版社MARC記錄準確性范圍為84.3%到97.8%。結果表明,大多數MARC來源的質量非常好,標題、作者和出版年3個字段中作者出現錯誤幾率最小(如表1所示)。

表1 出版社MARC記錄錯誤

3.3 用戶使用MARC的檢索方式

用戶在檢索電子書時,有的字段經常被使用而有的則很少被使用,因此經常使用的字段如果發生錯誤將對電子書的發現產生很大影響,通過了解哪些字段對終端用戶最重要(如電子書頁碼錯誤對用戶幾乎沒有影響),可以優先考慮對這些字段的糾錯。為了確定字段的相對重要性,作者通過電子書平臺搜索日志收集用戶使用MARC字段檢索情況。根據日志分析,用戶檢索類型主要包括下面幾種情況:作者、主題、標題、LCSH、語言、出版社、ISBN、出版年和“關鍵詞在所有字段”。“關鍵詞在所有字段”是使用最多的檢索方式,占整個檢索類型的88%,標題、作者和主題也是比較重要的字段。另外還有學科、主題、控制號(ISBN和數字對象唯一標識符DOI),標題方式有完整標題檢索(如“Envisioning Easiness:Byron's‘Darkness’,Campbell's‘The East Man’,and the Critical Aftermath.”)、短語檢索(如“The Troubled Dream of Life”),但該書的完整的標題為“The Troubled Dream of Life: In Search of a Peaceful Death”。主題檢索為單個或幾個單詞主題搜索(如“aestheticism”,或“protests + demonstrations+native+Canadians”)。主題或標題檢索,不區分是主題或標題(如“winnipeg+general+strike”)。主題或作者檢索,不區分是作者名或是否研究對象為該人名。

4 建立質量控制過程

元數據是電子圖書服務的基礎,目前還沒有完整一致的方法創建元數據。建立有效的質量控制過程可以解決不同提供商元數據不一致和完整性問題,大部分出版社或聚合平臺采用冗余方法控制元數據質量。然而這種方法在實踐過程中并不是非常有效,另外電子書上線后,讀者應該立即就能訪問電子圖書的內容,所以元數據質量應該在上線前進行檢查,而不能依靠讀者的反饋糾錯。

4.1 質量評價框架

目前,電子書元數據質量評價最完整的一個框架由7個通用維度組成:完整性、精確性、來源、期望一致性、邏輯一致性、時效性和可訪問性。精確性和一致性在這7個維度中最重要。也有學者提出采用分析和經驗方法組合來估計元數據質量變化,構建對最終用戶透明的基線質量模型。OCLC開發了質量保證機制,并測量了它們對數字學習庫的影響。他們的案例研究表明,在存儲庫生命周期中為元數據創建過程插入控制點可以顯著提高元數據的完整性。

4.2 質量控制過程中的問題

資源描述的精確性和一致性是保證元數據在本地語境環境下可發現的必要條件,嚴格檢查發布者列表,嚴格的內容加載后檢查以及內容完整性的自動檢查有助于元數據質量提高。

在數字環境下,圖書館扮演聚合和發布者角色,很難控制和評估元數據質量,另外元數據也不像MARC記錄有成熟的質量控制體系,所以必須開發元數據本身的評價和轉化過程支持元數據基本的互操作能力。出版商使用MARC作為ONIX元數據的唯一替代品[4],這迫使圖書館必須以MARC記錄質量標準評價元數據。但對于電子書來說應該在元素水平(如標題)評價元數據質量,而不是記錄水平(如MARC記錄)。電子書元數據必須有書目的發現、使用、來源、流通、認證和管理功能,使用openURL鏈接解析、搜索引擎可檢索。建立聚合平臺時索引那些MARC字段,在每個標題的第一頁顯示那些特殊字段都是需要考慮的問題[5],如版本對于電子書作用不大,不需要在第一頁顯示版權字段,但MARC記錄中含有版本字段。IFLA(International Federation of Library Associations,國際圖書館協會與機構聯合會)在國際編目原則中聲明,元數據質量控制是為了促進終端用戶發現、識別、選擇和使用信息資源。然而,近來NISO(National Information Standards Organization,美國國家信息標準組織)強調電子書元數據不僅僅是出版社和圖書館館員使用,更主要是為讀者服務。高質量元數據不但提升了電子書的購買和流通,讀者也能通過電子書封面、目錄等內容決定是否下載或閱讀該書。

目前,雖然有一些標準可以應用于電子書(如期刊文章標簽套件),但在電子書行業還在不斷發展的狀態下使用一個特定的標準也不是非常合適,也不能解決出版商元數據不完整的問題。

4.3 圖書館和出版社在質量控制中的作用

字段重復和錯誤、MARC記錄錯誤抓取數據并索引,都直接影響了元數據的質量。另外,由于MARC記錄由不同主體完成,所以不同的出版社和出版社內部的MARC記錄存在不一致的問題。為了處理這些不一致性,圖書館可以通過分析原始MARC記錄判斷通用映射文件是否正確,在加載數據前,分析每個出版社的樣本記錄是否包含需要的所有字段,字段是否以與通用XML映射文件匹配的方式進行編碼。如果數據不匹配,需要更改映射文件,以便正確地索引所需的字段,不過這種方案的缺點是忽略了映射文件的通用性。通用性映射文件索引較少的字段,因此用戶體驗性較差,同時如果想轉移到豐富元數據格式,會導致個性化映射不一致。

一種處理MARC不一致的方案是從一個元數據標準到另一個標準創建“通路”或將MARC記錄映射到完全不同的標準。例如,將不同出版社元數據映射到自然語言(Natural Language Processing,簡稱NPL)處理標簽,即使出版社本身以NPL為元數據標簽,也需要進一步對元數據標準化,這可以保證一致的元數據以及索引元數據的所有基本元素。

映射文件不能滿足所有出版社提供的原始元數據,出版社提供的原始數據和后期處理過程都可能產生錯誤,相對于前一種錯誤后期處理過程中產生的錯誤較少見,但如果發生這種錯誤就會同時影響大批記錄,例如主題編碼字段與映射文件字段不同,處理過程就不能識別主題字段。其他細小的錯誤如作者名字拼寫錯誤、標題錯誤需要圖書館員手動修改。

控制號(DOI或ISBN)也是元數據質量非常重要的一個指標[6],近來出現的跨平臺和數據庫數據共享標準(Knowledge Bases And Related Tools,簡稱KBART)強調ISBN或eISBN對專著標識的重要性,出版商在電子書元數據中加入了EPUB(Electronic Publication)標識字段。

為了提高電子書元數據索引,圖書館可以采取一種適合于電子書的特殊書目信息標準,比如,為不同版本MARC建立對照表,這種方法有利于從其他資源獲取元數據(如ONIX、出版社的DTD文檔)。館員將電子書元數據與從其他學術圖書館的目錄中提取的記錄進行比較,創建一個與質量控制過程分開的糾錯過程。分析哪些字段對終端用戶最重要,可以優先考慮對這些字段的糾錯。

5 結語

通過對電子書元數據質量分析,發現即使很少的元數據錯誤對電子書來說也是很大的損失。目前圖書館和出版商協議中還沒有考慮到電子書元數據質量,元數據質量也不是協議中的一個條款,但是敦促出版商提高元數據質量,圖書館自身清理元數據或者通過第三方質量控制提升元數據質量對提升電子圖書利用非常重要。

猜你喜歡
圖書館質量
“質量”知識鞏固
質量守恒定律考什么
圖書館
文苑(2019年20期)2019-11-16 08:52:12
做夢導致睡眠質量差嗎
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
關于質量的快速Q&A
飛躍圖書館
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
圖書館里的是是非非
主站蜘蛛池模板: 91激情视频| 免费可以看的无遮挡av无码| 在线视频亚洲色图| 97国产精品视频人人做人人爱| 久久综合激情网| 免费国产黄线在线观看| 国产在线视频二区| 亚亚洲乱码一二三四区| 欧美在线一二区| 欧美va亚洲va香蕉在线| 亚洲自偷自拍另类小说| 无码区日韩专区免费系列| 91系列在线观看| 2022精品国偷自产免费观看| 99精品在线视频观看| 欧美国产综合色视频| AV熟女乱| 全午夜免费一级毛片| 国产在线精品美女观看| 久久久久久国产精品mv| 免费毛片a| 国产成人精品视频一区视频二区| 亚洲综合片| 成人午夜天| 这里只有精品在线播放| 精品综合久久久久久97超人| 蜜桃视频一区| 免费欧美一级| 国产精品成人免费视频99| 欧美日韩国产在线观看一区二区三区 | 亚洲精品在线观看91| 性欧美在线| 久久精品中文字幕免费| 99草精品视频| 国产精品流白浆在线观看| 永久免费无码日韩视频| 精品91在线| 久久精品66| 午夜视频www| 欧美午夜性视频| 精品成人一区二区| 欧美日本视频在线观看| 呦女亚洲一区精品| 高清欧美性猛交XXXX黑人猛交| 国产黑丝一区| 一级一级一片免费| 久久亚洲高清国产| aa级毛片毛片免费观看久| 在线日本国产成人免费的| 91丝袜美腿高跟国产极品老师| 亚洲一本大道在线| a毛片在线播放| 国产欧美精品一区二区 | 国产在线视频导航| 亚洲欧美日韩中文字幕在线| av午夜福利一片免费看| 精品欧美一区二区三区在线| 精品福利视频网| 欧洲精品视频在线观看| 人妻少妇乱子伦精品无码专区毛片| 亚洲欧洲日韩综合色天使| 国产精品hd在线播放| 中文字幕无码制服中字| 久久久精品久久久久三级| 国产美女主播一级成人毛片| 欧美日韩中文国产va另类| 99视频全部免费| 国产凹凸视频在线观看| 青青草91视频| 一本大道香蕉久中文在线播放| 狠狠v日韩v欧美v| 高清无码一本到东京热| 亚洲AV无码乱码在线观看裸奔| 亚洲午夜天堂| 亚洲欧美日韩另类| 欧美成人看片一区二区三区| 国产精品yjizz视频网一二区| www.精品视频| 久久77777| 天天综合色天天综合网| 精品综合久久久久久97超人| 精品三级网站|