翟中會(huì) 石 蕾
(西安交通大學(xué)圖書館 陜西西安 710061)
電子書平臺(tái)包括商業(yè)出版社平臺(tái)、大學(xué)出版平臺(tái)、電子書聚合平臺(tái)(如ebrary、E-Book Library、MyiLibrary和EBSCO等)三種形式[1-2]。圖書館購(gòu)買的電子書分布在這三種類型的平臺(tái)上,目前大量出版社不僅在私有的平臺(tái)上提供電子書訪問(wèn),也在一些供應(yīng)商的聚合器平臺(tái)提供電子書的訪問(wèn)權(quán)限,這極大地增加了電子書的可訪問(wèn)性。但也帶來(lái)一些不利的因素,如不同電子書平臺(tái)提供不同的功能、不同的書目元數(shù)據(jù),以及檢索結(jié)果不一致等,這些差異都對(duì)用戶可用性產(chǎn)生了非常大的影響。GB/T 18787.3-2015《信息技術(shù)電子書》第3部分元數(shù)據(jù)規(guī)定了電子書元數(shù)據(jù)的屬性、電子書設(shè)備元數(shù)據(jù)和電子書內(nèi)容元數(shù)據(jù)內(nèi)容,適用于電子書元數(shù)據(jù)采集、數(shù)據(jù)集編目、對(duì)數(shù)據(jù)集完整描述、數(shù)據(jù)共享、數(shù)據(jù)交換和數(shù)據(jù)查詢服務(wù)。目前,圖書館采購(gòu)電子書時(shí)僅考慮書的內(nèi)容和價(jià)格[3],很少分析不同電子書平臺(tái)的用戶可用性。筆者站在用戶的角度對(duì)比分析了電子書元數(shù)據(jù)在不同平臺(tái)的差異,利用關(guān)鍵詞檢索測(cè)試分析不同平臺(tái)檢索結(jié)果的查全率和查準(zhǔn)率。本文的結(jié)果可以為采訪部門采購(gòu)電子書提供電子書平臺(tái)的用戶可用性,也可以促進(jìn)用戶認(rèn)識(shí)不同平臺(tái)之間的差異,更加高效地利用電子圖書。
目前有研究者對(duì)比分析了不同的電子書平臺(tái),主要集中在電子書的選擇標(biāo)準(zhǔn)、電子書價(jià)格、利用率、許可范圍、商業(yè)模型、平臺(tái)接口和學(xué)科范圍;也有研究分析了電子書的特點(diǎn),如內(nèi)容、銷售模型、DRM(Digital Right Management,數(shù)字版權(quán)管理),還未見關(guān)于不同電子書平臺(tái)元數(shù)據(jù)及檢索性能對(duì)比的文獻(xiàn)。
圖書館在選擇不同數(shù)據(jù)庫(kù)平臺(tái)時(shí),最常用的方法是對(duì)比分析法。由于現(xiàn)存的工具只提供資源簡(jiǎn)單描述信息,不能對(duì)資源進(jìn)行對(duì)比分析(如eDesiderata),所以本文采用手工對(duì)比分析方法。

表1 出版社平臺(tái)、EBSCO和MyiLibrary測(cè)試
隨機(jī)選擇22個(gè)學(xué)術(shù)出版社的英文電子書,為了方便對(duì)比,樣本限制在同一年出版且出版一年以上的電子書。同時(shí),樣本必須在出版社平臺(tái)和測(cè)試的兩個(gè)聚合平臺(tái)(EBSCO和MyiLibrary)出現(xiàn)。由于APA、IGI Global、Karger和McGraw-Hill等出版社不在聚合平臺(tái)分發(fā)電子書,Safari平臺(tái)從不同出版社聚合內(nèi)容但僅限在Safari訪問(wèn),所以本文未選擇這些平臺(tái)。
為了保證測(cè)試數(shù)據(jù)同時(shí)在出版社平臺(tái)、聚合器平臺(tái)同時(shí)出現(xiàn),筆者首先從17個(gè)出版社分別選取1~5本電子書,檢索這些書是否同時(shí)在出版社平臺(tái)、EBSCO和MyiLibrary出現(xiàn),總計(jì)檢索出73本書,結(jié)果僅有10本書同時(shí)在這三個(gè)平臺(tái)出現(xiàn)(如表1所示),所以本文后續(xù)的測(cè)試全部采用這10本電子書。
測(cè)試內(nèi)容包括平臺(tái)和標(biāo)題兩個(gè)層次。平臺(tái)層次測(cè)試指平臺(tái)的導(dǎo)航及頁(yè)面布局等特點(diǎn),標(biāo)題層次指標(biāo)題在不同平臺(tái)的表現(xiàn)形式,由于平臺(tái)生成的引文格式由平臺(tái)的元數(shù)據(jù)產(chǎn)生,所以也對(duì)不同平臺(tái)生成的引文格式進(jìn)行了對(duì)比分析。檢索功能測(cè)試指從每本電子書中選擇與電子書主題非常相關(guān)的關(guān)鍵詞在不同平臺(tái)進(jìn)行檢索,對(duì)比檢索結(jié)果數(shù)量、排序及呈現(xiàn)方式等。
由于用戶只能通過(guò)檢索方式發(fā)現(xiàn)電子書,如果電子書的元數(shù)據(jù)不完整或錯(cuò)誤,則用戶很難發(fā)現(xiàn)這本電子書或確定電子書內(nèi)容是否和自己的研究相關(guān)。所以,書目元數(shù)據(jù)和其他描述信息元是保證用戶發(fā)現(xiàn)電子書的關(guān)鍵。
電子書元數(shù)據(jù)包括標(biāo)題、作者、出版社和日期,測(cè)試電子書“A Companion to Hildegard of Bingen”,MyiLibrary平臺(tái)上將標(biāo)題的a或an倒置放在標(biāo)題結(jié)尾。出版社平臺(tái)明確注明Debra Stoudt、George Ferzoco和Beverly Kienzle為該書的編者,EBSCO和MyiLibrary平臺(tái)將上述三人標(biāo)為作者且和出版社平臺(tái)的順序不同。出版社平臺(tái)提供了詳細(xì)的圖書卷信息,EBSCO提供部分卷信息,MyiLibrary無(wú)任何卷信息(如表2所示)。
測(cè)試電子書“Industrialization in the Modern World:From the Industrial Revolution to the Internet”,如表3所示MyiLibrary平臺(tái)無(wú)副標(biāo)題且省略了作者的中間名字,出版社和EBSCO平臺(tái)作者的中間名字格式不同。中間名字在檢索時(shí)可以用來(lái)區(qū)分許多通用名字,省略了中間名字可能會(huì)檢索到一些不相關(guān)的結(jié)果。日期是引文信息非常重要的字段,然而不同平臺(tái)上的出版日期也不一致。MyiLibrary列出出版日期,EBSCO使用版權(quán)日期,出版社平臺(tái)同時(shí)提供出版日期和版權(quán)日期,有時(shí)還會(huì)列出印刷版和電子版兩個(gè)出版日期。如果出版日期和版權(quán)日期年份不同,就會(huì)導(dǎo)致產(chǎn)生錯(cuò)誤的引文信息。大部分引文樣式包括“year of publication”,可以是出版日期或版權(quán)日期。版權(quán)指南建議如果一個(gè)著作的印刷版和電子版出版日期不同,出版日期應(yīng)該選擇最早的日期。然而,出版社經(jīng)常提供電子出版物日期或發(fā)布日期代替版權(quán)日期和出版日期,隨著出版社不斷數(shù)字化原有的印刷出版物,這種問(wèn)題會(huì)越來(lái)越多。例如,1990年出版的一本書的版權(quán)日為1990年,在2015年被數(shù)字化后,電子書的版權(quán)日為2015年。電子化過(guò)程中書的內(nèi)容并沒有改變,在引用該著作時(shí)可能出現(xiàn)1990年和2015年兩種版權(quán)日期。

表2 元數(shù)據(jù)表達(dá)差異及錯(cuò)誤

表3 副標(biāo)題、出版社、日期、尺寸、主題差異
元數(shù)據(jù)細(xì)小的差別會(huì)直接影響引文信息的準(zhǔn)確性,如“The Day of Shelly’s Death:The Poetry and Ethnography of Grief”,MyiLibrary省略了副標(biāo)題和標(biāo)題第一個(gè)單詞“The”,在生成的引文信息的標(biāo)題中不包括“the”,在“日期”字段中Duke University Press列出了出版日期和版權(quán)日期,MyiLibrary為出版日期,EBSCO為版權(quán)日期,元數(shù)據(jù)的差異導(dǎo)致不同平臺(tái)產(chǎn)生的MLA引文信息不同(如表4所示)。
關(guān)鍵詞或主題詞存在差異。電子書平臺(tái)包括一系列關(guān)鍵詞、主題詞、相關(guān)主題或其他術(shù)語(yǔ),“The Economic Competitiveness of Renewable Energy:Pathways to 100% Global Coverage”的“Subjects”字段在Wiley Online Library為“Solar Energy &Photovoltaics”,EBSCO為“Business & Economics”,MyiLibrary為“Renewable energy source”,這表明不同平臺(tái)將同一本書可能劃分在完全不相關(guān)的主題下面。聚合平臺(tái)一般提供詳細(xì)的主題等級(jí)分類,出版社僅提供最高層的主題分類,如電子書“Authoritarian Origins of Democratic Party Systems in Africa”,EBSCO和MyiLibrary提供詳細(xì)的等級(jí)主題分類,出版社平臺(tái)僅列出一個(gè)總主題(如表5所示)。另外,不同平臺(tái)采用的學(xué)科分類體系也不同,包括BISAC、LCSH和獨(dú)有的分類體系等。編目人員認(rèn)為需要對(duì)不一致的學(xué)科主題分類進(jìn)行統(tǒng)一的數(shù)據(jù)優(yōu)化以利于內(nèi)容發(fā)現(xiàn)[4]。
檢索是電子書最重要的優(yōu)點(diǎn),很多用戶使用電子書的搜索功能確定相關(guān)章節(jié),電子書的可檢索性不僅要求其提供全文檢索,而且應(yīng)該返回精確且按相關(guān)性排序結(jié)果。

表4 引文格式差異

表5 主題分類差異
通過(guò)對(duì)比表1所列19個(gè)電子書平臺(tái)提供的檢索方式,16個(gè)提供了單獨(dú)電子書全文檢索框,其余3個(gè)雖然沒有提供單獨(dú)的全文檢索框,但可以通過(guò)PDF格式提供查找功能進(jìn)行全文檢索。
不同平臺(tái)檢索結(jié)果呈現(xiàn)方式不同,包括關(guān)鍵詞、頁(yè)面、節(jié)和章三個(gè)層次。章層次的檢索結(jié)果列表數(shù)量等于關(guān)鍵詞出現(xiàn)的章數(shù)量,無(wú)論關(guān)鍵詞在某一章中出現(xiàn)多少次,該章在結(jié)果中僅出現(xiàn)一次。頁(yè)面層次檢索結(jié)果類似于章節(jié)層次,顯示的是頁(yè)面的數(shù)量。關(guān)鍵詞層面結(jié)果數(shù)量等于關(guān)鍵詞在電子書中出現(xiàn)的次數(shù)。對(duì)比19個(gè)電子書平臺(tái)檢索結(jié)果顯示方式,12個(gè)顯示章層次結(jié)果,2個(gè)顯示頁(yè)面層次結(jié)果,5個(gè)顯示關(guān)鍵詞層次結(jié)果。在電子書“The Social Order of the Underworld:How Prison Gangs Govern the American Penal System”中檢索關(guān)鍵詞“decentralized”,EBSCO平臺(tái)顯示20條關(guān)鍵詞層次結(jié)果,而在OSO(牛津?qū)W術(shù)在線)平臺(tái)顯示5條章節(jié)層次結(jié)果。在電子書“The Economic Competitiveness of Renewable Energy:Pathways to 100% Global Coverage”中檢索關(guān)鍵詞“commercialization”,EBSCO平臺(tái)返回3條結(jié)果,分別為書的35頁(yè)、58頁(yè)和90頁(yè);MyiLibrary平臺(tái)僅返回2條結(jié)果,為書的35頁(yè)和58頁(yè),不包括90頁(yè);Wiley Online Library(出版社平臺(tái))檢索結(jié)果為0。通過(guò)仔細(xì)分析每個(gè)平臺(tái)返回的結(jié)果,包括下面幾個(gè)錯(cuò)誤:EBSCO檢索結(jié)果前兩條(35頁(yè)和58頁(yè))出現(xiàn)完整的單詞中間加入空格的錯(cuò)誤,即The[空格]ese和eff[空格]orts,MyiLibrary檢索結(jié)果第二條(58頁(yè)),字母“ff”被一個(gè)問(wèn)號(hào)代替,單詞“similar”出現(xiàn)一個(gè)連詞符,如果這些詞恰好是檢索關(guān)鍵詞,系統(tǒng)就不能檢索到這些條目。
章或頁(yè)面層次結(jié)果通常鏈接到相關(guān)章或標(biāo)題頁(yè),關(guān)鍵詞層次結(jié)果鏈接到具體的一頁(yè),章節(jié)層次的結(jié)果看起來(lái)比較簡(jiǎn)明,關(guān)鍵詞層次結(jié)果使用戶能夠直接看到關(guān)鍵詞的位置。
短語(yǔ)檢索是指將幾個(gè)關(guān)鍵詞用雙引號(hào)引起來(lái),檢索系統(tǒng)將引號(hào)中的內(nèi)容作為一個(gè)精確短語(yǔ)檢索而不是幾個(gè)關(guān)鍵詞單獨(dú)檢索,大部分平臺(tái)支持精確短語(yǔ)檢索。在電子書“Authoritarian Origins of Democratic Party Systems in Africa”中檢索關(guān)鍵詞conventional wisdom,劍橋大學(xué)出版社、MyiLibrary和EBSCO分別檢索到3、4、10條結(jié)果,如果采用引號(hào)短語(yǔ)檢索“conventional wisdom”,MyiLibrary和劍橋大學(xué)出版社的檢索結(jié)果數(shù)量分別和關(guān)鍵詞檢索結(jié)果數(shù)量相同,但EBSCO檢索到4條結(jié)果,比關(guān)鍵詞檢索少了6條(如表6所示)。這表明不同的平臺(tái)對(duì)精確短語(yǔ)檢索的處理方法不同。

表6 關(guān)鍵詞、詞組、精確短語(yǔ)檢索對(duì)比
在檢索系統(tǒng)中,布爾邏輯操作符被用來(lái)限制或擴(kuò)大檢索范圍[5],大部分電子書平臺(tái)在多個(gè)檢索詞之間自動(dòng)插入“and”。詞干提取是移除單詞結(jié)尾部分將關(guān)鍵詞變?yōu)閱卧~的最基本形式,詞形還原還包括將單詞的其他形式還原為基本形式,從技術(shù)角度看詞形還原優(yōu)于詞干提取。Taylor & Francis電子書平臺(tái)詳細(xì)解釋了他們采用的詞形還原技術(shù)。Brill、Elgaronline、Karger和Wiley Online Library采用了詞干提取技術(shù)。和布爾邏輯運(yùn)算相同,如果不是精確短語(yǔ)檢索,大部分平臺(tái)忽略停用詞檢索,例如such、a、an、the等詞。
元數(shù)據(jù)是圖書館的生命線,全面準(zhǔn)確的元數(shù)據(jù)能夠促進(jìn)電子書的發(fā)現(xiàn)和使用。所以圖書館員有責(zé)任全流程檢測(cè)和糾正電子書元數(shù)據(jù)的錯(cuò)誤,圖書館可以從以下幾方面提升電子書元數(shù)據(jù)質(zhì)量:①在采購(gòu)電子書前,對(duì)比分析不同聚合平臺(tái)之間或聚合平臺(tái)和出版社平臺(tái)之間的元數(shù)據(jù)質(zhì)量。②從完整性、精確性、邏輯一致性、時(shí)效性和訪問(wèn)性五個(gè)維度控制元數(shù)據(jù)質(zhì)量。③分析哪些元數(shù)據(jù)字段對(duì)用戶最重要,優(yōu)先考慮對(duì)這些字段糾錯(cuò)(如電子書頁(yè)碼錯(cuò)誤對(duì)用戶使用電子書幾乎沒有影響)。④主題詞、目錄和摘要影響作者是否閱讀該電子書,所以也必須考慮這些字段。對(duì)于電子書平臺(tái)檢索功能,首先,電子書的檢索功能和結(jié)果呈現(xiàn)方式與期刊數(shù)據(jù)庫(kù)有很大的差別,圖書館員在資源培訓(xùn)時(shí)應(yīng)該注意這些細(xì)節(jié);其次,一本電子書可能同時(shí)出現(xiàn)在聚合平臺(tái)和出版社平臺(tái),但其下載和打印的權(quán)限可能不同;最后,電子書的訂購(gòu)方式(perpetual或subscription)決定了是否能夠檢索到最新版本的電子書。針對(duì)電子書元數(shù)據(jù)存在的差異,采訪部門在購(gòu)買電子書時(shí)應(yīng)該考慮不同平臺(tái)之間的差異,選擇最適合本地用戶的平臺(tái),同時(shí)信息咨詢部門在讀者信息素養(yǎng)教育中也應(yīng)該注意不同平臺(tái)的檢索及結(jié)果呈現(xiàn)差異。