〔摘要〕以專業檢索角度對維普、中國知網和萬方三大中文數據庫在內容覆蓋、檢索功能、檢索結果、數據更新與時滯等方面的進行比較,指出各自的特點、功能。從選取數據庫的角度,對如何充分利用數據庫特色提高科技查新質量進行了探討。
〔關鍵詞〕維普;知網;萬方;數據庫;科技查新
收稿日期:2011-07-31
作者簡介:王 超(1972-),女,館員,研究方向:科技查新與讀者服務,發表論文4篇。
DOI:10.3969/j.issn.1008-0821.2011.10.039
〔中圖分類號〕G252.62 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)10-0163-03
Comparative Study on the Greatest Three Domestic Databasesfrom the Perspective of Sci-tech Novelty Retrieval
Wang Chao(Library,Beijing Normal University,Beijing 100875,China)
〔Abstract〕A comparative research on the three domestic greatest databases,VIP database,CNKI databases and Wanfang databases,is conducted in aspects of content coverage,retrieval functions,retrieval results,data update and data delay from the perspective of sci-tech novelty retrieval.The characteristics and function of their own were pointed out.It was explored to improve the effectiveness of sci-tech novelty by using features of different database form the selection of databases.
〔Key words〕Chinese periodical database of science and technology;China national knowledge infrastructure databases;Wanfang database;database;sci-tech novelty retrieval
《中文科技期刊數據庫》(簡稱維普)、《中國知網數據庫》(簡稱同方)、《萬方數據庫》(簡稱萬方)是我國三大權威數據庫,它們構成了科技查新與咨詢服務的必不可少的信息資源。3種綜合數據庫在內容覆蓋、檢索功能、結果顯示以及時效性等方面各有不同。本文試在相關資料和查新實踐的基礎上,探討如何充分發揮不同數據庫的特點,提高查新檢索的查全率和查準率,以期獲得新的認識。
1 三大數據庫的比較
1.1 內容覆蓋面
數據庫覆蓋面的大小反映了數據庫的權威性、完整性,一定程度上決定著檢索的優劣。在科技查新的文獻檢索過程中,涉及文獻主要包括期刊文獻和非期刊文獻。三大數據庫收錄的文獻種類不同,維普庫以收錄期刊著名,不收錄專利、會議論文、科技成果以及學位論文,同方和萬方則同時收錄期刊與其他特種文獻。
1.1.1 期刊文獻
三大數據庫都有期刊子系統,如文獻報道的那樣,三大數據庫所收錄期刊存在內容重復[1-3]。維普收錄期刊12 000余種,同方收錄9 437種,最早回溯至1915年,萬方收錄6 000余種,回溯期為1998年(時間截止至2011.6.7)。維普收錄期刊種類最多。在期刊文獻收錄方面,沒有哪一種數據庫完全包括了另兩種數據庫所收錄的期刊。相反,它們各具特色。從學科覆蓋范圍來看,同方和維普涵蓋了文理工農醫各學科,萬方在人文科學方面稍顯不足。在醫學相關的期刊文獻方面,維普收錄期刊最多,同方次之,萬方最少[4]。從收錄特點看,維普以全為特點,側重地方性期刊和研究論文的收錄;同方以精見長,主要面向學術期刊,重點收錄科學領域的核心期刊和具有專業特色的期刊;萬方重點收錄科技部論文統計源的核心期刊,核心期刊的比例高。
1.1.2 特種文獻
(1)專利與科技成果
維普不收錄專利,同方和萬方都收錄中外專利。同方的專利數據庫收錄源自國家知識產權局知識產權出版社1985年至今的專利,共收錄中國專利535萬多條,外國專利2 313萬余條;萬方收錄中國專利331萬余條,國外專利達2 073萬多條。 同方收錄的專利總量多于萬方。
維普不收錄科技成果。同方的中國科技成果庫收錄1978年以來所有正式登記的中國科技成果;萬方的科技成果庫主要收錄國內的科技成果及國家級科技計劃項目。同方庫收錄范圍廣,而萬方庫的收錄以精見長。
(2)學位論文
維普不收錄學位論文。同方和萬方都收博、碩士錄學位論文以及博士后出站報告。同方的中國優秀博士學位論文全文數據庫和中國優秀碩士學位論文全文數據庫分別收錄全國386和558家培養單位的學位論文,可回溯至1999年,每日更新;萬方收錄自1980年以來我國自然科學領域各高等院校、研究生院以及研究所的碩士、博士以及博士后論文,每年增加約20萬篇。研究表明[5],萬方依托中國法定的論文收藏機構,學科上側重理工農醫科類,在論文收錄數量和質量上優勢明顯;同方起步較晚,學科上側重人文社科類。
(3)會議文獻
同方的中國重要會議論文集全文數據庫收錄2000年以來國家二級以上學會、協會、高等院校、科研院所、學術機構等單位的論文集,年增加約10萬篇論文;萬方的學術會議論文全文數據庫收錄中國科技信息研究所提供的會議論文就,包括1985年至今的世界主要學會和協會主辦的會議論文,以一級以上學會和協會主辦的高質量會議論文為主,每年涉及近3 000個重要的學術會議,年增加約18萬篇論文。同方的會議論文收錄以國內為主,萬方的會議論文兼收國內外。
1.2 檢索功能及檢索結果顯示
在查新過程中,查新員一般使用專業檢索,3種數據庫都提供布爾邏輯檢索。
1.2.1 檢索字段與種類
三大數據庫都可以提供包括篇名、關鍵詞、摘要、刊名、作者、機構6個檢索字段,可以滿足主題檢索的基本要求。
同方、萬方還提供主題詞的檢索,可同時對篇名、關鍵詞、摘要進行檢索,即除正文外的其他部分進行檢索。同方和維普數據庫分別提供全文字段和任意字段的檢索功能。同方提供的全文檢索,可以提高檢索的命中率,保證文獻檢索的查全率。
萬方按22大類的學科分類對文獻進行分類,不提供分類檢索字段。維普和同方都可以提供分類檢索。維普數據庫采用《中國圖書館分類法》(第四版)為分類體系,提供細分到4級類目,按每篇文獻的內容特征入類,可以提供分類檢索,并且可以提供分類與主題的組配檢索,利于查準率。同時,維普數據庫使用多種標引規則和同義詞庫,能夠實現同義檢索,利于查全率。同方也可以提供分類與主題的組配檢索,但由于其采用原文照錄方式,例如標引用的關鍵詞源自對標引規則并不十分熟悉的作者。因此,在分類檢索質量上同方要遜于維普。
1.2.2 檢索表達
維普和同方在編輯檢索式都采用編碼,萬方直接使用具體的檢索字段,較為直觀。萬方不提供分類檢索。維普的高級檢索可以實現分類與主題的組配檢索,同方也可提供分類檢索,以及分類與主題的組配檢索。三大數據在主題與分類的組配檢索功能上都尚有不足,需要優化。
1.2.3 英文檢索
國內查新的查新范圍是指中國境內發表的文獻。目前的查新實踐中,不少國內查新都是針對國內的中文文獻進行的。正因如此,《教育部科技查新工作撰寫規范(試行)》(教技發中心函[2009]105號)要求:若查新范圍限于中文文獻,在查新結論中,應寫明“國內公開發表的中文文獻”的檢索范圍。事實上,國內有不少英文期刊,尤其是科技期刊的國際影響越來越大,國際化程度日益增大。同時,三大數據庫也收錄了不少英文期刊。在查新實踐中,對三大數據庫進行英文文獻檢索的并不多。這樣,國內查新勢必遺漏不少文獻信息,影響科技查新結論的科學性與準確性。因此,即使是國內查新,針對國內英文期刊的英文檢索也應包含其中。
三大數據收錄的英文文獻信息主要包括:英文期刊和會議論文或專利信息。當前,三大數據庫都可以提供英文詞檢索,但基本上只支持單個詞的檢索,不支持詞組檢索或順序檢索,導致查準率比較低。在英文檢索方面,三大數據庫均需在詞組檢索或順序檢索等方面更進一步。
1.2.4 檢索結果的輸出
檢索結果的輸出主要表現在顯示與排序功能上。
維普數據庫的檢索結果按時間的倒序排列,相同時間段內按期刊順序排列;同方的檢索結果可按相關度、發表時間、被引頻次、下載頻次以“升序”或“降序”排列,同時,還可通過以學科類別、關鍵詞、研究層次、文獻作者、作者單位、文獻出版來源、研究資助、來源數據庫、發表年度分組顯示與篩選檢索結果;萬方對初次檢索結果按相關度排序,同時可以年份和文獻類型(格式)分組,選擇相應分組后能夠根據學科類別進行檢索結果的篩選。
在顯示格式上,3種數據庫都有列表模式和摘要模式供選擇,維普還提供全記錄列表方式。
3種數據庫都可以提供批量摘要格式的文獻導出。導出格式都包括引文格式、自定義格式、全記錄以及一些如RefWork、EndNote、NoteExpress的管理軟件格式,維普不提供查新格式,同方和萬方都提供查新格式。單次導出最大記錄數以維普最多為200條,萬方和同方分別為100條和50條。萬方提供的查新咨詢平臺提供的查新格式的可以定制,便于查新人員導出滿足要求的文獻信息,比較實用。同時,在3個數據庫都不同程度地存在著導出信息不全,例如著錄項目或摘要的不全或缺失,這在同方庫尤為突顯。
1.3 數據更新與時滯
1.3.1 數據更新頻率
數據庫更新頻率關系到其收錄文獻的新穎性和及時性,更新速度越快,時效性越高。同方的更新頻率最快,期刊、會議文獻與學位論文(網站數據)每日更新,專利每2周更新1次,科技成果每月更新;萬方的期刊文獻每周更新2次,會議文獻每月更新,專利每2周更新1次,科技成果庫每月更新。在查新實踐中,數據的完整性與時效性都是很重要的。
1.3.2 期刊數據的時間滯后
三大數據庫所收錄的正式出版期刊都存在對紙質期刊不同的時間滯后。據統計,維普數據平均滯后7.13月,萬方期刊庫數據平均滯后10.19月,同方期刊庫數據平均滯后3.09月,3個數據庫中更嚴重的是有個別刊物數據滯后達1年[6]。關于特種文獻的情況尚未見報道,不過滯后期也是存在的。
2 利用三大中文數據庫特色提高科技查新質量
綜合考慮收錄的文獻總量、覆蓋的期刊數量、收錄重要期刊或核心期刊的全面程度、各期刊所包含文章收錄的完整度等因素,以及查新課題特點,一般先選維普庫,在獲得有關檢索結果的基礎上,再從另2個數據庫中進行檢索。這主要因為:(1)維普庫的標引質量好,一方面利于查全率,另一方面利于檢索詞的擴展與選擇。同時,有些期刊可能只被另外的數據庫收錄,無法從維普庫中得到;(2)維普庫只收錄期刊,不收特種文獻,檢索另2庫以彌補維普庫非期刊文獻方面的欠缺;(3)維普庫中期刊的時間滯后期較長,而同方和萬方的滯后期相對較短,另2庫的檢索,在一定程度上利于查新的時效性;(4)因篇名、關鍵詞、摘要錄入維普庫時存在錯誤導致沒有出現在命中結果中,但可以在檢索其它庫時發現。總之,查新過程中,應綜合使用三數據庫,在比較后剔除重復性結果。對具體的查新題,具有學科特色的數據庫可能未進入基本庫,在查新過程中,需要增加特色數據庫。例如生物學查新時應配合使用生物科學專業的中文數據庫,例如中國生物醫學文獻數據庫和中文生物醫學期刊數據庫作為補充;產品或技術查新,必須配合使用專利數據庫如國家知識產權局專利數據或中國專利信息中心專利數據庫。此外,數據庫在資源存儲形式、學科范圍、檢索方式上都有一定的限定。搜索引擎卻可以全方位、多角度搜索,能搜索各種格式的文件,沒有學科的限制,邊界很廣,能夠滿足查新對查全率的要求;同時,如前文所述,數據庫的滯后已是不爭的事實,搜索引擎及時更新的特點可以彌補統數據庫的不足,保證查新的時效性。新產品或技術的查新使用搜索引擎進行信息查詢尤為必要。例如google、yahoo、百度是經常使用的搜索引擎。
不同類型的查新,要求也不同,立項查新項目對查全率要求較高,成果鑒定查新應側重查準率,在具體實踐中,三大數據庫的使用應該靈活掌握。例如,查新課題為前沿性課題或屬冷門,可以優先使用同方的“全文字段”檢索,利于提高文獻檢索查全率。又如,查新課題的檢索詞若為通用詞,不具有明顯的學科特征,使用同方或維普的分類檢索,可以提高具體學科文獻的查準率。
檢索查新是一項要求嚴謹、實踐性強的工作,需要在充分了解和熟悉數據庫,尤其要在準確掌握項目主要研究內容和創新點的基礎上熟練運用各種檢索技巧,通過不斷的探索積累和總結才能逐步提高查新技巧和水平,以上是本人在檢索查新工作實踐中的一些體會,希望與同行們進行探討,以期能起到拋磚引玉的作用。
參考文獻
[1]譚捷,張李義,饒麗君.中文學術期刊數據庫的比較研究[J].圖書情報知識,2010,(4):4-13.
[2]王平南,吳婭娜.國內三大期刊全文數據庫優勢與特色評述[J].圖書館,2008,(5):88-89.
[3]王寶英,呂秀林.我國三大全文期刊數據庫收錄自然科學核心期刊的現狀調查與分析[J].圖書館學研究,2008,(4):76-79.
[4]曹開江.我國三大全文期刊數據庫醫學數據質量的比較研究[J].圖書館理論與實踐,2008,(3):24-27.
[5]陳蓉蓉,何建新.中文學位論文全文數據庫的比較研究[J].情報科學,2006,24(12):1849-1852.
[6]劉武宏.中文電子期刊數據庫數據滯后問題的探討[J].圖書館論壇,2008,(5):56-58.