劉夢影 陳益君


[摘 要] 通過介紹我國數據庫出版概況,利用網絡抓取USNEWS世界排名前20一流大學的數據庫信息,清洗并統計國際一流大學我國中文數據庫的訂購信息,討論國際一流大學傾向訂購的通用性中文數據庫和選擇性中文數據庫。從國際一流大學市場占有率的角度分析我國中文數據庫的國際影響力現狀,并從重視國際營銷、提升內容質量和運用先進信息技術三個方面提出在國際一流大學推廣中文數據庫的建議。
[關鍵詞] 一流大學 中文數據庫 購置信息 影響力 國際營銷
[中圖分類號] G239[文獻標識碼] A[文章編號] 1009-5853 (2021) 04-0104-07
[Abstract] Through introducing the general publication situation of Chinese databases and fetching data from databases of universities rangking Top 20 in USNEWS World University Rankings,this study summarizes the statistics of Chinese databases purchased by those universities,and discusses what Chinese databases of high universality are more preferred by world-class universities.? The study analyzes the international influence situation of Chinese databases from the perspective of market share in world-class universities,and puts up three suggestions to promote Chinese databases on the world-class universities scale: to attach importance to international marketing; to improve contents quality; to adopt advanced information technology.
[Key words] World-class university Chinese database Purchase situation InfluenceInternational marketing
隨著科學的進步,新技術應運而生,數字出版產業快速發展。數字出版,是指數字化的出版方式,即采用二進制的數字化手段進行的出版活動[1]。《“十三五”國家戰略性新興產業發展規劃》明確指出要促進數字創意產業蓬勃發展,促進文化科技深度融合、相關產業互相滲透[2]。數字出版產業的重要產品之一為數據庫。數據庫通常指電子數據庫,是指經系統或有序的編排,并可通過電子手段單獨加以獲取的獨立的作品、數據或其他材料的集合[3][4]。數據庫作為知識的集成出版,對海量無序的知識進行整理集成,對于保護知識產權,促進文化傳播具有重要意義。我國數據庫較國外起步較晚,初期以引進國外數據庫為主,近些年發展迅速,具備了一定的國際影響力。本文從世界一流大學市場占有率的角度,對我國中文數據庫的國際影響力進行分析。
1 我國數據庫出版情況概述
國際上數據庫起源可以追溯到20世紀50年代,其典型代表為1951年美國聯邦調查局建立的數值數據庫。我國數據庫出版,從20世紀70年代起步,經歷了探索期、試驗期和市場化運作期。1993年,我國第一家數據庫專業公司“萬方數據公司”正式成立,同年重慶維普和北京超星成立[5]。20世紀90年代,我國多個自建數據庫落地,電子工業出版社、人民郵電出版社等一批掌握先進IT技術的專業類中央級出版單位提出開發自主信息管理系統,數字出版產業進入萌芽與初期發展階段。進入21世紀,隨著網絡通信技術與數字媒體的發展,我國數據庫出版進入高速發展階段[6]。
國內的文獻數據庫通常分為:期刊數據庫、電子圖書數據庫和古籍數據庫等類型。期刊數據庫以中國知網、萬方、維普、人大復印報刊資料、龍源期刊網等為代表;電子圖書數據庫以超星、方正、書生之家等為代表;古籍數據庫以漢達文庫、古今圖書集成、國學寶典、中國基本古籍庫等為代表。
2 中文數據庫在世界一流大學訂購統計
本次研究依據知名世界大學排名體系,選取排名前20的研究型大學,通過訪問其圖書館主頁,獲取每個圖書館訂購數據庫清單,根據清單篩選出我國出版的中文數據庫,經過數據清洗歸并后進行具體分析。
2.1 一流大學數據庫訂購統計
目前知名的世界大學排名體系主要有:夸夸雷利·西蒙茲公司(Quacquareli Symonds)發布的世界大學排名(QS World University Rankings,QS),上海交通大學發布的世界大學學術排名(Academic Ranking of World Universities,ARWU),泰晤士高等教育發布的世界大學排名(The World University Rankings,The),美國新聞發布的世界大學排名(US News Best Global Universities,USNEWS)等。本次研究選擇USNEWS 2019年發布的世界大學排行[7]前20的一流大學為研究對象,統計每個一流大學圖書館的數據庫訂購情況。由于排名20位的倫敦帝國學院數據庫組織方式較為特殊,無法獲取其訂購信息,選用排名21位的倫敦大學學院替補。20所研究型大學的數據庫訂購詳情見表1[8-27]。
20所大學所在國家母語均為英語,其中包含16所美國高校,3所英國高校,1所加拿大高校。由于各高校圖書館在進行數據庫揭示時選用不同的標準,造成數據庫訂購情況統計難度,需要對中文數據庫的訂購比例進行歸一化處理,中文庫訂購比=某大學中文數據庫訂購數量/該大學數據庫訂購總量。統計顯示,加州大學圣地亞哥分校的中文數據庫訂購率最高,訂購比近10%;哈佛大學、斯坦福大學、耶魯大學和密歇根大學安娜堡分校中文數據庫訂購比均超過5%;麻省理工學院、劍橋大學、多倫多大學和倫敦大學學院中文數據庫訂購率較低,不足1%;加州理工學院未訂購中文數據庫。訂購中文數據庫比例較高的多為綜合型高校,理工類高校整體訂購中文數據庫比例較低。從地域看,美國TOP高校中文數據庫訂購比為4.17%,英國TOP高校中文數據庫訂購比0.99%,排名前20僅有1所加拿大高校,訂購比例為0.34%。
2.2 一流大學中文數據庫訂購分析
為了統一數據標準,首先對抓取的中文數據庫進行清洗和歸并。國外TOP高校共訂購中文數據庫236個,其中由5所以上高校共同訂購的數據庫共38個,這批共性數據庫為后續分析的清單基礎。
從38個數據庫的版權地情況來看,以中國大陸為主,共30個,占比78.95%;版權地為中國臺灣的數據庫5個;版權地為中國香港的數據庫3個。從數據庫類型情況分析,以學術數據庫和古籍數據庫為主,學術數據庫共16個,占比42.11%;古籍數據庫共11個,占比28.95%;報紙數據庫4個,占比10.53%;其余類型為事實數據庫、新聞資料庫、電子圖書數據庫、民國期刊數據庫等。從出版商統計,萬方、愛如生均有出版中國方志類數據庫,四庫全書常見愛如生和文淵閣版本,由于無法進入圖書館數據庫詳情頁,方志庫和四庫全書無法確定出版商。38個數據庫共涉及22個出版商,除方志庫和四庫全書數據庫外,其余36個數據庫中出版數據庫最多的廠商為中國知網,共6個,占比16.67%;其次為愛如生和萬方,各4個,分別占比11.11%;涉及2個數據庫的出版商有:方正、華藝數位股份有限公司、上海圖書館、中央研究院歷史語言研究所、超星。
3 中文數據庫在國際一流大學市場的表現分析
國際一流大學更傾向于訂購中文古籍數據庫和學術數據庫,學術數據庫更傾向于訂購綜合學科海量數據庫和人文社科數據庫。
古籍數據庫是中國古籍數字化的產物。中國歷史文化悠久,歷朝歷代文獻積累豐厚。近些年來隨著科技水平的提升,數字人文的興起,古籍數據庫已漸成規模,對古籍的保存與利用起著重要作用。古籍數據庫可以分為:古籍電子索引、古籍書目數據庫和古籍全文數據庫三類[28],其中全文數據庫按資源類型包含圖像型、文本型和圖文并存型。我國古籍數據庫知名的出版機構有:愛如生、書同文、中央研究院等。
學術數據庫又稱專業數據庫,是為學界、業界人士科學研究提供參考資料的專業學科數據庫,根據服務學科情況又可以分為綜合多學科數據庫和單一學科數據庫。我國學術數據庫知名出版機構有:中國知網、萬方、重慶維普、北京超星、方正阿帕比(Apabi)等。
本次研究將訂購高校超過10所的數據庫歸類為國際一流大學通用性數據庫;將訂購高校在5所至10所的數據庫歸類為國際一流大學選擇性訂購數據庫,并對具體情況進行簡要論述。
3.1 國際一流大學中文通用性數據庫
常用數據庫是指那些能夠滿足大多數用戶相同或相似信息需求的電子文獻資源,也可以稱之為通用性數據庫[29]。根據統計情況,我們將國際一流大學通用性的中文數據庫確定為11個,具體情況見表2。
從表2可知,中國方志庫有14所大學購買,是最受國際一流大學歡迎的數據庫,其次是漢達文庫和知網中國期刊全文數據庫,分別有13所和12所大學購買。在所列的11個通用性數據庫中,古籍類數據庫有6(54.55%)個,均為全文古籍庫,學術數據庫有4(36.36%)個,均為綜合性多學科數據庫,報紙類數據庫1(9.09%)個。
3.2 國際一流大學中文選擇性訂購數據庫
從統計情況來看,國際一流大學選擇性訂購的數據庫有27個,其中學術數據庫12個,古籍數據庫5個,報紙類數據庫3個,事實數據庫2個,新聞資料數據庫2個,電子圖書數據庫2個,民國期刊數據庫1個。
學術數據庫按照訂購高校數量從高到低分別為:北大法寶(9所)、全國報刊索引(9所)、中國文史資料集萃(9所)、中華數字書苑(7所)、中國當代政治運動史數據庫(7所)、世紀期刊(6所)、臺灣電子期刊服務網(6所)、中國碩士學位論文(6所)、中國博士學位論文(5所)、國家哲學社會科學學術期刊(5所)、新方志(5所)、萬方中國學術期刊數據庫(5所)。從具體學科分析,其中北大法寶為法律專業學術數據庫,中國文史資料集萃為文史專業數據庫,新方志為方志專業數據庫,中國當代政治運動史數據庫為政治史專業數據庫;其余7個數據庫為綜合性數據庫。從資源類型分析,中國碩士論文數據庫和中國博士論文數據庫為學位論文資源;世紀期刊、臺灣電子期刊服務網和萬方中國學術期刊數據庫為電子期刊資源;其余數據庫均涉及期刊、圖書等多種資源類型。
古籍數據庫按照訂購高校數量從高到低分別為:古今圖書集成(9所)、中國俗文庫(8所)、四部叢刊(7所)、中華經典古籍庫(6所)、內閣大庫檔案(5所),均為全文古籍庫。中華經典古籍庫為中華書局推出的大型古籍數據庫產品,也是中華書局校本古籍的首度數字化;四部叢刊由張元濟先生根據具體版本匯集中國古籍經典編纂而成,被譽為“文史工作者必備工具”;古今圖書集成為清代官修類書;中國俗文庫專門收錄自唐宋來中國傳統社會底層流行文獻;內閣大庫檔案是研究制度史的重要材料,包含四千多件明代文書,三十多萬件清代檔案。
報紙數據庫按照訂購高校數量從高到低分別為:《申報》(9所)、《解放軍報》(7所)和中國重要報紙全文數據庫(5所)。《申報》是中國近代發行時間最久,社會影響最廣泛的報紙,是現代報紙的標志開端;《解放軍報》是由解放軍報社出版的中央軍委機關報;中國重要報紙全文數據庫隸屬于中國知網,涉及2000年以來中國重要報紙文獻。
事實數據庫分別為:中國人口普查數據庫(9所),由國家統計局進行數據統計與出版;中國統計年鑒數據庫(7所),隸屬于中國知網,匯集全國重要歷史年份和近年的經濟社會統計數據。
電子圖書庫分別為:阿帕比數字圖書館(6所),隸屬于方正,提供7萬余種中國出版的電子新書,內容涉及多個學科和精品暢銷書籍;華藝中文電子書(5所)匯集臺灣地區近千家出版社優質出版的書籍。
民國期刊全文數據庫由上海圖書館出版,內含民國時期出版的25000余種期刊,集中反映這一時期政治、軍事、外交、經濟、教育等情況。
3.3 中文數據庫在國際一流大學市場表現分析
數據庫的國際影響力是由多方面的因素決定的,其內容的質量與特色,數據庫的規模與歷史,使用對象的數量、范圍與地域,平臺的技術、知識組織和知識發現的功能等都直接或間接影響數據庫的知名度,而數據庫的國際市場占有率,很大程度上體現著數據庫受用戶歡迎的程度。
TOP20大學購買的中文數據庫共涉及236個,10所以上高校共同選購的數據庫只有11個,5所至10所高校共同選購的數據庫有27個,僅有1所高校訂購的中文數據庫數量高達137個,占比達中文數據庫訂購總量的58.05%。購買中文數據庫數量最多的是斯坦福大學達到193個,低于10個中文數據庫的院校高達6所,占比高達30%,其中加州理工學院訂購0個中文數據庫,多倫多大學訂購1個,倫敦大學學院和加州大學舊金山分校訂購4個,劍橋大學也只訂購5個。這在一定程度上表明,國際名校對中文數據庫的依賴性不高,或者說中文數據庫還沒有形成核心數據庫或高國際影響力數據庫,由于知名度和影響力不足,被國際知名院校無視或忽略。究其原因可能是多方面的,既有中文數據庫資源整合程度不高、平臺技術水平不足的問題,也存在高質量的學術論文大量發表在國外期刊上、一定程度上影響了國內期刊數據庫的質量,也可能是學科與語種等方面的問題。
4 提升中文數據庫國際影響力的建議
4.1 重視國際營銷
重視國際營銷是推廣中文數據庫的重要策略。本次研究發現中文數據庫在國際一流大學圖書館的數據庫名稱表達方式紛雜不一,有英文名稱,也有中文名稱,英文名稱有翻譯成英文的名稱,也有中文名稱的拼音,同時還出現同一個數據庫存在同語種多個別名的情況。這不僅對數據歸并造成困難,也在一定程度上阻礙了中文數據庫的國際推廣。研究和制定中文數據庫的對外推廣標準,是在國際市場推廣中文數據庫的迫切需求。愛思唯爾早在20世紀80年代著力開拓中國市場,除了成立中國辦事處外,還積極與中國科研機構合作,在編輯和評審隊伍中吸納中國學者,與中國本土出版機構合作,結合中國國情靈活定制銷售方案等。同時,愛思唯爾通過對自身特色數據庫的開發還發布“中國高被引學者”榜單[30]來吸引學術界關注。在全球經濟一體化浪潮下,中國出版機構需要立足國際視野,拓展國際市場,對接國際標準,加強與國外出版機構合作,結合國際客戶需求推廣中文數據庫,擴大中文數據庫的國際影響力。
4.2 提升內容質量
提升內容質量是推廣中文數據庫的重要支撐。我國的學術數據庫,往往存在版權不夠清晰、缺乏獨家內容等問題。例如,中國知網、萬方、超星、書生之家等幾大廠商之間訂購內容重復率高,本身不擁有內容資源[31]。知網、萬方和維普的期刊數據庫在國內市場表現優異,但TOP20大學訂購知網期刊數據庫的只有11所,訂購萬方期刊庫的僅有4所,同時訂購萬方和知網期刊庫的僅有兩所,排名前20的大學均未訂購維普期刊。除去國際營銷的差異,這種現象一定程度上與數據庫之間內容重復率高存在關聯。國外知名數據庫出版機構大多是內容提供商,國內主流的數據庫出版機構大多是技術提供商,在資源方面缺乏優勢,應該正視版權問題,改進合作模式。
4.3 運用先進技術
運用先進技術,深度揭示知識內容是推廣中文數據庫的重要途徑。2019年8月,科技部、宣傳部等六部委共同研制《關于促進文化和科技深度融合的指導意見》,從中央層面開展“全面提升文化科技創新能力,轉變文化產業發展方式”[32]。我國數據庫出版行業與國際市場比較,起步較晚,更需要借助新科技迎頭趕上。將新興技術與數字出版更多地融合,運用多接口的數字化體系,預留開放對接途徑;重視新興網絡技術,了解數據庫系統技術更新,通過智慧數據技術,深入挖掘和揭示內容元數據,在基礎的訪問、檢索與下載功能之余,提供更好的個性化附加服務,如利用協同過濾技術高效精準地為用戶提供所需信息等[33]。通過新技術的應用,增強數據庫的使用體驗,引領數據庫的發展潮流,是在國際一流大學中推廣中文數據庫的重要途徑。斯普林格是國際著名的出版集團,其科研圖譜服務(SciGraph)在關聯開放數據影響下,通過語義技術,關聯包括科學文獻、專著、作者、機構、基金、引用等與學術領域密切相關的資源,實現多源異構數據庫的跨模態語義聚合,全方位構建學術領域內的大知識圖譜[34]。我國的數據庫出版商應該加大知識圖譜等智慧數據技術的運用來改進知識的組織和展示,適應時代的發展要求。特別對于古籍數據庫,既是中國特色,又深受國際一流大學歡迎,將新技術與古籍相結合,可以更好地向世界展示中國的傳統文化。
5 結 論
本次研究調查的用戶樣本量存在不足,其反映的中文數據庫在國際一流大學的表現分析是一種初步嘗試。從我國數據庫與國際接軌的發展戰略而言,應進一步提升中文數據庫的內容質量和技術含量,縮短我國期刊數據庫與紙質期刊之間的出版時滯,進行數據庫商的兼并重組,形成規模化經營,開發獨有的數據資源,開展精準化營銷等是在國際一流大學增加中文數據庫配置的重要手段。
注 釋
[1]鄧大松,歐陽志榮.數字出版發展趨勢與中心出版社轉型應對的現實路徑[J].出版科學,2014,22(5):8-11
[2]國務院印發《“十三五”國家戰略性新興產業發展規劃》[EB/OL]. [2020-06-16]. http://www.gov.cn/zhengce/content/2016-12/19/content_5150090.htm
[3][5]羅曼.數據庫出版發展研究[D].武漢:武漢理工大學,2013:23-24,101-104
[4][6]肖洋. 我國數字出版產業發展戰略研究:基于產業結構、區域、階段的視角[D]. 南京:南京大學,2009:9-10,21-24
[7]US News best Global Universities[OL]. [2019-12-26]. http://www.usnews.com/education/best-global-universities
[8]Harvard Library Databases[OL]. [2020-01-15]. https://databases.hollis.harvard.edu/primo-explore/search?vid=HVD_DB&lang=en_US
[9]MIT Library Databases[OL]. [2020-01-15]. https://owens.mit.edu/sfx_local/az/mit_db
[10]Stanford Library Databases[OL]. [2020-01-15]. https://searchworks.stanford.edu/?f%5Bformat_main_ssim% 5D%5B%5D=Database
[11]Berkeley Library Databases[OL]. [2020-01-15]. https://guides.lib.berkeley.edu/az.php
[12]OXFORD Library Databases[OL]. [2020-01-15]. https://libguides.bodleian.ox.ac.uk/az.php
[13]Caltech Library Databases[OL]. [2020-01-15]. https://libguides.caltech.edu/az.php
[14]Columbia University Library Databases[OL]. [2020-01-15]. https://clio.columbia.edu/databases
[15]Princeton University Library Databases[OL]. [2020-01-15]. https://library.princeton.edu/research/databases
[16]Cambridge University Library Databases[OL]. [2020-01-15]. https://libguides.cam.ac.uk/az.php
[17]Washington University Library Databases[OL]. [2020-01-15]. https://guides.lib.uw.edu/az.php
[18]Johns Hopkins Library Databases[OL]. [2020-01-15]. https://databases.library.jhu.edu
[19]Yale University Library Databases[OL].[2020-01-15].https://search.library.yale.edu/databases?search_field=all_fields
[20]Chicago University Library Databases[OL]. [2020-01-15]. https://guides.lib.uchicago.edu/az.php
[21]UCLA Library Databases[OL]. [2020-01-15]. https://guides.library.ucla.edu/az.php
[22]UCSF Library Databases[OL]. [2020-01-15]. https://guides.ucsf.edu/az.php
[23]Penn Library Databases[OL]. [2020-01-15]. https://franklin.library.upenn.edu/catalog?_=1569398207335&f%5Bformat_f%5D%5B%5D=Database+%26+Article+Index&q=
[24]Michigan Library Databases[OL]. [2020-01-15]. https://search.lib.umich.edu/databases? query=&filter.type=Database&sort=title_asc
[25]Toronto Library Databases[OL]. [2020-01-15]. https://guides.library.utoronto.ca/az.php?t=9656
[26]UCSD Library Databases[OL]. [2020-01-15]. https://ucsd.libguides.com/az.php
[27]UCL Library Databases[OL]. [2020-01-15]. https://library-guides.ucl.ac.uk/az.php
[28]毛建軍. 古籍數字化資源整合與導航庫建設[C]. 第三屆中國古籍數字化國際學術研討會. 北京,2011
[29]陳益君,周敏.圖書館常用數據庫的本質及其評價方法探討[J].大學圖書館學報,2013(6):67-69
[30]中國高被引學者榜單[OL]. [2020-08-16]. https://www.elsevier.com/zh-cn/solutions/scopus/most-cited
[31]張培培. 我國學術數據庫數字化建設發展策略研究[D]. 鄭州:河南大學,2016:25
[32]科技部等六部門印發《關于促進文化和科技深度融合的指導意見》[EB/OL]. [2020-08-16].http://www.gov.cn/xinwen/2019-08/27/content_5424912.htm
[33]孫夢婷,袁小群.我國學術數據庫協同過濾資源研究現狀探討[J].出版科學,2011,25(4):11-15
[34]宋寧遠. 面向智慧數據的科學知識圖譜構建:以SciGraph為例[J]. 科技與出版,2017 (11):17-19
(收稿日期:? 2021-06-10)