涂佳琪,楊新涯,王彥力
數據庫是數字圖書館的文獻資源基礎,數據庫的歷史就是另外一個角度的數字圖書館發展歷史。CNKI(China National Knowledge Infrastructure,中國知識基礎設施)工程是以實現全社會知識資源傳播共享與增值利用為目標的信息化建設項目,其服務網站——中國知網是全球最大的中文知識門戶,由《中國學術期刊(光盤版)》電子雜志社有限公司、同方知網(北京)技術有限公司、同方知網數字出版技術股份有限公司等單位聯合運營,是在《中國學術期刊(光盤版)》《中國期刊網》基礎上發展起來的中外文大型知識資源總庫,是我國數字圖書館建設的重要參與者和見證者,甚至有學者認為《中國學術期刊(光盤版)》的發布是我國進入數字圖書館時代的標志和里程碑①。
目前研究數字圖書館歷史的文獻主要集中在兩方面:一是數字圖書館系統的歷史演變,如莫少強總結1980-2012年廣東省立中山圖書館自動化建設的6個時期[1];許天才等梳理重慶大學圖書館從自動化管理系統到智慧圖書館系統研發過程中的成功案例、困難與挑戰[2]。二是圖書館發展歷程中某項技術的應用史,如劉慧云等認為縮微技術是文獻資源長期保存的重要技術和手段,并梳理縮微技術在圖書館的實踐歷程,指出數字縮微是縮微技術的發展方向[3]。
我國數據庫建設始于20世紀80年代,90年代后期才逐漸商品化和產業化,因此研究數據庫歷史的文獻較少,大多將數據庫作為樣本來源進行計量分析[4],或對比分析多個數據庫的期刊重復率、更新速度、檢索功能等內容[5],再或是研究數據庫某一優勢或特色[6-8]。對于CNKI的研究僅包括它對某一行業或領域的影響,如薛培榮等從CNKI的資源基礎、服務領域、產業模式、國際競爭與合作等方面論述其對科技信息服務的影響[9],王青梳理了1996-2000年CNKI對圖書館帶來的影響和變化[10]。有3篇文獻著重研究CNKI發展歷史,其中李柯回顧了1995-1999年CNKI的發展歷程以及取得的社會經濟效益[11];朱素蘭等回顧1995-2004年CNKI的發展歷程,總結其發展經驗,展望了全文數據庫檢索系統的發展方向[12];趙蓉英等認為1995-2004年CNKI經歷了光盤版、網絡版和知識服務平臺3個時代,梳理各時代重要事件和主要成就,指出CNKI對促進我國知識信息服務產業發展發揮著重要作用[13]。總之,對CNKI發展的研究主要集中在2006年之前,2006年后13年間鮮有學者研究其歷史發展,而這一時期CNKI正處于高速發展階段,值得關注和重點研究。
CNKI歷經數字圖書館的興起與繁榮,推動了我國圖書館事業發展,因此CNKI發展歷史是我國數字圖書館史和圖書館技術史不可缺失的部分。為研究CNKI的發展歷史,筆者2018年12月4日前往CNKI總部采訪并參觀多條生產線,詳細了解CNKI產品、技術及其在出版模式上的創新等。同時,筆者就CNKI發展脈絡、核心技術、自主研發產品和未來發展分別采訪CNKI常務副總經理張宏偉,副總經理張振海、劉學東、張義民等親歷者。為保證資料的客觀性,同時調研了長期接觸數據庫采購的館員、使用且持續關注數據庫發展的學者,了解其對CNKI等數據庫商的發展和看法。在整個研究過程中,筆者深感CNKI在整個發展進程中,一直努力堅持自主創新,從底層數據庫到全文搜索技術,從最初的光盤到完整的互聯網服務體系,從單一的面向圖書館服務到產業鏈的整合,使自主創新成為CNKI發展的最大特色。2019年5月,美國商務部工業和安全局宣布把華為公司列入“實體名單”,包括安卓操作系統在內的多個核心技術受到封鎖。我國只有且必須自主開發核心信息技術體系,這折射出知識服務領域的科技創新自主性的重要價值。在這樣的背景下,研究并總結CNKI等以自主創新為特色的數據庫商的發展過程與經驗,就顯得尤為重要。
截至2018年12月,CNKI累計整合國內外期刊文獻總量達2億多篇、題錄3億多條、統計數據2.6億條、知識條目10億條、圖片5000萬張,日更新數據達24萬條,在全球53個國家和地區擁有2.7萬多個機構用戶、1.2億個人用戶,網站日訪問量1600余萬人次,年下載量23.3億篇次,已成為最大的中文數據庫服務商。
通過分析公開文獻和訪談資料,筆者將CNKI的發展過程分為5個階段:(1)創業期。《中國學術期刊(光盤版)》發布,開創中國數字出版先河,推動我國文獻資源數字化和網絡化進程,在我國數字圖書館發展過程中具有劃時代意義。(2)戰略形成與規模初具期。《中國期刊網》開通,推動學術期刊進入全文網絡檢索時代,推動圖書館資源數字化建設。(3)規模化與標準化建設期。《中國知識資源總庫》問世,整合資源規模化,進一步豐富館藏,制定數字化出版標準,推動國內數字資源標準化建設。(4)內容生產與規模多元化期。重視國際合作,實現知識信息資源的社會化共享與國際化傳播。(5)總體架構實現期。推進知識管理與服務,實現移動知識服務,提升圖書館對終端讀者的精準服務能力,推動了圖書館由數字化走向智慧化的進程。

圖1 中國知網CNKI的發展脈絡圖
20世紀90年代初期,計算機和計算機技術普及,行業內開始嘗試用光盤存儲資源進行檢索。1992年我國第一張CD多媒體光盤由北京金盤有限電子公司出版[14],CD光盤的出現為圖書館資料提供了新的存儲介質,使信息資源數字集成、整合與傳播成為可能。1993年中國科技情報研究所重慶分所實現文獻題錄檢索[15]。盡管這些技術逐步發展,但是未解決一、二次文獻資源的關聯問題,學者使用光盤檢索后仍需通過紙本資源獲取一次文獻。
1.1.1 靈感萌發,從題錄摘要到全文
1995年初CNKI創始人、北京清華信息系統工程公司總經理王明亮通過分析《中國婦女》全文光盤的數據格式受到啟發,提出“版面顯示+全文檢索技術,可形成供全文檢索、原版瀏覽,且數據量小、便于CD存儲和窄帶傳輸,并可長期保存和二次開發的實用化電子文檔數據庫系統”,并憑借科研、教學、學習經驗,以及對光盤、學術期刊出版、印刷等行業的了解,提出《中國學術期刊(光盤版)》(CAJ-CD)項目的經營方案,于1995年8月被列為清華大學科研和產業化開發項目[10]。
1.1.2 CAJ-CD誕生,開創數字出版先河
1996年1月,北京清華信息系統工程公司(以下簡稱“清華信息公司”)將光盤存儲技術與現代信息檢索技術結合,不僅維持收錄紙本期刊的原貌,實現文獻檢索從題錄摘要向期刊全文轉變,而且基本實現與紙本期刊同步出版。經過與期刊界、學術界展開廣泛合作,創辦了“國內外首個大規模集成學術期刊并與其同步出版的電子期刊——CAJ-CD”。經新聞出版總署批準,1996年12月24日,CAJ-CD首次以電子書號方式正式出版我國自1994年以來2000多種學術期刊全文[10];1997年9月,CAJ-CD獲準出版中國大陸首批8個連續型電子出版物,標志著我國第一個以電子期刊方式按月連續出版的大型集成化學術期刊現刊原版全文數據庫誕生[16]。
CAJ-CD作為我國自主研發的“首個原版顯示+全文檢索的全文數據庫管理系統”,從功能設計到技術方案均達到“國際領先水平”,得到中宣部出版局、新聞出版總署、教育部等的指導和支持,獲得1998年教育部科技進步三等獎。
為了擴大CAJ-CD的影響,1997年3月31日至4月11日,清華信息公司先后在國內建立300多家檢索咨詢站[17],向國內外廣大用戶提供全文檢索服務,迅速占領國內圖書情報市場。1998年7月,在“1998年美國圖書館協會年會”上,CAJ-CD受到各國圖書館代表的強烈關注,迅速在海外著名公共圖書館、重點大學圖書館等設立中國學術期刊文獻檢索站[11],中國學術文獻資源開始走向世界。
CAJ-CD解決了圖書館館舍緊張的問題,滿足了圖情單位“以有限經費采集盡可能多的文獻”的需求,豐富了館藏資源,成為中國圖書館進入數字圖書館時代的重要標志。CAJ-CD作為中國第一個全文數據庫,創辦伊始即在國家版權局版權司的指導下,創建通過學術期刊編輯部解決文獻著作權的使用授權模式,與每一個編輯部簽訂授權協議,這對我國數字出版產業與數字圖書館的發展具有重要意義和示范作用。
1995年我國互聯網接入美國64K專線,開始向社會提供互聯網接入服務,各單位亦紛紛組建局域網。隨后網易、搜狐、新浪等門戶網站相繼成立[18],加速了互聯網的普及與滲透,人們使用互聯網的頻率與日俱增,因此CNKI開始向互聯網轉型。
1.2.1 CJN開通,從光盤檢索到網絡檢索
1999年6月18日,在整合CAJ-CD數字資源的基礎上,CNKI開通“中國期刊網”(www.chinajournal.net.cn,簡稱CJN),以全文形式開展網絡期刊資源服務,初步實現了全文檢索從光盤到網絡的轉變,文獻檢索進入全文網絡檢索時代。此外,為方便檢索,打破時間、網絡出口帶寬和上網通訊費的限制,CNKI將全國360多家單機、局域網光盤檢索系統升級為鏡像站點,便于保存數字館藏,集中管理內網服務[19]。
CJN匯聚我國中英文學術期刊精華,向國內外廣大用戶提供檢索咨詢等信息網絡服務,提高了圖書館閱覽服務質量和參考咨詢服務水平。
1.2.2 《中國知識資源總庫》起步,逐步建設系列知識倉庫
1999年CJN開通之際,即制定了全面打通知識生產、傳播、擴散與利用全過程,建設中國知識基礎設施的戰略目標。2002年底,CNKI已經整合4000多種重要學術期刊,建成國內首個高質量學術期刊全文檢索與評價數據庫《中國期刊全文數據庫》。以此為基礎,建設了優秀博碩士學位論文、報紙、會議論文、科學文獻、專利、圖書等一系列數據庫[12],其中的文獻題錄免費向全社會提供服務。CNKI還陸續建成醫院、企業管理等多領域專業知識倉庫,為《中國知識資源總庫》的建設奠定了基礎。
CNKI相當于一個專業文獻的數字圖書館,圖書館引進CNKI不僅可以滿足讀者檢索和閱覽需求,還可以利用光盤或網絡向單位內部和社會提供咨詢等服務。CNKI通過檢索咨詢站和鏡像站點,迅速在全國圖書情報界建立起完善的知識服務網絡,在一定程度上促進了這個時期圖書館電子閱覽室的建設,也加快了圖書館資源數字化進程。
早在20世紀60年代,袁翰青便指出對文獻中新發現的知識進行組織,可以深化到文獻中的數據、公式、事實、結論等細粒度的“知識元”[20]。21世紀初期,圖書館界開始關注知識服務,而知識元是數字圖書館知識構建的基礎。
1.3.1 CNKI問世,實現知識檢索細粒度
CNKI一直致力于知識元的構建,2003年《中國期刊網》正式更名為中國知網(www.cnki.net),《中國知識資源總庫》建設工程初具規模。CNKI依據嚴格的標準數字化加工流程,整合文獻數據庫、專業知識倉庫、知識元庫,并以知識元庫和引文鏈接等方式組成知識網絡系統。到2010年,CNKI建成“概念、原理、方法”“圖形圖像”“科學數據”“社會經濟統計數據”“社會發展事件事實”等知識元數據庫,以及涵蓋各學科300萬詞條的概念關系詞典,并以此為基礎發布全球首個知識元搜索系統,實現了學術資源深度聚合和知識的細粒度檢索。
1.3.2 深度整合,開發數據庫系列產品
2004年CNKI開始整合百科全書、詞典和專科辭典等資源,出版了我國首個《工具書數據庫》,并將其中的概念、圖片、數字和圖表等進行詳細標引,為讀者提供增值服務[21]。2006年10月,CNKI又根據讀者層次和產品用途將《中國期刊全文數據庫》分為學術、高教等9種期刊數據庫產品,并以網絡出版方式經營。除收錄學術期刊外,CNKI還收錄了黨建期刊、政報公報等8種非學術期刊文獻,并建立對應數據庫。2008年CNKI首次發布能源電力、黨政、法律等20多個企業知識倉庫。
1.3.3 建成中國學術期刊的權威性文獻檢索工具和網絡出版平臺
2006年《中國知識資源總庫》被確定為學術期刊的權威性文獻檢索工具。這不僅標志著CNKI進入規模化發展階段,也意味著我國學術期刊數字化、網絡化建設的目標基本實現,具有自主知識產權的文獻檢索、知識挖掘、文獻評價研究等系統和數字化學習與研究平臺達到領先水平[22]。
1.3.4 網絡出版物產品進入標準化時代
隨著出版社數字化意識的覺醒,大量數字出版產品問世[7]。為實現資源開發系統化、標準化,規范數字產品的出版,CNKI于1998年7月啟動中國學術電子期刊標準化數據庫系統工程[23],并在2005年參照相關技術標準和傳統出版物的產品標準,制定了國際國內首部公開發表的連續型電子與網絡出版物產品標準——《CNKI系列數據庫產品與技術服務標準》,從全文數據庫基本屬性、產品用途、內容、結構、功能與性能6個方面規范出版產品、確保產品質量[24],體現了文獻數據的規范化和標準化,為圖書館數字資源建設質量保駕護航,為知識信息的傳播和利用打下良好基礎,象征著網絡出版物產品進入標準化時代。
計算機和互聯網的普及、國際交流增強,使得讀者對于國外資源的使用需求逐步提升。讀者開始質疑圖書館參考咨詢服務的內容和形式,圖書館亦開始重新審視自身在數字環境中的價值和地位,并重視國外學術資源的采購,通過大規模應用新技術和新理念以滿足讀者訴求。
1.4.1 重視信息服務國際合作
CNKI不僅注重國內信息資源開發,也重視與國外大型出版商建立聯系。根據國內用戶需要篩選和統一引進海外文獻資源,利用自身平臺和服務體系在網上代理發行國外數據庫。2008年CNKI與德國Springer出版集團合作,將雙方數據庫整合并在CNKI知識服務平臺發布,開啟國際合作新紀元[25]。隨后英國Taylor&Francis出版社、劍橋大學出版社,美國大英百科全書出版集團、ProQuest信息公司等國外出版機構紛紛與CNKI簽約,整合雙方資源。CNKI此舉方便了我國廣大用戶以最低的成本和便捷的方式利用國外數據庫。與此同時,CNKI積極響應政府“走出去”戰略,注重學術期刊、產品市場推廣國際化。2010年,CNKI開始建設中國學術文獻全球營銷網絡平臺,在美國、德國等地建成8個境外鏡像網站[26],我國學術成果、產品開始逐步走向境外知名大學、研究機構、政府等單位。一系列國際合作表明,CNKI數字資源整合出版與服務模式受到了國際同行的認同,而CNKI遍及世界各地的用戶也意味著我國知識信息資源實現了互聯網條件下的國際化傳播。
1.4.2 開拓科技信息服務新領域
2008年蘋果公司推出iPhone后,智能手機、移動終端層出不窮,社會進入移動互聯網時代。移動互聯網帶來的時間碎片利用是社會和圖書館界共同思考的問題。為提高服務的針對性和個性化,精準把握讀者訴求,CNKI面向用戶開展各種增值知識服務,如科技查新、參考咨詢、定題服務、知識比較與評價、知識推送。
在大數據時代,海量數據的產生、采集、存儲、智能化、可視化呈現以及大數據技術的廣泛應用,給數據庫行業、圖書館界帶來巨大的發展機遇和挑戰,雙方開始意識到知識服務的重要性,推出相應的知識獲取、知識管理等服務。
1.5.1 借助優勢,推進知識管理與服務
2013年CNKI重構工程技術與產業體系,突破復雜數據自動加工、大數據分析、隱性知識顯性化等重要環節關鍵技術,打造了120多個行業平臺,確立了數字出版、知識管理、知識服務、信息化教育四大主營產業方向,大力推進面向創新和創新人才培養的精準知識服務。憑借其在知識管理和知識服務領域多年的研究和實踐,針對用戶科研創新和技術創新過程,2015年CNKI推出基于大數據研究范式的機構知識管理系統(Organization Knowledge Manage System,OKMS),該系統融合機構內外大數據知識資源,提供集知識管理、大數據分析、協同研究、協同創新、項目管理、人才體系構建、科研評價與成果轉化于一體的知識創新服務支撐平臺。2016年,CNKI基于XML碎片化、增強出版、知識重組、知識網絡構建等技術,推出CNKI研究型協同學習平臺(簡稱“研學平臺”),提供“閱讀、思考、表達、寫作”四位一體的深度閱讀學習平臺,服務于個人探究式學習平臺、知識體系構建,以及創新人才培養。
1.5.2 面向需求,實現移動知識服務
2014年CNKI打造了移動知識服務平臺《全球學術快報》,收錄了中國90%以上的知識資源、2億多篇外文文獻,具備一站式中英文檢索、個性化定制、精準推送、熱點追蹤和流式閱讀等功能,為用戶創造了一個移動的科研創新環境,使其成為真正的“口袋圖書館”“口袋研學系統”。這個時期,CNKI一方面把各領域事實信息整合起來,使內容資源日益完備,另一方面用人工智能對文獻內容與形式屬性進行精確的多維度標引,使文獻檢索結果盡可能精準和完整,情報分析盡可能全面和系統。知識管理平臺、移動服務平臺與協同服務平臺,分別對應知識獲取、知識組織與知識創新3個層次的服務,提升了圖書館對終端讀者的精準服務能力。
從CAJ-CD立項開始,CNKI就一直堅持自主研發的戰略,這成為CNKI發展進程的一大特點。由于多年來堅持不懈地加強技術研發投入,實現多項技術突破,取得大量的技術成果,僅2009-2018年間,CNKI獲得專利達200多項。
1995年CNKI自主研究中文信息處理,并成功自主研發中文全文檢索技術、中英文混合全文檢索技術,解決用戶對文獻信息和知識獲取全面性和準確性的需求。
2002年開始,CNKI嘗試把散落的知識通過微觀水平上的聯系組建“知識網絡”,并把關聯的知識網絡節點稱為知網節。CNKI在此基礎上自主研發出其核心檢索技術——知網節技術,構建了文獻知識網絡,揭示文獻之間的多種邏輯關系;同時為用戶提供了集文獻信息加工、標引、分類發布于一體的文獻自動化管理TPI系統。
2004年,CNKI研發了以自然語言分析技術為核心的技術體系,并發布我國第一套醫學專業主題詞、分類號一體化標引和智能檢索系統。
2006年,基于CNKI知識元抽取和挖掘技術,發布CNKI概念、術語、方法、數值、公式、圖形、表格等知識元搜索工具及翻譯助手。
2008年,CNKI研制成功基于語義的自適應多階數字指紋特征檢測技術,并發布“學術不端文獻檢測系統”。
2009年,CNKI研制成功基于讀者學習需求驅動的智能推薦技術,并發布“研究型個人數字圖書館”和面向創新的“數字化學習和研究平臺”。
2010年,CNKI制定資源國家化戰略,提出“深化整合中外資源,服務高端科技創新”,研發了外文本體詞庫、相關文獻關聯技術、內容深度挖掘系統等。自主開發NXD(Native XML Database)數據庫,全面開展資源的XML化加工,為知識元的動態重組出版提供資源和技術支持。
2011年,CNKI啟動知識服務戰略,提出決策知識結構5W2H(What、Why、When、Who、Where、How、How About),開發文獻碎片化、數據XML化、NXD數據庫與動態重組、文獻與段落主題標引、5W2H標引、智能問答技術等,為用戶提供知識服務和移動化服務。
2012年,CNKI研制成功云出版技術,發布書報刊全流程數字化“騰云數字出版平臺”,推出增強出版、數據出版等多種新型出版形態,打通了知識生產、傳播全流程。
2015年,CNKI研制成功基于XML的融媒體協同編撰技術,并推出基于大數據研究范式的機構知識管理與協同創新平臺。
2017年,CNKI突破檢索領域“檢全率”和“檢準率”不能兼顧、“時間排序”和“主題排序”無法二維兼容的技術難題,實現主題相關條件下按時間排序。
2018年,CNKI研制成功基于世界知識大數據的知識圖譜智能構建技術,發布“政產學研大數據融合應用平臺”。
綜上所述,CNKI核心技術按照技術類型可分為7類,具體見表1。這些核心技術中以智能標引與文獻檢索技術、知識元自動抽取技術、XML碎片化技術、基于深度學習的超大字符OCR技術和語義相似性檢測技術為重中之重。

表1 中國知網CNKI核心技術一覽
XML碎片化技術能把文獻中具有獨立意義的段落分解出來,除獨立檢索外,還可通過“知網節”關聯構成碎片化內容的知識網絡,形成比“文獻知網節”內容更深、使用更為方便的探究式學習工具。知識元自動抽取技術則是在XML碎片化的基礎上,從海量文章中抽取概念、原理、公式和圖形等知識元,加以清洗、規范和組織,分類建成各種專業知識庫。CNKI在這兩種技術基礎上構建了XML碎片化加工系統,縮短了資源的結構化加工時間,可以同時標引整刊數據和篇名、作者、關鍵詞、摘要等篇源數據,也能從全文中一次性提取章節、段落以及表格公式,工作人員只需對標引結果進行校對即可。經測試,一本期刊只需20多秒即可完成內容提取,自動標引正確率達到96.5%。該系統在第六屆中國數字出版博覽會上獲得“數字出版創新技術獎”,目前《圖片知識數據庫》《統計年鑒數據庫》都是基于此技術開發。此外,CNKI進一步開發了知識圖譜智能構建技術,該技術獲得2019年中國國際大數據產業博覽會領先科技成果“優秀項目獎”,已應用于貴州省“一云一網一平臺”。
基于深度學習的超大字符集OCR技術采用深度學習等人工智能技術,針對包括中文簡體、繁體、古籍中大量的異體字、少數民族文字在內的超大字符集,實現高精度的智能OCR,漢字識別準確率可以達到99.95%。采用此技術識別后,其內容無需再進行編改,利用率大幅提高。
語義相似性檢測技術是通過計算機自動查找相似文檔,發現剽竊行為。其原理是通過計算可疑文檔與參照文檔之間的相似程度來判斷可疑文檔是否存在抄襲,通過構建語義網絡,在語義空間里計算語義距離來衡量相似度,以判斷論文是否重復。
多年來,CNKI依托文獻加工自動化技術和中文全文檢索技術等核心技術,形成了完整的技術體系和研發體系,不僅為公司產品和服務提供支持,還為包括科研領域在內的各行業提供了信息化的技術、產品和服務,為圖書館知識基礎設施提供了強有力的技術支持,加快了圖書館信息化的進程,提升了文獻信息化和知識化水平,促使圖書館從傳統以藏書為主的信息機構轉變為適應社會發展需要的知識服務機構。
2007年前后,國際許多著名期刊幾乎消滅了出版時滯[15]。盡管我國互聯網期刊出版產業發展增速較快,但大部分仍停留在紙刊數字化后再上網的模式,增加了出版時滯,大大影響了科研成果的首創價值和利用價值,降低了科研人員、期刊的創新競爭力、影響力和國際競爭力。
CNKI一直致力于期刊出版模式革新。1998年6月創辦我國第一個電子期刊出版機構——《中國學術期刊(光盤版)》電子雜志社[10],創立了學術期刊全文數字出版運營模式,成為世界上第一個與紙本期刊同步出版的數據庫電子期刊。1999年CNKI自主研發了第一代網絡出版技術KNS系統,發布了學術期刊“采編發網絡平臺”1.0、學術研究平臺1.0,利用網絡打通了我國知識生產、傳播、擴散、利用的各個環節。
為縮短并最終消滅出版時滯,提高我國科研成果的首創價值,推動學術期刊出版數字化轉型,CNKI建成“學術期刊、會議論文優先數字出版平臺”(2008年)、“中國知網學術期刊優先數字化出版平臺”(2010年)、“騰云期刊協同采編系統”(2012年)、“騰云期刊數字復合出版系統”(2012年)、“騰云全媒體數字復合系統”(2012 年)。
鑒于學術不端現象愈演愈烈,2006年9月14日,科學技術部審議通過《國家科技計劃實施中科研不端行為處理辦法(試行)》[27]。2008年,CNKI啟動“科技期刊學術不端文獻檢測系統(AMLC)”和“社科期刊學術不端文獻檢測系統(SMLC)”的研發。2008年12月,學術不端監測系統正式上線,達到大規模實用化的成熟程度,系統采用自適應多階段數字指紋特征對PDF、CAJ、DOC、TXT等格式文件及其壓縮包進行檢測,以《中國知識資源總庫》和Springer、Taylor&Francis期刊數據庫、互聯網資源、優先出版文獻庫、互聯網文檔等資源作為對比庫,依托文獻和圖表相似性開展重復率表征和檢測,具備文獻檢測、黑名單管理、問題文獻管理、檢測報告自動生成、原文在線檢測比對等多項功能,僅需幾秒鐘就可以完成一篇學術論文的檢測工作。
期刊編輯部使用學術不端檢測系統可快速檢測編輯部來稿和已發表的論文是否存在學術不端問題。不僅如此,學術不端檢測系統還在學位論文管理、科研項目立項驗收、職稱評審等方面充當重要角色,能有效提高學術出版的文獻質量和科研隊伍的基本素質,促進學風建設。
2017年10月16日,CNKI聯合436家學術期刊編輯部發布“學術論文錄用定稿網絡首發聯合公告”,啟動網絡首發模式,將已經同行評議審定、編輯部錄用的文章先在學術期刊平臺上第一次發表,再進行紙版印刷,進一步提高了我國學術科研成果的發表時效。2017年7月11日,《中國學術期刊(網絡版)》出版傳播平臺(CAJ-NP)發布,打通了編輯出版、作者服務、網絡傳播、讀者應用的全流程,實現了知識生產、管理、傳播、擴散、利用的各環節與過程全覆蓋。網絡首發能加速科研成果的生產力轉化;對于保障作者首發和原創權益,提高科技期刊的品牌價值和學術影響力具有重要意義[27]。這一系列平臺和系統,不僅打通了期刊出版的上下游,優化數字化出版流程,提高了期刊出版的時效性和影響力,而且意味著我國初步實現期刊由傳統印刷模式向數字化模式轉型,對于推動我國數字圖書館進程具有重要作用。
4.1.1 堅持自主研發核心技術,符合國家戰略
CNKI始終堅持自主研發核心技術,一方面能確保技術的可控性,及時提升技術能力和水平,更快、更好地滿足用戶迅速增長的功能、性能需求,提高產品服務質量和用戶滿意度,保證公司長遠發展;另一方面能保持我國數字出版與信息服務產業的獨立性和國際先進性,符合國家發展戰略。
4.1.2 對圖書館資源數字化貢獻巨大,推動圖書館地位變化
CNKI不斷提升對讀者的精準服務能力,促進圖書館從知識獲取、知識組織與知識創新三個層次為讀者提供服務。早期CNKI順應了文獻資源數字化的發展趨勢,不僅豐富了館藏資源,解決了館舍緊張的問題,提高了圖書館服務質量和參考咨詢服務水平,而且其期刊統計評價功能為圖書館采購印本期刊提供了依據,使有限的購書經費發揮最大作用。后期CNKI通過出版平臺與圖書館的深度融合,把圖書館從傳統角色定位發展成適應社會發展需要的知識服務機構,不斷推動圖書館地位的變化。
4.1.3 革新數字出版模式,加速科研成果傳播
CNKI關注期刊出版模式的變革與技術進步,打通了期刊出版“采編發”全流程,推動我國期刊由傳統印刷模式向數字化模式轉型;注重學風建設,研發學術不端檢測系統,確保學術成果質量。率先提出優先出版、網絡首發等出版方式,不僅加速科研成果向現實生產力的轉化,而且有利于保障作者首發和原創的權益,提高期刊的品牌價值和學術影響力。
4.1.4 推動知識生產與傳播的上下游產業鏈融合發展
從服務科研、服務讀者、服務創新的意義上講,出版與圖書館的目標是一致的,利益是相關的,是唇齒相依、生死與共的關系。CNKI努力破解數字出版產業化發展難題,積極探索符合我國國情的數字出版與數字圖書館融合發展產業運營模式,為從根本上解決數字出版與傳統出版、數字出版與數字圖書館在生與死、價值與價格等方面的矛盾開辟了新的發展途徑。
4.1.5 堅持依法合理解決版權問題,構建健康的產業發展生態
從1995年創辦伊始,CNKI即以高度負責的態度認真解決版權問題,不惜成本與全國數以萬計的各類機構和組織簽訂合作協議,并通過這些機構取得作者授權,每年結算和支付著作權使用費,并免費提供個人使用的檢索卡。這在當時環境下十分難能可貴。此后20多年CNKI始終堅持此項版權策略,對構建我國數字出版與數字圖書館的良好產業生態、保證上下游健康可持續共同發展起到了極為重要的作用。
文獻數據庫作為新生事物給圖書情報界帶來眾多便利的同時,其發展和服務模式也存在一些弊端。CNKI作為文獻數據庫行業中的翹楚,在發展過程中也需要不斷完善,解決存在的問題。必須指出的是,科學合理的定價、上下游利益的平衡、對作者的良好服務、著作權使用行為的規范與法規等是整個數據庫產業鏈各環節都需要從根本上解決的問題,也是政府需要高度重視和盡快出臺相關政策法規的全局性大事。
4.2.1 完善價格體系,方便圖書館精準選購
CNKI擁有豐富的學術資源,其檢索、排序、知識關聯等研究學習功能優于同類產品,因此深受讀者的喜愛。經調研,其在國內外知識資源的深度挖掘、廣度整合、高度凝聚以及知識管理與服務系統研發、運維方面持續不斷的高投入,是造成其比國內同類數據庫價格更高的主要原因。2016年3月北京大學圖書館宣布即將停用CNKI,稱“由于數據庫上漲價過高,圖書館目前正在全力與對方進行2016年的續訂判斷”;2016年4月有報道稱“CNKI學術期刊數據庫價格漲幅每年都在10%以上……”[28]。同方知網副總經理單清龍對筆者表示,經核實CNKI學術期刊數據庫2012-2016年價格平均增幅為6.8%,媒體報道提及的用戶是誤將購買新產品的費用,計算到續訂數據庫價格之內。雖然個別報道缺乏深入調查或以一概全,有些用戶單純以文獻量衡量價格等,但其價格的確給一些圖書館造成較大負擔,一直受到圖書館詬病。因此,如何結合圖書館當前情況、地域差別等,制定科學的價格體系是CNKI必須解決的問題,比如以單刊選購的模式使圖書館選購更精準,或區分文獻量、適當考慮GDP上漲等因素制定價格等。
4.2.2 上下游利益和各自發展要求還不夠平衡
CNKI作為出版產業與圖書情報業的橋梁和紐帶,應合理平衡上下游利益和各自發展要求,致力于打通知識生產、傳播、應用全過程。毋庸置疑,紙質出版的大幅下滑源于數字出版的發展。拋開功能不說,數據庫的價格遠遠低于相應紙質出版物的總價,這是我國學術期刊數據庫與期刊出版產業經營相脫離、圖書館紙刊與期刊數據庫采購預算機制相脫離造成的消極后果,使整個產業鏈存在不可持續發展風險。CNKI作為供需兩側的紐帶,應積極推動出版傳播供給側、圖書情報需求側的結構化調整,科學建立平衡上下游的商業模式與運營模式,保證我國知識傳播服務業的健康穩定發展。
4.2.3 在兼顧各方效益的同時加強對作者的服務
在知識資源采集方面,CNKI通過銷售收入分成、保底分成、約定稿酬等著作權使用費制度收錄知識資源,通過出版單位、學位授予單位等取得作者授權和支付作者稿酬。這種模式始于CNKI創辦的1995年,是解決海量數據庫和建設國家戰略性知識資源體系的可行與合法之策。目前CNKI每年支付的著作權使用費已超過總收入的30%,但相對于出版者提供的海量文獻而言,數字出版給予原出版者的版權回報顯然不足以支持出版者以市場主體地位生存和發展,各編輯部在實際履約過程中也存在各種問題和困難。盡管CNKI做了各種努力,包括為期刊免費提供文獻服務;為作者提供檢索卡;投入大量研發力量開發采編發系統,為期刊轉型升級、提高出版質量和作者創作投稿提供服務等,絕大多數以傳播科研成果、提升學術影響力為目的的學術文獻作者對此給予了理解和認可,但少數作者與CNKI就稿酬問題仍存在爭議。近10年來,就這個問題被作者起訴的案件有10余起[29]。尤其是2019年2月翟天臨學術不端事件成為輿論焦點后,CNKI也成為社會熱點,一些人借此機會討論CNKI支付給著作權人的稿酬問題[30]。筆者認為,雖然CNKI與期刊編輯部制定了由編輯部向作者支付稿酬的制度,但應對執行情況進行嚴格監督,徹底規范期刊的作者稿酬制度,消除由此造成的不良影響,并進一步加強對作者的相關服務,更全面地支持作者學術創新國際競爭能力的提高。
CNKI自1995年成立以來始終秉承“為提升我國創新能力與文化軟實力服務”的宗旨,致力于國內外優質出版知識資源的開發利用與傳播,堅持大數據與互聯網條件下的知識生產、傳播與利用模式創新,致力于海內外期刊、博碩論文、報紙、會議論文、圖書、年鑒、統計數據等文化、教育文獻資源的集成化數字出版、傳播與內容增值服務及相關軟件技術開發。多年來,研發了基于內容的智能碎片化、XML智能標引、協同技術、語義分析、圖像處理及檢索、數據挖掘、人工智能等自主知識產權核心技術,逐步發展成為我國數字出版、知識服務、信息化教育服務領域的領軍企業,以實際行動逐步推動我國數字圖書館事業進程。面對激烈的國際競爭,CNKI自主研發的核心技術對于推動我國自主的科技創新具有重要意義,特別是網絡首發模式對于加快創新科技成果轉化作用凸顯,將有效提高我國的科技競爭力和國際地位。盡管中國知網在發展過程中出現了各種歷史遺留或新形勢催生的問題,但其對圖書館、出版行業的積極影響卻不可磨滅。未來在服務創新和學習創新的目標下,學術文獻出版、傳播與利用各方共同努力、協同運行,一定能構建更科學、更具活力的合作共贏機制,更好地推動我國圖書館事業的發展。
注釋
①2017年12月12日,重慶大學圖書館館長楊新涯在西南大學舉行的“川渝情報研究會”上所作題為《大學圖書館新趨勢》的報告中指出,《中國學術期刊(光盤版)》的發布是我國進入數字圖書館時代的標志和里程碑。