,
學科知識庫(“Subject Knowledge Repository”或“Disciplinary Knowledge Repository”)是基于學科的開放存取倉儲,是對某一學科或幾個學科的各類資源進行收集、保存并通過互聯網實現開放存取的知識庫[1]。學科知識庫聯盟是由同學科或幾個學科的多個成員機構構成,根據成員機構的自身特點選取適合的聯盟模式,組成專業性強且內容豐富的集成性學科知識庫。國外醫藥類學科知識庫聯盟的構建已日臻成熟。2009年美國總統奧巴馬簽署的《2009綜合撥款法案》確立了PubMed Central(PMC)的強制公共存取政策永久生效,從而確保了PMC收錄論文的數量與質量。加拿大Multiple sclerosis (MS)協會要求凡是受到資助的項目,其同行評議的出版物都要在6個月內進行開放獲取。此規定于2013年生效,MS協會鼓勵在該日期前獲資助的研究也遵守此規定。Open DOAR列出的健康與醫學學科的機構知識庫共338個,其中大多數知識庫已運營超過10年[2]。
本文主要對10個國外醫藥類學科知識庫聯盟(以下簡稱“醫藥庫聯盟”)進行分析,歸納聯盟運營模式與資金來源、存儲與共享政策、技術支撐與資源建設、科研數據管理與學科服務、科研影響力等多方面的特征,總結其構建經驗,以期為我國醫藥庫聯盟的構建提供參考。本文主要采用調查法和經驗總結法,對10個國外醫藥庫聯盟進行有目的、有計劃、有系統地搜集其現實狀況與歷史狀況的材料,歸納分析其運營的實際情況,使之系統化、理論化,從而具有指導意義。
筆者以聯盟運營時間、主要運營機構、成員機構規模幾方面作為主要參考標準,選取的10個醫藥類學科知識庫聯盟為arXiv、PubMed Central(PMC)、Europe PubMed Central(EPMC)、bioRxiv、CancerData、Dryad、InterNano Nanomanufacturing Repository、Mathematics in Medicine Study Groups、National Science Digital Library、Nature Precedings。
這些聯盟的運營時間基本都在5年以上,arXiv甚至超過了25年。其主要運營機構均為較大型的學術機構,如美國國家生物技術信息中心、美國冷泉港實驗室(CSHL)、馬薩諸塞大學阿默斯特分校分級制造中心、諾丁漢大學、Maastro Clinic的醫學信息知識工程團隊等,以確保聯盟構建的各方面條件均有保障。聯盟的主要機構成員都不低于10個,且均具備較高的學術能力,多為科研院所、實驗室、研究小組、出版機構、各種協會與學會、大學學院、圖書館、大型企業等,如arXiv的220個成員機構來自全球約24個國家,bioRxiv約99個成員幾乎都來自歐洲的Scientific Community,Dryad的20個主要成員包括美國科學促進協會、美國遺傳協會、進化研究學會、系統生物學家學會、劍橋大學出版社等。
運營模式與資金來源是構建醫藥庫聯盟的基石。從運營模式來看,arXiv由康奈爾大學圖書館負責其行政、財務和發展等,下設成員咨詢委員會和科學咨詢委員會處理相關事務;PubMed Central的運營機構是美國國家生物技術信息中心,還配備了成立于1999年的監督機構——PMC國家咨詢委員會。其他聯盟的管理模式基本上都是根據選舉或其他原則成立顧問委員會負責聯盟的運營,如Europe PubMed Central由科學顧問委員會與基金委員會進行管理并處理戰略導向問題;bioRxiv由Cold Spring Harbor Laboratory管理運營,并由洛克菲勒大學、美國微生物學會、HighWire Press等17個機構的人員組成的顧問委員會協助管理;Dryad由其成員選舉出12名代表組成董事會進行管理,負責數據共享政策協調,以促進Dryad長期可持續發展;InterNano Nanomanufacturing Repository由馬薩諸塞大學阿默斯特分校科學與工程圖書館和成員機構選派代表組成13人的顧問委員會負責運營。由單獨機構運營的有以下3個聯盟:CancerData由Maastro Clinic的醫學信息知識工程團隊負責運營,Mathematics in Medicine Study Groups由英國數學醫學研究組和加拿大數學醫學研究組運營管理,Nature Precedings由英國自然出版集團運營。與其他機構合作運營的有National Science Digital Library,該聯盟之前與康奈爾大學、哥倫比亞大學、大學大氣研究聯盟合作運營,現在單獨與大學大氣研究聯盟合作。
資金來源上,arXiv由康奈爾大學圖書館提供37%的運營費用,Simons 基金每年至少提供約10萬美元的資助,其他約220個成員機構需支付會員年費。年費分為4個層次,從1 000美元到4 400美元不等,所有會員機構每年提供的資金至少約30萬美元,此外會員也可通過聯盟協議獲取付款折扣。其他聯盟基本都由一個主要機構提供資金,幾個合作伙伴配合進行協助,如PubMed Central主要由美國國立衛生研究院(National Institutes of Health,NIH)提供資金,Bill & Melinda Gates Foundation、Agency for Healthcare Research and Quality、Food and Drug Administration等11個機構或基金協助資助;Europe PubMed Central由以維康基金為代表的 Europe PMC Funders Group約28個研究基金提供資助;CancerData的主要資金來源是Maastro Clinic,荷蘭癌癥協會、荷蘭大學醫療中心聯盟、荷蘭生物信息中心、荷蘭科學中心等也有資助;Dryad構建最初的資金來源于美國國家科學基金會及其合作伙伴,Dryad在英國的鏡像由大英圖書館負責,資金來源于大英圖書館、牛津大學、數字管理中心以及Charles Beagrie公司等;InterNano Nanomanufacturing Repository由美國國家科學基金會和馬薩諸塞大學阿默斯特分校圖書館提供資金;Mathematics in Medicine Study Groups主要由工程與物理科學研究委員會、倫敦數學學會、牛津大學出版社提供資助;Nature Precedings由英國自然出版集團和大英圖書館、歐洲生物信息學研究所、科學共同體與維康基金合作資助。單獨機構資助的只有bioRxiv和National Science Digital Library,bioRxiv由Cold Spring Harbor Laboratory提供資金,National Science Digital Library由美國國家自然基金提供資助。
從運營管理和資金來源看,目前醫藥庫聯盟有兩大發展趨勢,即“廣而泛”或“專而深”。走“廣而泛”道路的聯盟,其發展策略著眼于全球,機構成員、資金來源都是全球性的。由于聯盟龐大、事物繁多,其運營管理一般需要在主導機構的統籌規劃下,設立多個委員會分工協作。為確保工作流程的精準高效,還設立了監督機構。該趨勢最具代表性的聯盟是arXiv和PubMed Central。走“專而深”道路的聯盟,其發展更側重于專業性、區域性,聯盟規模偏小,其機構成員基本集中在某一地區或某一團體,由機構成員組成的一個委員會進行運營管理,也有單獨機構或機構合作進行管理的,資金來源由單獨機構資助或一個主要機構資助并由其他機構協助。該趨勢代表性聯盟有CancerData、Mathematics in Medicine Study Groups。
存儲與共享政策(表1)是醫藥庫聯盟學科資源收集與利用的標準。
從表1看,存儲政策基本包括提交方式、公開程度、版權政策、隱私要求、元數據要求及語種、格式等。這些聯盟中絕大部分要求創作者或版權持有者提交文檔或數據,不允許第三方個人/機構提交。arXiv還規定所有合著者必須都同意并提供提交人所在機構。InterNano Nanomanufacturing Repository雖允許作者以外的人提交,但若出現侵權行為,提交人將承擔完全責任。公開程度方面完全公開的較多,有些聯盟為能夠在更大程度上吸引學科資源,會設置不同的公開協議,如PubMed Central設置了“完全參與”協議、“NIH資助參與”協議、“選擇性存儲”協議以滿足不同成員的要求。幾乎所有聯盟都對版權政策和隱私要求進行了明確規定,且會根據自身特點有所側重,如arXiv、bioXiv之類的預印本聯盟更注重避免與出版商之間的版權糾紛,Europe PubMed Central、Mathematics in Medicine Study Groups則注重解決滿足資助機構的OA要求時所引發的版權問題,CancerData著力于臨床數據版權糾紛的解決,Dryad、InterNano Nanomanufacturing Repository通過嚴格的審查制度彌補版權政策的不足,National Science Digital Library和Nature Precedings在解決版權糾紛的同時也高度重視用戶的隱私問題。為保證存儲質量,各聯盟也幾乎都有明確細致的元數據要求,一般體現在對資源的準確性、完整性、學科性、權威性、資源類型、科研數據的標準化與結構化方面,甚至對提交環境的要求。對語言與格式的要求,除Dryad比較詳細外,其他聯盟均較為寬松。
10個聯盟的共享政策幾乎都采用知識共享署名許可證方式,主要涉及5個許可證:國際創作共用署名許可證、國際知識共享署名許可證4.0(CC BY 4.0)[3]、公共領域通用許可證(CC0 1.0)[4]、國際署名相同方式共享許可證(CC BY-SA 4.0)[5]、非本地化署名許可證3.0(CC BY 3.0)[6]。其中使用最多的是國際創作共用署名許可證,該許可證下包含國際創作共用署名-非商業許可證4.0(CC BY-NC 4.0)[7]、國際創作共用署名-沒有衍生品許可證4.0 (CC BY-ND 4.0)[8]、國際創作共用署名-非商業沒有衍生品許可證4.0(CC BY-NC-ND 4.0)[9]、國際創作共用署名-相同方式共享-非商業性授權許可證4.0(CC BY-NC-SA 4.0)[10]等次級許可。

表1 醫藥類學科知識庫聯盟構建的存儲政策
聯盟通常會根據不同資源的開放要求及版權考量,采用適合的共享許可證。此外,PMC和EPMC禁止使用爬蟲程序進行批量檢索與下載,如需下載,可通過FTP站點支持或使用EPMC-OAI service、and RESTful and SOAP web services。
技術支持與資源建設是構建醫藥庫聯盟的支撐。10個聯盟平臺構建所用的系統軟件一般是EPrints、Fedora、Drupal、Custom、DSpace,輔助軟件工具包括系統網關(如PubChem Power User Gateway)、搜索軟件(如Basic Local Alignment Search Tool、SNP Database Specialized Search Tools)、文件格式轉換軟件(如DICOM圖像轉換、OAI-PMH2.0)、API、圖像存儲軟件、數字對象標識軟件(如DataCite)、發送接收軟件(如Frequency-weighted Link),閱讀軟件包括Open Reading Frame Finder等。此外,arXiv利用Atlassian Confluence 5.10.8軟件進行知識管理與協同,其強大的編輯和站點管理特征能夠幫助團隊成員之間共享信息、文檔協作、集體討論和信息推送。
開源系統與各種軟件是構建醫藥庫聯盟的硬件支撐,其軟件支撐則是學科資源的建設。10個聯盟的資源量級存在很大差異:從千萬級到幾百級不等,從資源數量、涵蓋學科、文獻類型等也可看出醫藥庫聯盟在向兩個方向發展。
一是“大而泛”。聯盟的資源存儲量至少都是幾十萬,如arXiv存儲1 360 418條預印本記錄、PubMed Central 存儲約470萬篇文章、bioRxiv存儲約208 601條記錄、Europe PubMed Central存儲內容包括約3 320萬條摘要(其中2 810萬條摘要來自PMC)、460萬篇全文文章。“大而泛”的發展方向有兩個:一是涵蓋的學科多。如bioRxiv 涵蓋生物化學、生物工程、生物信息學、生物物理學、癌生物學、細胞生物學、生態學、流行病學、進化生物學、遺傳學、基因組學、免疫學、微生物學、分子生物學等27個學科,arXiv收錄的預印本除了物理、數學、計算機、定量生物學、定量金融、統計、電氣工程、系統科學和經濟學之外,也在向新的學科不斷擴張;二是致力于對某學科資源的全覆蓋。如PubMed Central幾乎覆蓋生物醫學、生命科學學科的所有的期刊資源,其中完全開放的期刊2 090個、被美國國立衛生研究院資助要求開放的期刊330個、選擇性開放的期刊4 531個;Europe PubMed Central不僅覆蓋期刊資源,還向專利、醫學記錄和臨床指南發展,它收錄了420萬個專利、675 698篇醫學記錄、859篇英國公立醫療系統的臨床指南。
二是“精而深”。該類醫藥庫聯盟的資源量級一般在幾百到幾萬,側重對某個細化學科的精深研究。如CancerData收集了約522個癌癥學數據集,其中包括多媒體資源、圖像資源、臨床記錄、出版物、文獻、實驗數據等多種類型的資源;Mathematics in Medicine Study Groups收錄的資源涉及醫學生物學的有152種,涉及數學建模類的有147種,它主要致力于數學與醫藥學科的關聯研究。
10個聯盟幾乎都提供科研數據管理與特色學科服務。如arXiv近期與天體物理數據系統合作,致力于科研數據的共享與存儲;PMC鼓勵將與論文有關的任何補充數據包括圖表、視頻或研究數據作為輔助文件與文章一起存放在PMC中,并指導用戶對標記數據進行引用。此外,美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)的一些科研數據存儲政策也是不斷變化的。如從2017年9月起,dbSNP數據庫和dbVar數據庫停止接收非人類的變異數據提交,從11月起停止呈現非人類變異數據的比對,但繼續提供已存儲數據的FTP站點下載,之后非人類基因變化數據提交到EBI(European Bioinformatics Institute),可見學科科研數據管理已開始在全球范圍內統籌規劃。EPMC提供跟蹤數據引用服務,引用多個數據庫如European Nucleotide Archive、UniProt、PDB、OMIM、refsnp、RefSeq等記錄的文件可以被搜索,當某個特定數據庫被引用時,用戶可以設置一個RSS提醒,可見對科研數據的管理已不僅僅是存儲與共享,而是更注重數據的引用與利用以及數據科研價值的再創造。
CancerData是一個癌癥患者在腫瘤治療過程中創建的具有醫學影像和醫學特征的共享數據庫。它也提供數據集服務,以專題為單位將數據集成后進行共享。當然這些數據集也包含一些私人收藏數據,如需訪問要特別咨詢登記,可見集成化也是數據管理的一個新方向。Dryad是以開放元數據的方式,使用戶的數據通過第三方服務被發現,也向用戶提供數據使用統計信息。Dryad還規定科研數據中涉及人類受試者信息時必須匿名,并在適用的法律與道德準則下進行。InterNano Nanomanufacturing Repository內包含很多專業數據庫,如工藝數據庫、過程數據庫等,目的是為促進跨實驗室數據共享,特別是學科內專利數據的共享,可大大提高科研效率。
在學科服務上,除學科導航、檢索歷史保存、參考文獻提取、設置RSS提醒、用戶個性化定制等一般性學科服務外,PMC Publisher Portal允許出版商發布和跟蹤新的應用程序、更新聯系人信息、查看和下載使用統計等,可見學科服務要考慮到成員機構的需求。EPMC為用戶提供引文網絡并通過RIS格式將引文導入參考文獻管理程序,還可通過BioEntites標簽找出哪些文章引用了目標文章,也可通過鏈接找到源數據庫等服務。此外,EPMC還會從文章中挖掘基金符號、疾病、化學品、生物體、基因本體術語和進入編號,可見細化與特色化也是學科服務的發展方向。BioRxiv開放用戶對文章的評論功能,讀者也可直接聯系作者與其交流,用戶的文章也可直接從BioRxiv向期刊投稿。BioRxiv的文章被谷歌學術、CrossRef等搜索工具索引,更新的文章會在推特上發布,可見與搜索引擎及社交媒體合作推廣學科資源也是一個新方向。CancerData則是通過提供許多相關網站的外部鏈接,如荷蘭癌癥協會、荷蘭大學醫療中心聯盟等,方便用戶了解更多的學科機構與網站。Dryad除了提供引文導入、引文管理等服務外,最大的特色是為用戶定制一個“數據管理計劃”,并提供在線數據管理規劃工具如dmptool或dmponline的咨詢,可見為用戶提供科研幫助和培訓會使學科服務更深入和人性化。InterNano Nanomanufacturing Repository的學科服務重視用戶培訓,如提供Integrative Graduate Education and Research Traineeship系列講座或舉辦一些報告會、研討會等。National Science Digital Library的學科服務注重學科應用程序的開發與更新,如Schoology、Canvas程序的更新、OERC平臺的改進、學習管理系統的開發、系統的智能化融入服務,可見學科服務水平的提高也需要更多計算機軟件技術的支撐。
科研影響力是醫藥庫聯盟的價值體現。一個聯盟的科研影響力可從幾個方面來體現,如成員機構和收錄資源的數量與質量,資源的上傳、點擊和使用情況,在社交媒體上的粉絲數及活躍度,甚至包括搜索引擎對該詞條的搜索結果和百科網站對該聯盟的介紹等。
目前大多數聯盟統計的是資源上傳量,如arXiv2017年月均提交文件10 293份,Europe PubMed Central、CancerData、InterNano Nanomanufacturing Repository按年份和文獻類型統計資源上傳量,bioRxiv每年按月份統計資源上傳量,National Science Digital Library、Nature Precedings按學科統計資源上傳量,Dryad統計資源總量與30天內上傳量。
統計點擊量和下載量的聯盟并不多,僅有arXiv和National Science Digital Library統計點擊量,如arXiv提供當日的點擊次數(不包括鏡像),National Science Digital Library收錄資源的最高點擊量為1 560次。提供下載量的聯盟有arXiv、Dryad和National Science Digital Library,不過arXiv統計的是月下載量(如2018年1月下載量為1 058 057 882次),Dryad統計的是總下載量和30天內下載量(如Dryad總下載量2 349 590次,30天內下載量36 999次),National Science Digital Library提供的是每篇文章的下載量,只有EPMC提供每篇文章的被引用次數統計(被引次數最多的為141 727次)。本文認為與資源的上傳量相比,資源的點擊、下載、標記、被引量更能體現其學術價值。
通過百科網站和搜索引擎了解陌生詞匯是網絡時代人們解決未知問題的首選途徑,arXiv、Dryad、National Science Digital Library、Nature Precedings有維基百科介紹,PubMed Central有百度百科介紹。利用搜索引擎對醫藥庫聯盟進行搜索所得到的結果數量從1 000多條到幾千萬條不等。其中最少的是InterNano Nanomanufacturing Repository,在百度中搜索的結果為10 100條,在Google中搜索的結果為4 340條;最多的是PubMed Central,在百度中搜索的結果為2 190萬條,在Google中搜索的結果為3 520萬條。這充分反映了網絡正深刻改變著學術交流的方式,說明醫藥庫聯盟的構建要充分利用互聯網。10個聯盟中,arXiv、Europe PubMed Central、bioRxiv、Dryad開通了社交平臺,且bioRxiv的每個細分學科如癌癥生物學、神經科學、基因組學等都有twitter主頁。這4個聯盟中開通twitter最早的是Europe PubMed Central(2009年4月開通),推文最多的是bioRxiv(2.21萬篇),twitter粉絲最多的也是bioRxiv(高達1.79萬)。Europe PubMed Central和Dryad創建了博客,Dryad還開通了facebook。現在社交媒體廣泛流行,已成為了解用戶需求、加速用戶反饋、推送學科資源和宣傳聯盟內容最便捷的方式。
目前醫藥庫聯盟逐漸向“廣而泛”和“專而深”兩個方向發展。不同的發展方向在聯盟模式、成員構成、運營管理、資金來源等方面也不盡相同,因此我國醫藥庫聯盟構建的第一步就是要確定自己的發展戰略。
“廣而泛”聯盟的構建模式可采用分布采集模式和層級構建模式[11]。分布采集模式要求每個成員機構都要構建自己的學科知識庫,層級構建模式需要構建管理級、支撐級和資源級。這兩種模式適合成員機構數量多、成員構成復雜、資源量大、技術資金實力雄厚且分工明確的聯盟。如arXiv、PubMed Central、Europe PubMed Central、bioRxiv、Dryad,他們的成員機構眾多、事務繁雜,其運營管理一般都由一個綜合實力雄厚的機構來負責,處理行政、財務、發展等宏觀決策問題,下設成員咨詢委員會、科學咨詢委員會或其他顧問委員會負責具體事務,甚至還會有監督機構。在資金問題上,“廣而泛”的聯盟單靠運營主體或基金完成資助比較困難,一般都需要通過廣收會員費來支持。
“專而深”聯盟的構建模式宜采用集中存儲模式[11]。該模式是由一個大型學術機構帶領幾個中小型學術機構共同構建,適合成員機構數量少、成員構成簡單、資源量有限、僅對某個學科進行深入研究的聯盟,該類聯盟一般由一個單獨機構運營即可,如CancerData,Mathematics in Medicine Study Groups,Nature Precedings。“專而深”的聯盟規模較小,一般可由單獨機構來資助,或由主要資助機構搭配合作伙伴協助完成。
10個國外醫藥庫聯盟的存儲政策和共享政策的內容是一致的,可見國際醫藥庫聯盟的發展已趨于成熟和穩定,我國在構建時應參考國際標準。
存儲政策包括提交方式、公開程度、版權政策、隱私要求、元數據要求、語種、格式等。從提交方式看,一些聯盟(如arXiv、Dryad)明確規定要求本人或版權持有者提交。本文更贊同InterNano Nanomanufacturing Repository的做法,只要不出現侵權行為,可由作者以外的人代為提交。如科研機構的科研管理部門可以對本機構學科成果統一進行整理提交,既準確無誤又能提高效率。就開放程度而言,10個國外醫藥庫聯盟根據開放協議、文獻類型等確定不同的開放程度。如PubMed Central有3種開放協議供成員選擇,其中“完全參與”協議是發行商承諾從一個特定發行日期開始,全部開放所有卷期內容,“NIH資助參與”協議是所有NIH資助的文章要在PMC以作者名義存儲文章的最后版本。“選擇性存儲”協議是出版商從多個期刊中將選定OA的文章或被Wellcome Trust,Bill & Melinda Gates Foundation等資助要求OA的文章存儲到PMC。總的來說,決定開放程度的原則應以既能保護作者權益,又能最大限度地分享學術成果為宗旨。不同的開放程度還可用不同的字體顏色來區分,一目了然,便于用戶查找。
版權和隱私問題上,10個醫藥庫聯盟的重點在于解決與出版商之間的版權問題、與資助機構OA要求引發的版權問題、與資源提供者之間的版權問題,以及版權政策的彌補措施、隱私問題的解決辦法等。聯盟在構建時需要對可能出現的版權問題進行細致全面的考量,并提出相應對策。如arXiv要求“翻譯作品需得到源作品當前版權持有者的許可”。bioRxiv要求“提交預印本前需向期刊編輯告知并得到確認,預印本系統不可發布修改稿、編輯意見、同行評審和最終見刊版本,可在發表后的預印本旁提供文章發表鏈接,且需提供DOI號,并標注此文章被XX期刊錄用;已發表的文章不可在預印本系統發布,提交到預印本系統的文章發表時需簽署同意OA許可條款并支付相關費用;作者可使用預印本系統里文章ID直接投稿,期刊會從預印本系統提取文章,文章一旦被提取,在被期刊收錄、撤稿或拒絕前,不得再存儲到任何一個機構或者學科的知識庫”。PMC用戶需完全遵守版權限制,超出著作權法合理使用原則允許的,需獲版權人書面許可。
好的聯盟必然要求其存儲資源必須具有高質量。如arXiv的科學咨詢委員會制定了提交文件的內容要求,CancerData在數據質量、標準化和結構化方面都要求較高。因此我國在構建醫藥庫聯盟時,也需設立專門的部門對存儲內容質量進行要求和把關。此外,筆者贊同Dryad在存儲內容超過規定容量時收取過量存儲費用的辦法。此舉既可以緩解惡意占用存儲空間的行為,又可以緩解資金壓力。在語種和格式要求上,雖然大部分聯盟要求比較寬松,但筆者贊同Dryad較為嚴苛的做法。我國醫藥庫聯盟的中文成果必須配英文翻譯,格式要求細致才能有效解決不同格式或格式轉換過程中造成的數據錯誤和丟失,保證學術成果的可讀性。
共享政策幾乎都是采用知識共享署名許可證方式。10個藥庫聯盟主要涉及5個許可證,這些許可證雖然側重點不同,但主要從以下幾個方面進行規定:分享——在任何媒介或格式下再傳播;署名——必須給予姓名標注,提供許可證鏈接,并聲明創作是否經過修改;非商業性——不得將本創作用于商業目的;沒有衍生品——不得對本創作進行重混、轉換或依據本創作進行再創作等;不得增加額外限制——在許可證允許的情況下,不得增設任何法律或技術限制;相同方式共享——如果對本創作進行了重混、轉換、依據本創作進行再創作,必須依據本創作采用的許可證分發再創作。此外,近年來“copyleft”運動也逐步興起,其支持者認為“在尊重創作權的基礎上,創造性作品在非營利前提下,應當使用創作共用許可使作品獲得更多自由使用與修改的權利。對于創作者而言,最大的問題不是版權,而是默默無聞。”因此各聯盟可根據資源的開放要求及版權考量使用不同的的許可證,有效避免版權糾紛。要促進科研成果的進一步共享,需要更多的科研資助機構提出共享要求,要求被資助的項目申請者在不損害知識產權和隱私政策的前提下,盡可能減少限制、及時開放。如英國的一些資助機構(如RCUK、STFC、AHRC)等都有明確的科研成果、科研數據的共享政策[12]。
軟件平臺的選擇和學科資源的建設需要與聯盟的構建策略相匹配。“大而泛”聯盟平臺的構建一般選擇Eprints、Drupal、Dspace,使用的軟件主要是團隊協同與知識管理工具及各種數據庫檢索、閱讀查詢、用戶網關等軟件或工具。由于該類聯盟收錄的數據庫較多,多源異構數據庫的融合和跨庫檢索技術的研發也十分重要。此外,由于不同用戶差異較大,可以考慮加強智慧平臺的構建,針對不同用戶的需求,重新聚類文獻資源,提供個性化服務;根據用戶的需求和喜好,對學科資源進行個性化編輯。還可引進網絡機器人探測技術,對海量資源的用戶使用情況進行統計分析和整合,對用戶數據進行關聯規則挖掘、聚類分析和趨勢預測等。如深圳大學設計了USSER平臺,已開始對此課題進行初步探究[13]。“大而泛”的聯盟涉及的相關學科比較多,需要收錄的資源數量龐大,基本上都是千萬級、百萬級的數量,收錄文獻類型也眾多,涵蓋期刊、圖書、專利、臨床報告等。
“專而深”的聯盟一般會根據自身收錄資源的特色確定其所使用的系統和軟件,系統平臺構建一般會選用Custom或Fedora。在軟件選擇上,如CancerData收錄大量多媒體和圖像資源,因此需要使用圖像轉換工具、離線媒體處理工具以及圖像存儲發送和接受的軟件等。CancerData還利用AR技術將一些臨床圖像和多媒體資源利用三維顯示、交互傳感、將虛擬和現實環境相互補充、疊加,加強讀者對臨床資源的感知。走“專而深”道路的聯盟涉及的學科更集中,講求細分學科的全收錄或者學科特色資源構建,一般都是幾百到幾萬的數量。
對于醫藥類學科而言,科研數據的管理與利用尤為重要。調查結果顯示,國際醫藥庫聯盟對科研數據的存儲與管理已逐步細化完善。一是加強了與學科內其他數據系統的合作,特別是國際性合作,逐步實現科研數據全球范圍內的統籌與共享;二是以存儲政策的形式規定,提交的學科論文必須配有對應的科研數據,并提供科研數據備份服務,鼓勵科研人員將整個科研周期的數據都上傳至聯盟平臺進行備份,既可以確保數據不會丟失,又可以理清科研脈絡,便于科研溯源;三是提供跟蹤數據引用服務,加強對數據再利用工作的深入調查,對科研數據的再生科研價值進行分析與評估;四是提高對科研成果和臨床數據的質量控制,錄入的科研數據須準確和相對完整,在數據質量、標準化和結構化上都要有相應的具體要求等。數據存儲、管理、共享的目的是為了更好地利用已有數據、減少重復勞動,因此數據管理政策的制定應緊緊圍繞此原則展開。
醫藥庫聯盟提供的學科服務應以學科資源為基石,以智能技術為手段,以創新提升為目標。具體來說,一是保證基本的學科服務質量,如學科導航、檢索歷史保存、參考文獻提取、引文導入管理;二是提升學科服務在個性化、人性化和細節化方面的水準,如為用戶定制數據管理計劃,讓作者添加更新記錄,并與原始材料一起發布,以顯示研究進展,有利于科研譜系的構建;三是為資源使用者與資源提供者之間創建更多的交流平臺,為成員機構之間創建更多的合作交流平臺,同時為成員機構的科研成果下載、引用情況提供數值統計,以便成員機構充分了解本機構學科成果的價值;四是提供更多學科相關網站的外部鏈接,增加對資助基金的介紹,為用戶提供申請基金課題的培訓,提供使用各種文獻、數據、引文管理工具的培訓,提供利用SPSS、Nvivo R或ArcGIS等進行數據處理的培訓。
無論醫藥庫聯盟走“大而泛”還是“專而深”的道路,其奮斗目標都是擁有較高的科研影響力,提高途徑主要有以下幾種。一是聯盟善用資源使用統計、合理整合學科資源,對資源的點擊、下載、引用、標記、評分等數據進行統計,這些統計數據正是分析資源價值的依據。對點擊、下載量大的學術資源,聯盟平臺可以對其做出推送;對引用、標記、評分高的學術資源,聯盟平臺可對其學術信息進行更深入的學術挖掘,做一些同類型論文的比較分析、高被引和零被引的原因剖析等知識挖掘工作。二是善用社交平臺廣泛宣傳推廣,有效利用社交媒體深層開發潛在用戶,更快速、便捷地與學科用戶溝通。如我國的醫藥庫聯盟在利用twitter、facebook等國際社交平臺做好國際宣傳交流的同時,也要利用好微博、微信、博客、百度貼吧、丁香園等國內社交平臺。三是從搜索引擎來看,據《中國互聯網絡發展狀況統計報告》顯示,84.5%的用戶依靠搜索引擎獲取網站信息[14],因此醫藥庫聯盟應先著力百度搜索與百度百科信息的完善。雖然Google當下無法在中國大陸地區使用,但其在國際搜索引擎中還是很有影響力的,應使我國的醫藥庫聯盟順利在Google搜索中被檢索和鏈接。此外,還要做好搜索引擎優化,使網站各項基本要素適合搜索引擎的檢索原則,以便更容易被搜索引擎優先排序[15]。同時為了增強國際影響力,更應利用維基百科對我國構建的醫藥庫聯盟進行詳實的詞條編輯。
本文通過對國外較知名的10個醫藥庫聯盟進行調查分析,從聯盟模式、運營管理、資金來源、存儲與共享政策、科研數據管理、學科服務、技術支撐、資源建設、科研影響力等方面探討了其構建特征,分析了目前醫藥庫聯盟“大而泛”和“專而深”兩大發展趨勢。
走“大而泛”發展之路的聯盟,宜采用分布采集和層級構建模式,運營主體一般由大型科研機構負責,下設各職能委員會及監督機構,成員機構多為科研院所、實驗室、大學學院、各種協會與學會等具備較高科研能力的機構。資金來源主要由運營機構和資助基金提供,輔以會員會費。存儲和共享政策多元化,需要滿足不同機構成員的版權要求和資助基金的OA政策。平臺架構較為復雜,對系統軟件的種類與功能要求較高。資源數量龐大、涵蓋細化學科較多、文獻類型收錄廣泛,甚至趨向某類型學科資源的全收錄。由于收錄的科研數據龐大,聯盟可對海量科研數據做分析,挖掘其科研價值,走學術化學科服務道路。
走“專而深”發展之路的聯盟,宜采用集中存儲模式,運營主體一般由單個機構獨立運營或由成員機構推選的職能委員會負責,資金由運營機構和合作基金共同提供。成員機構數量不多,因此存儲和共享政策相對簡單。平臺架構較為簡單,對系統軟件的選擇更強調與資源的適配性,資源構建側重于某個細化學科的精深發展。由于科研數據和用戶數量有限,聯盟對于科研數據更側重為用戶定制個性化管理策略,走精細化學科服務道路。
無論走哪種發展道路,醫藥庫聯盟都應充分利用網絡資源,提高自身的科研影響力,希望本文能為構建我國醫藥庫聯盟提供參考。調研分析可能存在一些不足與缺陷,克服這些不足、繼續深入研究是我們未來的探索方向。