劉靜羽 黃金霞 王昉
(中國科學院文獻情報中心,北京 100190)
隨著科技發展和科技競爭的加劇,科技情報和信息資源為科技發展提供保障與支撐作用的戰略價值日益凸顯[1]。當前,國內外形勢的變化,對戰略情報事業發展的要求不斷提高,開放信息環境的變化和愈加激烈的國際競爭態勢給戰略情報事業帶來更大挑戰[2]。戰略情報事業的發展離不開高質量的資源保障體系的支持,從世界高端智庫的建設實踐看,專業的數據中心能夠為情報分析提供強有力的信息支撐,因此信息化和數據資源將是未來智庫的重要特色之一,也符合當前大數據驅動創新服務的時代要求。圖書館因其收藏有豐富的信息資源,是為智庫提供決策信息支持的重要保障機構之一。
我國科技戰略情報事業發展態勢迅猛,有效地支撐了科技創新和政府決策,但因起步較晚,仍面臨數據獲取和利用等一些關鍵問題,包括缺乏統一的智庫相關數據的系統和獲取平臺、數據仍以文獻為主且呈現類型單一、數據管理工作不規范且缺乏共享、數據融合與研發能力不足、缺乏數據分析工具資源等。但是,關聯數據、情報計量與可視化技術、數字資源長期保存技術等為新型智庫提供科學、系統的技術支持,更多類型的資源和工具的涌現也為智庫發展提供了數據基礎。
事實證明,只有建立高效、安全、高質量的資源保障體系才能提升國家戰略情報工作實力。國家科技圖書文獻中心在其“十四五”規劃中明確提出,要加強立體化的數字資源保障建設,增加智庫報告、年鑒、進展、綜述、述評等三次文獻的采集[3]。作為國家科技戰略情報信息的重要保障力量,圖書館應從國際形勢、國家對戰略情報的需要、戰略情報事業的發展、國內外同行的競爭、開放學術交流體系發展對戰略情報的需求等方面考慮,盡快構建支撐戰略情報的數字資源保障體系,增加科技戰略與政策類、科技管理類、科研投入與產出類、科學領域前沿類、決策咨詢建議類等新型智庫支撐資源,并通過與其他科技資源、文獻資源的關聯組織和分析挖掘,實現各類數字資源的關聯揭示、情景敏感和一站式服務,嘗試提供適應決策流程的資源組織揭示,從國家層面提升資源建設水平和服務能力。
化柏林等[4]對數據環境下的科技情況資源保障體系進行研究,回顧了目前世界主要國家的科技文獻資源建設情況,包括美國國防技術信息中心(DTIC)、全俄科學技術信息研究所(VINITI)、英國國防科技研究院知識服務部(DSIL)、法國武器文獻中心(CEDOCAR)、德國卡爾斯魯厄科學技術專業信息中心(FIZ)、日本科技振興機構(JST)、加拿大科技信息研究所(CISTI)、印度國家科學交流與信息資源研究所(NISCAIR)等機構,并將其主要建設特點歸納為以下4個方面:①數字資源比重逐年增加、深加工資源獲取受到更大重視、力求以多種方式支撐信息獲取能力;②資源種類包括政府部門指令、預算信息、專利和專利應用、研究和研究會議論文集、技術報告、會議資料、公共資料、征求意見報告、權威數據庫、引進和加工電子型信息資源;③資源獲取方式以購買為主;④資源組織方面,重視加工整理自產信息、開發科研科技數據庫、細化組織加工粒度、挖掘深層次信息、建立數字倉儲等。總體來看,各個機構都非常注重加強多類型資源的保障,以及對于情報信息的精加工分析。
共建共享是科技情報資源保障體系的一個重要方面。21世紀初,為了不斷盤活現有資源價值,美國政府將不同情報機構的信息數據整合成共建共享的數據庫,如恐怖分子篩選數據庫(Terrorist Screening Database)以及國家情報圖書館(Library of National Intelligence)的信息共享環境(ISE)項目。ISE項目的目標是實現國防、情報、國土安全、外交和執法五大領域反恐信息的共享,從技術平臺、政策規范、程序、綱領、信息系統、架構標信等方面整合和協同已有的信息資源[5]。
建立專題數據庫是當前戰略科技情報資源保障體系的重要內容。在歐洲,德國國際政治與安全事務研究所(Stiftung Wissenschaft und Politik,SWP)按國家和地區劃分研究領域,形成覆蓋歐盟及其成員國領域、美洲領域、亞洲領域等專題數據庫。歐洲最大的國際關系研究資源庫“世界事務在線”(World Affairs Online,WAO),包含公共文獻工具、參考書目、新聞報道、學術報告等多種類型資源,并建立事實資料庫管理系統,長期維護[6]。
黃曉斌等[7]詳細調研了全球領先智庫蘭德公司的戰略情報資源保障體系情況,筆者認為上述研究中提到的蘭德公司戰略情報資源保障體系所具備的特點,值得我國參考。
(1)支撐戰略決策的數據信息體系中的各要素有機統一。支撐戰略情報的數據信息體系,一般包括數據信息需求、外源數據、自主開發專題數據信息庫、科學智能的數據信息搜集支撐方法和工具、數據加工分析人才隊伍。只有實現上述各要素的有機統一和良性互動,才能更好地支撐戰略決策。
(2)擁有“寬領域”“雙向綜合”“項目導向”的領域數據體系。蘭德公司針對不同的領域建立了較為完備的決策數據體系,能夠較好地響應和支持不同項目的數據信息資源需求。
“寬領域”指的是蘭德公司的決策數據來源全面、類型豐富。蘭德公司通過直接獲取與間接獲取相結合的方式獲取數據,直接獲取指開發多方式調查能力系統(MMIC)、組合分析工具(PAT)直接針對需求采集和積累數據,間接獲取指通過其他渠道獲取數據。其數據類型主要包括3類:①數據資源類,主要包括內外部數據資源,如自建數據資源、商業數據資源等;②項目資源類,主要包括調研數據、一次數據、二次數據等;③產品數據類,蘭德公司所開展的項目,其產生的各類數據產品也隨之轉化為戰略決策支撐體系的重要數據來源之一。
“雙向綜合”指的是以用戶需求為重點,同時利用媒體平臺和數據共享平臺,以開放的方式完善數據體系。另外,與多方合作建設信息資源,包括與經濟信息中心、專業調查機構、學術研究機構等合作共建數據庫,或者購買數據資源,保證數據流通和變現。
“項目導向”指的是蘭德公司根據不同研究主題內設10多個研究機構,每個研究機構下根據學科特色細分為不同的研究項目,針對項目需求建設具有自身特色的信息資源。如蘭德公司為美國國家安全調查部開發的恐怖事件數據庫(RDWTI),已對4萬多起恐怖事件進行了編碼和詳細說明,并提供了與反恐相關的系統信息。
支撐科技戰略情報的資源保障體系,其建設目標主要是服務于國家層面的科技決策。該體系應以“知識體系”為核心,充分涵蓋高質量的科技文獻,包括論文與專利數據、科研規劃與基金項目數據、科技管理與科研投入產出數據、科學領域前沿趨勢數據、重要人才發現基礎數據、科研機構數據、科研裝備與設施數據、領域關鍵技術數據、科技輿情監測數據、重要社會經濟發展數據等科技大數據資源。同時,在資源保障的基礎上,綜合應用深度學習、知識圖譜等技術,實現人才、文獻、關鍵技術清單等多元數據的高度關聯和融合,完成文獻內容中“作者與科學家”的貫通、關鍵技術問題與關鍵科學問題的貫通、關鍵問題與關鍵機構及人才的貫通、前沿技術與創新產業的貫通,以實現基于數據的快速抽取、實時分析,以輔助戰略決策。
參考國內外做法,本研究構建了支撐科技戰略情報的資源保障體系(見圖1)。資源保障體系主要包括3個層次的內容。

圖1 科技戰略情報資源保障體系
(1)數據需求層。科技戰略情報資源保障體系應充分重視并注意及時收集科技戰略決策用戶主動提出的數據需求;同時,情報分析人員也應通過多種渠道調研、發現盡可能多的數據需求,以補充用戶需求和需要,并進行資源的遴選。在遴選基礎上,資源保障體系則通過數據采集、數據購買的方式獲取相關數據。
(2)數據內容層。數據內容層是科技戰略情報資源保障體系的核心模塊。結合當前國內圖書情報機構實際,科技戰略情報資源體系內容的構建要充分整合已有資源和符合新需求的資源。在資源整合的基礎上,重點圍繞科技情報事業發展現狀和需要,從數據層面按類別進行梳理,將原有的各類信息打散重組成能夠支撐科技戰略情報分析的不同數據集,形成情報分析工作所需的高質量“原材料”,包括高質量論文、專利數據、人才數據、項目數據、科研管理數據等。
(3)工具機制層。該模塊為數據內容層的建設提供工具和機制的支持,包括提供數據信息搜集分析的工具,以及打通數據獲取的合作、購買渠道等,從而保障整個科技戰略情報保障體系的運行。
建設科技戰略情報資源保障體系,則需要從4個方面著手,即加強“雙向綜合”的數據需求獲取與分析機制建設、“寬領域”的基礎來源數據體系建設、科學智能與綜合多元的工具機制建設,以及多元化的數據資源獲取渠道建設。
2.2.1 “雙向綜合”的數據需求獲取與分析機制建設
一方面,根據不同的決策目標和領域,設立需求獲取與分析的不同的項目組,配備相應的人員,直接獲取決策層的數據需求。另一方面,開發多種科技戰略決策需求調查與分析工具,定期收集分析國家和機構科技發展規劃、重大項目任務等,推進關于數據體系的研究。數據需求分析和研究成果,由項目組上報至決策層。綜合以上雙向互動內容,明確并不斷更新決策數據體系目標。
2.2.2 “寬領域”的基礎來源數據體系建設
支撐科技戰略情報資源保障體系應以實現各類決策場景為目標,遴選、獲取、整合、利用機構已有基礎數據和外部數據資源,并結合開發專題數據信息庫形式,建立全面豐富、權威可靠的基礎來源數據體系。重點建設9類數據,主要內容與建設方法如下。
(1)高質量論文與專利數據。研究型論文與專利在目前依然是科研成果發布和交流的主要途徑,提供高質量、可信賴的內容是國際學術交流平臺建設的一個永恒主題[8]。同時,專利數據對于分析和預警專利侵權風險、識別“卡脖子”技術[9],以及促進我國知識產權信息服務發展[10]等方面至關重要。因此,加強對于高質量論文內容和專利信息的獲取與保障,對于推動國家科技創新有著十分重要的意義。
這部分數據的主要來源包括全球知名引文數據庫(如Web of Science、CSCD)、湯森路透(THOMSON REUTERS)及全球其他專利數據庫,全球主要的機構知識庫、標準數據庫、知名預印本平臺(如arXiv、bioRxiv、SSRN、ChemRxiv)、重要基金資助機構的成果共享庫(如NSF-PARPubMed Central、NPArC、EPMC、J-STAGE、J-STAGE DATA、KAKEN、NSFCOR、CAS IR GRID、中國國家自然科學基金委基礎研究知識庫)等。
上述數據源一部分為商業資源,一部分是開放資源。對于商業資源,建議在持續訂購、更新維護已有重要數據資源的基礎上,擴大使用權益,開展更多類型高質量資源的本地化或數據合作,對數據內容進行提取分析,形成各類圍繞戰略決策需求的信息庫。例如:從綜述論文中選擇各領域的重要的評論期刊和重要論文,形成核心領域評論數據庫;從全文中抽取科學問題,形成問題-文章數據;從重要會議中提取會議征集資源和會議議題資源等。
(2)科研規劃與基金項目數據。科研規劃與基金項目數據被認為包含大量可供分析的知識[11]。而實體清單關系到科技前沿、國家安全等重要方面的內容,體現出一個國家對于科技戰略發展的布局,美國近年來強化“實體清單”阻礙我國科技創新[12]。
該領域值得關注的重要數據資源包括:歐美主要發達國家科技規劃,如美國海軍研究署的《海軍科技戰略》、美國聯邦運輸部的《科技戰略規劃綱要》和《智能交通系統戰略規劃2020—2025》等專題戰略規劃文本,歐盟的《戰略能源技術規劃》《歐盟疫苗戰略》《歐洲處理器和半導體科技計劃聯合聲明》,德國《高技術戰略2025》。另外,美國商務部的出口管制實體清單、《歐盟兩用品出口管制條例》等是需要關注的重點。
目前大部分科技政策、戰略規劃、指南、基金項目數據,以及全球科技布局與政策等能借助公開渠道獲取,可通過網絡爬蟲方式采集到本地。但在資源的使用過程中應注意資源來源平臺對于數據采集的限制、資源版權規定和使用授權。在編制專題數據庫、引用和使用相關數據時,應在授權范圍內使用。如未獲得相應授權,應以購買或合作的方式爭取相應授權,以便于對上述資源進行更好的分析和利用。
(3)科技管理與科研投入產出數據。科技管理與科研投入產出數據,對于科技戰略情報決策同樣至關重要。科技管理數據來源廣泛、類型豐富,主要包括科技項目數據、科研人員數據、科研機構數據、科研投入產出數據、管理過程數據等。利用科技管理數據開展分析挖掘,并服務于管理與決策活動,是新時期科技資源高效利用的重要途徑[13]。科研投入產出數據是科技管理數據中的一個重要組成部分,也是衡量一個國家綜合國力和科技創新水平的重要指標。
在建設支撐戰略情報的資源保障體系中,應充分重視科技管理數據資源的積累,積極獲取并整合國家和機構層面包括財務、人員、項目,以及經費、預算、國際合作等各類管理信息。同時,加大對全球重要國家和地區、科研機構的各項科技統計數據,包括科研經費投入、重要機構年報、技術交易額、項目獲獎、專利申請授權、高新技術企業等資源的采集,如美國科學基金會國家科學與工程統計中心的數據、世界投入產出數據(WIOT)和我國《全國科技經費投入統計公報》等權威數據。
(4)科學領域前沿趨勢數據。科學領域前沿趨勢數據是直接揭示和評價最新科技成果的重要數據資源,主要包括各類科技情報產品快報、簡報、研究報告、評估報告、清單、全球知名智庫報告、科技趨勢預測、科技創新與社會經濟發展指數、科研成果和機構排名榜單、國內外高等教育學科體系。
此類數據資源涵蓋范圍廣,部分內容可以公開獲取到相關信息,如Nature Index(自然指數)年度榜單、Gartner重要戰略技術趨勢、國際組織發布的報告(如世界知識產權組織發布的全球創新指數)等,但部分資源需要通過商業訂購才能獲取,如《麻省理工科技評論》(MIT Technology Review)、IEEE年度技術預測等,以及一些重要學協會或出版社有關科學突破、科學發現、年度技術預測期刊(如Science Online、ACM Advances in Artificial Intelligence、Annual Reviews、IEE Review、Trends in Chemistry、Nature Reviews等)。
對于需要公開采集的資源,圖書情報機構應隨時跟蹤,掌握資源的更新動態,做到及時獲取;對于需要采購的資源,需要在充分評估后考慮納入資源采購清單,積極發揮國家或機構聯盟的采購優勢,獲得資源的使用授權。同時,還需要對已訂購數據庫中的資源進行分析,提煉出于科技領域前沿趨勢相關的數據,在節約采購成本的同時,充分發揮已有資源的利用價值。
(5)重要人才數據。人才數據對于人才流動預警與監測、人才發現與推薦、國際科研合作等方面都具有重要價值。因此,支撐科技戰略情報決策資源保障體系應主要考慮加強對以下數據內容的建設,包括全球重大科技獎項(如諾貝爾獎、美國國家科學獎、MIT全球創新者榜單、菲爾茲獎、圖靈獎、中國國家科學技術獎等)獲獎人員、國際重要學術會議(如SPIE Fellow、IEEE Fellow)人員信息、兩院院士名錄、其他主要國家院士名單、國家級科研機構統計名單、重要學術機構在職人員清單、重要科技企業榜單(如福布斯2020全球企業2000強榜、全球創新企業100強名單)、德科集團《全球人才競爭力指數》等。
在數據獲取的基礎上,還應面向具體需求構建人才信息專題庫。方法包括遴選分析來自重要機構名錄、全球重大科技獎項、國內外重要學術會議中的人才信息,如姓名、性別、年齡、教育背景、現任職機構、學科領域等,構建海量數據的人才基礎數據庫,為科技情報決策提供更好支撐。
(6)科研裝備設施數據。科研裝備設施數據是推動科技創新中所需要的數據資源,特別是在開放科學的環境下,儀器設備成為開放科學基礎設施中的重要組成部分。目前歐美等發達國家已經建成了各具特色的科研基礎設施和大型儀器等科研基礎條件資源體系,在科研基礎設施與科研儀器開放共享實踐方面積累了較為豐富的建設與運營經驗。同時,為提升大型科研儀器設備開放共享的使用效率,國外非常注重開放共享平臺的建設[14]。我國為加快推進科研儀器開放共享,進一步提高科技資源利用效率,自2014年起國家、部委層面從整體布局到逐層推進,制定了眾多政策文件與實施規范,有效避免了儀器的重復購置,提高了儀器設備的使用率[15]。
在上述背景下,圖書情報機構應充分整合、采集國內外大科學設施、大型科學儀器設備信息,服務于我國科研需要。重要數據源包括:國家層面的有科技資源共享服務平臺、中國科技資源共享網(escience.org.cn)、國家科技圖書文獻中心(NSTL)、中國科學院科技大數據知識發現平臺;省級平臺如首都科技條件平臺、上海研發公共服務平臺、廣東省科技資源共享網平臺等;國外知名實驗室及大科學裝置(研究機構)名單,如美國勞倫斯伯克利國家實驗室、麻省理工學院林肯實驗室等。
(7)領域關鍵技術數據。戰略情報決策離不開領域關鍵技術數據的支持,為做好科技戰略決策,需要針對不同學科領域獲取和集成關鍵技術數據,如化合物、材料數據、設備、儀器、電子元器件、產品等。
領域關鍵技術數據具備綜合性強、類型分散等特點,獲取和分析難度較大。以能源領域戰略情報所需的資源為例,重要數據源包括但不限于:BP報告(英國石油公司發布數據報告)、IEA數據庫(含二氧化碳排放、煤炭、電力、石油等數據)、美國能源部(DOE)專利數據庫Enerdata(含數據嵌入報告,包括世界能源消耗、原油產量、天然氣產量、成品油生產、煤炭和褐煤生產、世界用電量、可再生能源風能和太陽能、世界二氧化碳排放等數據)。
上述數據資源,既包括商業訂購資源,也包括互聯網開放資源。如何根據情報分析需求,對資源進行精準、低成本地訂購、采集、整合、分析是該類數據資源建設的難點。建議參考蘭德公司的模式,建立面向領域的專題信息庫,并在一定的范圍內進行數據共享,以支持戰略決策分析。
(8)科技輿情監測數據。當前,隨著社交媒體的發展,關于科技類的輿情信息在數量和更新頻率上都呈持續增長態勢[16]。及時、優質的情報是應急決策成功的核心要素,如果不對輿情信息加以快速有效地收集和分析,大量滋生的謠言將會降低情報分析質量,影響科技戰略決策。因此,圖書情報機構應重視對于科技輿情監測數據的收集和分析能力。
當前重要的科技輿情主要來自一些權威的監測源,包括傳統媒體如《紐約時報》《華爾街日報》《華盛頓郵報》《人民日報》《朝日新聞》,還包括一些新媒體,如人民網、央視網欄目新聞頻道、喜馬拉雅音頻新聞、愛奇藝新聞視頻、新浪科技新聞、新浪微博等。
目前我國圖書情報機構在科技輿情信息監測方面還缺乏系統和成熟的方法,仍需要進一步加強研究與實踐的探索。如有學者提出將人工智能的方式引入網絡輿情服務工作中,從而更好地解放生產力,提高網絡輿情的監測與分析效能和質量,但實際效果還有待進一步檢驗[17]。
(9)重要的社會經濟發展數據。科技創新的目標之一是推動社會進步和經濟發展,在開展科技活動的過程中需要大量的社會經濟發展數據作為支撐,以明確科技發展方向,提升科技成果的轉化率。因此,要充分重視為科研工作者提供權威、豐富的社會經濟發展數據。
從目前各類科研機構的需求看,重要的商業經濟、法律經濟類數據庫是需求的重點。具體內容包括全球主要經濟發展指標、經濟發展規劃、碳排放指標、金融市場動態、科技企業發展指標等。數據來源主要包括OECD經合組織數據庫,以及國內的中國經濟與社會發展統計數據庫、國民經濟和社會發展統計公報、政府工作報告、全球證券市場金融指數等。其中有一部分數據來源為商業數據庫,如MIS全球新興市場商業資訊數據庫、Business Market Research Collection商業市場研究數據庫。
此外,圖書情報機構還應加強對于各類政策信息資源的利用與挖掘。一方面,各國國家科技信息政策能充分反映本國的重大政策建議、重要前沿研究及重點活動,對科技戰略決策分析有著重要意義[18];另一方面,根據我國《著作權法》第五條規定,著作權法不適用于法律、法規,國家機關的決議、決定、命令和其他具有立法、行政、司法性質的文件,及其官方正式譯文,這就給了相應政策信息更大的利用空間,便于資源的收集和分析。例如,中國科學院文獻情報中心推出“科技政策匯”平臺,對科技政策進行深度加工、標引、分析和服務。
2.2.3 科學智能與綜合多元的工具機制建設
在科學智能的工具建設方面,應建設智能化的數據信息搜集和數據分析工具,從而實現目標信息源的實時監測跟蹤和知識內容的快速更新。同時,還需要綜合應用深度學習、知識圖譜等技術,實現基于數據的快速抽取、實時分析,從而輔助戰略決策。
2.2.4 多元化的數據資源獲取渠道建設
在綜合多元的機制建設方面,應構建多元化的數據資源獲取渠道,針對數據資源的具體情況,制定包括采購、采集、數據交換、本地鏡像、資源共建共享等在內的多元數據獲取渠道。此外,要更加重視數據合作,與國內外政府機構、科研機構及其他智庫數據平臺開展協同合作,拓展數據資源類型和獲取途徑。
面向未來,情報工作的戰略選擇應該重視發展基于數據的情報研究,進而建立以智能情報為核心的決策支持系統,充分發揮情報研究的決策咨詢作用[19]。為進一步推動上述設計方案落實,本研究認為應從以下3個方面做好工作。
(1)加強對全球范圍內高質量戰略情報資源的掌握。在建設科技戰略情報的資源保障體系過程中,應重視并持續調研國外高端智庫的數據中心,分析其數字資源特點和發展現狀,以用于部署我國對于科技戰略情報資源的獲取與利用。同時,調研國內外智庫報告、科技政策文件、市場報告、市場行業數據、年鑒、統計手冊、工具平臺等數字資源,形成支撐我國智庫發展的資源內容體系建設方案,提出資源清單,并研究適應決策流程的智庫資源組織方法與利用方式。
(2)提高戰略情報資源的獲取和服務能力。可從目前廣泛關注的智庫資源建設入手,試點開展智庫資源建設:獲取部分智庫報告及其相關文檔(文獻、專利、數據等),采集一定年份的國家科技政策資源,采購一定數量的行業統計報告、年鑒、分析工具等;初步建設智庫數字資源發現及服務平臺“智庫數字資源中心”,實現智庫報告、科技政策與文獻資源中年鑒、統計報告、專利等資源的關聯發現和分析統計。同時,在充分調研科技戰略情報資源需求的基礎上,加快構建我國科技智庫數字資源保障與服務平臺,提升智庫資源的揭示和服務能力。
(3)加強戰略情報資源的權益保障研究。研究現有數字資源權益保障模式與戰略情報工作相融合的方式。加強從信息采集、存儲、組織、利用各個環節的權益管理規范研究[20]。一方面規避我國對于相關信息資源使用可能涉及的侵權風險;另一方面從對數字資源享有何種使用權益入手[21],促進相關資源發揮更大的社會價值和經濟價值。