仲 妍,鐘艷玲,郭文思
(軍事科學院防化研究院,北京 100028)
應用大數據、人工智能技術進行科研數據分析,例如,專業發展方向預測、技術關聯關系分析等,都需要科研數據積累到一定程度,數據呈現出大數據4 V 特性。只有數據形成規模之后,才能夠應用數據挖掘技術發現隱含在大數據量之下的數據關聯,分析出數據的隱含價值,并進行專業方向與決策分析。而數據的來源(即數據生產者)主要是科研人員、實驗儀器設備、科研管理系統、科研實驗系統等科研相關人員、設備和信息系統??蒲腥藛T和設備的數據也必須進行電子化、格式化后,方可進入信息系統,才能被進一步分析利用。
目前,由于科研與教學信息系統獨立建設,導致數據難以共享。要解決這個難題,需要解決以下問題:(1)系統數據如何保證共享;(2)如何應用信息技術實現數據共享。解決第一個問題就是要解決數據共享正規化建設,包括數據監管體制構建和數據共享機制研究;解決第二個問題就是要應用數據及信息技術建設數據共享平臺。
在各數據應用領域、各個數據匯聚行業中,都涉及數據共享與數據保護等問題[1-7]。因此,一方面需要分析數據監管體制,通過監管干預的方式梳理管理流程中數據擁有者、使用者和管理者之間的層級關系;另一方面需要分析數據共享機制,實現數據權益分層定義,實現數據權力保護。
信息系統的建設目標諸如開展相關科學研究、獲取科技情報信息、開展戰場環境和裝備模擬仿真研究等,信息系統建設層出不窮,也增加了信息系統和數據建設的異構性,同時對統一的信息系統監管提出了新需求。需要通過對科研數據的產生、匯聚、運用等數據全流程環節的分析,構建數據監管體制。
信息系統的建設、管理、使用單位稱為信息系統建設歸屬部門。數據生產之后需要具有獨立職能的科研數據中心建設和維護單位(稱為數據信息化建設部門),來負責數據的標準體系建設和配套基礎設施建設。數據應用除了供本信息系統所有者使用外,應該在數據共享的基礎上應用數據分析技術發現數據更大的價值。這就需要建立統一的具有數據管理權限的單位(稱為數據規制機構),來統籌數據資源建設相關的科研經費、科研項目,同時制定數據共享管理規定、要求和機制等規章制度。
通過以上分析可以總結,信息系統作為科研數據的承載者,從建設、運行、管理的流程上來看,需要確立一系列信息系統管理單位的管理職能,建立統一的數據監管體制,自下而上包括信息系統生產者 (數據生產者)、信息系統建設歸屬部門、數據信息化建設部門和數據規制機構等。監管體制建設層級如圖1 所示。

圖1 監管體制
數據生產者想要保護自己的數據,數據運用者則有對已有數據應用的現實需求,兩者存在矛盾。只有同時保證數據生產者和運用者的不同利益價值體現,才能使生產者更愿意支持數據共享、共用,也更能為數據使用者提供更好的決策支持。除了數據的產生和運用外,數據由信息系統統一匯聚至數據信息化建設部門和數據規制機構,因此這兩個部門的管理人員也要納入信息主體。為實現網絡互聯環境下的數據共享,需要完善數據共享機制,保護各信息主體的合法權益[8-12]。
將數據共享的利益主體與信息主體統一起來,分為數據生產者、數據運用者、系統管理者和數據管理者(如圖1 所示)。通過借鑒文獻[12]中關于利益主體的權利和義務研究思路,建立數據共享機制,為形成數據共享規章制度提供支撐,同時為應用信息技術實現數據共享提供功能補充。各利益主體的權利和義務見表1。

表1 各利益主體的權利和義務
在數據監管體制管理之下,以共享機制為理論指導和頂層設計,應用信息技術實踐數據共享平臺,輔以技術手段實現信息系統間數據的互聯互通。
主數據是實現數據共享的核心數據資源,是溝通信息系統的媒介。通過主數據的建設可以實現基礎數據的統一建設、統一維護,實現數據復用,減低信息系統建設成本。按照數據監管體制中的職能部門分工,由數據信息化建設部門統一組織實施主數據建設,由數據管理者籌劃建設和推行管理及應用機制,由數據生產者和數據管理搭載信息系統開展應用。
2.1.1 標準規范建立
首先,要梳理科研數據現狀,在厘清主數據遵循的相關國標、國軍標和行業標準的基礎上,建立科研主數據的相關標準規范。建設步驟如下:
(1)清理目前現有科研信息系統、實驗數據平臺、實驗儀器設備等中的科研數據界定,建立現有數據體系;
(2)按照數據管理流程,梳理數據各環節建設需要遵循的標準,明確信息系統標準框架中標準缺項,根據可參照的國家標準、國家軍隊標準、行業標準等編制相應的明細表,制定數據資源及信息系統建設標準體系框架;
(3)分析現有信息系統間數據交互情況,包括系統間集成關聯、各系統數據體系及流向、數據接口等,通過關聯判斷、抽取分析,明確信息系統的主數據應用需求,列出科研主數據清單及與各信息系統之間的應用關聯關系;
(4)制定主數據規范,開展主數據建模;制定信息系統間數據交互規范和服務協議,包括常用接口支持、統一數據適配。
2.1.2 主數據建模
主數據模型主要包括:(1)基于標準體系架構的主數據范圍及領域劃分模型;(2)主數據編碼模型;(3)適合教學和科研需要的主數據組裝數據模型;(4)架構抽象數據服務模型及接口模型;(5)數據服務協議模型。
2.1.3 主數據采集
科研數據孤立存在于各類信息系統,沒有統一的采報手段,致使長期以來不能有效利用各類信息系統產生的數據資源。為解決上述問題,依據建立的主數據模型,在不影響原系統正常運行前提下,采用ETL 采集、離線采集等技術將現有系統中建立基礎較好的共用數據抽取出來,并按照主數據模型進行標準化映射,最后由信息系統建設歸屬部門、數據規制機構作為使用方和監管方共同審核并確認形成主數據庫。
在嚴格遵循主數據標準規范體系[13-15]的基礎上,重點開展主數據管理[16-18],實現主數據服務,構建主數據管理平臺框架,如圖2 所示,針對各類信息、功能和主題服務資源,進行主題、信息和功能微服務模型統一的開發、封裝、組裝和部署,實現服務模型的統一集成管理、共享和使用,按照服務契約流程溝通服務形態、編程模式、通信模式、服務模式和運行模型,并實現所有服務模型一鍵化配置管理和下發模式。

圖2 平臺框架圖
2.2.1 主數據管理
主數據管理包括數據倉儲、元數據管理、模型管理、主題管理、版本管理和數據接口等功能。數據倉儲記錄主數據的歷史版本轉變過程,具備主數據遷移功能;元數據管理提供了數據資源體系及關系數據的結構定義和維護,通過對模型及模型結構定義,靈活擴展數據資源管理范疇,以統一數據結構定義方式為數據清理提供依據;模型管理通過元數據定制化組裝主數據模型;主題管理提供主數據的主題管理,可通過模型建立不同主數據主題類別;版本管理提供主數據從產生到消亡全過程的版本管理功能;數據接口提供統一操作接口,允許主數據產生系統通過這些接口對主數據進行增加、刪除、修改、查詢操作,并提供合理的主數據同步機制[19-20]。
2.2.2 主數據服務
主數據服務包括服務意見收集、服務注冊發布、服務信息推送、服務基本管理、服務消息路由和服務監控等功能。服務意見收集根據用戶服務使用體驗,對服務進行評價和排序;服務注冊發布可以把各科研信息系統提供的服務接口在平臺中進行注冊,審核確認后進行服務發布;注冊發布的服務包括系統已有服務和依據服務規范生成的服務;服務消息推送根據各信息系統相關需求,定制推送相關服務描述信息;服務基本管理提供服務編目、申請、審批、搜索等基本功能;服務消息路由使用智能化查詢、搜索方法,通過監聽服務接口請求消息,實現服務請求的消息路由;服務監控通過監控服務運行狀態、訪問情況等,用以統計分析主數據的使用頻次等,并設計主數據更新策略。
科研數據的應用涉及科研各層次、全領域,按照領域可劃分為專業科研應用和綜合科研應用,總體應用架構如圖3 所示。

圖3 科研數據總體應用架構
在科研領域,科研建設、管理、訓練和保障各要素相互交織、相互關聯。通過科研能力畫像、科研設備畫像、科研對象分析、科研活動分析等方式進行規律分析和模型提取,找出隱藏在科研數據之下的規律,支撐學術交流、科研計劃、科研監管、科研成果和科研評價等專業應用開展,提升科研發展、保障、人員、資源、趨勢和應用等綜合應用水平。
科研數據應用必須與科研數據建設同步展開,共同推進。以科研數據應用為抓手,通過應用促進科研數據建設發展,圍繞數據采集、整理、分析、發掘、展現等環節,擴大科研數據服務范圍,提高科研數據服務質量。
(1)學術交流。為實現學術論壇、學術會議、學術講座、學術咨詢和學術調研等活動的計劃編制、通知公告、資料歸檔及查閱提供數據支撐。
(2)科研計劃。為實現項目指南、綜合論證、立項批復、科研大綱和周期計劃等文書的編制匯總、審批下發等提供數據支撐。
(3)科研監管。為實現人員監管、設備監管、經費監管、過程監管、績效監管和協作監管等全要素綜合監管提供數據支撐。
(4)科研成果。為實現成果歸檔、成果應用、成果鑒定和成果報獎等全流程成果管理提供數據支撐。
(5)科研評價。為實現立項評價、過程評價、質量評價、能力評價和學科評價等全方位考核評價提供數據支撐。
(1)科研發展。構建科研發展數據集,支撐開展科研態勢融合展示、科研數據建設規劃和科研發展頂層規劃,為科研發展提供信息支撐與輔助決策支持。
(2)科研保障。面向科研保障的各類復雜決策問題,構建科研保障數據集,支撐開展科研保障監控分析、科研保障配置分析、科研保障績效評估和科研保障合規審查,提高科研保障精細化水平。①科研保障監控分析:提供主題關聯的重要科研保障可視化展現;②科研保障配置分析:監控主要科研保障變化情況,預測科研保障變化趨勢;③科研保障績效評估:建立科研需求分析、能力分析、方案優化等模型,構建科研保障評估模型庫,基于各級各類數據資源,推動實現基于數據的科研保障績效評估;④科研保障合規審查:基于規劃計劃、運行實施、過程反饋和執行結果等各類數據,依據各類標準和評價指標,進行合規審查。
(3)科研人員。基于科研人員基礎數據,整合多渠道獲取的人員科研活動、保障情況、考核業績等數據,構建科研人員數據集,支撐開展學術力量構成分析、科研人員綜合評價分析和科研人員保障規律分析。
(4)科研資源。綜合科研方向變化、資源投入規模、資源損耗規律、資源急需程度、資源管理流程等因素,構建科研資源數據集,支撐開展科研資源布局優化、科研資源儲備優化和科研資源全壽命管理。
(5)科研趨勢。基于各類科研信息服務平臺,結合科技發展動態,綜合發達國家科研發展情況等,構建科研趨勢數據集,支撐開展科研主題統計分析、熱點學術問題分析和學科發展走勢分析,通過大數據技術手段,分析學科的關注程度、發展趨勢、影響程度等。
(6)科研應用。按照科研數據頂層設計和科研領域數據建設應用總體規劃,在運用科研數據資源和應用成果基礎上,基于領域特色需求和專業科研活動,開展多源匯聚和關聯分析,形成與科研體系銜接配套的數據資源體系,支撐科研體系協同應用、科研領域創新應用等。
本文研究了科研數據共享相關的制度機制、標準規范、數據模型、管理平臺、應用架構等,通過綜合運用數據資源無創采集、標準映射與集中管控,以及多源數據融合歸一化維護管理、數據管理平臺定制化組裝等,有助于解決跨系統跨部門科研數據的統一采集、聯動更新問題,實現數據源頭一致、數據一致、更新一致,便于數據資源集成,有效管理數據資源、控制數據質量,提升應用效能。后續將在此基礎上開展平臺原型建設。