司 莉 劉 堯
(武漢大學信息管理學院,湖北 武漢 430072)
隨著“一帶一路”高質量發展被寫入《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》,“一帶一路”建設正從謀篇布局的“大寫意”階段轉向精耕細作的“工筆畫”階段,進一步凝聚合作共識、扎實推進互聯互通、大力拓展市場合作成為高質量發展的要求[1]。為跟進高質量發展的戰略綱要,彌補沿線國家間信息不對稱,增進雙方互信,需建設“一帶一路”經濟管理專題數據庫(以下簡稱“經管專題庫”)。
標準化是專題庫建設過程中的重要環節。標準規范是人文社科專題庫建設的首要問題和深度開發利用的前提[2],也是跨國信息資源整合的基礎[3]。但當前“一帶一路”專題庫在建設過程中面臨規范化管理不足的問題。一方面,各庫資源采集標準尚未確定,組織方式各不相同[4],跨國信息資源整合機制尚未形成;另一方面,“一帶一路”沿線國家在信息采集、加工、存儲、交換等環節所使用的標準差異較大[3],不利于沿線國家信息的融合和服務體系的建立。該問題同樣存在于經管專題庫中。經管專題庫建設是項龐大復雜的系統工程,涉及沿線多個國家和部門及語種,亟需通過標準規范進行統籌協調;目前已建成的專題庫中尚未采用統一標準,其建庫目的、數據來源和服務對象各異,為資源整合與用戶的統一檢索帶來不便。因此,本文對經管專題庫的標準體系的模型及框架進行探討,以期提升專題資源建設效率,進而增進沿線國家政策溝通與經濟合作,推動共建“一帶一路”向高質量方向轉變。
目前研究中的專題庫標準體系主要有以下幾種構建思路:①基于業務板塊的構建思路,主要從專題庫的架構角度,針對標準體系所面臨的業務要求如技術、管理、服務等方面建立標準。國家科技管理信息系統標準體系框架由總體、信息資源、應用服務、支撐技術、基礎設施和管理類標準構成[5];檔案數據庫建設標準體系綜合考慮技術、管理、工作和專業等不同性質標準[6];環境影響評價基礎數據庫標準規范體系設置數據資源、數據庫、共享交換和應用服務4個大類12個小類[7];基層醫療衛生信息系統的標準體系由基礎類、數據類、技術類、安全與隱私類和管理類標準構成[8];教育宏觀決策數據庫標準體系由基礎、數據、技術和管理標準構成[9]。②基于數據處理的構建思路,聚焦于專題庫的數據描述、組織、規范控制等處理過程構建標準體系。如“一帶一路”新型智庫信息資源標準規范體系由信息處理、唯一標識符和元數據標準等組成[10];“一帶一路”沿線多語種、共享型經濟管理數據庫元數據標準體系包括數據結構、數據值、數據內容、數據格式和技術交換標準[11];專題檔案資源庫采用國際國內通用數據著錄標準、數據格式標準、數據標引標準、規范控制標準對資源進行系統化、邏輯化的組織[12];古籍書目數據庫標準規范從著錄標準、分類標準和用字規范等方面構建[13];CALIS重點學科網絡資源導航庫制定的相關標準規范包括資源選擇標準、元數據規范、著錄規則、資源類型控制標準[14]。
國際經濟行業組織的數據標準建設多集中于元數據、質量控制和發布環節。國際貨幣基金組織(IMF)發布的《通用數據傳播標準》和《專用數據傳播標準》提出,從數據傳播中的4個維度控制數據質量[15];世界銀行的《信息分類和控制政策》《銀行指南:發展數據采集與存儲》《信息獲取政策》[16]對數據的采集、組織、存儲和利用等流程進行控制;經濟合作與發展組織(OECD)制定的《統計數據質量準則》[17]《統計數據和元數據交換(SDMX)》[18]和《數據集和表格的發布標準》[19]等;英國數據存檔(UKDA)通過制定編目指南、元數據標準、館藏發展政策、數據處理標準和保存標準,對其從英國經濟與社會研究委員會(ESRC)和國家統計局獲取的經濟數據進行管理[20];歐盟統計局發布了統計數據質量控制標準框架和元數據標準,并對國際貿易和農業經濟等領域數據的收集、編碼、發布進行規范[21]。
有研究對審計與銀行的數據標準進行探討。如審計信息化標準體系包括基礎、信息處理和基礎支撐3個大類,并按業務和主體維度對部分標準進行細分[22];銀行數據標準管理體系包括組織建設、體系規劃、監督檢查與維護等[23]。
現有研究中提出的專題庫標準體系能為本文提出的框架在整體結構上提供參考,但尚未涉及“一帶一路”和經管領域;經管類數據標準建設研究在元數據、質量控制和發布上已有探索,但多是基于工作經驗提出,缺乏頂層設計和理論指導,未能覆蓋數據的整個生命周期。因此,本文基于霍爾的三維結構理論,從適用范圍、主題類型和數據流程維度構建標準體系模型和框架;再結合標準化部門和國際經濟行業組織的標準文件,對經管專題庫數據流程中各環節的標準內容進行解析。
2.1.1 理論基礎
1)霍爾三維結構理論。由美國系統工程專家霍爾提出,它將系統工程的過程分散到三維空間結構中,即6個階段(時間維)、7個步驟(邏輯維)和專業知識(知識維);結合3個維度可準確定位工程進度,進行計劃、組織和控制[24]。該理論被應用于全球范圍的大型復雜系統的規劃、組織及管理,在標準體系構建過程中已得到較多應用[25]。本文借鑒該理論,將標準分列為3個維度。
2)總體架構(Enterprise Architecture,EA)方法論。它是在信息系統設計與實施的實踐基礎上發展而來的方法,描述了業務、信息、應用和技術互動的整體構想。美國國家標準與技術研究院等提出5層EA模型,包括技術基礎設施層、數據描述層、系統與應用層、信息流及其關系、業務流程層[26]。該理論已成為普遍采用的復雜系統設計與實施的理論和工具[27],用于整體架構和頂層設計,為標準體系模型的主題類型維的設計提供支撐。
3)信息生命周期理論。信息生命周期指信息從生成到失去價值的整個時間區間[28],不同時期的信息可能在格式、目的、價值和使用上經歷多種轉換。英國數據檔案項目聯盟提出的DDI 3.0生命周期模型要素包括數據收集、處理、存檔、發布、發現、分析和再利用[29]。該理論為理解和開展數據管理提供了框架,能夠識別數據的演變階段和使用人員的特定需求,確定建庫過程中的標準化任務,是標準體系模型的數據流程維的理論基礎。
2.1.2 標準體系的三維模型
本文立足上述理論,構建了經管專題庫標準體系模型,如圖1所示。具體而言,依據霍爾三維結構確定模型的結構,即適用范圍、數據流程和主題類別三維;總體架構方法論和信息生命周期理論分別用于主題類別和數據流程維標準的劃分。

圖1 經管專題庫標準體系三維模型
1)適用范圍維標準?!稑藴鼠w系構建原則和要求(GB/T 13016-2018)》指出,應立足個性標準,提取共性技術要求作為上層的共性標準[30],說明標準體系應被劃分為適用于共性、個性的層次結構,由指導、通用和專用3個層次組成[31]。本文結合霍爾三維結構的邏輯維,將適用范圍維標準劃分為指導、通用和專用標準。
2)主題類別維標準。數據庫的建設是一個系統工程,其業務活動涉及到數據處理、數據應用、基礎設施和運行管理等多個環節,是標準規范體系構建所面向的業務需求,需從信息系統整體架構的角度對其進行梳理。參考EA模型,將主題類別維劃分為基礎設施、資源建設、應用服務和運行管理類標準。
3)數據流程維標準。專題庫的建設涵蓋數據從產生到消亡的全過程,以數據生命周期為視角,結合DDI 3.0生命周期模型的要素,對建庫中的數據處理進行階段化管理,建立數據采集、描述、組織、加工、保存、服務和復用標準。
經管專題庫標準體系的結構框架立足三維模型,從適用范圍、主題類型和數據流程3個維度出發,由頂層設計、主體結構到內容體系形成了三大要素體系,如圖2所示。其中,頂層設計是經管專題庫標準在適用范圍維度上的體現,不僅從全局統領標準化建設,還能對4個主題結構提供指導;主題類型維構成了標準體系的主體結構,既是適用范圍維中指導標準的具體實踐,也是通用標準的具體展開,從基礎設施、資源建設、應用服務和組織管理層面具體分解標準體系的建設思路;作為經管專題庫在建設初期的主要標準化任務,主題類型維的資源建設和應用服務標準在數據流程維中被分別具體化為資源采選、元數據、分類編碼、內容加工、長期保存標準和數據服務規范、開放共享標準,是標準體系的核心內容。

圖2 標準體系的結構框架
2.2.1 適用范圍維標準的構成
1)指導標準。是與標準的制定、應用和理解等方面相關的標準,國家科技管理信息系統標準體系中包含基本術語和標準化指南[5];科學數據共享工程標準體系中包括標準體系及參考模型、標準化指南、概念與術語、標準一致性測試。本文指導標準包括經濟管理與數據庫術語、標準體系參考模型、規范性引用文件和專題庫標準化建設實施指南。
2)通用標準。是對特定的流程和事件提出要求或提供標準化的執行方法[5],包括數據描述類、數據產品與生產類、數據管理類、數據服務類、應用系統建設類標準[31];“一帶一路”智庫信息標準規范體系中的通用標準包括技術標準、管理標準、服務標準[10]。本文通用標準包括基礎設施類、資源建設類、應用服務類和運行管理類,即主題類型維的四大主體結構。
3)專用標準。是根據通用標準制定以滿足特定領域數據資源建設需求的標準。具有領域特點的信息資源需要制定相應的專用標準,且應遵循或繼承通用標準[5];例如,企業投資項目和科研立項是“一帶一路”信息資源體系的重要內容[32],在收集、整合多源異構的項目信息、建立“一帶一路”項目庫過程中,可基于通用標準,制定針對項目信息的采選、描述、組織、多語言處理和整合標準。
2.2.2 主題范圍維標準的構成
該維度從以下4個方面展開:
1)基礎設施標準。基礎設施標準針對經管專題庫的硬件和網絡制定,《數據中心基礎設施施工及驗收規范(GB50462-2015)》將其劃分為綜合布線與網絡系統、安全防范系統、配電系統等[33];國家科技管理信息系統標準體系中包括信息安全、網絡基礎設施、計算機及存儲系統、機房及配套設施[5]。本文基礎設施標準包括基礎設施施工及驗收規范、系統建設通用技術要求、信息安全標準和網站建設規范。
2)資源建設標準。是數據庫規范化管理的核心,對數據采集、創建、描述等相關要素進行規范。中國科學院數據云標準體系將其劃分為數據采集與整理、元數據與元模型、數據管理、數據服務標準[34];審計信息處理類標準包括數據采集、預處理、存儲與管理、分析標準[35]。結合信息生命周期理論,本文將資源建設標準劃分為資源采選、元數據、分類與編碼內容加工和長期保存規范。
3)應用服務標準。針對經管專題庫的服務對象、內容、方式、績效、宣傳與引導、監督預評價方面進行規范。國家科技管理信息系統中將其劃分為支持互聯互通的基本接口、統一認證與業務集成標準,以及數據管理和移動端應用服務規范;中科院數據應用環境建設與服務標準規范框架中,應用服務標準包括服務的對象類型、方式與要求、數據交換格式及數據的共享分類分級政策。本文將應用服務標準劃分為數據服務規范和開放共享辦法,與資源建設類標準共同作為數據流程維標準的內容。
4)組織管理標準。為信息系統建設和服務提供管理手段與措施,是保證信息系統高效運作的重要保障,由運維管理、數據評估、數據資產管理等構成[36]。中國科學院數據云的數據管理標準包含數據質量管理規范、數據質量評測方法與指標體系和數據加工增值管理辦法等[34];考慮到經管專題庫數據由多渠道采集而來,可能存在知識產權風險,因此,本文的管理標準除數據質量評估與控制外,還有知識產權管理規范。
2.2.3 數據流程維標準的構成
數據流程維標準是經管專題庫標準的內容體系,也是建設初期的主要標準化任務。具體包括資源采選、元數據、分類與編碼、內容加工、數據服務和開放共享標準。詳細內容見本文的第3部分。
經管專題庫標準內容體系主要包含資源與服務兩個體系,其中資源標準體系需基于經管專題庫資源建設的過程,明確資源的生命周期,結合已有的標準文件,建設資源采選標準、元數據標準、分類與編碼標準、內容加工規范和長期保存標準。服務標準體系則包含數據服務規范和開放共享標準,對其主客體、內容、流程與評估進行規范。具體來說,主要包含以下幾個方面。
3.1.1 資源采選標準
資源采選標準是數據庫資源建設的核心問題,為確定“一帶一路”經管資源采選指標,筆者收集了數字資源和經管信息的采選標準,如表1所示。數字資源的采選標準在考慮用戶需求、成本效益和用戶服務方面,與經管專題庫具有共性,且已有標準化組織和圖書館聯盟的實踐經驗;經管領域的組織在館藏內容上與經管專題庫有相似性,可參考其采選標準。

表1 數字資源/經管信息采選標準
結合調研結果,確定經管專題庫資源采選的維度為:①契合度,主要考察資源內容是否與“一帶一路”和經濟管理相關,是否滿足政府、科研和企業用戶的決策與研究需求;②質量,即完整性、準確性和時效性等;主要從資源的時空跨度、記錄與元數據是否完整、資源來源是否權威、更新時間和頻率等方面評估;③成本,主要考慮資源的價格、維護成本、人均使用量等;④風險,主要考慮許可協議中是否保證資源版權的合法性、是否規定版權糾紛發生時適用的法律和解決方式、是否制定用戶隱私保護條例等。
3.1.2 元數據標準
沿線不同國家、機構的異構元數據不利于信息的整合與訪問,需要統一的元數據標準。根據課題組前期研究[10],經管專題庫元數據標準應包括:①數據結構標準。主要記錄資源的類型和內容等信息,其中,數據集核心元數據為標識符、標題、主題、關鍵詞、摘要、語種、時空范圍、更新頻率、責任者、權限、許可、格式、URL、關聯資源和數據結構;②數據值標準,用于規范元素中所出現的人名、地名、專業詞匯等;③數據內容標準,用于規范數據值的格式和語法規則,包括元數據著錄指南、編目規則,以及針對具體元素的編碼規范;④數據格式和技術交換標準,是上述元數據標準的機讀格式表述,規范其多語言處理與置標過程。

表2 元數據標準框架及其可參考標準
3.1.3 分類與編碼標準
信息要被不同用戶和應用系統共享,須有一致認可的定義和表示法;前者依賴于信息分類,后者則需要信息編碼[37]。參考《信息分類和編碼的基本原則與方法》的相關要求和《數字資源知識組織分類標準規范》[38]的內容結構,經管專題庫分類與編碼標準包括:①基本原則,即科學性、系統性、可擴延性、兼容性和綜合實用性;②分類體系架構,包含主表、分類與代碼表、復分表。其中,主表、分類與代碼表包含宏觀、部門和微觀經濟3個基本大類、33個二級類目、245個三級類目;復分表6個,對信息的時空、語種、類型和來源進行揭示[39];③編碼規則,規范代碼類型、特征、表現形式、編號方法。

表3 信息分類與編碼標準框架及其可參考標準
3.1.4 內容加工規范
內容加工指將大量分散、凌亂、無序的內容資源進行整理、濃縮、提煉,并按邏輯順序加以編排,使之系統化的過程[40],即對資源進行校對、清洗、編碼和標識,以供描述和標記。筆者將內容加工規范劃分為以下3個方面:
1)數據質量控制標準。數據質量是指數據的特性滿足明確的和隱含的要求的程度[41]?!耙粠б宦贰苯浌軘祿哂卸嘣串悩嬓裕鑼ζ鋽祿Y構和格式不一致、關聯性差、數據軟件不兼容、數據重復、內容錯誤、缺失、更新和傳輸有誤等質量問題進行評估、發現和修正。
2)數據字符編碼標準。數據字符編碼是網絡傳輸數字資源的基本通信技術和規范[42],用于規范經管專題庫對資源的編碼描述。目前已有廣泛使用的標準規范,可直接選用。
3)數字對象唯一標識符標準。數字對象唯一標識符是為任意類型的對象提供永久性唯一標識[43],其標準規范了標識符的語法、描述和解析功能,以及對標識符名稱進行注冊和管理的基本原則。
4)不同類型的資源加工操作指南。鑒于經管專題庫的資源包括文本、音視頻和圖像等多種形式,可參考《內容資源數字化加工(GB/T 38548)》和圖書館資源數字化標準,針對各類型資源建立加工指南,對其內容標記、資源格式體系、加工級別、技術參數和加工流程進行規范,具體如表4所示。

表4 內容加工規范框架及其可參考標準
3.1.5 長期保存標準
“一帶一路”信息資源體量較大,僅“一帶一路”研究與決策支撐平臺就收錄超過401萬條數據、21萬篇文獻和4.8萬篇報告[44];然而載體老化、技術過時等因素使數字資源生命周期較短,標準缺失不利于數字資源的長期保存和可獲取[45]。在參照長期保存參考模型和框架、信息與文件保存相關標準的基礎上,筆者認為,經管專題庫資源長期保存標準包括管理標準和技術標準。
管理標準針對數據資源和元數據定義了保存環境的基本功能、實施主體及其職責范圍等。技術標準包含存儲規范和系統標準,前者明確了長期保存中資源傳輸和存儲的技術標準、數據格式和載體要求,后者規定了長期保存系統的運行及其互操作所需達到的技術要求,如表5所示。

表5 長期保存標準框架及其可參考標準
3.2.1 數據服務規范
服務規范用于規定服務應滿足的要求以確保其適用性[46]。基于《服務業組織標準化工作指南(GB/T 24421)》的一級標準,結合經管信息、政務信息、新聞資訊和科學數據服務標準,筆者將經管專題庫標準分為:①服務通用標準,即對服務術語和服務分類進行規范。為保障標準的適應性,服務分類標準可參考“一帶一路”專題庫的功能模塊[47],并結合中科院《數據服務指導性規范》確定導航、檢索、數據下載、分析、多語種服務、個性化服務和新媒體服務7類服務;②服務提供標準。參考服務要求標準和服務標準編寫通則,對7類服務的環節、人員、功能、合同和安全進行規定;③服務評價標準。根據國家標準從服務組織、人員、環境、環節、信息、滿意度、效果等指標對服務進行評價,以確定服務提升措施。

表6 數據服務標準框架及其可參考標準
3.2.2 開放共享標準
提供共享服務是經管專題庫建設的終極目標。參考政務數據開放共享、中國科學院科學數據共享工程標準的結構,筆者將資源開放共享標準劃分為3個部分。
1)共享服務標準,主要對共享主體、內容和方式進行規定,統籌協調數據內容、整合過程。根據課題組前期研究,需對共享主體在資源整合、人員配置、經費使用等方面進行規范化控制;確定共享方式,明確與政府部門、商業和科研機構、國際組織和聯盟機構之間的業務、技術、項目和協議等合作形式;規范共享數據的內容、格式和載體等。
2)共享保障標準,指為保障數據開放共享的實施,所建立的數據描述與組織標準、網絡與平臺要求、管理與評估標準。
3)開放共享評估標準,借鑒政務數據和科學數據的相關標準,從數據資源、平臺設施、安全保障、管理評價和應用成效角度,對共享效果和開放程度進行評估,并對評估原則、指標體系和方法進行規定。
標準體系框架的構建是確保經管專題庫建設的有序推進、提高資源質量的基礎性工作。本文以國家標準為指導,參考借鑒霍爾三維結構、EA理論和信息生命周期理論,從適用范圍、主題類別和數據流程3個維度,建立了標準體系的三維模型,并進一步構建了包含三大頂層設計、四大主體結構,以資源采選、元數據、分類編碼、內容加工、長期保存、數據服務和開放共享標準為內容的標準體系框架。同時,為提升標準體系對經管領域的針對性,其資源采選標準的制定過程中參考了OECD、IMF、CCSA等國際經濟行業組織的標準;元數據標準體系中制定了多語種經濟術語對照詞表;分類與編碼標準參考了《國民經濟行業分類》、國家統計局《中國統計年鑒》、中國信息經濟網、《經濟類型分類與代碼》等。所構建的標準體系框架滿足數據庫在硬件、資源、服務和管理等方面的需求,覆蓋數據的整個生命周期,能為數據庫的規范化管理提供參考。
但本文僅提出了標準體系的基本框架,后續研究可基于此對其中要素進行細化,獲得具備直接指導意義的標準、指南;同時,應考慮到跨語言技術、數據庫服務的發展對標準提出的新要求,在維持標準體系框架結構穩定的前提下,進行豐富與完善。