劉汪洋 翟 軍 梁藝多 程 序 謝真強
(1.中電科大數據研究院有限公司 貴陽 550018; 2.大連海事大學航運經濟與管理學院遼寧大連 116026;3.大連外國語大學軟件學院 遼寧大連 116044)
英國的“開放政府數據”(Open Government Data, OGD)運動處于世界領先位置,連續四年(2013—2016年)在“開放數據晴雨表”(Open Data Barometer, ODB)上高居榜首,得分為滿分(100)[1]。2011至2018年,英國政府連續實施三輪“開放政府國家行動計劃”(Open Government National Action Plan, NAP)[2]。第一輪NAP(2011—2013年)的工作重點是推動中央政府機構的數據開放。到2013年11月,Data.Gov.UK共收集來自中央政府和公共機構的10300多個數據集,成為真正的“一站式”數據平臺。第二輪NAP(2011—2013年)在加大OGD“國家信息基礎設施”(National Information Infrastructure, NII)建設的同時[3],要求地方政府也要開放關鍵數據集[4]。為此,2015年2月27日,社區與地方政府事務部(Department for Housing, Communities &Local Government,DHCLG)發布新修訂的指導性文件《地方政府透明準則》(Local Government Transparency Code),明確地方政府開放數據的范圍、周期與方式等[5]。第三輪NAP(2016—2018年)一方面致力于提升國家層面核心數據的質量和利用水平,另一方面通過數據標準規范地方選舉數據的開放[6]。
2014年11月,英國國家數據平臺(Data.Gov.UK)開始提供“目錄聚合”服務,以支持地方政府的數據開放。目前,Data.Gov.UK中已有4萬多個數據集,其中來自300余個地方政府的數據集1萬多個,占總數的四分之一以上[7]。文章從目錄聚合的模式與流程、數據標準建設和溯源元數據等方面分析和介紹英國政府開放數據的目錄聚合機制,以期為我國建設統一的開放數據平臺提供借鑒和參考。
內閣辦公室領導的“政府數字服務”(Government Digital Service ,GDS)工作組負責Data.Gov.UK的建設、運營與維護,其開發的“收集器”(Harvester)軟件模塊負責獲取外部數據目錄(即聚合源目錄)的全部數據集的元數據記錄(即目錄清單),將其聚合到自己的目錄清單中并發布在Data.Gov.UK 上[8]。
表1給出目前使用的七種“聚合模式”,分為“地理空間數據”和“非地理空間數據”兩大類,支持所有的主流地理數據平臺(如ArcGIS等)和開放數據平臺(如CKAN、DKAN、DataShare和Socrata等)。“收集器”通過API或文件下載方式讀取外部“目錄清單”,其格式是機器可讀的:XML或JSON等。同時,“收集器”對元數據規范/標準具有廣泛的兼容性,既支持Data.Gov.UK本身采用的CKAN元數據和GEMINI地理元數據[9],也支持英國地方政府聯合會(Local Government Association,LGA)開發的數據目錄清單元數據規范,及通用的開放數據元數據標準DCAT和美國的元數據標準POD v1.1 (Project Open Data Metadata Schema v1.1)[10]。

表1 目錄聚合模式分類
LGA出臺的《地方政府透明實施指南》(Local Transparency Guidance)建議各地方政府在建設自己的開放數據目錄網站的同時,同步將數據發布到國家數據平臺(Data.Gov.UK)上[11],其流程如下:
數據提供方選擇一種目錄聚合模式(見表1),以Web數據文件或平臺API的方式提供機器可讀的“數據目錄清單”;數據提供方通過data.gov.uk/user/register申請賬戶,經批準后成為一個publishers,具有editor權限;在Data.Gov.UK登錄后選擇“Dataset Harvesting”發布方式,這是一種批量、自動同步的發布方式,另一種是單個數據集的手工發布方式;創建新的Harvesting Source(收集源),需要提供信息:名稱(Title)(如London Datastore)、元數據文件的URL(或數據平臺的URL)(如data.london.gov.uk/data.json或lle.gov.wales)、聚合模式(Type)(如data.json或CSW等)和更新頻率(Update Frequency)(如weekly或daily)。創建成功后,Harvesting Source會出現在儀表盤(data.gov.uk/harvest)的列表中。目前,共有450多個Harvesting Source,收集數據集記錄26 000多個,占總數的55%以上。每個publishers可以創建多個“收集源”;檢查收集結果是否正確。對應收集源的“收集器”會自動啟動,也可以手工啟動,運行成功后會顯示出收集到的所有數據集的列表,點擊一個數據集的名稱,會顯示它的元數據記錄;數據提供方及時更新目錄清單。當發布一個新的數據集,或向已有的數據集添加新的數據文件時,應在目錄清單中添加或更新元數據記錄,“收集器”會在Data.Gov.UK網站上自動實現同步更新。
表2對比了“London Schools Atlas”(倫敦學校地圖)數據集分別在倫敦和英國數據平臺上的元數據記錄。可見,目錄聚合后,一個數據集的大部分元數據項(如title、type、license和resources等)被保留下來,所屬“主題”通過自動分類被重新設置,增加了“質量元數據”和“溯源元數據”(詳見第4節)等[8]。主題分類是Data.Gov.UK平臺數據組織的主要方式[12],共設有12個主題,幫助用戶瀏覽和查找數據集。依據蒂姆·伯納斯-李提出的開放程度(Openness)“五星評級模型”,平臺還會對收集來的數據集的“開放等級”進行自動打分,并作為一種質量元數據被記錄下來[8]。
數據標準(Data Standard)是“數據的命名、定義、結構和取值范圍方面的規則和基準”[13]。數據標準建設保障了各方(數據提供者、發布者、中介和使用者等)對數據內容、含義和格式等的共同理解,提升了系統間的互操作性,是OGD保障機制建設的重要內容[14]。
為實現數據目錄的聚合,首先需要的是開放數據的元數據標準及目錄清單的描述規范。為此,美國白宮的“開放數據項目”(Project Open Data)在2014年11月發布的元數據標準POD v1.1中規定,每個數據平臺的目錄清單文件以data.json命名,格式為JSON-LD(JSON for Linked Data),模式遵循POD v1.1所定義的Catalog模式,文件的URL為www.[agency].gov/data.json[10]。這套規范不僅在美國地方政府得到了廣泛應用,也推廣到英國(參見表1)、澳大利亞和愛爾蘭等。

圖1 目錄清單的模式定義(部分)
在英國,面向Data.Gov.UK的自動聚合功能,為使得各地方政府以一致的方式建立數據目錄清單(Inventory),LGA開發了“目錄清單模式”(Inventory Schema)標準,在都柏林核心元數據的基礎上規范了“目錄清單”“數據集”(Dataset)和“數據資源”(Data Resources)等的元數據[15]。模式以XML Schema語法定義(見圖1),“目錄清單”(圖1為Inventory元素)的元數據項有9個,包括 Identifier、Creator、Metadata.Title、Metadata.Publisher、Modified、ConformsTo和 Datasets等,其中 Datasets的取值為Dataset的列表;“數據集”的元數據項18個,包括Title、Identifier、Rights、Active、Modified 和 Resources(資源列表)等;“數據資源”的元數據項11個,包括Title、Identifier、Type和Renditions(數據文件列表)等;“數據文件”(Rendition)的元數據項8個,包括Title、Identifier、MimeType和ConformsTo等。

圖2 目錄清單的實例文檔——霍爾沙姆區(部分)
LGA的“目錄清單模式”標準規范得到DataShare軟件平臺的支持,它能自動生成符合模式定義的實例文檔,將其發布到myDataShareAddress/api/esdInventory。圖2給出了霍爾沙姆區目錄清單XML文檔的例子。Data.Gov.UK的收集器讀取和解析這些文檔后,會將其中的LGA元數據映射為CKAN元數據[15]。
“數據模式”是對數據結構和格式的規范定義。當大量的數據集被聚集到Data.Gov.UK后,為保障聚合來的數據的一致性(Consistency),英國政府開發和應用了各類數據模式標準[16],促進了不同機構數據的比較、融合和深度利用。
英國第三輪NAP承諾以標準方式開放政府采購合同數據,即實施“開放合同”(Open Contracting)計劃[6]。其成果從2016年11月起,Data.Gov.UK上的合同數據集都采用了“開放合同數據標準”(Open Contracting Data Standard,OCDC)[17]。第三輪NAP的另一項承諾是開放“選舉數據”(Elections Data),目標是在2020年前實現地方政府和中央政府選舉結果的數字化、標準化和機器可讀[6]。地方政府聯合會LGA負責選舉數據標準和指南的制定和編寫,其草案已公布在GitHub上[17]。
為支持《地方政府透明準則》所規定的更廣范圍的數據開放的標準化,LGA聯合LeGSB(Local e-Government Standards Body,地方電子政務標準機構)推出“開放數據模式”(Open Data Schemas)激勵計劃,鼓勵各地方政府開發和使用“數據模式標準”。目前,已有數百個數據模式發布在schemas.opendata.esd.org.uk,被廣泛使用的有“土地與建筑物”(Land and Buildings)、“組織結構”(Organization Structure)、“停車場”(Parking)、“支出”(Spend)和“公廁”(Public Toilets)等。
LGA引進“數據文件”的元數據項conformsTo,用以指出其遵循的“數據模式”。圖3給出霍爾沙姆區Contracts Register數據集的元數據記錄,說明了可下載的CSV文件的數據模式定義文檔所在的URL。

圖3 霍爾沙姆區ContractsRegister數據集的部分元數據記錄
Data.Gov.UK描述“收集源”的元數據(見表3)大部分是溯源元數據(Provenance Metadata),如Publisher、Created和URL,可以幫助用戶追蹤數據的來源,增加數據的可信度。

表3 收集源的元數據
收集來的數據集的溯源元數據則更為豐富,表4以London Schools Atlas數據集(參見表2)為例展示了主要的元數據項,其中metadata_created指一個數據集的元數據記錄首次被收集到Data.Gov.UK的時間,metadata_modified則是更新時間,即最近一次的采集時間。這些元數據是以JSON格式存在于數據集元數據API的返回結果中,供應用程序追溯數據的歷史和來源,而手工單個發布的數據集則沒有這些溯源元數據。

表4 數據集的溯源元數據
英國開放政府數據是政策先行,重視頂層設計,其進程自上而下:從中央政府機構到地方政府[18]。而我國的OGD則發端于地方政府。根據2018年5月貴陽數博會上復旦大學發布的《2018中國地方政府數據開放報告》,我國已有46個地方政府建設了數據目錄網站[19]。在國家層面上,中央網信辦、發改委與工信部于2018年1月5日聯合印發《公共信息資源開放試點工作方案》,確定在北京、上海、浙江、福建和貴州五省開展“建立統一開放平臺、明確開放范圍、提高數據質量、促進數據利用、建立完善制度規范和加強安全保障”的試點工作[20],探索形成可復制的經驗,逐步在全國范圍加以推廣。其中,“建立統一開放平臺”要求開放平臺應具備目錄發布、數據匯集和元數據發布等功能,地市級公共信息資源開放平臺要與省級開放平臺互聯互通,試點地區開放平臺要率先與國家公共信息資源開放平臺對接。
這些要求同英國OGD的目錄聚合是基本一致的。在參考和借鑒英國的先進經驗時,應重點關注如下三方面的啟示。
從上文的分析可見,英國的數據目錄聚合機制是建立在元數據標準和數據模式標準之上的,具有平臺弱相關或平臺無關、適應性強、自動高效、支持數據的細粒度比較和融合的優勢。與此相類似,美國國家數據平臺(Data.Gov)聚合了980個外部數據目錄[10],歐洲數據門戶(www.europeandataportal.eu)聚合了78個各國數據目錄網站的元數據,這歸功于美國的元數據標準POD和歐盟元數據標準DCAT-AP(DCAT Application Profile),及歐盟的“主題分類受控詞匯表”等數據標準[21]。因此,基于標準規范的目錄聚合已成為國際發展趨勢。
我國大多數的開放數據平臺還不具有目錄聚合功能,如廣東省平臺(www.gddata.gov.cn)中來自深圳的數據集只有42個,而深圳市平臺(opendata.sz.gov.cn)的數據集已達1 243個;貴州省平臺(www.gzdata.gov.cn)的612個數據集中關于貴陽市的數據僅有2個,而貴陽市平臺(www.gyopendata.gov.cn)的數據集已有2 700多個。相對照的是,山東省公共數據開放平臺(data.sd.gov.cn)率先具備了“目錄聚合”功能,濟南(www.jndata.gov.cn)、青島(data.qingdao.gov.cn)、煙臺(ytdata.sd.gov.cn)、淄博(zbdata.sd.gov.cn)和威海(whdata.sd.gov.cn)等17個地市數據目錄平臺中的元數據記錄同步出現在省級平臺,總計9 233個,占總數(10 028)的92%。但該目錄聚合的實現依賴于統一的浪潮開放數據軟件平臺[22],缺乏元數據標準、數據模式標準和溯源元數據等的支撐,難以大范圍推廣應用。同時,由于數據模式不一致,聚合來的數據難以比較和融合,表5給出“小學”和“教育局收費”兩類數據不一致的例子。

表5 山東省公共數據開放平臺中的數據集模式不一致舉例
被廣泛采納的國際開放數據憲章(opendatacharter.net)確立的六原則之一是“基于標準的數據可比較和互操作”[3]。《公共信息資源開放試點工作方案》要解決的主要問題之一是“開放體制機制和標準規范不完善”。因此,我國應加強政府數據資源的元數據標準、分類標準和數據模式標準的建設和推廣應用,在標準規范的基礎上逐步形成、完善目錄聚合和數據融合的機制,以實現開放政府數據生態系統的可持續發展。
高質量地實現各級政府數據的統一與一致開放,不僅需要完備的數據標準體系,還需要相應的指南、工具和平臺的支撐。表6列出了英國這方面的主要成果,它們分別來自中央政府機構、地方政府、協會和研究機構。可見,在地方政府聯合會(LGA)的組織下,英國已形成有效的開放數據協作機制。
我國不僅需要省內的協作機制(如山東省各級政府采用統一的開放數據平臺),更需要省級政府間的協作機制,為統一規范、互聯互通的國家開放數據平臺(www.data.gov.cn)的建設創造必要條件。
開放數據平臺是OGD的關鍵基礎設施,得到了國內外的普遍重視。國際上有以CKAN(Comprehensive Knowledge Archive Network)和DKAN(Drupal+CKAN)為代表的開源軟件平臺,及以Socrata等為代表的商用開放數據平臺[23]。國內出現了應用于20多個網站的浪潮開放數據平臺[23],及貴陽市信息產業發展中心開發的“貴陽市政府數據開放平臺V3.0”等[24]。根據W3C的開放數據最佳實踐,平臺應通過元數據API向外提供機器可讀的目錄清單[25]。例如,建立在CKAN之上的倫敦開放數據平臺共提供了四類元數據API(見圖4),使得外部應用程序(如元數據收集器)能夠讀取全部或部分數據集的元數據記錄。借助元數據API,倫敦的開放數據目錄不僅被聚合到英國國家數據平臺,也被聚合到歐洲數據平臺上(詳見www.europeandataportal.eu/data/en/organization/london-datastore)。

表6 支持英國數據目錄聚合的指南、工具和平臺

圖4 倫敦開放數據平臺的元數據API
我國的開放數據平臺還普遍沒有向外提供元數據API。貴陽市政府數據開放平臺(www.gyopendata.gov.cn)雖然提供了“目錄下載”功能,但只能手工下載Excel文件,不能通過應用程序讀取,也就不能被元數據收集器自動收集。
隨著開放政府數據的發展,數據目錄網站和數據集的數量在快速增長,提高數據的可發現性成為英國OGD需要解決的重點問題[26]。為此,英國一方面形成了較完善的目錄聚合機制,一方面改進了“一站式”網站Data.Gov.UK的搜索功能。文章以支持地方政府數據開放的視角,介紹了英國目錄聚合的模式與流程、數據標準和溯源元數據;結合我國實際,探討了應該借鑒的經驗與啟示。下一步的工作將圍繞構建適應國情的目錄聚合機制展開,重點研究開放數據目錄體系的元數據(包括溯源元數據)標準和基于元數據的目錄聚合方法等。
(來稿時間:2018年9月)