基于元數據的開放政府數據質量自動評估系統

2022-02-27 03:05:54汪春播溫繼文

中國管理信息化 2022年1期

關鍵詞：質量

汪春播，王博，劉璐，溫繼文

（1.北京林業大學經濟管理學院，北京 100083；2.IBM 全球咨詢服務部，上海 200433；3.中央財經大學會計學院，北京 100081）

0 引言

數據質量是決定開放數據能否發揮其價值的關鍵，我國《“十三五”國家信息化規劃》提出，加強質量管理，提高數據準確性、可用性、可靠性等要求。建立科學、規范、有效的開放政府數據質量評估體系能夠推動政府數據開放，培育發展數據要素市場，讓數字經濟為我國經濟社會高質量發展賦能。開放政府數據具有更新性與時效性，因此需要進行持續的質量評估，自動評估能夠適應當前快速增長、內容豐富的開放式資源環境，幫助政府發現開放數據的質量問題。國外政府提倡采用信息技術對“全量”開放政府數據進行“質量自動評估”，如美國“Project Open Data Dashboard”與歐盟“開放數據監測器”，國外學者也較早開展了針對開放政府數據門戶自動評估質量的研究；國內則普遍采用網絡爬蟲技術采集“抽樣”數據，圍繞構建的評價指標體系進行人工評估，而且評估效率較低，評估結果粒度較粗，無法追溯質量維度。

元數據是開放政府數據質量的關鍵因素，元數據質量能夠提高開放數據的可發現性，決定了開放政府數據的成功與否。因此，建立基于元數據的開放政府數據質量自動評估系統，可以實現自動獲取、實時監測和定期評估開放政府數據質量，形成及時、有效的開放政府數據質量反饋機制，提升開放政府數據的價值。

本文綜合考慮了開放政府數據生命周期“生成—開放—使用”三個階段與“形式—內容—效用”三個質量層面構建質量評估框架，并以林業開放政府數據為例，構建了基于元數據的開放政府數據質量自動評估系統，采集開放政府數據平臺的全量元數據，綜合運用信息技術自動計算質量評估指標，同時引入商務智能技術，提供可視化門戶，實現從多維度、細粒度對開放政府數據的質量狀況進行定量和客觀分析，從而達成定期檢測、自動評估開放政府數據質量。

1 開放政府數據質量自動評估系統架構

基于元數據的林業開放政府數據質量評估系統由“輸入—分析—輸出—后端”四個模塊組成，如圖1 所示，輸入模塊用于收集開放政府數據外部數據源，分析模塊完成數據整合和質量評估指標計算，輸出模塊實現質量評估分析的可視化展示，后端模塊用于支持系統運行。

圖1 開放政府數據質量評估系統架構

1.1 輸入模塊

開放政府數據質量自動評估系統“輸入”模塊包含采集器、數據導入與存儲三個組件：

（1）“采集器”用于訪問在線開放政府數據平臺，并獲取截至當前時刻的開放政府數據集的全量元數據實例，并將其存檔在本地，以便后續對元數據記錄進行訪問和分析。將采集器和分析平臺保持分離可使系統擴展性更高，即使沒有存儲庫也可以使用元數據內容。

（2）“數據導入”用于將“采集器”存檔的元數據實例采用標注時間戳的“全量更新”的方式導入系統后端，從而積累存儲不同時刻的、各開放政府數據平臺的全量元數據實例。

（3）“存儲”用于存儲“數據導入”的元數據實例，并向“分析”組件提供來自系統存儲在數據庫的元數據實例，而不是直接來自開放政府數據門戶的數據。

1.2 分析模塊

分析模塊由兩類數據處理組件構成：①為每個元數據實例提供質量評估指標的計算結果；②整合質量評估指標計算結果，基于質量評估主題進行不同維度和粒度的分析。在分析模塊中采用高效穩定且擴展性好的ETL 工具Kettle 進行數據處理，并配合Python 綜合使用。

1.3 輸出模塊

輸出模塊與后端模塊、分析模塊存在交互，用于以各種形式（如數字化、圖表）提供質量評估結果和信息。基于分析模塊中收集的信息，將分析結果生成可視化視圖，便于用戶了解質量評估結果。系統輸出的可視化工具為Tableau，用戶可登錄直接獲取質量評估儀表板的視圖，依據提供的數據源進行交互式分析。

1.4 后端模塊

后端模塊用于存儲相關數據。系統采用MySQL 存儲數據，設計三類數據庫表（表1）：存儲開放政府數據平臺元數據實例的數據庫表（FOGD_MD）、開放政府數據質量評估指標計算數據庫表（FOGD_MD_QA）、面向質量評估主題的數據倉庫（FOGD_MD_DW），包括用于分析的維度表與事實表。

表1 數據庫表設計（部分示例）

2 開放政府數據質量自動評估系統的實現流程

2.1 數據源

通過數據爬取工具或程序，獲取開放政府數據平臺的元數據實例，使用ETL 工具（Kettle）將數據存入“FOGD_MD”數據庫中，完成ETL_FOGD_BASIC 流程，形成開放政府數據質量自動評估的元數據。系統外部數據源主要有三類數據：各平臺元數據實例、預先定義的元數據元素映射表、與質量評估指標有關的功能性枚舉表。

2.1.1 開放政府數據平臺元數據——林業數據

開放政府數據平臺的元數據是質量自動評估系統的主要外部數據源。表2 為本文采集的中、美5 個林業開放政府數據平臺以及各平臺設置的元數據元素。本文于2020 年5 月、8 月、12 月分別采集不同時間節點的數據源內容。

表2 中美林業開放政府數據平臺

2.1.2 元數據元素映射表

元數據元素映射表指借鑒元數據相互操作的思想，設置預先定義的元數據元素映射表，以作為后續質量自動評估的重要基礎。表3 為元數據映射表的部分截取數據。

表3 開放政府數據平臺元數據元素映射表

2.1.3 功能性枚舉表

功能性枚舉表指輔助系統完成質量自動評估的具有枚舉值的功能性數據庫表。本文根據質量評估指標，共設有四類功能性枚舉表，其中三類為應用歐盟的開放數據監測器OpenDataMonitor 項目對定義的“非專屬格式列表”“機器可讀格式列表”“許可開放列表”，還以《政務信息資源目錄體系第4 部分：政務信息資源分類》為標準，整理出以主題、行業為分類依據的“數據主題分類列表”。

2.2 數據質量評估模型

評估模型區指綜合運用數學公式、Python 數據處理相關包、字符串函數及Web 服務控件等方式完成評估林業開放政府數據質量指標的自動計算，并將質量自動評估模型的計算結果存入“FOGD_MD_QA”質量評估指標數據庫中，完成ETL_FOGD_QA 流程。

通過對開放政府數據質量評估指標的文獻研究與實踐回顧，本文從數據的形式、內容、使用效用三個方面出發，其中數據形式質量關注數據的結構和表達形式，數據內容質量關注數據的內容和取值對對象的描述程度，數據使用效用質量關注數據可以為用戶帶來的價值。另外在數據開放的不同階段，度量其數據質量的指標并不是一成不變，根據開放政府數據“生成—開放—使用”生命周期的三個階段，針對不同階段應采用不同的度量指標。因此，本文采用了橫向從“數據形式”“數據內容”“數據使用效用”三個方面，縱向從開放政府數據“生成—開放—使用”三個階段，綜合數據質量評估的全面性和數據生命周期的動態性，構建了一套全面衡量開放政府數據質量評估模型，如圖2 所示。表4 總結了基于元數據的開放政府數據質量評估指標，其中使用的函數類型以布爾運算、簡單比率形式為主，并提出了加權平均法的加權完整度，其他指標涉及一些復雜的數據處理方式，配合Python 相關數據處理包進行計算。

表4 開放政府數據的質量評估指標及其計算方式

圖2 開放政府數據的質量評估框架

各平臺依托Kettle 與Python 包兩種方式分別進行指標計算，以中國林業共享與開放平臺（FOGD_FDB）為例，對Kettle 工具處理流程作具體闡述（圖3 為FOGD_FDB 平臺依托Kettle 工具完成的質量評估流程，表5 說明了各節點的處理內容），此流程完成了完整性、開放性（數據格式開放、數據機器可讀格式）、更新性（存量／增量數據）的計算過程。該流程運行完畢后，使用Python 包完成對全面性、期望符合度（受控值元素、自由文本元素）質量指標的計算。

圖3 中國林業共享與開放平臺的質量評估過程（Kettle 工具）

表5 中國林業共享與開放平臺的質量評估過程（Kettle 工具）說明

2.3 數據質量評估數據倉庫

數據倉庫區指以質量評估維度為分析主題，運用Kimball 維度建模法構建基于星型模式的林業開放政府數據質量評估數據倉庫。本文采用Erwin 工具描繪了圖4 所示的星型數據倉庫，共設置了11 個質量評估主題事實表，時間維、平臺維、元數據維、元數據實例維等基礎維度表，依據元數據實例，還設有元數據實例完整維、合規類型維、是否合規維等輔助分析維度。隨后系統使用Kettle 工具將林業開放政府數據質量評估指標的計算數據從FOGD_MD_QA 抽取、轉化、加載至FOGD_MD_DW 中，完成ETL_FOGD_DW 流程。

圖4 林業開放政府數據的FOGD_MD_DW 數據倉庫模型圖

2.4 質量自動評估可視化

為了充分展示和分析開放政府數據質量評估的結果，系統使用Tableau 提供豐富多樣的可視化儀表板。以圖5 林業開放政府數據的各類別元數據信息映射數量為例，該儀表板中，顏色的深淺體現元數據元素與元數據框架中的元素映射成功的數值高低。不難看出，現中國林業科學數據中心與美國政府數據開放平臺的元數據元素與元數據框架有較好的匹配度，也隨即反映了質量評估的存在性指標（簡單存在度），突顯出各平臺在存在性上的優劣。又如圖6 所示的林業開放政府數據的開放性儀表板，開放性的度量涉及數據格式開放度、格式機器可讀度和許可開放度三個指標，在該儀表板中使用了環形占比圖和條形圖綜合展示，并可以勾選“林業開放政府數據平臺”篩選器，在同一個視圖頁面獲取不同平臺在各個開放性指標的質量狀態。

圖5 林業開放政府數據的各類別元數據信息映射數量

圖6 林業開放政府數據的開放性儀表板（Data.gov 為例）

通過集成多維度、細粒度、多樣式的圖表提供給用戶各質量評估主題的開放政府數據質量評估儀表板，能夠幫助用戶與數據質量進行動態、直觀的交互，使得評估結果直接且易于理解。

3 結論與展望

3.1 結論

本文針對當前國內開放政府數據質量評估系統研究的不足，提出了基于元數據的開放政府數據質量自動評估系統，并基于林業開放政府數據，對系統進行了原型驗證，按照“數據源—質量評估—數據倉庫—可視化”四步數據處理流程，說明了各階段所使用的工具、方法、軟件，闡述了獲取開放政府數據元數據的外部數據源，借鑒元數據交互操作思想對不同平臺的元數據元素進行映射，形成質量評估基礎，采用算法完成質量自動評估模型的運算，通過數據集成、清洗和轉換，構建開放政府數據質量評估數據倉庫，最后采用商務智能技術輸出評估結果的可視化效果，幫助用戶對比發現開放政府數據的質量、現狀和優劣。

本文構建的基于元數據的開放政府數據質量自動評估系統，可以為一般性開放政府數據質量評估提供參考，輔助政府及時發現開放數據的質量問題，改善開放政府數據質量，而且能夠科學衡量政府數據開放后的產出和效果，進一步提升開放政府數據的價值。

3.2 展望

本文提出的基于元數據的開放政府數據質量自動評估系統雖已通過原型驗證，但仍存在以下不足，可供未來持續研究，即評估更多的開放政府數據平臺。本文僅驗證了中、美5 個平臺，與國外學者與政府的相關實踐研究規模相距甚遠，未來可考慮大數據工具來“擴容”更多數量的開放平臺，評估元數據內容與數據集本身的準確性。本文通過元數據實例衡量了林業開放政府數據質量，但未考慮數據集本身的準確性，未來可關注研究系統是否能夠有效監控實際數據資源內容，以評估元數據的準確性。