袁遠明,吳產樂,3,艾浩軍
(1.武漢大學計算機學院 武漢 430072;2.國家多媒體軟件工程技術研究中心 武漢430072;3.武漢東湖學院 武漢430212)
影響公眾及公共事務等多方面的政府數據不斷增加,為滿足民眾對政府職能與義務的知情需求、促進政府公共數據潛在價值的應用開發、增強政府不同部門間的數據互操作,開展開放政府數據的研究與應用對構建服務型政府有十分重大的意義。
然而,傳統政府數據中缺乏語義互操作的格式化數據(xls、csv)以及不具備語義關聯的非格式化數據(txt、doc、ppt、pdf、html)大量存在,異構的政府數據間的互操作難以實現。
改變當前政府數據的發布標準將是解決問題的重要手段。互聯網和語義網等新技術的發展,已使各國政府意識到基于開放標準進行政府數據發布的重要性,應更多地考慮數據之間的關聯和復用,同時使得機器能夠理解并發現更多的相關數據。
關聯數據采用資源描述框架 (resource description framework,RDF)數據模型,利用統一資源標識符(uniform resource identifier,URI)命名數據實體,通過 HTTP 瀏覽并獲取這些數據,通過“鏈接”揭示數據的關聯關系以及能被計算機理解的語境信息。關聯數據也稱RDF數據,RDF是用于描述Web資源的標記語言,是由“主體(subject)—謂詞(predicate)—客體(object)”3 部分(即三元組)組成的資源描述通用模型。關聯政府數據的發布不要求使用者將數據拷入原數據集,只需創建不同數據源間的數據鏈接即可發現相關信息,以滿足政府數據發布的需求[1]。
開放數據尚無統一定義,來自維基百科的理解為:開放數據將資料開放給任何人使用,不論是出版還是做其他的運用,不受著作權、專利權以及其他管理機制的限制[2]。所有的定義最終均以實現信息的開放與獲取、共享與重用為目標。
開放政府數據作為以建立更加開放、透明、高效政府為目標的開放政府運動的重要部分,是政府與市民間的重要交流通道,其最直接的優勢是讓政府更加透明,市民能訪問不透明的原始政府數據。
關聯開放政府數據(linked open government data,LOGD)是一項很有前景、能更加高效訪問開放政府數據的技術,也是關聯數據技術在開放政府數據方面的重要實踐應用。
關聯數據社區[3]提出了一系列在網絡上合作發布與互聯結構化數據的最佳原則[4]:使用URI作為事物的名稱,允許用戶使用HTTP URI查找這些名稱;當查找一個URI時,以RDF提供有用的信息,包含與其他URI的RDF鏈接,以便發現更多的相關信息。數據提供者遵循上述原則發布數據,將原始數據加入關聯政府數據集合,并被各種程序加以利用。
關聯政府數據的優勢體現在如下3個方面[5]。
·開放:能以開放的形式被各種應用獲取并使用。
·組合化:關聯數據之間或與其他關聯數據間可以混搭,如城市醫療健康方面的政府數據與該市的人口、環境等方面的數據聯合起來,用于評估政府醫療投入的效率。
·可拓展性強:互聯方式的改變不會影響數據本身。
依據以上發布原則及要求,歸納分析關聯數據的整體技術體系,該體系可分為關聯數據的表達、創建與發布、互聯、瀏覽與檢索4個層次,如圖1所示。
LOGD表達的是具體的政府數據內容,數據表達采用RDF數據模型,用URI予以標識,能通過HTTP調用,如http://www.w3.org/people/EM/contact#me,這個URI可用來指代Eric Miller的人名信息,對應的關聯數據的RDF三 元 組 表 達 為{‘http://www.w3.org/People/EM/contact#me’,‘Full Name’,‘Eric Miller’}。HTTP URI是抽象的概念,需要采用內容協商[6]實現URI到具體數據記錄的映射,從而獲取如RDF/XML文本數據、HTML網頁等具體的內容。
LOGD創建是實現LOGD的關鍵環節,采取3.1節的表達方式描述對象的內部結構及其內含語義,其關聯深度取決于內容對象本身和所屬元數據格式的豐富程度,創建過程是基于元數據格式將元數據轉換成RDF數據。

政府數據大多以關系型數據庫 (relational databases,RDB)形式進行存儲,需要考慮如何將RDB數據轉換成RDF數據。RDB的模式是二維表,而RDF三元組是用二元關系表達主客體間的關系,兩者雖有不同但都是基于現實世界而構建,具備建立映射的條件。RDB和RDF數據的具體映射方式見表1。

表1 RDB數據到RDF數據的映射
使用轉換工具將RDB數據轉換成RDF數據,當前流行的轉換工具有 D2RQ Platform/D2R Server[7,8]、Open Link Virtuoso’s RDF Views[9]、Triplify[10]。Linked MDB、DrugBank 等很多數據集都采用D2RQ Platform進行數據發布。
LOGD的互聯層建立了同一數據集中內容對象間的關聯關系,與其他數據集的互聯是其主要工作,也是整個LOGD體系的關鍵環節。
關聯數據的互聯技術是近年來的研究熱點,在消費關聯數據專題研討會(COLD)發布的研究熱點中,關聯數據的互聯算法居于首位。基本互聯方法主要有共同鍵匹配、字符串匹配、子圖匹配3類,關聯架構主要有Silk[11]、LinQuer[12]。其中,Silk是基于規則的互聯框架,是根據兩個數據集中數據的屬性相似度計算它們之間的互聯關系;LinQuer是一種從語義上發現關系數據集間的關聯,從而生成SQL查詢的架構,包含LinQuer語言、Web接口、一個能將LinQL查詢轉換成SQL查詢的API、一個能更容易用LinQL查詢編寫的接口。由于LinQuer采用模塊化和通用化進行構建,使得LinQuer能容易地使用用戶定義關聯發現算法進行充實和豐富。
建立互聯后的LOGD需要瀏覽器瀏覽數據,并依據RDF鏈接實現數據間的導航,當前較常見的關聯數據瀏覽器 包 括 Tabulator RDF Browser、Disco Hyperdata Browser、OpenLink RDF Browser、Object Viewer、Marbles RDF Browser等,均運行在服務器端。
關聯數據瀏覽器有別于傳統瀏覽器,它運行在服務器端,為用戶提供基于Web瀏覽器的界面;還有些RDF瀏覽器(如LongwellMSpaceFacet)因無法在不同數據源之間瀏覽,不能稱為關聯數據瀏覽器。搜索引擎技術用于檢索所需的數據,常見的關聯數據搜索引擎包括Falcons、Sindice、Watson、Semantic Web Search Engine、Swoogle等。
兩者的有效結合,能以更智慧的方式提供瀏覽服務,Marbles就是較好地融合兩種技術的關聯數據瀏覽器。
開放數據在信息組織與信息發現中的應用相當廣泛。在政府公共信息服務領域中,美國最先開展關聯數據的實踐應用,基于關聯數據標準建立了data.gov政府數據門戶網站。英國(data.gc.uk)、加拿大(data.gc.ca)、澳大利亞(data.gov.au)、新西蘭(www.data.govt.nz)等國家相繼建立起本國的政府數據網站。與此同時,相關研究機構也紛紛成立,世界首個開放數據研究所于2012年5月在英國成立,目標旨在幫助公共部門更有效地使用政府數據,更好地發掘開放數據的商業價值。
2009年5月,全球第一個國家政府層面的數據門戶網站(data.gov)正式上線,數十萬項政府專用的數據被白宮開放到互聯網,是政府各部門數據得以互操作的重大實踐成果。
data.gov是一個數據可自由獲取、公眾與政府機構互動、API開放的網絡信息共享平臺。數據采集方式為分工協作、多點聚合,數據集來源有兩類:一類以聯邦政府所轄的能源安全、財政、司法、教育等部門發布的數據集為縱向數據鏈;另一類以美國各市州為橫向數據鏈。data.gov以都柏林核心元數據集為標準,采用目錄分類方式組織政府數據,提供類目、機構、關鍵詞等搜索途徑。其以一套完整的元數據分類體系集中管理數據資源,按照 “Raw Data Catalog”、“Tools Data Catalog”、“Geo Data Catalog”3 類將資源編制為一級目錄,并在每個一級分類檢索模塊中,為所有數據資源建立了兩個獨立的二級分類體系,一個是以數據所屬的社會領域角度為出發點,另一個是以數據的來源機構為出發點,以提高檢索效率。
政府各部門專門設有信息主管,負責數據的審核、提交與發布、與data.gov的溝通等工作,定期在data.gov發布可供公眾自由獲取的高價值數據集。最早有11個機構提供了76項數據集,之后數據集不斷攀升,見表2。

表2 data.gov數據集的發展情況
繼美國政府數據網站data.gov后,英國政府開放數據門戶網站data.gov.uk于2010年1月正式投入使用,旨在建立政府數據間的關聯,便于公眾獲取政府數據。
data.gov.uk已從上線之初的2 500多個政府數據集發展到超過8 607個,涉及人口與健康、交通與環保、教育與商務等領域[13]。該網站由“萬維網之父”TimBerners-Lee等人創立,在數據組織方面使用RDF、URI、SPARQL查詢語言、關聯數據API等高效的國際標準和新技術,保證與關聯數據原則及協議的一致性,較好地實現數據的有效性及互聯。
英國各屆政府重視更多地發布政府數據,新一屆政府提出了“數據權”的新概念,指明數據權是信息社會一項基本的公民權利,承諾深入推進以使之制度化。
data.gov.uk的建立,使得政府數據更加透明化、政府信息更加關聯化,對政府與社會關系的轉變有重大意義。
當今,智慧城市已成為全球城市發展的新熱點,在全球智慧風潮和國家政策的鼓勵下,北京、上海、武漢等紛紛加入“智慧城市”建設的行列。智慧政務作為智慧城市的首要建設項目,是進一步加快推進服務型政府建設的重大舉措。智慧政務的目的就是要增強政府信息的透明化水平,提升政府數據的重用效率,實現政府數據的透明、開放、共享以及政府智慧化決策與管理。
4.3.1 部門數據集之間的互聯提升政府數據的利用效率
提升政府數據的利用效率,需要在開放政府數據的同時,實現政府各個部門數據集之間的互聯。通過數據集間的互聯挖掘潛在價值信息,實現數據交互重用,并最終實現城市智慧化決策與管理。
(1)城市可持續發展水平智慧評估
如經濟部門、環保部門、衛生部門,都在各自網站上公布了自己的業務數據集,若3個網站的數據集內部及外部都實現了關聯,分析人員可將這3個網站背后的GDP數據、污染數據和人們的健康指數聯接糅合起來形成新的應用,通過應用挖掘潛在信息,評估城市的可持續發展水平。
(2)政府醫療投入效率評估
如城市衛生部門的醫療健康方面的政府數據,可以和城市人口統計部門的人口數據、環保部門的環境數據等聯合起來,從而對政府醫療投入的效率進行評估。
(3)部門間數據的高效共享
城市行政服務中心作為提供城市電子政務服務的重要載體,是連通各部門數據信息的重要樞紐。而連通各部門數據實現數據間的共享重用,需要建立以各部門數據集為基礎的統一數據交互模型,該模型可采用RDF架構、URI資源標識方式、關聯數據等高效的國際標準和新技術來構建。以市民辦理房產交易為例:行政服務中心的房地產管理處窗口工作人員可以通過共享民政部門的個人婚姻信息、公安部門的戶籍信息審查相關資格信息,市民不需要在多個部門收集資格材料就可以快速進行房產交易。通過數據關聯實現部門數據的高效共享,明顯提升行政服務能力。
4.3.2 智慧城市LOGD組織和應用
在建設智慧城市及服務型政府的指引下,基于關聯數據技術建立國家及城市的LOGD網站十分必要。當前政府體制內不同部門之間的利益難以協調,難以實現數據的整合以及公民對政府的監督和問責。可以參考國外開放數據的建設經驗,建立國家信息化推進辦公室,統一指導國家開放政府數據的研究與應用工作,加大開放數據關聯技術研究,按照關聯數據的內容組織框架及原則,建立國家開放政府數據網站。并對開放政府數據進行立法,保證開放政府數據的有效使用。更重要的是,在運用關聯數據技術處理國家開放政府數據的同時,應考慮到具體的國情和中文信息處理方面的問題,只有與現實情況相結合,才能做好政府關聯開放數據的工作。
基于關聯數據標準發布政府公共數據,讓機器更好地理解和處理這些數據,充分重用和挖掘政府公共數據潛在的價值,以簡化行政服務流程,提升行政服務水平。開放政府數據作為開放數據的重要應用領域,關聯開放政府數據將更好地推動開放數據在其他行業的發展。我國在借鑒英美政府實踐經驗的基礎上,建立了我國的開放數據許可環境,并健全了相關法規。
筆者在描述關聯開放政府數據相關概念的基礎上,分析了關聯開放政府數據4層結構的技術體系,總結了國外典型開放政府數據的應用實踐,重點討論了關聯政府數據在我國智慧城市建設中的應用與挑戰。面對我國政府尚無開放數據、關聯數據技術尚未得到有效應用的現狀,建立我國關聯開放政府數據的網站,實現政府數據的關聯化將是一個長期的過程,有許多工作要去做。
1 Linking open data,2012
2 Open data.http://en.wikipedia.org/wiki/Open_data,2012
3 Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data—the story so far.International Journals of Semantic Web Information System,2009,5(3):1~22
4 Tim Berners-Lee.Linked data.W3C Design Issues,2006
5 Qian Guofu.Government data online release based on linked data.Library and Information Service,2012(5)
6 Best practice recipes for publishing RDF vocabularies.http://www.w3.org/TR/swbp-vocab-pub/,2012
7 D2R server.http://d2rq.org/d2r-server,2012
8 D2R platform.http://d2rq.org/,2012
9 Open-link software.http://virtuo-so.openlinksw.com,2012
10 Triplify.org:overview.http://triplify.org/,2012
11 Volz J,Bizer C,Gaedke M,et al.Silk-A link discovery framework for the web of data.Proceedings of LDOW 2009,Madrid,Spain,2009
12 Oktie Hassanzadeh.Linkage Query Writer,PVLDB,2009
13 Datasets.http://data.gov.uk,2012