



政府數據門戶網站發展及意義
隨著電子政務的發展,政府各個部門聚集了大量的數據。如何讓公眾通過一個入口,更便利地獲取自己感興趣的數據集呢?更進一步,如果一個軟件愛好者要對來自不同部門的多個數據集進行整合(marshup),建立有意義的關聯,政府的信息主管(CIO)能提供一個相關的數據基礎設施(data infrasture)嗎?
作為有責任的政府,政府部門的一個重要任務就是向公眾提供這些數據, 減少政府于公眾之間的信息不對稱,增強互信和理解。去年以來,美國國內掀起了一股“數據民主化”的浪潮,白宮把數十萬項以前政府專有的數據庫推向了互聯網,設立了數據門戶網站data.gov。在2009年5月21日網站上線時,11個機構提供了最早的76項數據集。而后數據集的數量激升。表1就兩個時點給出美國數據門戶網站上公開的數據集的發展狀況。
數據門戶不是簡單地分類地將來自各個機構的數據源集中起來,其意義在于提供了許多數據基礎設施工具。這些基礎設施工具是由最適合的專業團隊開發的。這些基礎設施工具有機構之間相互協作的數據基礎設施、反饋數據基礎設施、查找數據基礎設施、機構和站點儀表板數據基礎設計。正因為有如此眾多基礎設施,一個重要的現象就是EPA原放在自己部門網站的45個關于有害物的數據集,在整合到data.gov門戶之后,下載次數增加了十多倍.
數據門戶網站實施原則
目前很多國家政府已經認識到向公眾開放高價值數據集的作用,并主動引導形成一個創新性的社會。信息技術就是生產力。基于統一的門戶網站,能避免各個職能部門在軟件、硬件上的重復投資,如軟件上的檢索模塊、硬件方面的主機設備。基于統一的門戶網站,還能在政策法規上避免各個職能部門各自為政的情形,促進協調、統一,通過其數據集檢驗其部門任務的落實是否符合其使命,是否為社會創造了價值。
數據門戶網站的實施主體是信息產業相關部門。為此信息產業相關部門推出相應的政策和實施措施。針對政務數據集,信息技術管理戰略就是利用好現有數據集并推出滿足公眾要求的新數據集。表2給出對應戰略的操作層面的實施步驟。
為了實現上面的任務,政府數據網站提出了七個原則來成就其透明、參與、協作這一系列的價值主張。
data.gov是一個高價值的政府數據集的門戶網站。那么,什么是高價值的政務數據集呢?這里,主要是從數據集能起到的作用和產生的影響角度進行闡述。作為向公眾開放的最原始的基礎數據,高價值數據集應該能提高公眾對該機構的認知和對其運作流程的理解;推進該機構的核心使命;能及時滿足公眾的目的和需求。
在社會可以自由獲取這樣的高價值的數據集之后,極大地促進了美國社會對數據的重視和應用,很多領域提出了一系列社會問題的解決方案。針對這種應用的全國范圍內的比賽“apps for America”也已進行了兩屆。比如在航空運輸服務上,民間就有程序員利用它開發了航班延誤的免費查詢系統(http://flyontime.us/),任何旅客都可以查詢全國各航班的飛行時間和機場等候時間。其中,和航班相關的信息來源于美國交通部,安檢排隊等待的時間來源于普通旅行人員的提交。其帶來的管理功能有:一是可以幫助消費者找到表現最佳、或者符合自己需要的航班;二是最大程度降低了旅客等待時間的不確定性;三是有利用推動航空市場的良性競爭。
數據源目錄的管理
數據門戶首先要求對數據源進行分類和描述,并以數據目錄的形式發布政府數據。data.gov提供了三類目錄,它們是原始數據目錄、工具數據目錄、地理空間數據目錄。原始數據目錄下的數據源是指在滿足數據隱私、秘密、安全等要求下所能提供的最翔實的、能直接下載的數據,且具有機器可讀的格式。data.gov以原始數據的形式免費提供政務數據,其范圍涵蓋了美國人口特征統計數據、GIS地理信息,以及環保、教育、能源、地域、健康、法令相關主題的數據。工具數據目錄下的數據源是指與一定應用相關聯的數據,比如由交通統計署提供的編號為123的美國航班延誤數據集(Airline On-Time Performance and Causes of Flight Delays),公眾可以定制自己想要的任何查詢結果。地理空間數據目錄則同時包含與地理空間相關的原始數據和工具。
在每個目錄下數據源還按其所屬范疇進行劃分,提供了與職能部門有一定關系的分類準則,如地理與環境、人口等范疇。不能歸入相關范疇的,專門設置一個“其他”來容納。
對于原始數據目錄、工具數據目錄,data.gov是通過元數據目錄來進行管理的。一個元數據目錄下的目錄記錄大致有四部分組成,即目錄記錄頭、數據源地址、數據源域、相關文檔。其中數據源域又分為數據源本身描述和數據源機構描述兩部分。
在資源描述框架RDF文件格式下,目錄對應的項為
對關鍵詞的分析
在熟悉了元數據目錄下的目錄記錄的格式后,我們通過文件http://www.data.gov/ data_gov_catalog.csv對數據源記錄進行逐一的檢查。我們主要對數據源記錄中的三種描述信息即title、description、keywords進行了比較。在3533個記錄中,每一個記錄都有一個較為貼切的標題,有比較細致的文字描述來說明數據源的大致起因和目的。但對于keywords則出現了兩個比較嚴重的現象。
現象一是大量的數據源記錄中的關鍵詞是重復的。也就是兩個數據源記錄有不同的標題、描述,但卻對應著相同的關鍵詞集合。
現象二是關鍵詞的數目相差很大。有兩個關于核能的數據源記錄(2465、2466)沒有任何關鍵詞。而農業部給出的2007年農業調查數據集記錄(1425)有248個關鍵詞,更有甚者,農業部給出的關于1997、2002、2007三次五年調查數據集記錄(961)有330個關鍵詞。
為了對數據源記錄中關鍵詞數目的分布有一個全面的理解,我們首先將3533個記錄的關鍵詞抽取出來,將沒有關鍵詞和關鍵詞完全重復的記錄刪除,這樣得到1408個有獨立關鍵詞的記錄。關鍵詞數目介于1-50之間的記錄有1387個,其分布見圖1。
關鍵詞個數介于51-74之間記錄有10個;介于75-100之間有3個;介于101-150之間有6個,剩余兩個就是上面提到的農業部的數據源。
還有一些細微的問題有待改進的方面有,http://www.data.gov/details/6的描述的拼寫錯誤,將information寫為informaiton。http://www.data.gov/details/1446-1451為衛生與服務部下屬的醫療與醫療卡中心提供的數據,其關鍵詞不規范,關鍵詞之間的分隔為“;”。類似還有Broadcasting Board of Governors所提供的http://www.data.gov/details/2123、2125。http://www.data.gov/details/2644-2645、http://www.data.gov/details/1487為衛生與服務部下屬的 Administration on Aging中心提供的數據,其關鍵詞不規范,關鍵詞之間的沒有分隔。類似的還有總務署所提供的http://www.data.gov/details/4008,七個連在一起的詞應該為七個關鍵詞。http://www.data.gov/details/1490所包含的關鍵詞“Arts participation Arts audiences. United StatesArts, AmericanPublic opinion. United StatesArts. U.S. citizen participationArts surveys. United StatesLeisure. United States”,這應該是八個關鍵詞。
數據門戶網站和應用開發是當前發達國家在電子政務上所正在進行的工作。我們通過對數據目錄記錄的分析,認為在title、description、keywords三種描述信息中,keywords的設置是當前數據門戶網站的薄弱環節。這里data.gov還有許多工作可做。
我們知道keywords是由數據源提供機構在提交數據集時設定的,在公眾使用該數據集時可能給該數據集以不同的tag,且這樣的tag在公眾的使用中不斷得到豐富。結合原則4即漸進成長原則,通過tag來完善keywords是一個可行的方向。
(作者系廣東省電子商務重點實驗室研究人員,博士后)