完顏鄧鄧,宋 婷
政府數據開放是在保護國家安全、個人隱私和商業機密的前提下,政府利用集成的網絡平臺主動向公眾提供無需特別授權、可被機器讀取、能夠再次開發利用與分享數據的公共服務活動[1],是保障公民知情權,建設透明政府,提高政府工作效率,推動經濟增長的催化劑。自2009年1月美國推行開放政府計劃之后,英國、歐盟等國家和地區也相繼實施了推動政府數據開放和再利用的政策,建立政府數據開放平臺。此后,政府數據開放的浪潮在全球興起。2012年6月上海市率先上線試運行“上海市政府數據服務網”,隨后各地陸續建立起開放政府數據平臺。根據《2019年中國地方政府數據開放報告》,截至2019年10月底,我國已有102個地級及以上的地方政府上線了數據開放平臺[2]。數據開放再利用所產生的政治、經濟和社會效益有目共睹。然而,政府數據開放在產生巨大效益的同時,也存在潛在的風險。政府數據開放平臺是匯聚、展示、發布、傳播政府數據的窗口,其安全性不容忽視,如何防范平臺安全風險,既保護數據安全,又促進數據利用和數據紅利釋放,是一個值得關注的問題。本文選擇我國地方政府數據開放平臺作為研究樣本,測評政府數據開放平臺的安全風險現狀,分析導致風險的主要因素,發現現有安全措施的不足,為增強平臺安全防護提供參考。
自政府數據開放伊始,其面臨的障礙或風險即是不可回避的問題,已有較多論文進行研究。Janssen等[3]研究政府數據開放的好處和障礙,認為法律障礙涉及隱私、安全、使用許可、再利用的合同或協議等。Kucera等[4]確定了政府數據開放中的一系列相關風險,其中有違法發布數據、侵犯商業秘密、侵犯隱私權等,提出采取合規評估、數據匿名化等措施。Conradie等[5]調查地方公共部門組織,發現障礙包括數據安全、版權、隱私問題等。Shao等[6]分析公共和私營部門利益相關者對坦桑尼亞OGD計劃的反饋意見,發現該國建立健全的OGD,在組織、社會、法律和技術等方面存在障礙。Sadiq等[7]提出數據開放中存在質量不高且缺乏監督,元數據和數據語義缺失,數據誤用等風險。代佳欣[8]從解構政府數據開放全過程的角度分析政府數據開放籌備、實施和完善等三個階段蘊藏的風險,并提出防范策略。丁紅發等[9]從數據生命周期角度分析各個環節存在的數據安全和隱私保護問題。
政府數據開放中敏感數據的泄露與保護是一個研究重點,其中對個人隱私的關注最多,對國家秘密、商業秘密的研究較少。Zoonen[10]通過鹿特丹市的實例研究說明公眾對隱私的忽視這一問題。Janssen等[11]和Jaatinen[12]探討政府開放數據中的隱私保護和透明度的沖突,認為其受到立法、文化、價值觀等因素的影響。Meijer等[13]研究如何協調數據開放在透明度、隱私、安全和信任方面的矛盾,提出預承諾(precommitment)概念。Zuiderwijk等[14]設計出改進數據發布流程的五個原則,以解決侵犯隱私等問題。黃如花等[15]和尹正惠[16]從我國實際出發,分析了我國政府數據開放中的個人隱私保護問題。陳朝兵等[17]、陳美[18]、張曉娟等[19]調查了美英澳政府數據開放隱私保護的實踐,總結出可供中國借鑒的經驗。趙需要等[20]和吉倩雯[21]從理論上分析政府開放數據中個人隱私的評判指標、泄露的風險點、泄露的影響因素。僅有杜荷花[22]構建政府數據開放平臺用戶隱私保護評價指標體系,對81個政府數據開放平臺隱私保護現狀進行了評價。此外,政府數據開放商業秘密判定標準與保護策略[23-24];國家秘密的評判標準及國家秘密泄露的風險點[25]僅有少量文獻研究。
對政府數據開放平臺風險的研究主要是根據網站內容分析,總結風險。Martin等[26]通過對德國、英國、法國政府數據開放平臺的研究,得出開放數據的7類風險。黃思棉等[27]認為我國政府數據開放平臺存在著開放數據的范圍太窄、數據規模小,更新周期過長、影響數據的使用價值,數據含金量不夠、缺乏研究和挖掘的價值等方面的問題。楊瑞仙等[28]則認為存在著數據量少、實用性和規范性差,缺乏完善、系統的數據描述,缺乏完善、科學的分類體系,缺乏有效、豐富的互動交流等方面的問題。鄒東升[29]認為各政府數據開放平臺興建過程中,受到技術準備不充分、管理機制不完善等限制。黃如花等[30]則認為存在數據質量差、隱私泄漏、過度關聯分析等潛在風險。此外,楊瑞仙等[31]從政策體系、保障機制和公開系統這三個方面進行中外政府數據開放平臺的比較,發現中國政府數據開放平臺存在缺乏完善的制度體系、政策執行能力不足等問題。
從以上相關研究可知:關注政府數據開放發展,重視數據開放風險研究已成為共識,各方關注點主要集中于數據安全、隱私泄露與保護、法律制度等風險,專門針對政府數據開放平臺風險的實證研究較匱乏。盡管政府數據開放平臺不斷涌現,發展成效顯著,但仍存在諸多潛在風險阻礙其發展步伐。因此需要從評測平臺安全風險入手,有針對性地排除風險隱患,從而提高政府數據開放平臺的安全性,加速政府數據開放進程。
通過上述對研究的系統梳理,可知已有研究主要圍繞政府數據安全、隱私泄露與保護、法律制度、技術障礙等方面的風險展開,為我國地方政府數據開放平臺安全風險測評指標體系的設計提供一定參考。同時,筆者對各地方政府數據開放平臺的調查發現,平臺主要由數據、認證、應用、互動、開發、協議幾大功能模塊組成,其穩定運行與數據可用性、技術先進性、管理人員專業性、用戶可操作性、管理制度健全性以及法律制度的完整與規范性息息相關。因此,基于已有研究成果與調查結果,本文將政府數據開放平臺面臨的安全風險總結為數據風險、技術風險、管理風險、法律風險四方面。在科學性、可操作性、全面與重點相結合、定性與定量相結合原則的指引下構建指標體系。指標體系分為三個層級,包含一級指標4個,二級指標8個,三級指標26個(見表1)。

表1 政府數據開放平臺安全風險測評指標體系
(1)數據風險,即政府數據開放平臺向社會開放的各類數據本身問題而造成的風險。分為數據質量、數據開放兩個維度。
數據質量是指數據符合用戶的使用目的,能滿足業務場景具體需求的程度[32],包括優質數據、無低質數據、無問題數據三方面。優質數據是指數據容量大,社會需求高的數據集。無低質數據包括無低容量數據和無碎片化數據。低容量數據是指條數在兩行或兩行以內的數據集,或是數據量本身稀少,或是數據經統計歸總后顆粒度過大。碎片化數據是指按照時間、行政區劃、政府部門等被人為分割的數據集。無問題數據指的是無重復創建和無格式問題的數據[33]。各政府數據開放平臺擁有上述數據量越多,表明其數據質量越高,相應地,數據風險程度會降低。
數據開放是指平臺數據對用戶開放的形式和規則等。包括分級分類開放、數據集開放授權協議兩方面。分級分類是指將平臺大量無序數據按照資源類型、數據領域、提供部門、開放屬性、格式、安全級別等進行歸納劃分,對數據進行系統組織,提升數據管理與利用的效率。數據集開放授權協議是平臺授予用戶有關開放數據利用規則的協議,是規范用戶利用行為,防止數據濫用風險的有效條件。
(2)技術風險,指支撐政府數據開放平臺穩定運行的有關技術,如信息安全技術、元數據技術、數據規范技術等方面存在的風險。可分為平臺運行與平臺防護兩個維度。
平臺運行風險指平臺運行技術存在的漏洞,包括身份認證、接口訪問、下載格式三方面[34]。身份認證指用戶獲取平臺數據時提交個人身份信息進行注冊與認證,是提升用戶準入門檻,保證平臺有序運行的必要條件。接口訪問主要體現在平臺接口訪問的約束性與跳轉的有效性。下載格式是指平臺支持的數據下載格式的可用性與穩定性是不同的,按照關聯開放數據五星評價法的評價標準,可將常見的GIF、JEPG、PDF、XLS、CSV、JSON、XML、RDF、SPARQL、OWL等格式的可利用性從低到高進行評分。
平臺防護風險是指黑客攻擊、數據泄露與竊取對平臺防護系統提出的風險。可分為防止外界攻擊平臺的技術、防止數據泄露與竊取的技術兩方面,如數據脫敏、數據沙箱、數據加密、數據屏蔽等技術的運用[35]。
(3)管理風險,政府數據開放平臺的管理機制是約束平臺開放行為、防范平臺風險的有效手段。其風險可分為內部人員管理、用戶管理、運營管理三個維度。
內部人員管理是指管理機構對平臺工作人員的要求與規定,包括安全責任人與培訓考核兩方面。安全責任人指平臺的安全管理需要明確責任,防止平臺安全事件發生時,出現互相推諉責任的情況。培訓考核指管理機構的員工培養計劃,定期對其工作進行培訓與考核,強化平臺管理安全意識與服務能力。
用戶管理指平臺針對用戶開展的管理方式,體現在互動交流與開發利用兩方面。互動交流主要有平臺征集調查、用戶糾錯反饋、平臺回復等方式,是加強平臺與用戶兩者之間交流與聯系,發現與降低平臺風險的有效渠道。開發利用是指開發者(用戶)在平臺提供的開發中心提交應用申請前,平臺對應用安全的測試以及開發者姓名、聯系方式、數據來源等相關信息的收集,是降低數據應用風險的一道必要程序。
運營管理指對平臺運行的規范與約束,其風險與平臺安全保障機構的設立、平臺定期風險評估、應急預案制定、數據開放標準規范的實施、平臺年度工作計劃的公布息息相關[36]。
(4)法律風險,指保障平臺安全運營的法律條件的不完整與不規范方面的風險。主要體現為平臺協議的合規性。
合規性指政府數據開放平臺授予用戶數據使用權利的授權協議、用戶協議等制度的規范性問題,主要體現為敏感數據脫敏,分級開放與利用、非敏感數據開放與利用(個人隱私、國家秘密、商業秘密等敏感數據以外的數據),用戶權利與義務,用戶信息收集、使用與存儲,免責范圍,服務終止事由,協議更新通知等方面的規范程度。上述協議內容的規范程度與平臺法律風險呈負相關,規范性越高,法律風險則越低。
根據層次分析法的原理及步驟,筆者借助Yaahp軟件,首先構建了層次結構模型,生成ahp調查表;邀請5名從事政府數據開放研究的高校教師、5名政府部門分管數據開放工作的領導和工作人員,請其根據AHP(1-9標度)法對每個層次各項指標的相對重要性進行比較,進而構造兩兩比較判斷矩陣;并對判斷矩陣進行一致性檢驗。最后用加權幾何平均法對10個專家的意見進行綜合,最終得到如表2所示的評價指標權重計算結果。

表2 政府數據開放平臺安全風險測評指標權重
參考復旦大學數字與移動治理實驗室公布的《中國地方數據開放報告(2019年下半年)》開放數林綜合指數排名,選取省級與地級(含副省級)中分別排名前15的政府數據開放平臺為調查對象,排除4個未能獲取與判定的政府數據開放網站,調查對象共包括26個政府數據開放網站。
采用網絡調查法與內容分析法,逐一調查26個政府數據開放平臺有關風險內容(調查時間為2020年6月5日-7月10日)。基于各平臺對三級指標的符合程度進行評分,符合三級指標條件的則該項指標得1分,Hi=1,不符合的則賦值為零,Hi=0,不區分簡單與復雜性質。無法直接用“有”“無”判斷并賦分的特殊情況則基于各地在評估指標上的實際表現賦值為0-1分之間的數值作為該項得分,如下載格式按照數據集可重復利用性評分標準,GIF、JEPG、PDF格式分數為0.2分,XLS格式0.4分,CSV格式0.6分,JSON、XML格式0.8分,RDF、SPARQL、OWL格式為1.0分。設Ci為第i項三級指標的權重,則第i項的實際得分為Ti=Ci*Hi。相應的,該政府數據開放平臺安全風險水平得分T(換算為百分制)為:

3.2.1 整體情況:政府數據開放平臺安全風險防范整體水平欠佳,存在地區分化現象
由此次調查的26個政府數據開放平臺評價得分與排名可知(見表3),地方政府數據開放平臺安全風險平均得分為60.23分,近一半平臺綜合得分低于平均分,反映出我國地方政府數據開放平臺安全風險防范的整體水平偏低,大部分地方政府的安全意識有待加強。從城市行政級別來說,省級城市與地級(含副省級)的平均得分分別為60.16和60.30,總體得分差距很小,且地級(含副省級)的分數要稍高于省級。但從單個城市而論,分數80以上的兩個平臺都屬于省級城市,其中最高得分上海市有88.25分;而地級(含副省級)中,最高得分為深圳市78.73分。這說明省級城市的政府數據開放平臺安全風險問題發展的兩級分化現象比地級(含副省級)要更為凸出。從區域劃分來看,東部地區的平均得分明顯高于西部地區,分別為63.62分、54.24分,這反映出我國政府數據開放平臺的安全風險問題存在發展不平衡情況,部分平臺的建設起步晚,發展緩慢,其安全級別較低,風險問題較為突出。

表3 政府數據開放平臺安全風險評價得分與排名表
3.2.2 數據風險指標:高質量數據占比不高,數據集開放授權協議缺位
由表2可知,“數據風險”通過“數據質量”“數據開放”兩項二級指標來衡量,各二級指標又分別通過C1-C3與C4、C5這些三級指標來判定。本文借鑒《中國地方政府數據開放報告(2019下半年)》中數據質量指標評估方法,在已有調查結果的基礎上通過人工觀察分析來評判各政府數據開放平臺中是否存在優質數據、無低質數據與無問題數據。圖1顯示,在被調查平臺中,大多數都具有優質數據,即數據容量大、社會需求高的數據集,且集中于綜合指數排名靠前的平臺,優質數據集排名第一的平臺是山東,其次是煙臺、浙江、廣州。但無低質數據和無問題數據卻寥寥無幾,大部分平臺都存在按照時間、行政區劃、政府部門等被人為分割的碎片化數據集以及數據量為0和數據集名稱下沒有可供查看和下載的數據。以“經濟指標”為關鍵詞在各平臺上進行搜索,無法得到有效信息則更換關鍵詞,結果顯示僅有少數平臺如福建、青島、東莞沒有碎片化數據,經濟指標數據都是經過整合后才對外發布的。而滿足無重復創建、無生硬格式轉化、無無效數據集、無標題缺失或不清這些無問題數據條件的平臺同樣屈指可數。此外,針對C4分級分類開放指標,文章根據各平臺中數據分級分類設置的有無來進行評分,未細分多維度分類與簡單分類得分標準。由圖2可知,雖然各平臺都在不同形式上對數據集進行了分級分類,但所調查平臺把數據集開放以及用戶使用權利涵蓋在整個平臺的開放協議、使用條款或者隱私聲明中,專門針對數據集的開放授權協議嚴重缺位。以上表明,多數平臺在數據質量風險防范上仍存在薄弱環節,加大了隱私泄露等風險發生機率。

圖1 “數據質量”指標數據圖

圖2 “數據開放”指標數據圖
3.2.3 技術風險指標:平臺防攻擊、數據泄露與竊取技術的應用未得到普及
“技術風險”通過兩項二級指標“平臺運行”下的C6-C8與“平臺防護”下的C9、C10進行衡量。調查發現(見圖3),在平臺運行方面,幾乎所有平臺在提供數據免費下載前都會要求用戶以個人或機構賬號進行注冊登錄,以驗證用戶身份。僅“數據東莞”平臺沒有發現注冊登錄標識,用戶無需進行登錄也可下載數據。接口訪問上,大部分平臺都會提供有效的數據接口,只不過各平臺數量不一,僅“陜西省公共數據開放平臺”沒有提供數據接口。從下載格式上看,所調查平臺都有提供機讀格式,但只有極少平臺做到了XLS、XML、CSV、JSON、RDF等開放格式的全覆蓋。從圖4可知,在平臺防護方面,有約65%的平臺具備技術支持單位,提供防攻擊、防泄漏與竊取等技術支持,而仍有約35%的平臺并未重視防攻擊、防泄漏與竊取技術的應用,平臺防護得不到技術保障。

圖3“平臺運行”指標數據圖

圖4“平臺防護”指標數據圖

圖5“內部人員管理”指標數據圖

圖6“用戶管理”指標數據圖
3.2.4 管理風險指標:平臺運營管理缺乏有效標準規范與工作計劃
“管理風險”通過“內部人員管理”“用戶管理”“運營管理”三項二級指標來衡量,其中“內部人員管理”通過C11與C12衡量,“用戶管理”通過C13與C14衡量,“運營管理”通過C15-C19衡量。政府數據開放平臺的正常運行與安全防范需要各方面管理的有效配合。調查顯示,內部人員管理上(見圖5),大多平臺重視對員工的專業技能和知識的培訓考核,但缺乏明確安全負責人,或是未對外公布而無從查詢。用戶管理方面(見圖6),各平臺都有專門的互動交流通道,供用戶進行評分、反饋、糾錯、建議等,通過了解用戶的體驗感與使用感排查平臺各方面安全風險。此外,各平臺基本都支持用戶對平臺數據進行開發利用,建立開發者文檔幫助用戶掌握開發流程,并在用戶發布應用前進行審核以保障應用App的安全性。在運營管理上(見圖7),各地區多以大數據管理局、或是政府機關下內設機構作為專門的平臺安全保障機構。部分平臺發布的政府網站工作年度報表中,對安全檢測評估次數、應急演練的有無進行了統計,但也存在多數平臺年度報表未對外發布的情況,風險評估、應急預案指標無從得知。在數據開放標準規范、平臺年度工作計劃兩項指標上,只有上海市公共數據開放平臺全部符合。以上信息說明我國大部分政府數據開放平臺在內部人員管理及平臺運營管理上還有諸多安全漏洞未得到有效解決。
3.2.5 法律風險指標:平臺協議內容合規度有待進一步完善
“法律風險”通過二級指標“合規性”下的7個三級指標C20-C26來衡量。平臺協議通常以使用條款、網站聲明、服務協議等為表現形式。協議主要內容包括平臺所提供服務介紹、平臺權利與義務、用戶權利與義務、免責范圍、隱私聲明等。由調查數據可知(見圖8),在各平臺的協議內容中,對用戶權利與義務、用戶信息收集、使用與存儲以及免責范圍都做了詳細規定,只有極個別平臺協議中未全部包含。與之相反的是,平臺鮮有對敏感數據脫敏、分級開放與利用的說明,且只有少部分平臺設置無條件開放、有條件開放這一分類標準。此外,多數平臺協議內容中提到服務終止事由,即在任何情況下,當網站合理地認為用戶的行為可能違反法律、法規,可以在任何時候,終止向該用戶提供服務,并通知用戶。并提到一旦發生用戶協議的條款變動,將及時發出協議更新通知,在網站頁面上提示修改內容。由此可知,我國政府數據開放平臺協議內容在各項合規性指標上缺乏一定的完整度,尤其在對敏感數據的處理上需要完善。

圖7“運營管理”指標數據圖

圖8“合規性”指標數據圖
在我國政府數據開放平臺建設飛速推進的同時,安全風險突顯,以數據、技術、管理、法律四類風險為主,且存在較大的區域差異與部分功能服務缺位現象,阻礙政府數據開放平臺有序發展。本文從四個風險角度提出加強政府數據開放平臺安全風險防范的建議。
其一,從數據風險角度出發,應提升開放數據中高質量、高需求的優質數據集比例,尤其是以API接口形式開放的實時動態的、大容量的數據集。減少碎片化、低容量的低質數據集,定時剔除重復、無效數據集,集中清理碎片化、限制型和無效API接口,保持開放數據集的持續增長與動態更新[37]。注重規范數據審查流程,將自動化檢查與人工審核有效結合,提高開放數據集的整體質量水平,實現高效利用。此外,推進數據集開放種類的多樣化與精細化,標注開放類型,在參考國際現行的開放政府協議的基礎上,根據中國當前平臺發展現狀與社會法律環境,制定兼具適用性、針對性的數據集開放授權協議。
其二,從技術風險角度看,重視用戶賬戶注冊中密鑰、驗證碼等的使用,強化賬戶密保等級,利用人臉識別、指紋識別技術驗證個人身份,強調實名認證,保障賬戶安全。降低申請API接口難度,為API接口使用提供詳細具體的使用說明及操作指南,降低因操作失誤而導致數據泄露的風險。API接口響應的速度與準確性問題也同樣不容忽視。還應努力做到開放數據集可機讀格式、非專屬格式的全覆蓋,減少結構化的DOC、PDF等文件的使用,提升RDF格式比例。同時,要加強與技術支持單位的開發合作,攻克風險管控核心技術難關,構筑數據開放技術防范體系,提高政府應對突發防范事件的技術支撐能力。普及數據脫敏、數據沙箱等數據安全技術的應用,并建立統一的脫敏標準,以防脫敏度過高降低數據利用價值,過低則無法保障用戶隱私。
其三,從管理風險看,一是明確牽頭負責數據開放的機構,賦予足夠的職權以統籌協調各部門數據,逐漸打造政府數據開放的動態治理模式,根據國家政策標準以及政府數據資源自身屬性與具體內容進行動態管理。建立專人專崗的管理制度,明確分工與職責,制定數據開放培訓計劃,定期對內部工作人員開展培訓考核,并納入公務員培訓工作體系,提高有關工作人員的專業技能與職業素養。二是加強宣傳教育,強化用戶在數據訪問、獲取、利用、共享過程中的危機與權利意識,并在平臺開發利用版塊提供數據發布者聯系方式與智能客服,及時回復用戶評價、建議、糾錯等反饋信息,從中總結改進。三是重視發揮第三方監督的作用,聯合司法機關、社會媒體與公眾的力量,形成協同監督機制,打造緊密交織的監督網,以督促各平臺定期開展應急演練與風險評估。四是建立公共數據開放安全預警機制,對敏感數據泄露等異常情況進行實時監控,確保數據開放工作安全有序進行。此外,制定并公布針對數據開放的年度工作計劃以及為政府數據開放提供指導的標準規范。
其四,從法律風險角度來說,首先,法規與政策方面,加快規范政府數據開放的地方性法規、地方政府規章或規范性文件的制定與出臺步伐,對數據開放方式、范圍、開發利用、安全保護、保障渠道等方面做出明確的規定和要求,厘清數據開放與信息公開對象、概念與形式邊界,對隱私泄露、數據竊取、黑客攻擊等行為進行有效規制。其次,平臺協議合規性方面,確定政府數據開放的優先級,明確敏感數據與非敏感數據的劃分標準,并對其分級開放與利用作出詳細說明。同時,平臺協議內容的完整度上,需重視補充與完善用戶權利與義務、用戶信息收集、使用與存儲、免責范圍、服務終止事由、協議更新通知等方面內容,防止因法律內容漏洞而引發風險。
隨著政府數據開放實踐的深入推進,政府數據開放平臺不斷涌現,數據開放利用持續深化,數據風險、隱私泄露等安全問題愈發凸顯。以往對政府數據開放評估的研究,側重于評估平臺績效、平臺可用性、數據質量等方面,對于政府數據開放中的安全風險缺少深入論證。本文聚焦于政府數據開放平臺的安全風險,基于所構建的評價指標體系,抽樣評估了我國26個地方政府數據開放平臺的安全風險,發現地方政府數據開放平臺安全風險防范的整體水平欠佳,在數據、技術、管理、法律方面仍面臨嚴峻挑戰,據此提出了針對性策略,對于解決我國地方政府數據開放平臺現存風險漏洞,提高政府數據開放平臺的安全性具有參考價值。我國各地方政府在平臺建設中應努力平衡數據開放與風險防范之間的關系,逐步加強上述四個維度的安全等級,促進數據紅利釋放。