????????
辛省志
在2020年7月10日舉行的2020世界人工智能大會云端峰會數據智能主題論壇上,上海市宣布將針對防疫復工、衛生健康、交通出行等7個重點領域進一步加強公共數據資源開放力度,計劃到年底開放數據累計達到5000項。當天上海市還啟動了2020上海開放數據創新應用大賽,以豐厚的獎金鼓勵對開放數據的分析和應用進行創新。
公共數據,指的是政府機關以及受公共財政支持的服務機構等在履職過程中所采集和產生的各種數據。2016年,國務院總理李克強曾在中國大數據產業峰會上指出,“數據就像一個鉆石礦”,而中國超過80%的數據在政府手中,應該推動政府數據開放和利用。
公開公共數據,鼓勵各方利用人工智能等大數據技術對這些數據進行創新性的分析研究和應用,可能為改善公共服務提出有效的解決方案。當有足夠多的數據被公開后,將不同數據聯系起來進行交叉分析,就有可能得出各種有價值的應用。在2019年深圳開放數據創新應用大賽中,就出現了“小區羅盤(根據政府開放數據,為租房者提供房屋周邊交通、醫療等全方位信息)”“城市火災隱患動態預測系統”等應用。
公共數據公開應貫徹平等原則,確保所有主體都能夠以平等的條件獲取數據。對公共數據的挖掘和利用可能產生巨大的商業價值。正因為如此,李克強總理才將其稱為“鉆石礦”,數據也才被當做與土地、勞動力、資本、技術等并列的生產要素之一。而政府部門作為這一礦藏的最大生產者,應保證所有合格的市場主體,能夠平等參與對數據價值的發掘。這里的合格,只應該是技術性的,比如能夠保證數據的安全,而與市場主體的大小、所有制性質等無關。
如果沒有公開數據,那就只有少數大公司有可能與部分公共機構達成合作協議,獲得相關數據進行分析應用,而小公司則無法獲得數據。而在市場主體與公共機構私下合作的過程中,還可能產生尋租。這不是公平的市場競爭環境。
當然,公共數據公開,必須保護好公民的個人信息和隱私。個人信息泄露已經成為信息時代最大的安全隱患。而政府部門掌握的信息,有不少是與財產、健康情況等敏感的個人信息相關聯的。一般來說,大數據信息應該做脫敏處理,刪除能夠聯系到具體個人的信息后才可以公開。但是如果公開的信息粒度太小,過于細致的信息,還是有可能通過反推、與其他數據的交叉驗證等方法將數據與具體個人聯系起來。這就需要在公開時權衡數據公開的價值和潛在風險,合理設置公開數據的粒度,盡可能減少從匿名信息反推出個人的可能。此外,也應該立法禁止對公開數據進行反推處理以關聯到個人,一旦觸犯就要嚴厲處罰,并對個人信息被侵犯的個人予以補償。
另外,作為個人信息的最終擁有者,個人是否有權要求將個人信息從公共數據中刪除,也是有爭議的問題。歐盟的通用數據保護條例(GDPR)規定了用戶的“被遺忘權”,商業公司需要獲得用戶的明確授權才可以收集和處理用戶信息,用戶有權要求將個人信息從數據中刪除。但是這主要是針對數據的商業處理而言的,GDPR還規定,基于公共利益或者法定義務等特殊需求,在對數據處理之前,可以不需要數據主體的同意。這是出于盡可能保證數據完整性的考慮,因為如果需要獲取信息主體的同意,數據就無法覆蓋那些不同意的主體,以這些不完整的數據為基礎進行挖掘分析,得出的結論可能不正確,對政策制定等產生誤導。在中國的公共數據公開中,這一問題也是需要考慮的,應該通過社會公開討論達成共識。
而對于部分必須關聯到具體個人的數據應用,比如為促進信貸審核便利而共享個人稅收、社保、公積金、水電費賬單等經濟狀況、信用有關的數據,必須對數據的使用者和使用過程進行嚴格的限制和監督,確保使用者不濫用公民的個人數據。