田淼 田繼亮
(1.蘭州理工大學(xué) 甘肅省蘭州市 730050 2.深圳市華傲數(shù)據(jù)技術(shù)有限公司 廣東省深圳市 518110)
大數(shù)據(jù)時(shí)代的到來,全球數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長(zhǎng),據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測(cè),全球數(shù)據(jù)量大約每?jī)赡攴环琜1]。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和社會(huì)治理要求的不斷提升,世界各國政府和組織對(duì)此有著高度的認(rèn)識(shí),紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競(jìng)爭(zhēng)制高點(diǎn)的重要抓手,積極推動(dòng)實(shí)施大數(shù)據(jù)技術(shù)的研發(fā)和應(yīng)用落實(shí)[2]。因此,深入探究政務(wù)數(shù)據(jù)清洗融合技術(shù),構(gòu)建政務(wù)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)標(biāo)準(zhǔn)體系,對(duì)解決政務(wù)數(shù)據(jù)清洗融合的難題,貫徹國家政務(wù)大數(shù)據(jù)戰(zhàn)略具有重要的實(shí)踐意義[3]。
建立政務(wù)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系。基于智慧城市中各類專題庫,對(duì)現(xiàn)有的國家、地方、行業(yè)等標(biāo)準(zhǔn),結(jié)合省、市等地方標(biāo)準(zhǔn)進(jìn)行標(biāo)準(zhǔn)編碼。對(duì)于當(dāng)前尚無標(biāo)準(zhǔn)的政務(wù)數(shù)據(jù),根據(jù)具體項(xiàng)目的建設(shè)要求,制定對(duì)應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,以確保數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一,保證數(shù)據(jù)在不同政府部門間的共享、交換。
建立數(shù)據(jù)質(zhì)量管控體系。對(duì)政務(wù)數(shù)據(jù)做到全生命周期的質(zhì)量管控,完善數(shù)據(jù)質(zhì)量稽查規(guī)則,借助數(shù)據(jù)稽查、數(shù)據(jù)質(zhì)量評(píng)分和質(zhì)量工單等功能,對(duì)問題數(shù)據(jù)進(jìn)行“及時(shí)發(fā)現(xiàn)—快速反饋—高效修復(fù)”的數(shù)據(jù)回路管理[4]。
完善技術(shù)支撐體系。針對(duì)政務(wù)數(shù)據(jù)結(jié)構(gòu)多樣、數(shù)據(jù)量龐大、質(zhì)量低下、敏感性強(qiáng)等特點(diǎn),選取專業(yè)的大數(shù)據(jù)領(lǐng)域數(shù)據(jù)倉庫代替?zhèn)鹘y(tǒng)的數(shù)據(jù)庫優(yōu)化數(shù)據(jù)存儲(chǔ),在數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、加載(Load)的過程中優(yōu)化ETL 過程提升融合效率,運(yùn)用加密算法對(duì)敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)加密保證數(shù)據(jù)的安全性。
根據(jù)智慧城市政務(wù)數(shù)據(jù)融合需求,結(jié)合實(shí)際業(yè)務(wù)場(chǎng)景,從政務(wù)數(shù)據(jù)創(chuàng)新應(yīng)用的角度,提出了政務(wù)數(shù)據(jù)清洗融合系統(tǒng)的設(shè)計(jì)框架(圖1 所示)。
政務(wù)數(shù)據(jù)的生命周期是數(shù)據(jù)融合的時(shí)間標(biāo)尺,數(shù)據(jù)融合服務(wù)于政務(wù)數(shù)據(jù)的全生命周期,有效進(jìn)行政務(wù)數(shù)據(jù)的全生命周期管理,是保障政務(wù)數(shù)據(jù)有序梳理、高效融合的基礎(chǔ)。全生命周期管理分為技術(shù)域管理和業(yè)務(wù)域管理兩方面,技術(shù)域管理按照數(shù)據(jù)建模、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)調(diào)度等數(shù)據(jù)融合的流程建立時(shí)序里程管理;業(yè)務(wù)域管理按照政務(wù)業(yè)務(wù)流程建立業(yè)務(wù)里程管理。
相對(duì)于某一特定領(lǐng)域的數(shù)據(jù),政務(wù)數(shù)據(jù)具有結(jié)構(gòu)多樣、數(shù)據(jù)量龐大、質(zhì)量低下、敏感性強(qiáng)等特點(diǎn)。針對(duì)政務(wù)數(shù)據(jù)的特點(diǎn),相較于傳統(tǒng)的數(shù)據(jù)融合技術(shù),采用Hbase、Hive 和Mppdb 等大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)倉庫來代替?zhèn)鹘y(tǒng)的Mysql、Sql Server 等輕量級(jí)數(shù)據(jù)庫,提升海量結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化政務(wù)數(shù)據(jù)的存儲(chǔ)和查詢效率;引入Kettle 等ETL 工具,針對(duì)不同的數(shù)據(jù)格式,運(yùn)用分布式并行流程代替?zhèn)鹘y(tǒng)的串行流程,提高數(shù)據(jù)抽取、轉(zhuǎn)換、加載過程中的效率;對(duì)例如身份證號(hào)等敏感數(shù)據(jù),借助Base64 和MD5 等加密算法,在保證數(shù)據(jù)唯一性的同時(shí),對(duì)敏感數(shù)據(jù)進(jìn)行脫敏處理。

圖1:政務(wù)數(shù)據(jù)清洗融合系統(tǒng)框架

圖2:政務(wù)數(shù)據(jù)融合流程
由于政務(wù)業(yè)務(wù)部門眾多,業(yè)務(wù)系統(tǒng)繁雜,導(dǎo)致各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)源的多樣性,存在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等結(jié)構(gòu)各異的數(shù)據(jù)。清洗融合系統(tǒng)根據(jù)不同數(shù)據(jù)源的情況,選擇不同的數(shù)據(jù)對(duì)接方式,通過庫-庫對(duì)接或庫-表對(duì)接等方式,有效對(duì)數(shù)據(jù)源進(jìn)行管理,完成數(shù)據(jù)歸集,從而解決不同數(shù)據(jù)源的數(shù)據(jù)異構(gòu)問題。
政務(wù)數(shù)據(jù)有極高的敏感性和保密性,且蘊(yùn)含著巨大的價(jià)值,數(shù)據(jù)安全問題也掣肘著電子政務(wù)的發(fā)展。在智慧城市數(shù)據(jù)融合項(xiàng)目的實(shí)際建設(shè)中,安全標(biāo)準(zhǔn)規(guī)范主要包括以下幾點(diǎn):
(1)按照國務(wù)院辦公廳電子政務(wù)辦公室發(fā)布的《國家政務(wù)服務(wù)平臺(tái)安全接入檢測(cè)要求》,構(gòu)建等保三級(jí)以上的數(shù)據(jù)安全防控體系。
(2)根據(jù)實(shí)際業(yè)務(wù)需求,針對(duì)不同系統(tǒng)用戶,分配相應(yīng)的操作權(quán)限。
(3)對(duì)系統(tǒng)用戶的所有操作實(shí)時(shí)監(jiān)控,并對(duì)刪除等高危操作進(jìn)行告警,所有的操作均形成系統(tǒng)審計(jì)日志,完善數(shù)據(jù)溯源問責(zé)機(jī)制。
(4)對(duì)系統(tǒng)進(jìn)行高可用雙機(jī)部署,定期對(duì)數(shù)據(jù)進(jìn)行備份,謹(jǐn)防突發(fā)情況下的數(shù)據(jù)丟失。
(5)提供數(shù)據(jù)脫敏、水印功能和數(shù)字簽名功能,確保敏感數(shù)據(jù)的隱私安全。
政府業(yè)務(wù)部門眾多,存在跨層級(jí)、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的各種業(yè)務(wù)系統(tǒng),數(shù)據(jù)間的異構(gòu)現(xiàn)象嚴(yán)重,數(shù)據(jù)質(zhì)量參差不齊,因此構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,是各級(jí)政府部門實(shí)現(xiàn)信息互通、數(shù)據(jù)共享、協(xié)同辦公的基礎(chǔ)。在智慧城市的數(shù)據(jù)融合過程中,需做到以下數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范:
(1)元數(shù)據(jù)標(biāo)準(zhǔn)。采集全生命周期的元數(shù)據(jù),針對(duì)全域元數(shù)據(jù),按照建設(shè)需求和實(shí)際情況,進(jìn)行長(zhǎng)度、唯一性、重復(fù)性、非空性、最大/小值、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)核查,并生成數(shù)據(jù)表之間的元數(shù)據(jù)地圖,對(duì)元數(shù)據(jù)質(zhì)量和走向進(jìn)行集中管理。
(2)數(shù)據(jù)編碼標(biāo)準(zhǔn)。對(duì)現(xiàn)有的國家、地方、行業(yè)等標(biāo)準(zhǔn),結(jié)合省、市等地方標(biāo)準(zhǔn)以及實(shí)際建設(shè)需求,進(jìn)行標(biāo)準(zhǔn)編碼,形成數(shù)據(jù)編碼字典,確保數(shù)據(jù)編碼標(biāo)準(zhǔn)的統(tǒng)一。
(3)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。針對(duì)不同數(shù)據(jù),配置相應(yīng)的SQL 規(guī)則、值域規(guī)則、正則規(guī)則等數(shù)據(jù)質(zhì)量稽查規(guī)則,對(duì)數(shù)據(jù)的重復(fù)性、唯一性、準(zhǔn)確性、時(shí)效性等指標(biāo)進(jìn)行數(shù)據(jù)稽查,生成質(zhì)量評(píng)分。對(duì)于可用技術(shù)手段修復(fù)的數(shù)據(jù),借助數(shù)據(jù)清洗規(guī)則和ETL 工具等技術(shù)方法進(jìn)行數(shù)據(jù)修復(fù);對(duì)于不可用技術(shù)手段修復(fù)的數(shù)據(jù),通過數(shù)據(jù)工單形式進(jìn)行數(shù)據(jù)溯源的人工修復(fù)。
(4)數(shù)據(jù)流程標(biāo)準(zhǔn)。按照時(shí)序的先后,政務(wù)數(shù)據(jù)融合主要遵循流程如圖2 所示。
歷史層在最靠近數(shù)據(jù)源的位置,在不對(duì)歷史數(shù)據(jù)進(jìn)行任何處理、保證政務(wù)數(shù)據(jù)全生命周期完整性的情況下,對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)分析與建模,要點(diǎn)如下:
(1)在對(duì)歷史數(shù)據(jù)進(jìn)行建模前,需參考業(yè)務(wù)屬性,分析數(shù)據(jù)對(duì)于智慧城市建設(shè)的重要程度。對(duì)于公安局、民政局、住房和城鄉(xiāng)建設(shè)局、市場(chǎng)監(jiān)督管理局、經(jīng)濟(jì)發(fā)展局等包含大量人口、法人、房屋、經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),劃分為核心數(shù)據(jù);其余數(shù)據(jù)劃分為輔助數(shù)據(jù)。按照數(shù)據(jù)的重要程度,為每個(gè)業(yè)務(wù)數(shù)據(jù)分配屬性權(quán)重,確保對(duì)于數(shù)據(jù)質(zhì)量的控制需求。
(2)在對(duì)歷史數(shù)據(jù)進(jìn)行建模時(shí),針對(duì)不同數(shù)據(jù),確定數(shù)據(jù)的數(shù)據(jù)類型、長(zhǎng)度、增量/全量抽取、數(shù)據(jù)更新頻率,在合理分配存儲(chǔ)空間的前提下,保證數(shù)據(jù)的時(shí)效性。
清洗層是數(shù)據(jù)清洗融合的核心部分,清洗融合的數(shù)據(jù)與政務(wù)業(yè)務(wù)緊密相關(guān),包括數(shù)據(jù)字典映射、數(shù)據(jù)格式轉(zhuǎn)換、潛在數(shù)據(jù)提取、業(yè)務(wù)數(shù)據(jù)核檢、數(shù)據(jù)關(guān)聯(lián)。要點(diǎn)如下:
2.7.1 數(shù)據(jù)字典映射
根據(jù)數(shù)據(jù)編碼規(guī)范,建立數(shù)據(jù)字典編碼,形成數(shù)據(jù)與編碼的鍵值對(duì)(key-value)映射,通過數(shù)據(jù)字典關(guān)聯(lián)出與代碼數(shù)據(jù)項(xiàng)對(duì)應(yīng)的數(shù)據(jù)。例如,我們想要將表示性別“女”的數(shù)據(jù)都轉(zhuǎn)化成國家標(biāo)準(zhǔn)編碼“02”,需建立一個(gè)數(shù)據(jù)字典映射,其中“鍵”的取值是所有性別“女”不同表示方式的集合,“值”是最終需要統(tǒng)一的“02”:
“女性” → “02”
“女” → “02”
“woman” → “02”
“famale” → “02”
2.7.2 數(shù)據(jù)格式轉(zhuǎn)換
將同一類型、不同格式的數(shù)據(jù),配置清洗規(guī)則,通過ETL 過程,轉(zhuǎn)換形成相同的數(shù)據(jù)格式,以時(shí)間類型數(shù)據(jù)為例:
“2000年1月1日” → “2000-01-01”
“20000101” → “2000-01-01”
“2000.1.1” → “2000-01-01”
2.7.3 潛在數(shù)據(jù)提取
針對(duì)源數(shù)據(jù),通過技術(shù)手段提取數(shù)據(jù)中心存在的潛在數(shù)據(jù),提升數(shù)據(jù)的完整性。以身份證號(hào)為例,1-6 位可提取區(qū)劃代碼,7-14位可提取出生日期,第17 位可提取性別。
2.7.4 數(shù)據(jù)關(guān)聯(lián)
根據(jù)專題庫的模型,將清洗標(biāo)準(zhǔn)化后的來源數(shù)據(jù)基于核心數(shù)據(jù)進(jìn)行關(guān)聯(lián),根據(jù)數(shù)據(jù)的業(yè)務(wù)屬性匯聚形成多個(gè)窄表,每一個(gè)表只存儲(chǔ)某個(gè)業(yè)務(wù)屬性的數(shù)據(jù)。此時(shí)表與表之間的數(shù)據(jù)不冗余,源與源之間的數(shù)據(jù)是冗余保存的,這樣既保證了靈活性,又使得數(shù)據(jù)溯源變得非常方便。
專題庫在智慧城市的建設(shè)中起到了承上啟下的作用。專題庫根據(jù)建設(shè)需求,構(gòu)建人口、法人、房屋、網(wǎng)格、宏觀經(jīng)濟(jì)等主體指標(biāo),基于清洗之后的核心數(shù)據(jù)關(guān)聯(lián),結(jié)合UC 矩陣的思想進(jìn)行數(shù)據(jù)合并和去重的處理,針對(duì)各個(gè)政務(wù)部門數(shù)據(jù)的權(quán)威性進(jìn)行優(yōu)先級(jí)的配置,減少數(shù)據(jù)沖突,解決了數(shù)據(jù)的多義性,提升數(shù)據(jù)的準(zhǔn)確性,是政務(wù)數(shù)據(jù)清洗融合后按專題指標(biāo)進(jìn)行的集中展示,也為數(shù)據(jù)下一步使用做好鋪墊。
政務(wù)數(shù)據(jù)清洗融合系統(tǒng)的設(shè)計(jì),運(yùn)用大數(shù)據(jù)倉庫、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等前沿技術(shù),對(duì)各個(gè)政務(wù)部門數(shù)據(jù)資源進(jìn)行有效整合,針對(duì)存在的問題,將大數(shù)據(jù)技術(shù)與政務(wù)業(yè)務(wù)相結(jié)合,提出了政務(wù)數(shù)據(jù)清洗融合平臺(tái)的設(shè)計(jì)框架,該框架緊密聯(lián)系實(shí)際業(yè)務(wù)需求,優(yōu)化了數(shù)據(jù)的存儲(chǔ)、抽取、加載過程,明確了數(shù)據(jù)流程走向,有助于建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機(jī)制[5],對(duì)智慧城市中的數(shù)據(jù)融合具有實(shí)踐價(jià)值和參考意義。