漆源 王非函 高洪美 李令鑫
摘 要:公共安全是大數據重要的應用場景之一,建立有效的數據質量評估方法體系是提高數據化建設成效、規范數據質量的必然要求。在數據質量評估的過程中,不僅要關注原始質量,還需要注重表達質量和使用質量。為實現數據質量定量評價,本文提出一種基于層次分析法的公共安全大數據質量評價方法,通過建立數據質量評價指標體系,利用層次分析法計算各評價指標的相對權重值,經綜合評價函數得出數據質量綜合得分。實例分析表明,該方法能夠準確地定量評估公共安全大數據的質量水平。
關鍵詞:公共安全大數據;數據質量;評價指標體系;層次分析法
中圖分類號:TP309 文獻標識碼:A 文章編號:2096-4706(2019)03-0139-04
Research on Data Quality Assessment for Big Data in Public Safety Based on
Analytic Hierarchy Process
QI Yuan1,WANG Feihan1,GAO Hongmei2,LI Lingxin2
(1.Science and Technology Management Section of Science and Technology Division,Shanghai Public Security Bureau,Shanghai 200040,China;2. Shanghai Computer Software Technology Development Center,Shanghai 201112,China)
Abstract:Public safety is one of the important application scenarios of big data. It is necessary to establish effective data quality assessment methods for improving data construction effectiveness and standardizing data quality. In the process of data quality assessment,attention should be paid not only to the original quality,but also the expression quality and using quality. For quantitatively evaluating data quality,proposes a method of evaluating data quality for big data in public safety based on analytic hierarchy process (AHP). Establishing evaluation index system of data quality,calculating the relative weight of each evaluation index by analytic hierarchy process (AHP),and the comprehensive score of data quality is calculated by comprehensive evaluation function. The example shows that this method can quantitatively and accurately evaluate the quality of big data in public safety.
Keywords:big data on public safety;data quality;evaluation index system;AHP
0 引 言
自2015年起,我國陸續出臺《促進大數據發展行動綱要》《關于積極推進“互聯網+”行動的指導意見》《關于加快推進“互聯網+政務服務”工作的指導意見》等政策文件,逐步引領我國走向數字化強國。公共安全是大數據重要的應用場景之一,其數據化轉型的不斷推進及業務的快速發展積累了海量的信息和數據(如案件筆錄、痕跡物證、社會采集等)[1-4]。公共安全領域對數據的管理與應用已經超越了傳統的備份需求,面臨缺乏共享性、處理能力差、需求不斷增強等問題的挑戰,提高數據化建設成效,規范數據質量迫在眉睫,建立有效的數據質量評估方法體系成為必然趨勢。
數據質量評估是一項系統工作,涉及諸多方面。目前大數據質量評估工作多依托于具體行業及崗位,缺乏統一的評估體系[5-7]。本文采用層次分析法對公共安全大數據質量進行評價,通過建立一套完善的數據評價指標體系,確定指標相對權重值,經過綜合評價函數得出數據質量綜合得分,最后通過實例分析說明該方法用于公共安全大數據質量評價的可行性。
1 公共安全大數據質量評價指標體系
1.1 評價維度
大數據生命周期涵蓋范圍定義、采集、存儲、整合、呈現、分析、歸檔與銷毀的完整過程,數據質量受多方面、多層次因素影響,數據質量評估既需考慮其準確性、完整性和時效性等基本要素,也需要綜合考量使用效果和表達質量。影響因素并非越多越好,為了能夠簡潔高效地評估數據質量,需篩選出具有代表性的核心要素作為主要維度,同時盡可能減少不同要素之間的相關性。本文從數據生命周期出發,綜合考慮多方面因素,將原始質量、使用質量和表達質量作為數據質量的主要維度[5,6,8]。
(1)原始質量。原始質量是指數據本身應當具有的屬性,包含準確性、完整性和時效性等基本要素。準確性是指數據正確,符合標準,真實反映原始世界,這是數據的根本使命;完整性指的是數據信息不存在缺失的狀況,數據缺失的情況可能是結構缺失、記錄缺失,也可能是數據中某個字段信息的缺失,不完整數據的借鑒意義就會大大降低;時效性是指數據從產生到能夠查看的時間間隔以及涵蓋的時間跨度。如果數據更新較慢,建立時間過久,其分析結論的價值將大打折扣。
(2)使用質量。大數據時代,數據管理與應用遠不止備份,高質量數據應當能夠便捷共享且安全存儲[9,10]。共享性是指數據獲取、編輯、查看的難易程度,高度共享的數據應當具有明確的權限、數據本身相對穩定,且能夠兼容各類設備;安全性是指數據被分類存儲、不受外界擾動的能力,包含軟件安全和硬件安全兩個層面。
(3)表達質量。公共安全領域的數據具有鮮明的文本特色,表達質量顯著影響其價值和應用程度。表達質量包含易懂性和一致性兩個層面。易懂性是指數據所包含的信息邏輯清晰、簡明扼要。數據質量的一致性首先體現在數據記載的規范性和數據的邏輯性。規范性是指數據存在于特定格局中。邏輯性指的是數據間存在著固定的邏輯關系。此外,數據變更應具有同步性。
1.2 評價指標體系
以三個主要評價維度為框架,本文基于完整性、準確性、時效性、共享性、安全性、易懂性、一致性等原則,將原始質量、使用質量和表達質量三個維度進行了進一步細分,得到公共安全大數據質量評價指標體系,如圖1所示。
該指標體系適用范圍廣,各行業或組織機構可根據自身需求及特點,對其進行適當地擴展或調整。
2 層次分析法
層次分析法[11,12](Analytic Hierarchy Process,AHP)是一種將定量分析與定性分析有機結合的多維分析決策法,也稱層級分析法,由美國匹茨堡大學運籌學家T.L.Saaty教授于20世紀70年代初提出。該法將復雜問題分解成若干個小系統,并按隸屬關系分組,形成包含準則層、中間要素層及備選方案的階梯型架構,根據決策者的經驗來判斷各因素之間的相對重要性,最終確定方案的排序。
層次分析法已廣泛應用于決策、預測、評估等方面,成為系統工程中的常用方法之一。高起蛟等[13]應用層次分析法對原始數據報表進行篩選,并將其按數據質量進行排序。徐清等[14]將層次分析法運用于地方性銀行業金融機構企業征信系統數據質量的分析和評價,以期為人民銀行分支機構征信管理部門數據質量核查、管控提供參考。孫宏艷等[15]利用層次分析法的基本原理構建齊齊哈爾市統計數據質量評估體系和模型,以某數控裝備公司近三年上報統計數據為例,驗證其正確性。張彥等[16]使用層次分析法確定空間數據質量評價元素,有效提高了空間數據質量評價的量化程度。胡意新等[17]基于層次分析法建立了水電工程重大件設備運輸方案的數學模型,以敦化抽水蓄能電站重大件運輸線路的選擇為例進行分析,得到運輸路線的最佳方案。
由此可見,層次分析法操作性強、適用范圍廣,能夠作為評估公共安全大數據質量的有效方法。層次分析法的基本步驟如下:
(1)建立評價指標體系:影響因素分層,構建層次結構模型;
(2)構建判斷矩陣:對層次結構模型中每一層指標之間的相對重要性進行判斷和比較,1-9標度方法如表1所示,按照規則進行量化,形成判斷矩陣。
假設A層的指標Am與下層指標構成元素B1,B2,…,Bn有關聯,各元素的重要性判斷矩陣:
其中bij*bji=1。
(3)計算特征向量和最大特征值:采用方根法求解判斷矩陣B的特征向量近似解和最大特征值,具體求解過程如下:
1)計算每一行元素的乘積,再對乘積求n次方根,其中n為矩陣階數:
2)計算每行乘積n次方根與方根和的商,構成特征向量Wi=(w1,w2,…,wn)T:
3)計算判斷矩陣B的最大特征值λmax。
(4)一致性檢驗:求出特征向量后,進行一致性檢驗:
其中,RI為同階平均隨機一致性指標。若CR<0.1,則B通過一致性檢驗;否則,需對B進行調整,直至通過,此時特征向量近似解即為各個元素的權重系數。
3 基于層次分析法的公共安全大數據質量評價
3.1 評價模型
基于層次分析法和公共安全大數據質量評價指標體系構建公共安全大數據質量評價模型,如圖2所示。
3.2 確定指標權重
基于層次分析法計算公共安全大數據質量評價指標的相對權重分兩個步驟:第一,構建一個四層的層次結構模型,其中,第一層是目標層,是數據質量評估的總體目標;第二層和第三層是中間層,代表數據質量評估的準則,是對總目標的分解;第四層是每個準則的具體指標層,代表影響目標實現的具體因素;第二,采用上述公式計算得出各層指標的權重值。
3.3 綜合評價函數
如圖1所示的層次結構模型的基礎上建立一個三級四層評價模型,設第四層對第三層為一級評價,第三層對第二層為二級評價,第二層對第一層為三級評價,且三級評價得分為:
其中,L表示三級評價得分,即最終得分,ri表示第二層各指標得分,wi表示第二層各指標的權重值,且,。
由于上級評價得分均由下級計算得出,故只需確定第四層各指標得分,自下而上逐層計算便可得到公共安全大數據質量的綜合評價得分。實際應用中多采用專家打分法獲取第四層指標得分。
4 實例分析
本文以某公安局的公共安全數據系統為例,基于上述方法計算指標權重和綜合評價得分,分析該系統質量現狀。
4.1 指標權重計算
由專家對第二層中各指標的重要性進行比較,形成判斷矩陣B,如表2所示。
采用方根法計算判斷矩陣B的特征向量近似解W=(0.630,0.218,0.151)T,最大特征值λmax=3.11。計算得到CR=0.095<0.1,滿足一致性檢驗。因此,第二層的原始質量、使用質量、表達質量的權重值分別為0.63、0.22、0.15。
同理可得第三層和第四層指標的權重值,如表3和表4所示,這里不再贅述。
4.2 綜合評價得分
采用百分制對各類指標進行評分,評分結果分五等,分別是不及格[0~60]、一般[60~70]、中等[70~80]、良好[80~90]、優秀[90~100]。由專家打分法確定最底層指標得分,然后根據上述公式逐層計算,得到數據質量綜合評價得分:
L=81.55×0.63+84.52×0.22+85.84×0.15=82.85
結果表明,該公安局的系統數據質量良好,其數據化建設取得了一定成果,但仍有較大提升空間。由于權重大小反映了該指標在數據質量評估中的重要程度,可以權重較大的指標為切入點,通過完善該項指標來提升數據質量,如注重提升數據更新頻率、優化數據訪問權限管理流程等。
5 結 論
數據質量評價是提高數據化建設成效、規范數據質量的基礎性工作。本文提出了一種基于層次分析法的數據質量評估方法,通過構建數據質量評價指標體系、計算權重和綜合評價得分,將受復雜因素影響的數據質量進行量化,最后通過實例說明該方法的可行性和有效性。該方法仍存在一些難點,如判斷矩陣及底層指標得分的客觀程度??傊?,本文為公共安全行業提供了一種可行的數據質量評估方法,有助于定量評估數據化建設的現狀和不足,尋找改進方向。
參考文獻:
[1] 寧家駿.新形勢下推進大數據應用的若干思考 [J].電子政務,2016(8):76-83.
[2] 杜龍飛,田兆君,魯義,等.大數據時代下智慧城市公共安全應急管理現狀分析及對策 [J].安全,2018(11):50-52.
[3] 陳揚揚.大數據對公共安全治理的價值與挑戰 [J].華北水利水電大學學報(社會科學版),2018(8):28-30.
[4] 翟軍,陶晨陽,李曉彤.開放政府數據質量評估研究進展及啟示 [J].圖書館,2018(12):74-79.
[5] 宋俊典,劉豐源.一種支持數據質量評價的方法與應用研究 [J].計算機應用與軟件,2018(5):328-333.
[6] 嚴浩,裘杭萍,刁興春等.基于改進層次分析的數據質量綜合評估 [J].計算機應用,2014,34(S1):287-290+297.
[7] 楊棟樞,楊德勝.基于熵權和層次分析法的數據質量評估研究 [J].現代電子技術,2013,36(22):39-42.
[8] 孫宏艷.齊齊哈爾市統計數據質量評估研究 [D].哈爾濱:哈爾濱工程大學,2017.
[9] 黃永鑫,郭彥辰.大數據的數據使用質量評價研究 [J].電子技術與軟件工程,2018(23):173-174.
[10] 王潔.加強刑事司法數據共享性初探——以美國經驗為參考 [J].中國刑事法雜志,2013(5):94-102.
[11] 俞乾,李衛國,羅日成.基于層次分析法的大型變壓器狀態評價量化方法研究 [J].湖南大學學報(自然科學版),2011,38(10):56-60.
[12] 邱奇志,周潔,張金保.基于形式概念分析和層次分析法的應急管理能力模糊綜合評價法 [J].計算機應用,2014,34(6):19-24.
[13] 高起蛟,嚴鳳斌,池斌. 層次分析法(AHP)在數據質量評估中的應用 [J].信息技術,2011(3):168-169+173.
[14] 徐清.基于模糊層次分析法的地方性金融機構企業征信系統數據質量評估 [J].征信,2014(3):29-32.
[15] 孫宏艷,馬匯川,趙學武,等.齊齊哈爾市“大統計”下統計數據質量評估研究[J].統計與咨詢,2018(2):24-28.
[16] 張彥,于麗君.層次分析法輔助空間數據質量評價 [J].城市勘測,2012(5):50-52+56.
[17] 胡意新,余卓軒.基于層次分析法的水電站重大件運輸方案研究 [J].水力發電,2018(12):67-70.
作者簡介:漆源(1983-),女,漢族,江西南昌人,碩士研究生,副主任科員,研究方向:科技管理及大數據治理。