王欣 汪寧 郝久月
1. 北京中盾安全技術(shù)開發(fā)公司 2. 公安部第一研究所
當(dāng)前,如何在公安大數(shù)據(jù)建設(shè)過程中將數(shù)據(jù)資源轉(zhuǎn)化為現(xiàn)實(shí)戰(zhàn)斗力已成為公安信息化建設(shè)的重大基礎(chǔ)性課題。相對公安信息資源的數(shù)量,數(shù)據(jù)質(zhì)量對大數(shù)據(jù)智能化應(yīng)用更為關(guān)鍵。建立在質(zhì)量無法保證的數(shù)據(jù)資源之上的分析,其結(jié)果是毫無價(jià)值的,甚至是有害的。因此,必須把數(shù)據(jù)治理放在一個(gè)十分重要的位置。在公安大數(shù)據(jù)治理過程中由于各業(yè)務(wù)系統(tǒng)提供的數(shù)據(jù)源是獨(dú)立的,可能會(huì)在數(shù)據(jù)融合過程中產(chǎn)生數(shù)據(jù)沖突問題,即不同數(shù)據(jù)源描述同一對象同一屬性的數(shù)據(jù)之間存在沖突。例如同一個(gè)人的年齡,不同系統(tǒng)提供的數(shù)據(jù)可能存在差異。數(shù)據(jù)沖突問題增加了數(shù)據(jù)治理的難度,并影響了上層應(yīng)用對數(shù)據(jù)進(jìn)行分析研判的準(zhǔn)確性。
當(dāng)前,公安大數(shù)據(jù)治理領(lǐng)域相關(guān)研究較少。在數(shù)據(jù)融合方面從高效數(shù)據(jù)分析查詢開展相關(guān)研究[1]。從視頻大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)融合方面開展相關(guān)研究[2]。但當(dāng)前用于解決數(shù)據(jù)融合中數(shù)據(jù)沖突的研究較少,多采用人工方式對沖突數(shù)據(jù)進(jìn)行處理,增加了問題解決的難度及工作量。
因此本文提出一種自動(dòng)解決數(shù)據(jù)沖突問題的方法,即基于數(shù)據(jù)源屬性的數(shù)據(jù)沖突解決方法。該方法基于質(zhì)量好的數(shù)據(jù)源提供的數(shù)據(jù)正確度會(huì)比較高的假設(shè),能夠根據(jù)數(shù)據(jù)源質(zhì)量選出沖突數(shù)據(jù)中的最佳數(shù)據(jù)。本文通過實(shí)驗(yàn)證實(shí)了該方法的有效性。
本文基于數(shù)據(jù)源質(zhì)量高則提供的數(shù)據(jù)質(zhì)量也較高的假設(shè),通過考量數(shù)據(jù)源質(zhì)量的方式來進(jìn)行沖突數(shù)據(jù)中正確數(shù)據(jù)的選擇。
(1)數(shù)據(jù)一致性檢查:在數(shù)據(jù)治理過程中,檢查對于從不同數(shù)據(jù)源獲取的同一對象的數(shù)據(jù)集合中是否存在對該對象的同一屬性值描述不同的情況,即是否存在數(shù)據(jù)沖突。如存在則記錄下來,為下一步?jīng)_突解決做準(zhǔn)備。
(2)獲取數(shù)據(jù)源數(shù)據(jù)質(zhì)量指標(biāo):獲取不同數(shù)據(jù)源的質(zhì)量指標(biāo),如數(shù)據(jù)源的可靠性、可用性、查詢反饋時(shí)間等。
(3)采用基于多屬性融合的方法解決沖突數(shù)據(jù)問題:對每一個(gè)存在沖突的數(shù)據(jù)集合,基于多屬性融合的方法選擇質(zhì)量指標(biāo)最佳數(shù)據(jù)源的方式,解決數(shù)據(jù)沖突。
對于沖突數(shù)據(jù),使用多屬性融合方法進(jìn)行解決,具體如下:
1. 構(gòu)造矩陣Qnxm
用qi1到qim表 示數(shù)據(jù)源i 提供的產(chǎn)生數(shù)據(jù)沖突的m個(gè)數(shù)據(jù)源的Qos指標(biāo)值,其中i≤n。
2. 歸一化
首先,統(tǒng)一單位。如果不同數(shù)據(jù)源所采用的指標(biāo)單位不同,則將它們統(tǒng)一到相同的單位得到矩陣Qnxm。
其次,將矩陣Qnxm中每個(gè)元素值的取值范圍處理為0~1。對Qnxm中反向?qū)傩院驼驅(qū)傩缘闹挡捎貌煌墓竭M(jìn)行計(jì)算。反向?qū)傩约磳Y(jié)果有反向作用的因素,正向?qū)傩约磳Y(jié)果有正向影響的因素。對反向?qū)傩缘闹蹈鶕?jù)式(1)進(jìn)行計(jì)算,對正向?qū)傩缘闹蹈鶕?jù)式(2)進(jìn)行計(jì)算,得到矩陣Qnxm。
其中 m1≤ai≤xnqi’j是第j列向量的最大值, m1≤ii≤nnqi’j是第j列向量的最小值。

3. 計(jì)算每個(gè)候選值與positive ideal solution的歐幾里德加權(quán)距離,并計(jì)算每個(gè)候選值與negative ideal solution的歐幾里德加權(quán)距離
用g表示Qnxm中的positive ideal solution向量定義為:
用b表示Qnxm中的negative ideal solution向量定義為:


候選數(shù)據(jù)源si與positive ideal solution之間的加權(quán)歐幾里德距離dig定義為:

候選數(shù)據(jù)源si與negative ideal solution之間的加權(quán)歐幾里德距離 dib定義為:

4. 計(jì)算每個(gè)候選數(shù)據(jù)源屬于positive ideal solution的程度
定義隸屬函數(shù)μ (vi) , 它表示vi屬 于 g的 程度:

根據(jù)μ (vi) 計(jì) 算的結(jié)果,設(shè)置向量u = (μ(v1) , μ(v2),…, μ(vn))

5. 選 取最大μ (vi)對 應(yīng)數(shù)據(jù)源的數(shù)據(jù)u
6. 算法修正
為了更好地體現(xiàn)數(shù)據(jù)源質(zhì)量與數(shù)據(jù)正確度之間的關(guān)系,算法中設(shè)定每個(gè)數(shù)據(jù)源的歷史正確度指標(biāo),該指標(biāo)用于表示數(shù)據(jù)源數(shù)據(jù)的整體正確程度,如被選中數(shù)據(jù)源的數(shù)據(jù)經(jīng)專家評(píng)測后為正確數(shù)據(jù),則該指標(biāo)增加,反之則減少。該指標(biāo)作為數(shù)據(jù)源的質(zhì)量指標(biāo)之一參與計(jì)算。
本文提出的數(shù)據(jù)不一致性問題的解決方法基于數(shù)據(jù)源質(zhì)量指標(biāo),所以在我們的實(shí)驗(yàn)中,基于一組模擬數(shù)據(jù)源進(jìn)行測試,并為每個(gè)數(shù)據(jù)源提供了正向數(shù)據(jù)質(zhì)量指標(biāo)及反向數(shù)據(jù)質(zhì)量指標(biāo)。實(shí)驗(yàn)中設(shè)計(jì)了3000組不一致數(shù)據(jù),多源數(shù)據(jù)源中的不一致數(shù)據(jù)可以被檢測出來,每組不一致數(shù)據(jù)都被提前賦予(0~1)區(qū)間的正確度。圖1曲線所示的實(shí)驗(yàn)結(jié)果表示解決若干組數(shù)據(jù)沖突的正確度的平均值。
基于質(zhì)量好的數(shù)據(jù)源提供的數(shù)據(jù)的正確度會(huì)比較高這一假設(shè),質(zhì)量好的數(shù)據(jù)源的數(shù)據(jù)正確度在初始情況下賦值較高。所有數(shù)據(jù)源的不一致數(shù)據(jù)的正確度在初始賦值后,再基于隨機(jī)數(shù)進(jìn)行隨機(jī)加減?;谒惴看嗡x數(shù)據(jù)的正確度來計(jì)算算法的平均正確度。
實(shí)驗(yàn)中我們設(shè)定了平均正確度閾值區(qū)間,當(dāng)超過閾值最高值時(shí),增加該數(shù)據(jù)源的歷史正確度指標(biāo),當(dāng)?shù)陀陂撝底畹椭禃r(shí),減少該數(shù)據(jù)源的歷史正確度指標(biāo),并把每個(gè)數(shù)據(jù)源的歷史正確度作為數(shù)據(jù)源的質(zhì)量指標(biāo)之一參與計(jì)算。

圖中,三角曲線表示本文方法,圓點(diǎn)曲線表示隨機(jī)法,正方曲線表示輪詢法。圖中所提供方法的平均正確度幾乎可以達(dá)到85%。在測試實(shí)驗(yàn)中,表示該方法解決數(shù)據(jù)不一致性問題的準(zhǔn)確度和有效性較高。該方法的測試曲線前期因?yàn)楦哔|(zhì)量數(shù)據(jù)源的數(shù)據(jù)被選擇的增加,正確率有較快提升,最終趨于平緩,可能的原因是高質(zhì)量數(shù)據(jù)源中所有的數(shù)據(jù)并非都是正確的數(shù)據(jù)。該測試結(jié)果較符合現(xiàn)實(shí)情況。
本研究提出的數(shù)據(jù)沖突處理算法可應(yīng)用于公安大數(shù)據(jù)數(shù)據(jù)處理流程中,作為數(shù)據(jù)清洗的一個(gè)步驟,處理各數(shù)據(jù)源間產(chǎn)生的沖突數(shù)據(jù)。

下一步,計(jì)劃在公安大數(shù)據(jù)平臺(tái)環(huán)境下部署數(shù)據(jù)沖突處理算法開展初步應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)沖突自動(dòng)化處理應(yīng)用。該算法能夠提升沖突數(shù)據(jù)的處理效率,具體如下:(1)實(shí)現(xiàn)自動(dòng)從沖突數(shù)據(jù)中快速選擇最優(yōu)數(shù)據(jù),把業(yè)務(wù)人員從大量的數(shù)據(jù)處理工作中解放出來;(2)提升多源數(shù)據(jù)整合的數(shù)據(jù)質(zhì)量,構(gòu)建以數(shù)據(jù)為核心的流程體系。
同時(shí),本研究將在數(shù)據(jù)源質(zhì)量指標(biāo)選擇方面開展研究,對算法進(jìn)行調(diào)優(yōu),提高算法的準(zhǔn)確度,進(jìn)一步深化算法與公安大數(shù)據(jù)實(shí)戰(zhàn)平臺(tái)的融合,以算法為基礎(chǔ)研發(fā)底層數(shù)據(jù)沖突處理基礎(chǔ)組件,高效支撐實(shí)戰(zhàn)應(yīng)用。
本文基于當(dāng)前公安大數(shù)據(jù)治理過程中對不同數(shù)據(jù)源提供的沖突數(shù)據(jù)進(jìn)行融合的迫切需求,對基于數(shù)據(jù)源質(zhì)量的數(shù)據(jù)沖突解決方法進(jìn)行了探索。該方法基于質(zhì)量好的數(shù)據(jù)源提供的數(shù)據(jù)的正確度會(huì)比較高的假設(shè),能夠根據(jù)數(shù)據(jù)源質(zhì)量選出沖突數(shù)據(jù)中的最佳數(shù)據(jù)。經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法具有較高的準(zhǔn)確性。