陳 磊 霍爍爍 劉鎮瑜 燕明亮 李詠晉
(63891部隊 洛陽 471000)
隨著裝備試驗的不斷發展與壯大,形成了海量的、多源的、異構的試驗數據資源,裝備試驗數據不僅能有效支撐試驗任務開展,而且對裝備發展等應用具有重要意義,受到了越來越多的重視。如何分析挖掘數據價值,提供數據服務,已成為試驗數據工程建設中最為關注的問題。數據價值是否能夠得到有效利用,與所要分析挖掘數據的質量密不可分。為確保裝備試驗數據質量,解決裝備試驗數據生命周期中數據質量評估標準不完善、數據質量評估方法不健全等問題,研究建立裝備試驗數據質量評估指標體系以及數據質量評估方法,為規范裝備試驗數據標準提供支撐,方便數據管理人員進行數據質量評價工作,提升數據標準化程度、提高數據質量。
目前,國內外在數據質量評估方面的研究已取得了一定成果,文獻[1]分析了影響作戰數據質量的多種因素,提出了六元組評估模型。構建了基于BP 神經網絡的質量評估方法,評估準確率較高,但是存在模型復雜,需要大量數據訓練完善模型等問題。文獻[2]針對靶場實時測量數據特點,提出了數據質量指標體系與評估方法,對于裝備數據質量評估有一定參考價值。文獻[3]提出了一種二重加權的數據質量評估方法,但是沒有考慮AHP 算法的一致性問題。文獻[4]提出了基于規則庫的數據質量評估方法,設計了規則評估模板,但是對于各規則在質量評估中的權重考慮過于簡單。結合相關文獻,針對典型裝備試驗數據特點,構建試驗數據評估指標體系,對試驗數據質量評估方法展開研究,提出了一種基于AHP 與規則庫相結合的數據質量評估方法,對典型裝備試驗數據質量進行全域評估。
裝備試驗數據質量具有以下特點:一是對象涉及專業領域多,技術含量高,涉及電子信息、火力控制等多個專業領域,每個領域內數據也不盡相同;二是涉及數據標準廣,人工智能等新技術在武器裝備領域的應用越來越多。因此,從數據內容、數據形式、數據效用等方面將數據質量指標分為完整性、一致性、正確性、時效性、可信性、規范性、可理解性七個一級指標。其中,數據內容代表數據本身的質量,對應完整性、一致性、正確性指標;數據形式代表數據的采集、存儲、管理等是否符合規范,對應規范性、可信性指標;數據效用代表數據的使用質量,對應時效性、可理解性指標。部分一級質量指標之下驗收出二級質量指標,反映數據質量的具體特性。
從圖1 可以看出,從裝備數據質量的評價指標包含了定性指標和定量指標兩種,這給數據質量評估增加了難度。層次分析法是一種將定量和定性相結合的評估方法,它通過兩兩比較的方式確定各個指標的相對重要程度,然后通過綜合比較,得出指標在總體評估中的重要程度,從而把復雜的問題分解成各指標間的比較問題。AHP 方法是將指標之間的重要程度分為1~9個標度,具體如表1所示。

表1 AHP比例標度表

圖1 數據質量評價指標框架
根據上一節提出的數據質量評估指標體系,任一一級指標i與其余指標兩兩比較的重要性之比集合為
則可得各指標兩兩比較重要程度集合:
令一級指標的權重為W={w1,w2,…wi,…,w8}
根據式(1),(2)可得一級指標權重計算方法為
數據質量評估體系下的二級指標權重,應先根據式(1)、(2)、(3)計算二級指標在其對應一級指標下的權重,再根據一級指標體系權重二級指標在質量評估指標體系下的綜合權重。令某一級指標i下的三個二級指標權重為U={u1,u2,u3},則二級指標在質量評估指標體系下的綜合權重可表示為uj·wi,(j=1,2,3)。
根據數據質量指標定義,建立基于數據質量指標的質量檢測規則庫,根據規則庫規則,進行數據質量指標評分,如表2所示。

表2 數據質量檢查規則表
根據檢測規則,在數據質量評價指標中,完整性、一致性以及準確性三個指標為定量指標,規范性、時效性、可信性以及可理解性為定性指標,分為五個等級。在進行數據質量評估時,應將定性指標轉化為定量指標。由于完整性等三個定量指標的值在[0,1]之間,考慮到之后指標評分中的加權求和,可通過最大-最小值規范化方式將定性指標轉化為定量指標,轉化公式如式(4)所示。
根據AHP 權重法和基于規則的質量評估方法,可得數據質量綜合評估得分為
其中,wi為一級指標i,uj為一級指標i的二級指標權重,xj為指標評分。若一級指標下沒有二級指標,則m=1,uj=1。
從歷次試驗中找出試驗文書類數據、音視頻數據、結構化數據、裝備自定義格式數據等4類8組數據進行分析評估。首先根據數據特性,對評估指標進行對比評分,利用AHP 算法確定指標權重,數據質量指標體系權重表如表3~4 所示,然后根據質量評估指標對數據進行打分,打分結果如表5所示。

表3 數據質量指標一級權重表

表4 數據質量指標二級權重表

表5 數據質量評分表
根據一、二級權重表可以看出,不同類型數據對于數據質量的要求不同,試驗文書類數據側重于數據的完整性、可理解性、規范性;音視頻數據側重于數據的完整性、時效性;結構化數據側重于數據的完整性、準確性、規范性;裝備自定義格式數據側重與數據的完整性、可理解性。
根據式(5)、表3~5可計算得文本數據1的質量綜合得分為90.8,文本數據2 的質量綜合得分為80.5,音視頻數據1的質量綜合得分為84.7,音視頻數據2 的質量綜合得分為88.6,結構化數據1 的質量綜合得分為84.1,結構化數據2 的質量綜合得分為88.7,裝備自定義格式數據1 的質量綜合得分為90.4,裝備自定義格式數據2 的質量綜合得分為82.6。
從8 組數據對比可以看出,文本數據1 在完整性、規范性指標方面明顯高于文本數據2,因此評分較高,數據質量較好。音視頻數據2 在時效性指標方面明顯高于音視頻數據1,因此評分較高。結構化數據2 在完整性、正確性方面略高于結構化數據1,雖然其他指標略低于或等于結構化數據1,但是評分仍然較高。裝備自定義格式數據1 完整性、可理解性等指標明顯優于裝備自定義格式數據2,數據質量較好。
本文首先分析了軍事領域內數據質量評估方法的國內外研究現狀以及存在的問題,并結合典型裝備試驗數據特點,構建了數據質量評估指標體系,提出了一種基于AHP 與規則庫相結合的數據質量評估算法。通過分析驗證,該算法能夠結合定性與定量指標,準確、客觀地反映數據的真實情況。