楊艷秋 中國人民武裝警察部隊警官學院 四川成都 610000
目前,在大數據領域每年都會出現新的技術,這些技術有效的推動了大數據的發展。數據挖掘能夠有效的在大規模的數據中分析出隱藏的數據價值。海量數據挖掘是可規劃的數據分析行為,在數據量大,數據結構不統一的情況下,建設基于大數據的武警信息平臺需要從搭建初期就要有數據思維。本文立足于數據平臺搭建的方法論。
大數據的挖掘需要從生命周期做數據規劃,主本文從元數據規劃、數據質量分析及提升,數據標簽,數據建模,數據可視化五個步驟進行闡述。
元數據規劃,主要是從運行數據,經營數據,行為數據,維護數據以及其他數據中來建立,其中經營數據包含其他系統的數據,如內部管理系統,Web信息系統,科研系統數據集 運行數據比如系統在運行中產生的告警,預警,事件等 行為數據如登錄事件,點擊次數、頻率,訪問頁面的地址,分享或者下載的文件等 維護數據如機房斷電緊急恢復,對于其他的數據如天氣情況,位置信息,環境信息等。通過對元數據的規劃,能夠有效的將異構的數據做集成處理,交給下一步做數據清洗。
數據質量分析及提升也就是數據清洗,也可以叫數據預處理,我們收集到的元數據做進一步的處理如數據一致性,處理無效值和缺失值等。我們常用到的方法可以是:批量數據補全,對一些數據集中的數據,采用求平均、求最值或者其他數學計算公式得到補全。或者用偏差、針對業務的異常值或可以是統計可以查看到的數據做數據清洗。
數據標簽我們也可以叫做數據切片,也就是從不同的維度描述數據,如基礎標簽:存儲,安全登記,怎么訪問 數據倉儲標簽:周期性,是全面/增量 具體的業務標簽,是管理系統,是某個功能相關,為這些數據做標簽處理。
數據建模是將我們的數據降維,做歸一化處理后,變成單個指標或一個數據模型,在這一個步驟中,我們可以細分為多個小方法,第一:需要針對具體的業務場景或針對已有的數學模型選擇 第二:需要訓練選定的數據模型,通常需要根據業務、具體使用情況調整模型的參數配置 第三:通過訓練模型,對比模型是否受用,與標準值的對比,通過一些數學指標如:平均誤差率,判定系數等評估模型的正確性、查全性、查全率。第四:評估出最優模型檢驗模型在真實的業務場景中的效果,并進行優化。通過以上的步驟,并通過聚類、關聯規則、EM、KNN等數據分析方法可以進行大規模的指標化,找出數據中的價值。
數據可視化,為了能夠更直觀的看到數據,它是關于數據視覺表現形式的科學技術研究,解決我們在視覺上,空間上的不足,常用的手段包括:圖形化,表格化等。
本文就元數據規劃、數據質量分析及提升,數據標簽,數據建模,數據可視化五個步驟對基于大數據武警數據平臺搭建做了方法闡述。