劉皛 宋村夫
摘要:部隊在外人員管理已成為制約部隊安全和發展的“瓶頸”,通過利用數據挖掘技術收集部隊在外人員海量數據、建立分類模型、分析數據關聯,挖掘潛在有用信息,以此評估在外人員安全系數、預測傾向性問題和高頻率易發問題,為部隊管理決策提供支持,實現部隊精細化管理。
關鍵詞:在外人員;數據挖掘;分類;模型
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)08-0252-02
部隊在外人員因違規違紀引發的事故問題,暴露出一些部隊教育管理的重大漏洞。在大數據背景下,利用數據挖掘技術從海量在外人員數據中提取挖掘信息,建立分類模型,分析數據關聯,可以達到評估在外人員安全系數、預測傾向性問題和高頻率易發問題、及時采取有效應對措施、確保部隊安全穩定的目的。
1部隊在外人員管理現狀
在外人員主要是指外借、探親休假、住院、待轉業、因公出差和在外學習培訓等,不在部隊營區內、不在管理視線內、不在組織和群眾直接監督之下的人員。在外人員遠離部隊、遠離組織,教育管理易出現空檔和盲區,是易發生事故案件和違紀問題的重點對象。
隨著部隊信息技術革新和大數據工程的全面推進,人員管理也不斷向信息化轉變,從基礎計算工具到信息數據存儲,再到全面管理乃至于戰略決策支持,對信息技術的應用不斷深入和擴展。但盡管部隊自身擁有豐富的大數據資源,在外人員信息數據卻未受到關注,更未從中挖掘出隱藏的、事先不知道、但是有潛在關聯的信息,以滿足部隊精細化、科學化管理的需要。
2數據挖掘在部隊在外人員管理中的應用構想
數據挖掘是將傳統的統計分析方法和處理大量數據的復雜算法結合起來,從大量的、不完全的、有噪聲的、隨機的數據中提取隱含在其中的、事先不知道的但又是潛在有用的信息和知識的過程。通過綜合部隊在外人員信息數據和歷史事故案件數據,利用數據挖掘分類和回歸算法,建立符合管理實際的評估模型,實現細致的分類管理,提高預防等級。數據挖掘通常分為四步:資源發現、信息選擇和預處理、建立模型和評價。
2.1收集在外人員相關數據
通常,大數據采集是通過RFID射頻數據、傳感器數據、視頻攝像頭的實時數據、來自歷史視頻的非實時數據,以及社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據。我們綜合在外人員基本情況、思想狀況、軍事訓練情況、考核情況、崗位特點、專業技能、興趣愛好、家庭情況、居住情況、消費情況、季節特點、外出時間、活動場所、動態軌跡、社交網絡等數據,存儲并處理三類信息:人事檔案信息,即電子化人事信息;日常管理信息,即在部隊期間的考勤、考核、思想現狀、崗位特點、工資待遇等信息;動態管控信息,即在外時間、外出季節、在外事由、活動場所、動態軌跡、社交情況等信息。
2.2數據轉換與選擇
因為進行挖掘的數據必須滿足完整性、精確性、一致性等要求,才可以作為數據模型輸入的字段值,而項目的數據可能來自多個系統,不同的系統其數據質量不一,存在數據代碼化、關鍵屬性值缺失或無法拆分聚合數據等情況,各數據源的原始數據并未經過加工和處理,所以,需要對數據進行預處理。數據預處理主要劃分為以下幾個步驟:原始類型轉換、清理、整合、拆分、終止。在數據清理階段,判斷數據是否重復。數據清理完成后,根據需求將數據整合為數據庫,并根據不同的主題分類抽取數據變量,通過數據導入功能存入數據中心庫中。以此完成數據的準備工作,為后續數據模型的生成建立基礎。
2.3建立模型
數據挖掘主要有四種任務,即關聯分析、分類與回歸、聚類分析和離群點檢測。其中,分類和回歸是兩種不同的預測方法,邏輯回歸是廣義線性回歸分析模型的一種,具有易解釋、易使用等優勢特點。為分析在外人員動態數據與人員發生事故風險情況之間的規律,預測傾向性問題和事故案件發生的概率,可建立基于邏輯回歸算法的在外人員分析模型,在軌跡數據處理的基礎上,使用邏輯回歸算法,得到以在外人員評分模擬關系為計算基礎的風險評分,為科學決策管理提供依據。
2.4模型評估
完成模型訓練后,采用分析節點的模型準確率分析功能,進行模型準確性分析。為保證基于邏輯回歸的在外人員評分模型的算法有效性,還可以采用C5.0決策樹與SVM算法,對其計算結果準確率進行比對和分析。
3應把握的幾個問題
對部隊而言,大數據所能帶來的巨大能量已經顯現,數據挖掘技術也已慢慢地從高端的研究轉向日常的應用。基于大數據的數據挖掘技術在部隊在外人員管理中的應用應把握以下問題。
3.1提升大數據背景下部隊信息化建設水平
相對于過去的數據處理方式,無論是過程、數據類型、處理標準,還是處理對象,都存在著巨大的差異。大數據在本質上仍然是海量數據,但規模更大、實時性和多樣性等特點更明顯,在外人員信息中包含的可能是非結構化數據,如圖片、視頻、文字,處理這些數據有著極其重要的意義。因此,相應的數據挖掘技術也需要有所改進,研究如何將這些半結構化甚至非結構化數據進行結構化處理,是目前大數據挖掘面臨的挑戰之一,也是部隊信息化建設中要面對的一個重大課題。
3.2如何去噪聲留信號
在海量的數據里面大部分都只是噪聲而已,真正有用的信息非常少。在進行數據清洗時,不易把握清洗粒度。粒度太大,殘留的噪聲會干擾有價值的信息;粒度太小,可能會遺失有價值的信息。因此,部隊在外人員信息數據預處理面臨的一大難點就是如何將正確的信號從混雜了噪音的數據中提取出來,提高分析挖掘數據的能力。
3.3改進數據挖掘算法
在上文中提到的模型建立階段,可采用更多的數據挖掘算法,得到不同的決策結果,從而提供更多的決策依據。另外,大數據時代數據的量級達到了一個新的階段,而且還有其他新的特征,現有挖掘算法需要基于云計算進行改進,以適應不同應用對數據處理能力的需求。
參考文獻:
[1] 陳工孟,須成忠.大數據導論[M].清華大學出版社,2015.
[2] 吳功宜,吳英.計算機網絡應用技術教程[J].2014.
[3] 李孟杰.數據挖掘技術在人力資源管理領域的管理與應用[J].2013.
[4] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].2017.
[5] 舒正渝.淺談數據挖掘技術及其應用[J].2015.
【通聯編輯:光文玲】