劉喆
本文首先對數據挖掘的現狀以及發展方向作出了整體的概括,接下來對數據挖掘在電力系統,醫學領域,商業領域以及軍事領域上分別進行了闡述。
數據挖掘的現狀及發展方向:
在現階段,基于數據挖掘的算法已經被學術界所接受,并在實際中得到了大量的應用。從本質上講,數據挖掘實際上就是從海量的數據(結構化與非結構化)上挖掘到的實現不為人知的、隱含在數據中的潛在的信息。挖掘出來的信息具有很大的價值,可能是用戶具有用戶感興趣的、可理解、可使用的、可以為我們帶來收益的,對科學研究具有巨大導向的。數據挖掘過程的流程主要有數據準備(數據的提取,數據的轉換,數據的加工,數據的預處理),數據挖掘,解釋與評估。數據挖掘將數據中的各種特征下的信息直觀的呈現出來。
數據挖掘的功能及存在的問題:
數據挖掘的功能大體分為兩個部分,第一部分是通過分析海量數據在不同屬性不同維度下表現出的對象特征,對象的特征以及對象間的相關性來劃分不同類別進行事物的描述,對內在的關系進行分析及總結。第二部分為關聯是某種事物與另一種事物很有可能同時發生,或者一種事物發生后另外一種事物很可能會連帶著發生。對數據中蘊含的規律進行分析及把握并預測未來的發展動態針對未來的發展趨勢,采取相應的措施。并對極少數的,特殊的對象進行重點分析,挖掘出內在的關系,提取出有價值的信息。
1 數據挖掘在電力系統中的應用
數據挖掘運用到電力系統中主要有以下幾個方面的任務:
從電力系統的運行調動方面,調度運行部門是電力系統穩健,高效運行的重點保障。它對系統中反饋而來的信息進行分析及處理,在這個步驟下,數據挖掘起著重要的推動作用,利用數據挖掘分析出來的內在規律做出相應的決策。在保障系統穩健安全運行的前提下,考慮各種經濟問題的同時例如對電價如何進行合理的制定等。
在決策支持和控制方面,在電力系統發生故障時,調度員可以通過保護裝置的動作信息判斷出具體的故障原因以及具體的故障位置。為避免大量的經濟損失要求在極端時間內解決問題。然而面對系統中的海量數據,傳統的靠專家的經驗已經無法適應今天的情況,面對海量的數據,數據挖掘方法能去除無關的屬性,獲得復雜數據下的規律,并對故障特征進行提取,幫助調度員判斷電力系統的狀態以及選擇處理故障問題的方法。
在電力系統的不良數據辨識方面,現在這一階段對電力系統數據的可靠性要求越來越高。
對于不良數據辨識就是想找出由于種種原因產生的少量不良數據,從而避免不良數據對系統的軟件環境性能產生影響。然而在辨識不良數據的過程中,傳統方法很可能造成誤檢或漏檢,然而通過數據挖掘中的神經網絡,聚類以及關聯規則等算法就能更加快速而且準確的達到對不良數據辨識的目的。
在電力系統的建模方面,整個電力系統的實時性決策是以電力系統模型為基礎,因為電力系統的高復雜度,采用傳統的動力學模型進行具體應用非常困難,而數據挖掘技術不受對象模型的復雜度控制,對其數據進行分析,總結出電力系統數據模式的內在規律。
2 數據挖掘在醫學領域上的應用
在很早以前,數據挖掘技術就被應用到醫學領域上,并因此形成了“專家系統”。專家系統的功能為對醫學領域上的專家的個人經驗與她們自身的知識積累利用數據挖掘技術進行計算機語言方面的描述,從而實現對醫學領域方面問題的處理。隨著時間的發展,從不同疾病的類型出發,利用從不同疾病患者中收集到的病歷信息,將其轉化為數據挖掘技術所需要的數據集,通過分析數據中隱藏著的潛在信息來對實現對體檢人員相應病情的風險評估,進行相應的提醒。
3 在商業領域的應用
數據挖掘在商業以及金融上的應用較為明顯,甚至滲透于商業以及金融領域的方方面面。從商業上講,通過收集顧客對各種商品的購買情況的數據來構成有分析價值的數據庫。利用關聯規則分析算法來對數據庫中數據進行挖掘,并對顧客的購買習慣進行總結。挖掘出一系列的購買規律,從而調整商品在商店的擺放以及商業廣告中商品的搭配等,從而達到最大的獲利。并且在電子商務上,數據挖掘可以使商家更加了解客戶的需求,為客戶提供更加個性化的服務,從而保留個數增加商品的銷售額。從金融上講,對股市中的數據的變化趨勢進行總結,再用關聯規則,卷積神經網絡等方法對股市中接下來的運行趨勢進行預測。從而對針對股市的漲幅等情況來調整利率,從而避免經濟損失,達到盈利的目的。
4 在軍事領域上的應用
由于大數據時代的來臨,決策的思維和方法產生了變革。傳統戰爭下的決策缺少數據的支持,并且數據的準確性很難達到保障,一般靠經驗在戰爭中進行決策。然而現階段的戰爭下,可以利用海量與戰爭相關的數據,這就要求指揮者有全新的數據思維,并結合統計學家與數據挖掘研究人員,找出數據中隱含的信息,不受舊思想的束縛,達到最大的作戰效益。例如,可以用深度學習的方法結果衛星對敵方地理位置達到精準的還原,通過計算機高速的計算能力使指揮者更快做出決策,也可以分析敵方以往的作戰數據,對其作戰規律進行總結,并對其下一步的行動做出較為精準的預測,并且對于自己大量的作戰資源與戰士們的人員通過數據挖掘的方法進行合理的分配,最終達到作戰能力的最大化。
(作者單位:東北大學秦皇島分校)