龔舒蕾
【摘 要】隨著信息時代的到來,伴隨著眾多大數據庫的建立涌現出大量的數據,所以人們迫切需要一個數據分析工具,可以強有力地幫助他們解決問題。因此,數據挖掘成了數據庫和商務智能領域的焦點,它所含有的各種分析方法都有其利弊,本文就數據挖掘技術的不同方法及應用作了分析。
【關鍵詞】數據挖掘;分析方法;應用
一、基本概念分析
(一)技術上的定義
數據挖掘指的是把大量且不完全的數據從數據庫中提取出潛在的還沒有被人發現的,但具有內在價值的信息的過程,通常這些數據是隨機的。
(二)商業角度定義
商業數據庫中存在著大量的數據,要利用技術提取有用的數據,并通過模型化處理將其轉換并分析這是數據挖掘的最主要的特征。
數據挖掘最主要的特點是在對許多存在于商業數據庫中的數據進行提取、轉換與分析其他模型化處理,在這個過程中人們可以獲取對商業決策起輔助性作用的十分關鍵的數據,它是全新的對商業信息進行處理的技術。
在已有人工智能、模式識別等技術的基礎上,人們發展了數據挖掘,可以十分自動化地對存在于企業的數據進行分析,進行整合性的推斷,然后發掘出這些數據隱含的價值的模式,有助于企業對市場策略進行調整,降低風險,從而提高決策的正確性。
(三)數據挖掘的過程
數據挖掘需要經過很多次人機交替處理,是一個不斷迭代出現的過程。進行數據挖掘需要經過需多個步驟,并且依賴于用戶提供的決策。宏觀上來看,搜集數據、探求數據間的規律、表示規律組成了數據挖掘過程的三個重要部分。
二、數據挖掘的分析方法
(一)關聯分析
關聯分析指的是在兩個或者多個物體之間存在某種關系的情況下,其中一個事物可以進行預測通過其他的事物。關聯分析可以對數據間隱含的關聯進行挖掘。關聯規則分為兩類:一類是“多維關聯規則”,另一類是“單維關聯規則”。
(二)分類與預測
分類與預測是用在挖掘與描繪十分重要的數據類或者用以對數據未來趨勢預測的模型,是數據挖掘形式的組成。首先,要把已經被分好類的訓練集從數據中提取出,再在這個訓練集中通過分類技術將分類模型建立,把還未被分類的數據進行分類。一般情況下,只有先通過分類,預測才可以發揮作用。這就意味著,經過歸劃得到的模型適用于對未知的變量的預判。
這種情況下,不是必須要把預言單獨歸為一個類,預言是用來預測未來的未知變量的,這會花費一定時間,即只有經過一段時間之后,人們才能知道預言的精確性程度。
(三)聚類分析
聚類分析是指通過靜態分類把多個相似的對象分成不同的子集或組別,所以同一個子集中的各個對象可以有類似的屬性。通常情況下,數據集里的數據不會有預先設置的類別標號。經過聚類分析,要最大程度上保證相同類別的數據間的高類似性,相反,屬于不同類別的數據間的相似性要較低。
在聚類分析的過程中,樣本之間的相似性通??梢酝ㄟ^分析樣本見的距離得出。若兩個樣本差異性很大,則他們的距離也會很遠;若兩個樣本很相似,則他們兩個間的距離會很小,差異性也小。當然也有特例,如果兩個樣本之間的距離是零,那么這兩個樣本沒有差異,完全一樣。
1.聚類分析在數據挖掘中的作用
人們通常用聚類分析對已經得到的數據進行分析獲取數據分布的情況。第一步是要獲得簇,這就要對已經得到的數據集合進行聚類;之后可以獲得數據集合里每一類數據的分布狀況通過分析每一個簇里的樣本數目。作為其他數據挖掘算法的預處理步驟。實行第一步就是對已有的數據進行粗分類,然后要對每個簇的特征進行提取及細分類,這樣的話就可以提高分類的精度。
2.常用的聚類分析方法
把距離作為數據集里不同的數據之間相似性的度量指標是劃分法的特點,把數據集劃分成多個簇。屬于這樣的聚類方法有:k-means、k-medoids等。k-means算法的評價準則是誤差平方和準則。若要使各個聚類的類內緊湊,各個聚類之間盡最大可能分離,就可以讓誤差平方和達到最小,即最優狀態。
由于最初選取出的聚類中心會引起k-means算法結果發生很大的變化,對噪聲有一定的敏感度,所以不適合用來尋找非球狀簇。在一個數據集中,通常以它來對聚類結果好壞進行評定,普遍情況下,對于任意一個數據集,k-means算法只可以達到局部最優,無法實現全局最優化。有好的可延伸性是該算法的優點,缺點是簇的個數是需要提前給定的,但很難確定。
層次法指的是一層一層的分解給定的數據集,由此可以形成一個像樹狀的聚類結果。起初就對每一個樣本進行劃分,分成單獨的組這是一種聚類方法,即從底部向上聚類,然后它們按順序合并相似的組,若所有的組或是樣本都被合并了或達到終止的條件了,則聚類停止。AGNES算法是他的代表算法。還有一種是在開始的時候在一個簇中集合所有的樣本,這就是自頂向下的聚類,然后迭代被依次執行,在執行的每個步驟會出現很多個小簇,他們是由每一個簇分裂而來的。當每個樣本被分到一個單獨的簇里或是滿足了終止條件,那聚類就停止,DIANA算法就是其代表算法。層次聚類的特點是只要變量被分了類別,那分類結果就不會再被更改。
三、數據挖掘技術的應用
(一)數據挖掘技術在高校中的應用
縱觀教育現狀,由于擴大了招生的規模,所以許多學校的學生人數日益增長,有的學校甚至招收了幾萬名學生,這就導致了大量數據的產生,例如十幾萬關于考試成績的數據,以及受到其他除學生成績外的因素影響,人們迫切需要一種新的分析考試成績的方法來滿足日益增長的數據所引起的需求。所以,數據挖掘技術的引入可以很好地解決此類問題,挖掘出真正影響學生成績的原因,響應地制定出措施,這樣可以很好地提高教學質量。
(二)銀行業
對于銀行風險管理以及客戶的管理存在的問題可以使用數據挖掘技術解決。通過數據挖掘,可以對客戶的信用風險進行評估,構建信用的評級模型對貸款申請人進行風險評估。直觀的量化的技術還可用于評估銀行賬戶的信用。信用評分就是應用數據挖掘的模型來為各個指標評分,申請人的信用狀況可以由加總得出。對于銀行業來說數據挖掘技術是不可缺少的,因為在管理客戶的每個步驟終都需要運用到,可以方便銀行獲取潛在客戶并保留已有的客戶且對客戶的服務進行優化。
(三)零售企業
數據挖掘可以讓零售業進行商店定位,促進商品的關聯組合,還可提高客戶的忠誠度與有效的監測市場并營銷。因為科技的發展,網絡滲透入零售業中使其發生了很多變化?,F在,由于很多分店的業績不一樣,用數據挖掘可以發掘出影響業績的重要因素以及來改善。發現商品之間的關聯可以促進銷售,因為商戶可以根據數據挖掘的結果最優化組合。商業成功的必要因素就是擁有忠誠的客戶,經過了解和分析已有客戶,可挖掘客戶的購買最大潛力,擁有更多的潛在客戶。
【參考文獻】
[1]邵華.基于決策樹的海量時序不均衡數據下預測系統的研究.2004.東北大學.
[2]王浩蓮.數據挖掘術探究.2005年3期.新疆石油教育學院學報.
[3]范聯偉.淺談聚類分析在大數據分析中的應用.2014年17期.中國電子商務.
[4]李如平.數據挖掘中決策樹分類算法的研究.2010年2期.東華理工大學學報(自然科學版).
[5]何燚.計算機數據挖掘技術對數據庫處理能力的探討.2015年1期.華人時刊(中旬刊).
[6]王婭紛.數據挖掘淺談.2009年25期.電腦知識與技術.
[7]湯靜煜 洪玉峰.數據挖掘技術及工具的發展和應用.2004年12期.浙江統計.endprint