吳胤霖 張必彥 曾科軍
摘要:介紹了大數(shù)據(jù)產(chǎn)生的背景和來(lái)源,針對(duì)人們對(duì)大數(shù)據(jù)進(jìn)行挖掘和分析的迫切需求,提出了數(shù)據(jù)挖掘和分析的過(guò)程,闡述了數(shù)據(jù)挖掘和數(shù)據(jù)分析的幾種方法,最后作了總結(jié)。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析
引言
自計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)飛速發(fā)展以來(lái),人們的工作、生活乃至思維方式都受到了巨大的影響。二十一世紀(jì)以來(lái),互聯(lián)網(wǎng)得到了快速建設(shè),尤其是移動(dòng)互聯(lián)網(wǎng)和智能終端迅速普及,導(dǎo)致全世界數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),每年產(chǎn)生的數(shù)據(jù)量已達(dá)到ZB量級(jí)。如今,各行各業(yè)中己經(jīng)開(kāi)始積累著大量數(shù)據(jù)。可以斷言,我們正處在一個(gè)大數(shù)據(jù)時(shí)代。國(guó)外的谷歌、亞馬遜,國(guó)內(nèi)的阿里巴巴、騰訊等企業(yè)投入了大量的人力和財(cái)力到大數(shù)據(jù)的挖掘和分析中并從中獲取了大量的機(jī)遇和財(cái)富。更多人希望從這些數(shù)據(jù)中獲得機(jī)遇和財(cái)富,因此也意味著人們對(duì)數(shù)據(jù)挖掘和分析提出了更高的要求。
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏信息和知識(shí)的過(guò)程。由于人們面對(duì)的數(shù)據(jù)量非常的龐大,數(shù)據(jù)的種類非常的豐富,因此,數(shù)據(jù)挖掘逐漸形成了一個(gè)學(xué)術(shù)領(lǐng)域。數(shù)據(jù)挖掘涵蓋了多個(gè)學(xué)科的知識(shí),包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)等等,在數(shù)據(jù)分析的過(guò)程中還會(huì)涉及到社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)等等。它的目的就是從大數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律和趨勢(shì),為決策提供信息參考。數(shù)據(jù)挖掘技術(shù)近幾年發(fā)展很快,其成果己被廣泛應(yīng)用于管理決策、市場(chǎng)分析、人工智能、國(guó)家安全和生產(chǎn)控制等領(lǐng)域。
1大數(shù)據(jù)挖掘及分析過(guò)程
大數(shù)據(jù)挖掘及分析通常按照以下步驟進(jìn)行:
(1)明確問(wèn)題。無(wú)論面對(duì)何種存儲(chǔ)格式,何種類型的數(shù)據(jù)信息,首先要清晰的定義出問(wèn)題,明確數(shù)據(jù)挖掘的目的;
(2)數(shù)據(jù)預(yù)處理。在面對(duì)海量原始數(shù)據(jù)或者大型數(shù)據(jù)庫(kù)時(shí),為提高效率,首先要提取出需要進(jìn)行挖掘的目標(biāo)數(shù)據(jù)集,然后再對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的內(nèi)容通常包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的有效性、量綱的轉(zhuǎn)換復(fù)原、去除數(shù)據(jù)噪聲、補(bǔ)全缺失數(shù)據(jù),去除無(wú)效數(shù)據(jù)等工作。
(3)數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)挖掘的目的選擇一種或多種恰當(dāng)?shù)乃惴ǎ瑧?yīng)用于經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集上,進(jìn)行有目的、有效率的數(shù)據(jù)挖掘。
(4)數(shù)據(jù)分析。對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。
2數(shù)據(jù)挖掘的主要方法
目前較為常用的數(shù)據(jù)挖掘方法主要有以下6種:
(1)神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)方法是在模擬人腦神經(jīng)組織的基礎(chǔ)上發(fā)展起來(lái)的方法,它具有自組織自適應(yīng)性,適合并行處理和分布存儲(chǔ),擁有非線性映射能力和容錯(cuò)能力,非常適合用于數(shù)據(jù)挖掘。在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用神經(jīng)網(wǎng)絡(luò)方法可以對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位時(shí),速度快,同時(shí)描述也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。但是神經(jīng)網(wǎng)絡(luò)算法也有收斂速度較慢的缺點(diǎn)。
(2)遺傳算法。該算法是一種隨機(jī)搜索算法,常用來(lái)解決最優(yōu)化問(wèn)題。學(xué)者們受到生物學(xué)里遺傳、基因突變和雜交等現(xiàn)象的啟發(fā),從而發(fā)明了這種隨機(jī)搜索算法。遺傳算法具有隱含并行性、較好的收斂性和可擴(kuò)展性等優(yōu)勢(shì),從而在數(shù)據(jù)挖掘中得到了較為廣泛的應(yīng)用。但是,遺傳算法也有編碼復(fù)雜、訓(xùn)練時(shí)間長(zhǎng),而且可能得到的是局部最優(yōu)解而非全局最優(yōu)解等缺點(diǎn)。
(3)粗糙集方法。粗糙集是1982年由波蘭學(xué)者首先提出的一種建立在分類基礎(chǔ)上的理論,它的誕生就是為了解決不精確和不確定知識(shí)的問(wèn)題。粗糙集方法在處理不確定問(wèn)題時(shí)不需要先驗(yàn)信息,而且能在保留信息的前提下有效的對(duì)知識(shí)約簡(jiǎn),算法也比較簡(jiǎn)單。該方法可以和神經(jīng)網(wǎng)絡(luò)方法結(jié)合起來(lái)使用,能有效加快神經(jīng)網(wǎng)絡(luò)的收斂速度。粗糙集方法在很多領(lǐng)域中已經(jīng)得到了廣泛應(yīng)用,而且自身也處于不斷發(fā)展之中。
(4)模糊集方法。模糊集也是一種研究模糊現(xiàn)象的方法。它以模糊數(shù)學(xué)為基礎(chǔ),通過(guò)建立隸屬函數(shù)來(lái)對(duì)問(wèn)題進(jìn)行模糊評(píng)判和分析。模糊集方法目前已經(jīng)解決了很多傳統(tǒng)理論無(wú)法解決的問(wèn)題,并且取得了良好的效果,模糊集方法的主要缺點(diǎn)是在需要提高精度的時(shí)候,必然會(huì)降低決策速度,甚至在一些復(fù)雜的系統(tǒng)中無(wú)法取得滿意的結(jié)果。
(5)決策樹(shù)方法。決策樹(shù)是通過(guò)樹(shù)狀圖來(lái)表示思考決策的過(guò)程,本質(zhì)上決策樹(shù)是用于處理無(wú)規(guī)則數(shù)據(jù)的分類規(guī)則方法。該方法特別適合處理大規(guī)模的數(shù)據(jù),從中找到人們希望得到的有用信息。決策樹(shù)描述比較簡(jiǎn)單,而且擁有較快的分類速度。但它也有對(duì)閾值比較敏感的缺點(diǎn),學(xué)者們也正在致力于它的改進(jìn)之中,以期獲得更好的效果。
(6)統(tǒng)計(jì)分析方法。統(tǒng)計(jì)分析指的是通過(guò)建立數(shù)學(xué)模型來(lái)研究數(shù)據(jù)、字段之間存在的關(guān)系和規(guī)律,從而得出有用的、定量的結(jié)論。它可以揭示數(shù)據(jù)中的邏輯關(guān)系和數(shù)量關(guān)系,對(duì)比分析、回歸分析、結(jié)構(gòu)分析、相關(guān)分析等都是較為常用的分析方法。
3數(shù)據(jù)分析
根據(jù)不同的分析任務(wù)可選擇不同的數(shù)據(jù)分析方法。數(shù)據(jù)本身是冰冷的、枯燥的,要想讓數(shù)據(jù)變得生動(dòng),易于分析,可以利用圖形圖像處理、計(jì)算機(jī)視覺(jué)等技術(shù),通過(guò)把數(shù)據(jù)轉(zhuǎn)化為圖表、三維動(dòng)畫(huà)等形式來(lái)便于對(duì)數(shù)據(jù)加以進(jìn)一步的分析.由于大數(shù)據(jù)的特點(diǎn)可以直觀地呈現(xiàn)出來(lái),因此人們可以更容易地從中獲取更多有用的信息。當(dāng)前,大數(shù)據(jù)分析可以利用Hadoop平臺(tái)。Hadoop框架最核心的就是一個(gè)分布式文件系統(tǒng)(HDFS)和一個(gè)分布式計(jì)算系統(tǒng)(MapReduce)。HDFS可以讓多臺(tái)計(jì)算機(jī)協(xié)同工作,數(shù)據(jù)吞吐量大,而且具備較高的容錯(cuò)性。該系統(tǒng)對(duì)計(jì)算機(jī)硬件要求不高,它在大規(guī)模數(shù)據(jù)處理領(lǐng)域有廣泛而深遠(yuǎn)的意義。MapReduce本質(zhì)上是一種并行運(yùn)算的編程模型,它通過(guò)映射和規(guī)約的思想來(lái)應(yīng)對(duì)海量的數(shù)據(jù)處理和分析。MapReduce把復(fù)雜的任務(wù)分解成若干個(gè)簡(jiǎn)單的任務(wù)來(lái)處理,然后對(duì)前面的結(jié)果進(jìn)行匯總。由于這種”分而治之”的思想,使得MapReduce擅長(zhǎng)處理大數(shù)據(jù)。
4結(jié)束語(yǔ)
數(shù)據(jù)挖掘和分析技術(shù)多種多樣,文中介紹了常用的一些方法。每種方法都有自己的優(yōu)勢(shì),同時(shí)也有局限性。在實(shí)際應(yīng)用中,需要結(jié)合實(shí)際情況,選擇適合的一種方法或者把幾種方法結(jié)合起來(lái)使用,才能取得滿意的效果。
參考文獻(xiàn)
[1]程學(xué)旗,靳小龍,王元卓.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889- 1908.
[2 ]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48(6):957- 969.
[3]楊舒林,智能分析技術(shù)發(fā)展現(xiàn)狀及應(yīng)用[J]中國(guó)公共安全,2015.08(14):207- 209.
[4]劉正濤,王建東.Web數(shù)據(jù)空間技術(shù)研究[J]計(jì)算機(jī)工程與應(yīng)用,2012{7):12-17.