夏磊
摘 要:人類發(fā)明計算機以來就一直利用它進行數(shù)據(jù)相關(guān)性分析,從這個意義上來說現(xiàn)在的所謂“大數(shù)據(jù)分析”和之前的數(shù)據(jù)分析是一樣的,只是原來的算法對處理上千個維度這樣復(fù)雜數(shù)據(jù)模型時顯得力不從心。從2006年以來,隨著算法上的一系列突破再加上廉價計算能力的普及,人們終于有能力分析這些復(fù)雜的數(shù)據(jù)模型,于是大數(shù)據(jù)這個概念就誕生了。該文主要對通過對數(shù)據(jù)分析和大數(shù)據(jù)進行論述,探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)。
關(guān)鍵詞:大數(shù)據(jù) 智能 數(shù)據(jù)分析
中圖分類號:F503 文獻標識碼:A 文章編號:1674-098X(2014)04(a)-0021-01
對于數(shù)據(jù)分析來說,其主要的目的就是通過對數(shù)據(jù)的分析去發(fā)現(xiàn)問題或預(yù)測趨勢。從數(shù)據(jù)鉆取、大規(guī)模分析的技術(shù)手段、以及算法執(zhí)行上來說,大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術(shù)上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù),首先要對數(shù)據(jù)分析這一概念進行深入研究。
1 數(shù)據(jù)分析
數(shù)據(jù)分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業(yè)來說,最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業(yè)會有不同的相關(guān)的KPI需要跟蹤,所以報告的內(nèi)容也會有所側(cè)重,但是只要你一個行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開展。
對于數(shù)據(jù)分析,如果公司部門分的比較細的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠都是做data processing了。對于模型的分析,需要你對業(yè)務(wù)有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數(shù)據(jù)分析主要涉及的技能:
(1)數(shù)據(jù)庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。
(2)EXCEL、PPT的能力。報告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動化的能力,提高工作效率,領(lǐng)導(dǎo)也對你刮目相看,自己也有更多空余的時間準備其他方面的知識。
(3)市場分析能力。學(xué)會觀察市場的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學(xué)會去增長知識。
(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內(nèi)容,最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的,對于做數(shù)據(jù)分析也很有好處的說。
綜合來看,可以說數(shù)據(jù)分析=技術(shù)+市場+戰(zhàn)略。
2 如何培養(yǎng)數(shù)據(jù)分析能力
理論:
基礎(chǔ)的數(shù)據(jù)分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數(shù)據(jù)就無從下手;
(2)基礎(chǔ)的統(tǒng)計學(xué)知識,至少基礎(chǔ)的統(tǒng)計量要認識,知道這些統(tǒng)計量的定義和適用條件,統(tǒng)計學(xué)方法可以讓分析過程更加嚴謹,結(jié)論更有說服力;
(3)對數(shù)據(jù)的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:
(1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數(shù)據(jù)繞進去,最終自己都不知道自己得出的結(jié)論到底是用來干嘛的;
(2)多結(jié)合業(yè)務(wù)去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務(wù)運營中來,分析當然要回歸到業(yè)務(wù)中去,多熟悉了解業(yè)務(wù)可以使數(shù)據(jù)看起來更加透徹;
(3)了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開始了解,當然指標的統(tǒng)計邏輯和規(guī)則是必須熟記于心的,不然很容易就被數(shù)據(jù)給坑了;
(4)最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù),這是個必經(jīng)的過程,往往一個工作經(jīng)驗豐富的非數(shù)據(jù)分析的運營人員要比剛進來不久的數(shù)據(jù)分析師對數(shù)據(jù)的了解要深入得多,就是這個原因。
3 大數(shù)據(jù)
大數(shù)據(jù)就是通過統(tǒng)計分析計算機收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢、結(jié)果等“是什么”。
對于大數(shù)據(jù),一直來說,數(shù)據(jù)規(guī)模導(dǎo)致的存儲、運算等技術(shù)問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻,就徹底將大數(shù)據(jù)帶入了一個普及的領(lǐng)域。
從技術(shù)層面說,大數(shù)據(jù)和以前的數(shù)據(jù)時代的最大差異在于,以前是數(shù)據(jù)找應(yīng)用/算法的過程(例如各大銀行的大集中項目,以及數(shù)據(jù)建倉),而大數(shù)據(jù)時代的重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過程,因為數(shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。
大數(shù)據(jù)的特點:
(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問題是根據(jù)這個問題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān)系。
(2)大數(shù)據(jù)應(yīng)用的幾個可能:當文字變成數(shù)據(jù),此時人可以用之閱讀,機器可以用之分析;當方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時的谷歌尋人;當溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個從來未有過的審視現(xiàn)實的視角。
(3)數(shù)據(jù)創(chuàng)新的價值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數(shù)據(jù):在設(shè)計數(shù)據(jù)收集時就設(shè)計好了它的可擴展性,可以增加數(shù)據(jù)的潛在價值;數(shù)據(jù)的折舊值:數(shù)據(jù)會無用,需淘汰更新;數(shù)據(jù)廢氣:比如語音識別,當用戶指出語音識別程序誤解了他的意思,實際上就有效的訓(xùn)練了這個系統(tǒng)。
總之,大數(shù)據(jù)是因為對它的分析使用,才產(chǎn)生和體現(xiàn)它的價值,而不是因為其用到了突出的技術(shù)和算法才體現(xiàn)了它的價值。
4 大數(shù)據(jù)下的智能數(shù)據(jù)分析
在大數(shù)據(jù)的背景下,必須考慮數(shù)據(jù)之間的關(guān)聯(lián)性。一個單獨的數(shù)據(jù)是沒有意義的,實際中,選擇處在兩個極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系,把它們放在一個框架中看才能發(fā)現(xiàn)問題。因此,可以用以下四種方法在大數(shù)據(jù)背景下進行智能數(shù)據(jù)分析:
(1)從解決問題的角度出發(fā)收集數(shù)據(jù);
(2)把收集的數(shù)據(jù)整理好,放入一個框架內(nèi),并利用這個框架幫助決策者做出決定;
(3)評估決定與行動的效果,這將告訴我們框架是否合理;
(4)如果有新的數(shù)據(jù)出現(xiàn),我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數(shù)據(jù)。
5 結(jié)語
數(shù)據(jù)分析的最終目的是幫助業(yè)務(wù)發(fā)現(xiàn)問題并解決問題,提升公司價值,而這些是從數(shù)據(jù)發(fā)覺的,而不是盲目下結(jié)論。每家公司都有自己業(yè)務(wù)生產(chǎn)的數(shù)據(jù),通過數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等,發(fā)現(xiàn)業(yè)務(wù)上存在的問題,幫助公司業(yè)務(wù)的優(yōu)化。
參考文獻
[1] 李貴兵,羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究[J].科技資訊,2013(30).
[2] 魏凱.大數(shù)據(jù)的技術(shù)挑戰(zhàn)及發(fā)展趨勢[J].信息通信技術(shù),2013(6).
[3] 于艷華,宋美娜.大數(shù)據(jù)[J].中興通訊技術(shù),2013(1).endprint