在大數(shù)據(jù)時代,一批新的數(shù)據(jù)挖掘技術(shù)正在涌現(xiàn),有望改變我們分析處理海量數(shù)據(jù)的方式,使得我們更快、更經(jīng)濟地獲得所需的結(jié)果,同時,這些新技術(shù)也將給商業(yè)智能市場帶來巨大沖擊。
這樣的預測我們已經(jīng)不止一次聽到過:到2020年,需要存儲的數(shù)據(jù)量將達到35萬億GB,是2009年數(shù)據(jù)存儲量的44倍。根據(jù)IDC的研究,2010年底全球的數(shù)據(jù)量已經(jīng)達到120萬PB(或1.2 ZB)。這些數(shù)據(jù)如果使用光盤存儲,摞起來可以從地球到月球一個來回(從地球到月球大約24萬英里)。
對悲觀者而言,這是一個不好的消息,意味著數(shù)據(jù)存儲世界的末日。而對于樂觀者而言,這里孕育著巨大的市場機會,龐大的數(shù)據(jù)就是一個信息金礦,隨著技術(shù)的進步,其財富價值將很快被我們發(fā)現(xiàn),而且會越來越容易。
實際上,圍繞“大數(shù)據(jù)”,一批新興的商業(yè)智能技術(shù)(包括數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)的存儲、處理和分析技術(shù))正在涌現(xiàn),讓我們處理海量的數(shù)據(jù)比以往任何時候都更便宜和更迅速。特別是,一旦這些大數(shù)據(jù)技術(shù)與超級計算機相結(jié)合,將成為企業(yè)業(yè)務活動不可缺少的助手,甚至改變許多行業(yè)做生意的方式。
何謂大數(shù)據(jù)
正如如日中天的“云計算”一樣,近年來業(yè)界對大數(shù)據(jù)有了很多討論,但是關(guān)于它的確切定義鮮有完全一致的說法。從云計算的發(fā)展過程來看,為了更好地讓大數(shù)據(jù)技術(shù)落地,咨詢機構(gòu)的分析師和大數(shù)據(jù)相關(guān)廠商除了要給我們描述清楚大數(shù)據(jù)對于數(shù)據(jù)挖掘以及商業(yè)智能的未來意味著什么一樣,還有必要明確地告訴我們,究竟什么是大數(shù)據(jù),哪些與大數(shù)據(jù)無關(guān)。
相對比較一致的說法是,大數(shù)據(jù)是指一系列使用非傳統(tǒng)的工具(比如Hadoop,但不限于Hadoop)來對大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行處理,從而獲得各種分析和預測結(jié)果的一系列數(shù)據(jù)挖掘技術(shù),它僅僅包括大型數(shù)據(jù)倉庫及其支撐其運行的硬件系統(tǒng),還包括形式各異的數(shù)據(jù),如計算機系統(tǒng)日志、金融服務交易記錄、搜索引擎的搜索記錄、電子郵件以及各種社交媒體活動等。
大數(shù)據(jù)技術(shù)之所以如今成為熱門是各種內(nèi)外因綜合作用的結(jié)果。在摩爾定律的推動下,IT設(shè)備的硬件成本一直在不斷降低。而單位計算成本的不斷下降以及多重處理系統(tǒng)的性能不斷改善,給企業(yè)的大數(shù)據(jù)處理技術(shù)奠定了一個非常好的硬件基礎(chǔ);第二個原因是內(nèi)存成本的不斷下降,企業(yè)在內(nèi)存中就可以處理大量的數(shù)據(jù),而以前這需要大量的投資,高昂的投資使得這一辦法常常實際上是不可行的。第三個原因,也是最重要的,現(xiàn)代IT技術(shù)讓我們把很多服務器連接到一起組建服務器群集變得非常容易。
在IDC的數(shù)據(jù)庫管理分析師Carl Olofson看來,正是上述三個方面的因素結(jié)合起來創(chuàng)造了大數(shù)據(jù)時代的到來。
“現(xiàn)在我們不僅可以把這些事情做得很好,而且是以一種可以負擔得起方式來進行。”他說,“過去,一些部署了多重處理系統(tǒng)的大超級計算機也可以聯(lián)成緊耦合的集群系統(tǒng),但其投資十分巨大,常常是數(shù)百萬甚至上千萬美元,因為是專門的硬件。而現(xiàn)在我們通過常見的硬件設(shè)備就可以達到同樣的配置,這就意味著我們能以一種更快、更便宜的方式處理更多的數(shù)據(jù)。”
不過,并非每個正在使用大型數(shù)據(jù)倉庫的企業(yè)都可以說它正在使用大數(shù)據(jù)技術(shù)。IDC認為,要判定一個企業(yè)是否需要使用大數(shù)據(jù)技術(shù),其前提是該技術(shù)必須可以負擔得起,其次還要滿足三個標準,即IBM的三個“V”:類型(variety),數(shù)量(volume)和速度(velocity)。類型指數(shù)據(jù)中有結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式;量指收集和分析的數(shù)據(jù)量非常大;速度是指數(shù)據(jù)處理速度要足夠快。
“大數(shù)據(jù)并不是說數(shù)據(jù)量總是有數(shù)百TB。數(shù)據(jù)量是否大要根據(jù)具體使用場景,幾百GB的數(shù)據(jù)量也可能對某些場合而言就相當大,因為數(shù)據(jù)的處理有三個方面的要求,除了數(shù)據(jù)量以外還要求速度或時間。”O(jiān)lofson說,“如果我可以在一秒內(nèi)完成對300GB數(shù)據(jù)的分析,而過去它需要一個小時,這將大大改變我利用這些處理結(jié)果的方式,這種處理能力的改善就為企業(yè)增加了價值。使用大數(shù)據(jù)技術(shù)的成本是企業(yè)負擔得起的,而且至少能滿足上述條件中的兩個。”
大數(shù)據(jù)與開源的天然聯(lián)系
“很多人認為Hadoop和大數(shù)據(jù)同義詞,這是一個錯誤的認識。”O(jiān)lofson說。他解釋說,一些應用雖然采用的是Teradata、MySQL和“聰明的集群技術(shù)”而沒有用Hadoop來實現(xiàn),但也可以認為是大數(shù)據(jù)的應用。
Hadoop是一個面向大數(shù)據(jù)的應用環(huán)境,也是大數(shù)據(jù)領(lǐng)域目前為止最受關(guān)注的工具,因為它基于MapReduce——這是超級計算機界常用的一個平臺,在Google資助下對它進行了簡化和優(yōu)化。Hadoop是密切相關(guān)的幾個Apache項目組成,包括MapReduce中的HBase數(shù)據(jù)庫。
目前,軟件開發(fā)人員提出了很多技術(shù)來擴展Hadoop的使用,而且還開發(fā)了很多類似的技術(shù),其中許多來自開源社區(qū)。
“軟件技術(shù)人員創(chuàng)建各種各樣的NoSQL數(shù)據(jù)庫,其中大多在優(yōu)化數(shù)據(jù)庫的I/0、增加數(shù)據(jù)的處理類型或者數(shù)據(jù)量上發(fā)揮了關(guān)鍵作用。”O(jiān)lofson說。
這些開源技術(shù)是沒有商業(yè)上的支持。“這些技術(shù)還要完善一段時間,得到最終足夠在市場立足可能還需要數(shù)年。因此,這是新生的大數(shù)據(jù)技術(shù)還要幾年時間才能修成正果。”他補充說。
來自IDC的消息,今年年底至少有三個商業(yè)供應商將為Hadoop提供一些支持服務。此外,幾家廠商(如Datameer)將提出幾個基于Hadoop的分析工具,以支持企業(yè)開發(fā)自己的應用。Cloudera和Tableau已經(jīng)在其產(chǎn)品中使用了Hadoop 。
不過,業(yè)內(nèi)觀察家就升級后的新一代關(guān)系數(shù)據(jù)庫管理系統(tǒng)是否也應該被認為是大數(shù)據(jù)技術(shù)存在不同意見。
“我認為新一代符合更快、更大、更便宜這個標準,”O(jiān)lofson說,以Teradata為例,它的數(shù)據(jù)庫系統(tǒng)已經(jīng)變得便宜多了,而且它還是一個可擴展的集群環(huán)境。
但也有人不同意。 “一般而言,你能用數(shù)據(jù)庫和標準的BI工具來完成這些數(shù)據(jù)處理,這就不是真正的大數(shù)據(jù)技術(shù)。”Gartner的數(shù)據(jù)管理分析師Marcus Collins說,“這些處理技術(shù)已經(jīng)存在很長一段時間了。”
仍在快速演進之中
大數(shù)據(jù)技術(shù)仍處于快速演進之中。現(xiàn)在正在利用該技術(shù)的公司無疑擁有一批優(yōu)秀的IT人員,它們一般而言非常精通技術(shù),并能適應技術(shù)的進步和自己公司的要求 。
“如果你的公司不具備這些條件,那么,可以嘗試與服務提供商(也許是某個云服務)進行合作,或者干脆再等等,直到市場有很多廠商能提供成熟的軟件產(chǎn)品和服務再考慮應用大數(shù)據(jù)技術(shù)。”O(jiān)lofson建議說,“畢竟,你的業(yè)務人員才是真正了解你業(yè)務的人。”
毫無疑問,數(shù)據(jù)挖掘能相關(guān)技術(shù)已經(jīng)發(fā)生了巨大的改變,但分析家說,大數(shù)據(jù)技術(shù)不會完全取代今天的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具 。
“一直以來,數(shù)據(jù)挖掘重點考慮的是建立一個相對復雜的模型,來分析和處理不太多的數(shù)據(jù)。”Gartner的Collins說,“而現(xiàn)在,大數(shù)據(jù)技術(shù)讓我們能處理海量的數(shù)據(jù),因此很有可能,未來我們不再需要一個非常復雜的模型了,這可能意味著數(shù)據(jù)挖掘方式將發(fā)生巨大轉(zhuǎn)變。”
“我的看法是,大數(shù)據(jù)實際上將為數(shù)據(jù)倉庫帶來更多的商業(yè)機會。”O(jiān)lofson說,“人們將使用類似MapReduce的技術(shù),可以是Hadoop也可以是一些其他的技術(shù),來獲得一些非常有趣(或有價值)的商業(yè)情報,這些都是此前絕對不可能分析出來。接下來,為了重用并跟蹤過去的模式,人們將把它用于數(shù)據(jù)倉庫,這實際上會擴大數(shù)據(jù)倉庫的使用。”
規(guī)模和成功案例是大數(shù)據(jù)技術(shù)面臨的另外一種挑戰(zhàn),Collins說,“因為沒有現(xiàn)存的部署和使用這項技術(shù)的體系架構(gòu)。可以說,大數(shù)據(jù)技術(shù)是在邊摸索邊完善。”
他說,如果使用一些套裝的工具有助于避免一些技術(shù)風險,但很多時候這項技術(shù)看起來似乎就是一些編程接口,很不成熟,對于商業(yè)智能技術(shù)的應用而言,這實際上是一個倒退。Collins舉例說,“Hadoop是一個漂亮的供學術(shù)研究的系統(tǒng),但在商業(yè)智能的驅(qū)動下,它已經(jīng)進入企業(yè)和用戶桌面,并且擁有對用戶非常友好的用戶界面。雖然有很多廠商圍繞Hadoop提供了一些服務和技術(shù)支持,但更多的技術(shù)支持可能還是需要從用戶社區(qū)中獲得。”
“大數(shù)據(jù)技術(shù)想要在IT領(lǐng)域得到普及,就需要為用戶提供可以方便使用的工具,但在業(yè)務部門,供它們使用的此類工具還沒有出現(xiàn)。”他補充說。
誰在用大數(shù)據(jù)分析
那么,究竟有哪些用戶是在真正做大數(shù)據(jù)分析?
一年前,大數(shù)據(jù)技術(shù)的主要用戶是大型網(wǎng)絡公司,如Facebook和雅虎,它們需要分析網(wǎng)頁的點擊數(shù)據(jù)。但在今天,“大數(shù)據(jù)技術(shù)的使用已經(jīng)超出了互聯(lián)網(wǎng)公司,其使用者涵蓋各種各樣的類型,幾乎所有擁有海量數(shù)據(jù)的公司都在使用大數(shù)據(jù)技術(shù)。”Collins說,銀行、公用事業(yè)、智能社區(qū)……眾多的企業(yè)紛紛搭上了大數(shù)據(jù)這輛花車。
一些大數(shù)據(jù)技術(shù)正在被那些迫切需要這些技術(shù)而且對新技術(shù)異常敏感的人們積極使用,如創(chuàng)建由社交媒體驅(qū)動的基于Web的服務。實際上,這些技術(shù)在這些項目中起到了關(guān)鍵作用。
而在其他一些垂直行業(yè),企業(yè)已意識到,與之前相比它們在產(chǎn)業(yè)鏈上的價值越來越依賴于信息,這樣的認識有助于大數(shù)據(jù)技術(shù)得到更快速地應用和普及。再加上硬件價格的不斷下降以及可承受的軟件費用,企業(yè)發(fā)現(xiàn)自己正處于在業(yè)務轉(zhuǎn)型的一個絕佳機會當口。
應用1:電視廣告價值評估
總部位于紐約的TRA公司主要提供電視廣告的價值評估服務,它們把家庭收看電視和數(shù)字錄像時看到的電視廣告與其實際發(fā)生的零售柜臺購買進行比較分析,從而對電視廣告進行價值評估。該公司通過收集有線電視公司的收看數(shù)據(jù)和零售店的會員名單來得到這些相關(guān)的數(shù)據(jù)。TRA的大數(shù)據(jù)系統(tǒng)處理170萬個家庭收看電視的數(shù)據(jù),這些數(shù)據(jù)具體到秒,如果沒有大數(shù)據(jù)技術(shù)這是不可能的壯舉。整個系統(tǒng)基于Kognitio的WX2數(shù)據(jù)庫,不僅能迅速地上載、抽取或者分析數(shù)據(jù),還能從DVR系統(tǒng)收集電視廣告的收看信息,然后與零售店的POS機中的數(shù)據(jù)集成起來生成定制的報告。
“Kognitio有一個基于內(nèi)存的解決方案,我們現(xiàn)有的數(shù)據(jù)庫中的一半數(shù)據(jù)都可以放到內(nèi)存中,這就意味著,我們的客戶如果提交了一個查詢,它在幾秒鐘內(nèi)就可以得到答案,而不是幾小時或幾天。”TRA的CEO Mark Lieberman說。
這個數(shù)據(jù)庫運行在開放的硬件平臺上,而且TRA自己的前端應用程序采用的.NET的Visual Studio開發(fā),這大大降低了投資成本。“我們?nèi)匀皇褂肕ySQL,用戶界面采用DevExpress開發(fā)。”Lieberman補充說 。
他預計,大數(shù)據(jù)技術(shù)有可能會徹底改變高達700億美元的電視廣告銷售業(yè)務。因為傳統(tǒng)的測算收視率的方法需要安裝專門的機頂盒,調(diào)查抽樣點在全國范圍內(nèi)不少于20000戶家庭。而今天,詳細數(shù)據(jù)可以直接從250萬個DVR和有線電視分線盒得到,并可以對這些數(shù)據(jù)進行詳細分析。
“我們讓這個700億美元的廣告市場變得可以測算,這就給廣告主帶來了更多的信心,讓它們可以確信電視是個做廣告的好地方。”Lieberman說,“這是一個巨大的進步,而這一切都是應為有了大數(shù)據(jù)分析。”
Aberdeen集團的分析師Greg Belkin說,TRA和其他公司使用的這些工具因為符合大數(shù)據(jù)技術(shù)所要求的速度、數(shù)量和數(shù)據(jù)類型而被貼上了“大數(shù)據(jù)”這個標簽。 “零售行業(yè)擁有很多數(shù)據(jù)源,其數(shù)據(jù)也處于爆炸狀態(tài),傳統(tǒng)上無法對這些數(shù)據(jù)進行分析處理,更不可能對其進行挖掘,如社會媒體網(wǎng)站、視頻監(jiān)控和零售商的銷售數(shù)據(jù)。”Belkin說,“就整個零售行而言,這一問題是非常尖銳的。因為數(shù)據(jù)量是如此巨大而且數(shù)據(jù)是如此復雜,使用傳統(tǒng)的基于數(shù)據(jù)庫的方法根本無法分析,因此零售行業(yè)紛紛轉(zhuǎn)向大數(shù)據(jù)技術(shù)尋求幫助。”
應用2:分析顧客的購買數(shù)據(jù)
同樣,大數(shù)據(jù)技術(shù)也讓Catalina公司的市場營銷發(fā)生了革命性改變。這家位于佛羅里達州圣彼得堡的公司擁有2.5 PB的顧客購買數(shù)據(jù),它們記錄著超過1.9億美國購物者多年來的購買行為。其最大的單個數(shù)據(jù)庫里保存的數(shù)據(jù)達到驚人的4250億條,該公司每天都要對這個數(shù)據(jù)庫中的6.25萬億條記錄進行更新處理。
通過對這些數(shù)據(jù)進行分析,Catalina幫助其主要的消費品制造商和大型連鎖超市預測:哪些商品客戶最有可能購買,誰會對新產(chǎn)品感興趣。
“我們希望把這項技術(shù)應用到我們的數(shù)據(jù)上,而不是讓數(shù)據(jù)適應技術(shù)。” Catalina執(zhí)行副總裁兼首席信息官Eric Williams說,“幸運的是,這項技術(shù)現(xiàn)在已經(jīng)存在,比如SAS公司就把它們的數(shù)據(jù)分析技術(shù)應用到數(shù)據(jù)庫上。”
應該說,這項技術(shù)給Catalina整個公司帶來了巨大改變。以前,該公司也曾想做這些事情,但由于存在很多限制,使得它們的很多想法無法實現(xiàn)。最終該公司不得不自己開發(fā)一些工具,但是它們實在太簡陋,無法完成我們設(shè)想的目標。而大數(shù)據(jù)技術(shù)的出現(xiàn)改變了整個組織。
如今,在Catalina的專有系統(tǒng)中除了應用了一些開源軟件外,還在Netezza數(shù)據(jù)倉庫應用平臺上使用商業(yè)分析軟件,包括SAS的分析工具SAS Analytics。
Williams介紹說,公司還在研發(fā)可以在通用的、基于英特爾的硬件上運行的技術(shù),這使得未來可以對二級和三級的產(chǎn)品進行分析或者預測,比如,讓SAS Analytics的評分解決方案可以運行在Netezza上,而Netezza直接基于數(shù)據(jù)庫運行。“能夠利用這種技術(shù)并讓它直接運行在數(shù)據(jù)庫之上,意味著Catalina的數(shù)據(jù)挖掘方法可以從幾周變成幾個小時,這是非常有意義的。”
應用3:識別商業(yè)欺騙
曾任美國銀行大數(shù)據(jù)和分析的常務總經(jīng)理Abhishek Mehta在去年Hadoop World 上的演講中表示,大數(shù)據(jù)技術(shù)從根本上改變了美國銀行的業(yè)務運作方式。
“我認為今天Hadoop的作為與20年前的Linux非常相似。我們都看到了Linux在企業(yè)軟件領(lǐng)域的表現(xiàn),它給企業(yè)軟件市場帶來了巨大的沖擊。Hadoop正在做同樣的事情。現(xiàn)在不是我們要不要部署Hadoop,而是什么時候部署的問題。”他說。
美國銀行除了利用Hadoop對網(wǎng)頁的點擊行為和交易進行分析之外,還利用Hadoop來快速解決業(yè)務問題——識別商業(yè)欺騙。
“作為一個銀行,我們非常希望能識別出欺騙行為。” Mehta說, “現(xiàn)在我可以針對每個人建立一個模型來分析他過去5年的每一次欺騙行為。而過去,我們只能抽取幾個樣本來建立一個模型,然后來看看是否有例外,如果有就重新建立一個新的模型,今天這樣的日子已經(jīng)結(jié)束了。”
應用4:實時分析電力供應狀況
公用事業(yè)行業(yè)才剛剛開始注意到它手頭已經(jīng)積累了非常龐大的數(shù)據(jù)以及如此海量的數(shù)據(jù)可以為其帶來的巨大價值。美國中西部的一個政府部門嘗試使用Hadoop來分析智能電表送來的數(shù)據(jù)。
“智能電表”主要用于對用電自動進行計費,但它們也能收集供電線路的電流波動狀況。
“如果能收集這些信息,并能建立一個適當?shù)臄?shù)學模式,就可以在變壓器出現(xiàn)故障之前預測出它可能要出現(xiàn)故障。”O(jiān)lofson說,“或者,如果某個電廠發(fā)生停電事故,可以通過電流的波動及時發(fā)現(xiàn)并采取行動,而不是直到客戶來電才知道有停電事故 。”
Olofson預計,未來公用事業(yè)部門將使用大數(shù)據(jù)技術(shù)來對電網(wǎng)進行監(jiān)測和進行故障檢測,從而具備對電網(wǎng)進行微調(diào)整的能力,最終不僅改善對客戶的服務,并減少運營成本。不過,在此之前可能需要對老舊的基礎(chǔ)設(shè)施進行大幅度的升級改造。
另外,關(guān)注公司品牌的市場營銷人員也正在嘗試在社交媒體中使用Hadoop來進行“情緒分析(sentiment analysis)”,而且市場來涌現(xiàn)了一批服務提供商,它們使用Hadoop來對Twitter上發(fā)布的內(nèi)容進行搜集和分析,以了解用戶對某一個產(chǎn)品是如何定位的,對該產(chǎn)品是積極的認可還是消極的排斥。
============鏈接======
關(guān)于大數(shù)據(jù)的三個誤區(qū)
如今,業(yè)界有大量關(guān)于何謂大數(shù)據(jù)以及它可以做什么的說法,其中有很多是相互矛盾的。這里是關(guān)于大數(shù)據(jù)的三個典型的錯誤說法,都存在一定的片面性:
1.關(guān)系型數(shù)據(jù)庫不能擴展到非常大的數(shù)據(jù)卷,因此不被認為是大數(shù)據(jù)的技術(shù)。
2.無論工作負載有多大也無論使用場景如何,Hadoop(或,推而廣之,任何MapReduce的環(huán)境)都是大數(shù)據(jù)的最佳選擇。
3.基于數(shù)據(jù)模型的數(shù)據(jù)庫管理系統(tǒng)的時代已經(jīng)結(jié)束了,數(shù)據(jù)模型必須采用大數(shù)據(jù)的方式來建立。
(資料來源:IDC 2011年市場研究報告)