

掘大數(shù)據(jù)之寶藏
提及大數(shù)據(jù),大多會圍繞幾個角度:一方面是它的海量性;另一方面是快速數(shù)據(jù)處理能力;另外就是數(shù)據(jù)的多樣化。通過一些結構化的數(shù)據(jù),企業(yè)ERP、商務平臺、非結構化視頻圖片、收集到的各種數(shù)據(jù)、互聯(lián)網交互數(shù)據(jù),各種各樣的數(shù)據(jù)種類給大數(shù)據(jù)技術提供了一個很好的發(fā)展平臺,因為大數(shù)據(jù)的強項就是處理更多的數(shù)據(jù)種類,并快速把數(shù)據(jù)進行分類存儲、挖掘以及提取它的價值。
大數(shù)據(jù)因其巨大的商業(yè)價值和市場需求正日益成為推動信息產業(yè)變革的新引擎。面向大數(shù)據(jù)市場的新產品、新技術、新服務、新業(yè)態(tài)正在不斷涌現(xiàn)。大數(shù)據(jù)時代的到來已經不是一種單純的理念思路,而是一種不可逆轉的趨勢了。
首先,大數(shù)據(jù)能夠產生價值。無論是在日常生活中還是企業(yè)生產里,都需要通過數(shù)據(jù)的收集和處理來做出決定,以最大化的滿足個人或者客戶的需求,而大數(shù)據(jù)理論的特點就在于這一過程的高效性、簡易性甚至實時性。通過大數(shù)據(jù)的處理,可以完成對于系統(tǒng)或是結構化數(shù)據(jù)的實時更新,從而完成最快速度的決策,這毫無疑問將為社會進步創(chuàng)造巨大的價值。
其次,大數(shù)據(jù)具備不可替代性。隨著信息社會的發(fā)展,信息量將以爆炸的速度進行膨脹增長,在這個過程中無論科技具有怎樣的發(fā)展方向,對于大規(guī)模數(shù)據(jù)的處理將始終占據(jù)工作和科研中重中之重的位置,而無論是云計算還是其他的執(zhí)行方式,都只是對于這一思想的具體實現(xiàn)和有力支撐,而不可能從根源上替代大數(shù)據(jù)這一體系的存在價值。
最后,大數(shù)據(jù)具備充足的生命力。無論是社交網絡的廣泛推廣,還是諸如蘋果、谷歌等企業(yè)對于大數(shù)據(jù)發(fā)展的不斷推動,大數(shù)據(jù)的整體發(fā)展形勢都會像滾雪球一樣越來越大。而同樣的,調查表明,有超過80%的公司代表認為大數(shù)據(jù)理論的發(fā)展將對公司的商業(yè)分析等過程起到有效的幫助,這一點有力地證明了大數(shù)據(jù)具備充分廣闊的生長空間。
大數(shù)據(jù)不僅影響著人們生活的方方面面,更重要的是它給企業(yè)帶來的改變。據(jù)Gartner預測,企業(yè)數(shù)據(jù)將在五年內增加800%,其中80%是非結構化數(shù)據(jù),大部分來自團體、社區(qū),以及社交網絡的非業(yè)務數(shù)據(jù)。面對如此規(guī)模的數(shù)據(jù),對于有準備的企業(yè)來說這無疑是一座信息金礦,能否將海量數(shù)據(jù)轉換為有價值的信息,將成為未來企業(yè)的決勝法寶。
開源 大數(shù)據(jù)的制勝法寶
大數(shù)據(jù)蘊藏的商業(yè)價值不可小覷。對于當今的企業(yè)而言,數(shù)據(jù)就是一種重要的戰(zhàn)略資產,如果能夠正確評估其商業(yè)價值并且迅速行動起來,將會在未來的競爭中占得先機。然而,傳統(tǒng)關系型數(shù)據(jù)庫的技術擅長處理結構化數(shù)據(jù),對于未來企業(yè)中占絕大多數(shù)的非結構化數(shù)據(jù)卻無從下手。此時,大量新技術應運而生。
大數(shù)據(jù)獲得動力,關鍵在于開放源代碼,幫助分解和分析數(shù)據(jù)。以Hadoop為代表的一系列開源技術,成為大數(shù)據(jù)存儲、處理和分析的主力軍。各大IT巨頭瞄準開源技術,紛紛推出各自的大數(shù)據(jù)戰(zhàn)略。Hadoop作為其中的最受關注的技術,已逐漸走向商業(yè)化的道路。不可否認,Hadoop的確是一款非常出色的處理大數(shù)據(jù)的開源工具。除了Hadoop之外,還有很多優(yōu)秀的技術和工具如雨后春筍般成長起來,包括開源語言R、NoSQL數(shù)據(jù)庫和非結構化數(shù)據(jù)存儲解決方案等,也已成為大數(shù)據(jù)舞臺上不可或缺的成員。
開源是靈感的匯集,凝聚了全世界范圍自由開發(fā)人的思想結晶;開源,是無界的合作,沒有地理位置的阻隔,沒有商業(yè)條款的羈絆。縱使開源不是為商業(yè)化而生,但事實證明開源卻有著商業(yè)化應用不可比擬的優(yōu)勢。
現(xiàn)在的商業(yè)智能和企業(yè)搜索的專有應用程序都沒有“坐以待斃”。商業(yè)智能增加了更多類似搜索的功能,并且搜索還取代了很多商業(yè)智能功能。但是在幾年前,專有解決方案似乎是最安全的方法,而開源解決方案似乎更具風險。而現(xiàn)在,很多公司開始看到,因為開源項目獨立于企業(yè)財務決策,他們對于保護其長期投資更具后勁。此外,很多企業(yè)發(fā)現(xiàn)他們更容易獲得、培訓和留住開源人才,因為,他們可以深入代碼。
何以解大數(shù)據(jù)存儲之惑
也許,人們對大數(shù)據(jù)的印象很多是從存儲容量的廉價性而來。但實際上,企業(yè)每天都在創(chuàng)造大量的數(shù)據(jù),而且越來越多,而人們正在努力地從浩瀚的數(shù)據(jù)海洋中尋覓有價值的商業(yè)情報。另一方面,用戶還會保存那些已經分析過的數(shù)據(jù),因為這些舊數(shù)據(jù)可以與未來收集的新數(shù)據(jù)進行差異化分析,依然有潛在的利用可能。
大數(shù)據(jù)應用的一個主要特點是實時性或者近實時性。比如,如果警察攔住一輛車,想得到這輛車的相關信息,那么這對時間的要求是越快越好。類似的,一個金融類的應用,能為業(yè)務員從數(shù)量巨大種類繁多的數(shù)據(jù)里快速挖掘出相關信息,能幫助他們領先于競爭對手做出與交易相關的決定。
隨著大數(shù)據(jù)應用的爆發(fā)性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個角度來說,可以很明顯地看到大數(shù)據(jù)分析應用需求正在影響著數(shù)據(jù)存儲基礎設施的發(fā)展。
數(shù)據(jù)通常以每年50%的速度快速激增,尤其是非結構化數(shù)據(jù)。隨著科技的進步,有越來越多的被傳感器采集的數(shù)據(jù)、移動設備產生的數(shù)據(jù)、社交多媒體產生的數(shù)據(jù)等等,所以數(shù)據(jù)只可能繼續(xù)增長。因此大數(shù)據(jù)需要非常高性能、高吞吐率、大容量的存儲設備。
當下,云存儲的方式在歐美市場上的應用很廣泛,大數(shù)據(jù)用云的形式去交付有兩個典型:面對好萊塢的電影制作商,這些資源是黃金數(shù)據(jù),如果不想放在自己數(shù)據(jù)中心里,把它們歸檔在云上,到時再進行調用;此外,越來越多的企業(yè)將云存儲作為資源補充,提高持有IT資源利用率。
結語:
大數(shù)據(jù)可以用在各行各業(yè),某些行業(yè)因為大數(shù)據(jù)的引入可能帶來前所未有的發(fā)展。那么針對國內市場而言,具體哪些客戶更傾向于大數(shù)據(jù)呢?第一類客戶是電信業(yè),電信行業(yè)擁有海量且價值連城的數(shù)據(jù);第二類客戶是金融業(yè),金融行業(yè)的客戶需要對大數(shù)據(jù)的非常準確把握,由于其目前面臨著前所未有的挑戰(zhàn),需要提高業(yè)務的類型,提高客戶的黏度和創(chuàng)新,所以使得金融行業(yè)需要對業(yè)務本身進行挖掘和使用,這就涉及到了大數(shù)據(jù);第三類客戶是零售業(yè),包括在線的零售電商都在使用大數(shù)據(jù)對客戶的行為進行挖掘追蹤,實現(xiàn)交叉銷售,提升客戶體驗。此外,感興趣的行業(yè)還包括娛樂、媒體、地產行業(yè)等等。
抓住大數(shù)據(jù)所帶來的機遇也需要解決一些棘手的問題。如隱私、安全、知識產權、可靠性都是急需解決的問題。企業(yè)不僅需要投入人才和技術,還需要對流程、結構進行優(yōu)化,以適應大數(shù)據(jù)的需求。