我們正處于一個(gè)數(shù)據(jù)爆炸性增長的時(shí)代。根據(jù)IDC的預(yù)測,從2009年到2020年,數(shù)據(jù)總量將增長44倍,達(dá)到35ZB(Zettabyte)。其中,80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。這些龐大的數(shù)據(jù)信息考驗(yàn)著企業(yè)對(duì)大數(shù)據(jù)的處理能力。
事實(shí)上,不少企業(yè)已經(jīng)感受到失控的數(shù)據(jù)增長對(duì)績效造成的沖擊。比如,越來越多的機(jī)構(gòu)為了應(yīng)對(duì)大數(shù)據(jù)現(xiàn)象,開始部署更加先進(jìn)的大規(guī)模并行處理(MPP)數(shù)據(jù)庫、Hadoop 分布式文件系統(tǒng)、MapReduce 算法、云計(jì)算及存檔存儲(chǔ)設(shè)施。
“對(duì)各個(gè)組織來說,讓業(yè)務(wù)部門能夠訪問所有數(shù)據(jù),以便將其應(yīng)用于整個(gè)大數(shù)據(jù)基礎(chǔ)設(shè)施極為重要。而數(shù)據(jù)集成讓組織機(jī)構(gòu)能夠利用大數(shù)據(jù)的最大優(yōu)勢,將傳統(tǒng)的交易數(shù)據(jù)與全新的交互數(shù)據(jù)組合起來,從而獲得在其他情況下無法達(dá)成的洞察力和價(jià)值。”Informatica企業(yè)數(shù)據(jù)集成產(chǎn)品管理總監(jiān)鄭瑋告訴記者。
“比如,可以通過社交媒體了解客戶的喜惡,以此充實(shí)客戶資料來提高目標(biāo)行銷效率。沒有數(shù)據(jù)集成,大數(shù)據(jù)就僅僅是許多海量數(shù)據(jù)孤島?!?鄭瑋指出,Informatica在2011年6月推出的Informatica 9.1 for Big Data,就是專門針對(duì)大數(shù)據(jù)分析而創(chuàng)建的統(tǒng)一數(shù)據(jù)集成平臺(tái)。
“Informatica 9.1 for Big Data平臺(tái)的開發(fā)目標(biāo)非常明確,就是將海量數(shù)據(jù)帶來的挑戰(zhàn)轉(zhuǎn)化為重大機(jī)遇?!编崿|說,該平臺(tái)提供了3個(gè)方面的創(chuàng)新功能:在與大交易數(shù)據(jù)的連接方面,其提供的全新關(guān)系/數(shù)據(jù)倉庫設(shè)備包括將該連接擴(kuò)展到專為大數(shù)據(jù)定制的解決方案;與大交互數(shù)據(jù)的連接方面,借助其提供的與新型社交媒體的連接器,用戶能夠訪問Facebook、Twitter等新數(shù)據(jù)源;在海量數(shù)據(jù)處理方面,該平臺(tái)可讓 IT 部門將來自任何來源的數(shù)據(jù)輸入 Hadoop,同時(shí)從 Hadoop 中抽取數(shù)據(jù)發(fā)送給任何目標(biāo)。此外,該連接還允許對(duì) Hadoop中的數(shù)據(jù)應(yīng)用 Informatica 數(shù)據(jù)質(zhì)量、數(shù)量探查和其他技術(shù)。
據(jù)鄭瑋介紹,目前,已經(jīng)有中國公司開始和Informatica就大數(shù)據(jù)項(xiàng)目進(jìn)行溝通。從全球角度來看,在一些數(shù)據(jù)比較多、比較成熟的行業(yè)中,將會(huì)產(chǎn)生大量的數(shù)據(jù)分析、數(shù)據(jù)科學(xué)家的需求。