眾所周知,數(shù)據(jù)只有流動(dòng)起來才能產(chǎn)生價(jià)值……企業(yè)的數(shù)據(jù)可以總結(jié)為兩個(gè)方面,第一個(gè)方面被稱之為“企業(yè)內(nèi)循環(huán)”,主要涉及到所從事的工作有助于加速企業(yè)提高經(jīng)營效率,完成開源節(jié)流;另一方面叫做“企業(yè)外循環(huán)”,可以理解為通過企業(yè)產(chǎn)品讓用戶形成互動(dòng),進(jìn)而產(chǎn)生海量數(shù)據(jù)。“如果將整個(gè)企業(yè)的外循環(huán)與內(nèi)循環(huán)有機(jī)結(jié)合起來,就形成了企業(yè)的數(shù)據(jù)循環(huán)的一個(gè)體系。”紅象云騰創(chuàng)始人童小軍對(duì)《中國信息化周報(bào)》記者表示。
循環(huán)、優(yōu)化、流轉(zhuǎn)一氣呵成
具體來說,對(duì)于數(shù)據(jù)分析的基本理念可以理解為“循環(huán)、優(yōu)化、流轉(zhuǎn)”,這是來自對(duì)于數(shù)據(jù)統(tǒng)計(jì)分析的一個(gè)理解。童小軍說:“我覺得一個(gè)企業(yè)可以被看作一個(gè)生命體,具有自調(diào)整能力,將下層的產(chǎn)品統(tǒng)計(jì)、運(yùn)維測試等統(tǒng)籌起來實(shí)現(xiàn)了一個(gè)在測的內(nèi)循環(huán),這是來自互聯(lián)網(wǎng)公司的內(nèi)循環(huán)。在外部,我們的產(chǎn)品與用戶形成了企業(yè)的外循環(huán)。例如如果要優(yōu)化產(chǎn)品,我們會(huì)記錄用戶數(shù)、活躍度等,這些數(shù)據(jù)會(huì)源源不斷地更新到我們的產(chǎn)品中,或者我們的系統(tǒng)如果給一個(gè)用戶發(fā)出一個(gè)搜索引擎或者一個(gè)需求,這時(shí)候企業(yè)給他們一個(gè)適時(shí)推薦,這個(gè)也可以稱之為外循環(huán)。”
同樣類似的案例在企業(yè)的質(zhì)量管理中也存在,例如我們經(jīng)常提到的戴明環(huán)等,其中也提到了循環(huán)質(zhì)量優(yōu)化的觀點(diǎn);還有一個(gè)自動(dòng)控制領(lǐng)域也涉及到閉環(huán)控制理論。
在我們的理解中,其實(shí)大數(shù)據(jù)所起到的作用在反饋這個(gè)層面,只有整個(gè)的大數(shù)據(jù)體系形成閉環(huán)的模式才能更好地服務(wù)企業(yè)。
“我們所理解的智能應(yīng)該是一種結(jié)構(gòu),很簡單地被認(rèn)為是一種閉環(huán)的反饋結(jié)構(gòu),而這種結(jié)構(gòu)本身具備了一系列的制度。我們企業(yè)數(shù)據(jù)循環(huán)系統(tǒng)可以釋放整個(gè)數(shù)據(jù)的想象力,關(guān)鍵大數(shù)據(jù)系統(tǒng)要打開關(guān)于數(shù)據(jù)的釋放響應(yīng)空間。其中數(shù)據(jù)循環(huán)、持續(xù)優(yōu)化,高速流轉(zhuǎn),系統(tǒng)穩(wěn)定、開源開放等都是客戶所提出的需求。”童小軍補(bǔ)充道。
如今大家經(jīng)常提起大數(shù)據(jù)Hadoop,分別涉及到化整為零、分片存儲(chǔ)、移動(dòng)計(jì)算、分片處理。因?yàn)榉制鎯?chǔ)以及化整為零的技術(shù),每臺(tái)機(jī)器都可以用,這樣就形成了移動(dòng)計(jì)算分塊處理。因?yàn)閿?shù)據(jù)分散的動(dòng)能,就可以將其移動(dòng)到機(jī)器的本地化處理,所以整個(gè)系統(tǒng)會(huì)表現(xiàn)得非常高效。
另外本地化處理與并行可以極大地解決IO問題,帶寬問題以及計(jì)算問題,在集中式機(jī)構(gòu)時(shí)就會(huì)面臨這樣的問題。因?yàn)樽鳛榧惺郊軜?gòu)根本性的一個(gè)性能缺陷在于無法移動(dòng)計(jì)算,就需要把數(shù)據(jù)從集中式的存儲(chǔ)拖拽到擁有計(jì)算的資源中進(jìn)行再次計(jì)算,從而產(chǎn)生了一個(gè)IO瓶頸、帶寬瓶頸以及磁盤瓶頸等。
童小軍在分析大數(shù)據(jù)Hadoop時(shí)說:“通過對(duì)分布式計(jì)算的移動(dòng)計(jì)算、化整為零等體系的全面了解,逐漸形成了一整套基于開源的系統(tǒng),這是我們以前基于gedis架構(gòu)的系統(tǒng)。我們可以看到Hadoop生態(tài)圈就像原始森林一樣,從底層的Hadoop等出發(fā),我們可以把它總結(jié)成幾個(gè)層面。
首先是平臺(tái)層,其次是結(jié)構(gòu)層、計(jì)算層、展現(xiàn)層以及管理層。其實(shí)開源大數(shù)據(jù)到底是大數(shù)據(jù)推動(dòng)了Hadoop發(fā)展,還是Hadoop推動(dòng)了大數(shù)據(jù)發(fā)展并沒有一致的絕對(duì)性,其中都是互相推動(dòng)的過程。我們可以看到整個(gè)Hadoop生態(tài)圈已經(jīng)龐大,其實(shí)開源本身也產(chǎn)生了標(biāo)準(zhǔn)的力量,對(duì)大數(shù)據(jù)標(biāo)準(zhǔn)產(chǎn)生帶來了助力。”
極致性能 生態(tài)化才是王牌
商務(wù)方面,紅象云騰提出了生態(tài)化的戰(zhàn)略,其中+Hadoop是公司提出的觀點(diǎn),目標(biāo)是服務(wù)更多的集成商,成為生態(tài)一部分。以“+Hadoop”為核心形成整個(gè)生態(tài)圈,進(jìn)而達(dá)到服務(wù)器、各種中間鍵以及相應(yīng)的多角度、全方位服務(wù)。
在大數(shù)據(jù)領(lǐng)域,通過軟硬件一體化,企業(yè)更需要打造極致的性能,紅象云騰在這方面有很多合作伙伴,第一個(gè)是紅旗,另一個(gè)是中太服務(wù)器,組成了紅色數(shù)據(jù)高鐵的紅象。“這個(gè)項(xiàng)目我們完成了將近幾萬億數(shù)據(jù)的快速檢索,當(dāng)然這里還有其他的核心作用,我們叫做china Redoop,紅象的超級(jí)數(shù)據(jù),形成了整個(gè)優(yōu)化的產(chǎn)品站、128線程,紅象云騰今后的目標(biāo)是對(duì)更多的CPU進(jìn)行更進(jìn)一步的加速,進(jìn)而形成打造極致的性能。”童小軍展望生態(tài)化戰(zhàn)略時(shí)表示。
企業(yè)通過與硬件廠商的合作,可以提煉成一個(gè)庫,叫做Hadoop處理加速庫,同時(shí)加速庫也可以提煉為一個(gè)觀點(diǎn),叫做HPU。
其關(guān)鍵的作用主要是實(shí)現(xiàn)在Hadoop框架下多種項(xiàng)目的加速,例如EC、SORT等都可以通過這個(gè)方式來完成加速。其中涉及幾個(gè)性能指標(biāo),通過與Java、X86、IBM相比,提速將近有30倍以上。
童小軍認(rèn)為在加速庫的角度,紅象云騰早已進(jìn)行了極致的分析,目前通過全面合作的策略,已與兩款國內(nèi)的大數(shù)據(jù)軟件,分別是YDB和kylin完成合作,哪怕是在kylin檢索上千億數(shù)據(jù)也是可以完成的。這個(gè)打破了Hadoop在高速檢索速度慢的怪圈,原因在于這其中所有的數(shù)據(jù)庫并不是直接拷貝到硬盤上。
應(yīng)用案例 不勝枚舉
說到數(shù)據(jù)循環(huán)的成功案例,也是不勝枚舉。例如,聯(lián)想電商,這套系統(tǒng)其實(shí)非常符合數(shù)據(jù)循環(huán)系統(tǒng)的理念。在聯(lián)想主要包含兩套循環(huán),一個(gè)是內(nèi)循環(huán),一個(gè)是外循環(huán)。特別的是,內(nèi)循環(huán)已經(jīng)優(yōu)化到分鐘級(jí),在進(jìn)行關(guān)鍵業(yè)務(wù)的廣告投放時(shí),或者進(jìn)行關(guān)鍵活動(dòng)的決策時(shí),都依賴這個(gè)系統(tǒng),另外在穩(wěn)定性,系統(tǒng)穩(wěn)定性檢測也依賴這個(gè)系統(tǒng)。
另外,中國航天如今已經(jīng)有5個(gè)PB的上線,這也是紅象云騰提供的機(jī)房整套建設(shè),一百多個(gè)節(jié)點(diǎn)的部署情況的展現(xiàn)。整個(gè)平臺(tái)性能指標(biāo)主要在IO密度上需要衛(wèi)星的數(shù)據(jù)傳輸過來,通過Hadoop可以做什么呢?對(duì)于簡單的做圖,以前第一期投入就需要八千多萬,這套系統(tǒng)投入才兩千多萬,而且數(shù)據(jù)提速到十幾分鐘就可以得到,效率大大提升。
另外,目前紅象云騰正在跟蹤包含交通部門、公安部門等在內(nèi)的相關(guān)數(shù)據(jù),其中涉及大量數(shù)據(jù)分析場景。例如公安部門有一整套關(guān)于快速結(jié)合算法,快速計(jì)算同行和同住人員以及大情報(bào)的數(shù)據(jù)分析架構(gòu)收效顯著。
對(duì)于“大數(shù)據(jù)+交通”的理解,核心的需求是這樣的。審計(jì)交通部門需要路面的數(shù)據(jù),以及GPS信息數(shù)據(jù)甚至包括橋梁數(shù)據(jù)。
在這個(gè)過程中需要檢測某些大型車輛是否進(jìn)入安全區(qū),對(duì)于橋梁的承載載重問題,是否需要設(shè)置車輛靠近時(shí)進(jìn)行報(bào)警,提示是否需要進(jìn)入該區(qū),或者已經(jīng)進(jìn)入危險(xiǎn)區(qū)域等。
另外基于橋梁的數(shù)據(jù),橋梁的各種各樣傳感器,包括溫度傳感器、壓力傳感器來識(shí)別這個(gè)橋梁是不是正常等情況,這其實(shí)是一種創(chuàng)新。
面對(duì)未來的大數(shù)據(jù)發(fā)展以及企業(yè)數(shù)據(jù)循環(huán),童小軍說:“我們?cè)谠O(shè)想將虛擬世界中的某些嘗試?yán)氍F(xiàn)實(shí)世界,在大數(shù)據(jù)平臺(tái)上是不是可以增加虛擬因素?將以前用的三維、多維引擎植入數(shù)據(jù)中,形成對(duì)大數(shù)據(jù)系統(tǒng)的三維后臺(tái)式模擬。這也是我們提出來的一套關(guān)于大數(shù)據(jù)的基礎(chǔ)架構(gòu),更是基于內(nèi)循環(huán)、外循環(huán)、高速數(shù)據(jù)交換的理念。”
在人才的戰(zhàn)略部署方面,紅象云騰有一個(gè)極致人才戰(zhàn)略,叫做“百校千企”。具體內(nèi)容是面向一百所高校提供大數(shù)據(jù)的課程以及平臺(tái),同時(shí)面向Hadoop,面向有關(guān)企業(yè)提供大數(shù)據(jù)人才,并做到運(yùn)營開放實(shí)驗(yàn)室。借此希望把開源技術(shù)、開放技術(shù)推向更多的大數(shù)據(jù)系統(tǒng),進(jìn)而完成各種方面的加速工作。