999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)平臺基準測試標準化思考*

2015-04-15 08:46:08陳凱中國信息通信研究院通信標準研究所高級工程師
信息通信技術(shù)與政策 2015年2期
關(guān)鍵詞:標準化

陳凱 中國信息通信研究院通信標準研究所高級工程師

魏凱中國信息通信研究院通信標準研究所高級工程師

周曉敏 中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

大數(shù)據(jù)平臺基準測試標準化思考*

陳凱 中國信息通信研究院通信標準研究所高級工程師

魏凱中國信息通信研究院通信標準研究所高級工程師

周曉敏 中國聯(lián)合網(wǎng)絡(luò)通信有限公司技術(shù)部項目經(jīng)理

大數(shù)據(jù)基準測試是大數(shù)據(jù)技術(shù)和產(chǎn)品發(fā)展中不可或缺的標尺。目前,雖然已經(jīng)有了很多的測試工具,如何將它們標準化成為業(yè)界關(guān)注的焦點。本文介紹了大數(shù)據(jù)基準測試標準化的緊迫性,分析了大數(shù)據(jù)基準測試標準化現(xiàn)狀和測試工具,指出了大數(shù)據(jù)基準測試標準化所面臨的挑戰(zhàn);最后,對大數(shù)據(jù)基準測試標準化最新進展,以及大數(shù)據(jù)基準測試標準化下一步的發(fā)展方向進行了展望。

大數(shù)據(jù) 基準測試 Hadoop 標準化

1 引言

大數(shù)據(jù)是指難以用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。今天越來越多的企業(yè)認識到,大數(shù)據(jù)的分析能力將成為競爭力的核心,企業(yè)對大數(shù)據(jù)的投資也在不斷擴大。Gartner調(diào)查顯示,73%的企業(yè)計劃在未來兩年內(nèi)投資大數(shù)據(jù)。以開源Hadoop、Spark等為基礎(chǔ)的大數(shù)據(jù)基礎(chǔ)平臺解決方案和云服務(wù)如雨后春筍不斷涌現(xiàn),形成了近200億美元的市場規(guī)模。

然而對于很多企業(yè)用戶來說,如何評價一個大數(shù)據(jù)平臺的綜合能力,常常是系統(tǒng)設(shè)計、產(chǎn)品和服務(wù)選型、平臺建設(shè)、系統(tǒng)優(yōu)化和運維時面臨的一大挑戰(zhàn)?;仡檾?shù)據(jù)庫和服務(wù)器產(chǎn)品的發(fā)展歷史,一套公平、可重復(fù)、便于理解的測試基準,是推動產(chǎn)品和服務(wù)快速成熟的重要支撐。今天,大數(shù)據(jù)平臺正處在發(fā)展初期,各種新架構(gòu)、新產(chǎn)品和新服務(wù)不斷涌現(xiàn),研發(fā)、采購、驗收等環(huán)節(jié)迫切需要統(tǒng)一的衡量標準來牽引。目前來看,國內(nèi)外還缺乏一套能體現(xiàn)大數(shù)據(jù)特點,又簡便易行,且被工業(yè)界廣泛認可的大數(shù)據(jù)平臺基準測試標準。

2 大數(shù)據(jù)基準測試標準化現(xiàn)狀

大數(shù)據(jù)分析系統(tǒng)具有高性能、高擴展、高可用、高效能、易使用、易管理等特點,其架構(gòu)設(shè)計的復(fù)雜性使得系統(tǒng)測試也非常復(fù)雜,針對其測試的研究同其設(shè)計開發(fā)的研究相比則相對薄弱。直到2014年6月,TPC(事務(wù)處理性能協(xié)會)才發(fā)布了基準測試標準TPCx-HS和配套的測試工具。TPC專門為虛擬服務(wù)器以及事務(wù)處理等機制提供客觀且不受供應(yīng)商影響的基準測試解決方案。

TPC一直認為在制定行業(yè)的標準時,性能、持有成本和能源效率是成功的三大關(guān)鍵,因此TPCx-HS的測試重點仍然是性能驗證、性價比、功耗以及可用性。TPCx-HS能夠?qū)τ布败浖桨讣右詸z測,其中包括Hadoop運行時、Hadoop文件系統(tǒng)、API兼容系統(tǒng)以及MapReudce層等。TPCx-HS這一名稱中的“x”代表Express,即精簡之意。目前,只有Sort一種測試負載,TPCx-HS委員會認為精簡版本的基準測試能夠滿足企業(yè)級基準測試需求,而且不會耗費更多時間及成本資源。TPC協(xié)會的成員思科公司已經(jīng)在其大數(shù)據(jù)系統(tǒng)上運行TPCx-HS基準測試并公布了最終成績。

而另一個國際標準測試的權(quán)威機構(gòu)SPEC(標準性能評測機構(gòu))雖然成立了大數(shù)據(jù)基準測試研究組,但目前還沒有發(fā)布大數(shù)據(jù)基準測試的標準。

3 大數(shù)據(jù)基準測試工具

基準測試工具在大數(shù)據(jù)系統(tǒng)研發(fā)中不可或缺。伴隨著各種平臺軟件的出現(xiàn),特別是開源大數(shù)據(jù)平臺的發(fā)展,多種針對不同框架的基準測試工具也陸續(xù)出現(xiàn)。其中,除了ApacheHadoop自帶的基準測試工具外,很多企業(yè)和研究機構(gòu)也發(fā)布了自己的大數(shù)據(jù)基準測試工具。

3.1 Apache Hadoop基準測試工具

Hadoop自帶了若干基準評測程序,安裝開銷小、運行方便。常用的有DFSCIOTest用于測試HDFS的I/O性能;Sort程序評測MapReduce;MRbench檢驗小型作業(yè)的快速響應(yīng)能力;NNBench測試Namenode硬件的加載過程;Gridm ix可以通過模擬Hadoop Cluster中的實際負載來評測Hadoop性能。

Hadoop自帶的基準評測程序相對簡單。例如,Gridm ix所使用的用例并不能代表所有的Hadoop使用場景,缺乏CPU-Bound的用例。而現(xiàn)實應(yīng)用中,不僅存在很多I/O密集型的應(yīng)用,也存在很多CPU密集型的應(yīng)用,如聚類算法、倒排索引等;也不能模擬隨機提交作業(yè)(如按泊松分布進行提交)的應(yīng)用場景。因此,并不完全符合測試的預(yù)期。

3.2 TPCx-HSKit

TPC發(fā)布基準測試標準TPCx-HS的同時,也發(fā)布了配套的測試工具TPCx-HSKit。

TPCx-HS負載包含以下4個模塊:

(1)HSGen:數(shù)據(jù)生成器,基于TeraGen。

(2)HSDateCheck:檢查數(shù)據(jù)集和副本的符合性。(3)HSSort:數(shù)據(jù)排序,基于TeraSort。

(4)HSValidate:排序后的數(shù)據(jù)校驗,基于Tera Validate。

比例因子(Scale factor,SF)可以從1TB擴展到10000TB。3個主要指標(Metrics):HSph@SF代表每小時的吞吐量、$/HSph@S代表性價比、System Availability Data代表可用性,以及一個代表功率的可選指標Watts/HSph@SF。

3.3 Hibench

Intel在Hadoop基準測試工具基礎(chǔ)上做了許多重要的擴展,提供了一套開源Benchmark Suite-HiBench,來對其Hadoop集群做Benchmark,并通過HiTune進行性能數(shù)據(jù)采集。HiTune是Hadoop性能分析工具,可以從每個節(jié)點上分布收集性能數(shù)據(jù),并且可以將這些數(shù)據(jù)進行匯總,生產(chǎn)圖形化的報告,讓客戶可以迅速明白哪個節(jié)點出了問題,進而迅速調(diào)整。HiBench選取的計算模型較為全面和綜合,既包含M icro Benchmarks和HDFSBenchmarks,又包含Web Search(網(wǎng)頁搜索)、MachineLearning(機器學(xué)習(xí))和DataAnalytics(數(shù)據(jù)分析)等應(yīng)用。

3.4 YCSB

YCSB(Yahoo Cloud Serving Benchmark)是雅虎開源的一款通用的性能測試工具,可以對各類NoSQL產(chǎn)品進行相關(guān)的性能測試,包括Bigtable、HBase、Azure、CouchDB、MongoDB等。YCSB與HBase自帶的性能測試工具(Performance Evaluation)相比,可以兼容HBase不同的版本,可以選擇進行測試的方式有:Read+W rite和Read+Scan,還可以選擇不同操作的頻度與選取Key的方式,也可以實時顯示測試的進度。

3.5 BigBench

BigBench是第一個基于端到端的大數(shù)據(jù)分析測試工具,它提供了非常豐富的查詢集合,涵蓋了各種復(fù)雜且真實的場景,主要用于測試并行數(shù)據(jù)庫在SQL-MR環(huán)境下的查詢能力。BigBench包含兩個關(guān)鍵的組件,即數(shù)據(jù)模型規(guī)范和負載/查詢規(guī)范。其中,結(jié)構(gòu)化數(shù)據(jù)部分主要采用TPC-DS的數(shù)據(jù)模型。BigBench包含30個查詢/負載,能夠在Hadoop平臺上執(zhí)行。

3.6 BigDateBench

BigDataBench是由中科院計算所開發(fā)的開源軟件,覆蓋了微基準測試(M icro Benchmarks)、Cloud OLTP、關(guān)系查詢、搜索引擎、社交網(wǎng)絡(luò)和電子商務(wù)6種典型的應(yīng)用場景,包含19種不同類型的負載應(yīng)用程序和6種不同類型的數(shù)據(jù)集。

BigDataBench還提供可以保留原始數(shù)據(jù)特性的,以小規(guī)模真實數(shù)據(jù)生成大規(guī)模數(shù)據(jù)的數(shù)據(jù)生成工具。包括文本數(shù)據(jù)、圖數(shù)據(jù)和(數(shù)據(jù)庫)表數(shù)據(jù)在內(nèi)的數(shù)據(jù)集都可以通過該生成工具生成。同時,涵蓋了完整的系統(tǒng)軟件棧,覆蓋的應(yīng)用類型包括實時分析、離線分析和在線服務(wù)應(yīng)用。

4 大數(shù)據(jù)基準測試標準化面臨的挑戰(zhàn)

大數(shù)據(jù)基準測試工具為基準測試的實施提供了基礎(chǔ)。然而,要做到可重復(fù)、可比較,還需要制定相應(yīng)的標準,對測試中的預(yù)置條件、測試負載參數(shù)、測試數(shù)據(jù)和測試步驟進行詳盡的約束。

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成是大數(shù)據(jù)基準測試首先要解決的問題。由于企業(yè)通常不會公開自己的數(shù)據(jù),因此真實數(shù)據(jù)很難獲得。即使可以獲得,其數(shù)據(jù)也往往是基于特定的應(yīng)用場景,不具有普適性。而隨機生成的數(shù)據(jù),更難以體現(xiàn)應(yīng)用的特征。因此,目前常用的生成工具會采用二者結(jié)合的方式,即通過建模先從真實的數(shù)據(jù)樣本中提取應(yīng)用特征,在保持應(yīng)用特征的前提下再隨機生成測試樣本。合成數(shù)據(jù)看似很好地解決了問題,但關(guān)鍵在于提取和擴展的過程中如何保持應(yīng)用特征以及生成的速度是否足夠快。

4.2 負載的選擇

負載是大數(shù)據(jù)需要執(zhí)行的具體任務(wù),用來處理數(shù)據(jù)并產(chǎn)生結(jié)果,負載將大數(shù)據(jù)平臺的應(yīng)用抽象成一些基本操作。由于行業(yè)和領(lǐng)域的不同,其應(yīng)用有很多不同的特點,從系統(tǒng)資源消耗方面負載可分為計算密集型、I/O密集型和混合密集型。例如,運營商的話單查詢需要多次調(diào)用數(shù)據(jù)庫,是典型的I/O密集型任務(wù);而互聯(lián)網(wǎng)的聚類過程需要大量的迭代計算,是典型的計算密集型任務(wù);搜索引擎中的PageRank算法既需要數(shù)據(jù)交換又要不斷地迭代計算,屬于混合型任務(wù)。面對各種復(fù)雜的應(yīng)用場景,很難選擇出合適的測試負載。

4.3 集群規(guī)模

隨著大數(shù)據(jù)的迅速發(fā)展,集群規(guī)模也越來越龐大。例如,TDW(TencentDistributedDataWarehouse,騰訊分布式數(shù)據(jù)倉庫)單集群規(guī)模達到4400臺,CPU總核數(shù)達到10萬左右,存儲容量達到100PB;每日作業(yè)數(shù)100多萬,每日計算量4PB,作業(yè)并發(fā)數(shù)2000左右,TDW已經(jīng)成為騰訊最大的離線數(shù)據(jù)處理平臺。

第三方實驗室的集群規(guī)模通常是幾百臺,甚至幾十臺,遠遠小于運營商運營的規(guī)模,測試的結(jié)果可能會與實際情況有很大的差距。為了降低測試的復(fù)雜性和成本,通常只能在現(xiàn)網(wǎng)上運行簡單的測試用例,而目前能夠提供大數(shù)據(jù)在線服務(wù)還比較少,主要有微軟HDInsight、UcloudUDDP、百度BMR和阿里ODPS等。

4.4 軟件的兼容性

Hadoop的發(fā)行版除了社區(qū)的ApacheHadoop外,Cloudera、Hortonworks、MapR、EMC、IBM、Intel和華為等都提供了自己的商業(yè)版本。商業(yè)版主要是提供了專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。社區(qū)版ApacheHadoop包含兩個版本:Hadoop 1.0和Hadoop 2.0。其中,Hadoop 1.0由一個分布式文件系統(tǒng)HDFS和一個離線計算框架MapReduce組成;而Hadoop2.0則包含一個支持NameNode橫向擴展的HDFS,一個資源管理系統(tǒng)YARN和一個運行在YARN上的離線計算框架MapReduce。隨著大數(shù)據(jù)軟件逐步被推向市場,被更多的用戶安裝,兼容性問題也會日益凸現(xiàn)。

5 大數(shù)據(jù)基準測試標準化最新進展

2015年1月29日,數(shù)據(jù)中心聯(lián)盟(www.dca.org.cn)發(fā)布了國內(nèi)第一個大數(shù)據(jù)產(chǎn)品和服務(wù)基準測試規(guī)范《大數(shù)據(jù)平臺基準測試技術(shù)要求第一部分技術(shù)要求》和《大數(shù)據(jù)平臺基準測試技術(shù)要求第二部分測試方法》。與該規(guī)范配套的評測工具源代碼也同期發(fā)布,并移交開源社區(qū)持續(xù)開發(fā)。該規(guī)范是由中國信息通信研究院(原工業(yè)和信息化部電信研究院)牽頭,聯(lián)合中科院計算所、華為、中國移動、Intel、微軟、IBM、新浪、百度、阿里、騰訊、浪潮、世紀互聯(lián)、UCould等國內(nèi)外知名公司和科研機構(gòu)共同制定,囊括了國內(nèi)外主流大數(shù)據(jù)產(chǎn)品與服務(wù)提供商。

如圖1所示,《大數(shù)據(jù)平臺基準測試技術(shù)要求第一部分技術(shù)要求》的評價對象主要包括大數(shù)據(jù)軟件平臺(如基于開源Hadoop、Spark平臺的商業(yè)軟件)、大數(shù)據(jù)軟硬一體機和云端大數(shù)據(jù)服務(wù)三大類。

(1)大數(shù)據(jù)軟件平臺

主要由分布式文件系統(tǒng)(如HDFS)、分布式計算系統(tǒng)(如MapReduce)、分布式數(shù)據(jù)庫(如HBase)、分布式數(shù)據(jù)倉庫(如Hive)等多個模塊構(gòu)成,能夠提供大數(shù)據(jù)的存儲、管理和計算能力。大數(shù)據(jù)軟件平臺主要包括開源的Hadoop、Spark等及其商業(yè)化軟件版本,一般部署在通用硬件平臺上。

(2)大數(shù)據(jù)軟硬一體機

大數(shù)據(jù)軟硬一體機集成了服務(wù)器、存儲、網(wǎng)絡(luò)和大數(shù)據(jù)軟件平臺,以整機的形式銷售給客戶。對于大數(shù)據(jù)一體機方案,測試衡量的是軟件和硬件整體的性能。

(3)大數(shù)據(jù)云服務(wù)

大數(shù)據(jù)云服務(wù)由云服務(wù)商將大數(shù)據(jù)軟件平臺部署到云端,以公共云服務(wù)的形式向用戶提供大數(shù)據(jù)存儲、管理和計算能力,按量收費,用戶無需關(guān)心集群軟硬件的搭建和運維。

規(guī)范根據(jù)大數(shù)據(jù)特點,精選了NoSQL、離線分析和實時交互分析等最具代表性的21個基本負載,能夠考核平臺在計算密集、I/O密集和混合任務(wù)等不同場景的表現(xiàn)。標準規(guī)定了數(shù)據(jù)生成、負載選擇、測試指標、用例執(zhí)行和測試配置。標準還從用戶角度出發(fā)定義了多個維度的指標,不僅有基本的吞吐量質(zhì)保,還有能耗、壓力、擴展性、容錯能力等多方面的指標。

《大數(shù)據(jù)平臺基準測試技術(shù)要求第二部分測試方法》規(guī)定了典型測試負載的測試流程,并給出了測試數(shù)據(jù)規(guī)模的要求(見表1)。

圖1 大數(shù)據(jù)基準測試標準中定義的測試對象

6 結(jié)束語

目前,大數(shù)據(jù)基準測試標準化工作仍處于起步階段,國內(nèi)相關(guān)工作取得了初步進展,對大數(shù)據(jù)平臺的基本操作測試進行了規(guī)范。但應(yīng)該看到,這僅僅是大數(shù)據(jù)基準測試標準化工作的開始,未來還有較長的路要走。下一步大數(shù)據(jù)基準測試標準的發(fā)展重點,一是針對企業(yè)對SQLonHadoop數(shù)據(jù)倉庫方案的需求,細化交互分析基準測試負載的制定;二是面向政務(wù)、金融、電信等重點行業(yè),研究制定端到端的負載,推動行業(yè)大數(shù)據(jù)技術(shù)與產(chǎn)品的演進。

表1 10種典型測試負載、特點、應(yīng)用、數(shù)據(jù)類型和負載參數(shù)

2015-01-20)

云計算標準與測試驗證北京市重點實驗室項目資助

猜你喜歡
標準化
標準化綜合
標準化簡述
企業(yè)標準化管理信息系統(tǒng)
標準化是綜合交通運輸?shù)谋U稀庾x《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
對標準化管理工作的幾點思考
解讀:國家標準委副主任談標準化法
福建輕紡(2017年12期)2017-04-10 12:56:27
如何創(chuàng)建標準化團隊?
以標準化引領(lǐng)科技創(chuàng)新
論汽車維修診斷標準化(上)
隨機變量標準化序列及其應(yīng)用
主站蜘蛛池模板: 欧美va亚洲va香蕉在线| 无遮挡国产高潮视频免费观看| 爆乳熟妇一区二区三区| 人妻丰满熟妇AV无码区| 国产成人高清在线精品| 亚洲AV成人一区国产精品| 亚洲黄色视频在线观看一区| 在线国产91| 在线观看亚洲人成网站| 三上悠亚一区二区| 欧美精品在线观看视频| 国产另类视频| AV不卡在线永久免费观看| 国产在线视频自拍| 日韩 欧美 小说 综合网 另类| 精品国产三级在线观看| 国产精品短篇二区| 欧美在线精品怡红院| 国产免费怡红院视频| 精品欧美一区二区三区在线| 最新亚洲av女人的天堂| 日韩人妻无码制服丝袜视频| 暴力调教一区二区三区| 成人自拍视频在线观看| 国产精品黄色片| 欧美视频在线播放观看免费福利资源| 欧美一级在线播放| 国产高清不卡| 欧美97欧美综合色伦图| 99精品一区二区免费视频| 日本欧美精品| 精品精品国产高清A毛片| 99久久性生片| 视频二区亚洲精品| 亚洲男女在线| 日韩精品一区二区三区swag| 久久久久久国产精品mv| 国产一级毛片高清完整视频版| 狠狠躁天天躁夜夜躁婷婷| 成人综合网址| 一级毛片在线直接观看| 亚洲 欧美 中文 AⅤ在线视频| 亚洲人成网站观看在线观看| 久久精品这里只有国产中文精品| 亚洲欧美另类日本| 色综合国产| 亚洲Va中文字幕久久一区| 小13箩利洗澡无码视频免费网站| 欧美亚洲综合免费精品高清在线观看| 亚洲欧美另类视频| 亚洲成a人片7777| 欧美翘臀一区二区三区| 久久精品午夜视频| 91久久偷偷做嫩草影院精品| 激情六月丁香婷婷| 国产亚洲欧美在线视频| 亚洲一区波多野结衣二区三区| 97视频在线观看免费视频| 亚洲第一成人在线| 欧美日韩导航| 成年看免费观看视频拍拍| 国产精品白浆无码流出在线看| 国产天天射| 中文字幕无码制服中字| 亚洲国产成人久久精品软件| 亚洲经典在线中文字幕| 国产农村精品一级毛片视频| 免费国产在线精品一区| 四虎影视8848永久精品| 一区二区三区成人| 99免费在线观看视频| 成人噜噜噜视频在线观看| 99热这里只有免费国产精品 | 国产一二三区在线| 国产麻豆永久视频| 欧美成人A视频| 国产1区2区在线观看| 久久久国产精品无码专区| 成人国产精品2021| 成人另类稀缺在线观看| 国产AV无码专区亚洲精品网站| 亚洲综合18p|