999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

以分布式計算實現電信數據分析業務加速的研究

2012-06-11 11:04:12聞劍峰石屹嶸
電信科學 2012年2期

聞劍峰,石屹嶸

(中國電信股份有限公司上海研究院 上海200122)

1 引言

為了提高電信行業的工作效率和服務質量,建立靈活的營銷機制,推動新業務的開展和適應激烈的市場競爭,商業智能(business intelligence,BI)開始進入電信行業。BI應用在電信行業又稱作電信數據分析系統。隨著電信全業務運營時代的到來,電信傳統的數據分析系統正面臨著海量數據處理的壓力,亟需根據自身的管理需求和市場競爭需要,構建適合于自身管理特點的電信數據分析系統。本文研究的目的是如何利用分布式計算技術實現電信數據分析系統的業務處理加速,進而提高系統性能,加強決策水平。

2 電信數據分析系統的現狀

隨著電信業務的快速發展以及市場競爭的挑戰,數據分析平臺作為各級領導制定策略的重要參考以及市場部門進行推廣計劃的重要依據,數據分析相關業務的重要性和應用價值不斷提升。

隨著數據分析業務數據量的快速增加,分析維度的擴展,某些業務已經出現明顯的性能瓶頸,妨礙數據業務分析在電信業務發展和市場競爭中發揮更大的作用。數據分析業務的性能瓶頸主要表現在以下3個方面。

·海量數據挑戰:數據分析業務從話音的CDR(call detail record,呼叫詳細記錄)發展為數據業務的DPI(deep packet inspection,深度報文檢測)的 UDR(user data record,用戶數據記錄);記錄規模從千萬條增長100倍發展到數十億條;存儲規模正由GB級別向TB級別發展。

·傳統方案失效:面對海量數據,傳統的小型機+磁陣方案無法勝任;Oracle可處理數千萬條,無法處理數十億條記錄;傳統SQL查詢響應慢,某些業務運行時間超過數小時。

·并行分析瓶頸:分析維度需要同時支持多種業務的并行分析;業務平臺還需要同時支撐多部門、多地域的并發查詢;業務請求集中在月初,由于時間沖突,導致效率下降。

3 基于分布式計算框架的數據分析方案研究

3.1 分布式計算概述

分布式計算是近年提出的一種新的計算方式,它研究如何把一個需要巨大計算能力才能解決的問題分成許多小的部分,然后分配給許多計算機進行處理,最后把計算結果綜合起來得到最終結果。分布式計算是云計算領域的重要研究方向,共享稀有資源和平衡負載是其核心思想之一。分布式計算能更好地使用計算資源,更智能地進行大規模數據處理?;诟咝У奶摂M計算資源,應用程序能以一種靈活且安全的方式實現快速擴展和縮減,從而交付高品質服務。分布式計算使得IT管理更加輕松,保證快捷響應業務需求。業務或客戶服務以極為簡化的方式交付,這將大大推進創新和高效決策。業界一致認為,分布式計算平臺是提高海量數據分析性能的最佳解決方案。

電信企業信息化建設不斷發展,需要處理分析的數據量不斷快速增長,利用分布式計算架構實現業務加速是一個可行的技術方案,并且,該方案可以廣泛地應用在聯機分析和數據挖掘等需要進行大規模數據處理的領域。其中,Hadoop是采用開源模式的分布式計算技術框架,以HDFS(Hadoop distributed file system)文件分散存儲和MapReduce并行計算為基礎的分布式計算平臺,底層采用Linux操作系統,利用低成本的PC設備組成大型集群,構建下一代具備高性能的海量數據分布式計算服務平臺。

3.2 基于Hadoop框架的分布式計算技術實現方案

Hadoop分布式計算已經集成了數十個高性能的應用組件,可以滿足各種數據分析處理的需求?;贖adoop框架的分布式計算平臺邏輯架構如圖1所示。Hadoop分布式計算平臺主要包括以下應用組件。

圖1 基于Hadoop框架的分布式計算平臺邏輯架構

·Hive分布式數據倉庫:建立在Hadoop上的數據倉庫框架,提供方便的數據集成、特殊查詢以及建立在Hadoop文件上的大規模數據分析;支持MapReduce并行SQL查詢的分布式關系型數據倉庫,可以用于存儲海量結構化數據,并支持數據分區以及建立索引等數據庫功能,對外提供JDBC/ODBC接口,可以快速替代傳統的Oracle數據庫。

·HBase列存儲數據庫:基于列存儲的分布式數據庫,采用國際最流行的NoSQL數據庫架構,支持列的動態增加和刪除,最大可以支持到數萬列,特別適合于用戶行為分析的應用。

·Mahout智能算法庫:提供各種k均值、神經網絡等智能算法,滿足數據挖掘的各種算法需求,采用MapReduce并行計算,運行效率極高,完全可以替代各種商業BI工具,從而節省大量成本。

·Ganglia實時監控:可以實時監控Hadoop平臺各個節點的資源分配、作業運行、任務調度等,直接展示云平臺運行情況。

3.3 分布式計算框架實現業務加速的應用分析

基于分布式計算架構的電信數據分析系統可以很好地實現業務加速能力,該平臺具有以下技術優勢。

·并行導入 ETL(extract transform and load,提取轉換加載)加速:基于Hadoop的分布式計算采用HDFS分散存儲機制,可以多個節點同時導入多個數據文件,實現數據文件的并行導入功能,避免了磁盤I/O瓶頸,可以有效縮短導入時間加速ETL過程。

·MR并發查詢加速:數據表Table在Hive中以多個數據塊存儲,采用MapReduce并行機制,將查詢作業映射為多個子任務,子任務處理少量數據塊,然后輸出統一結果,發揮了多核協同的性能優勢。

·橫縱分散取數加速:Hadoop支持數據分區模式的橫向分散和按照列存儲的縱向分散,滿足不同的業務需求,其中分區橫向模式符合電信管理模式,可以用于業務寬表的取數加速。

4 應用分布式計算實現海量取數加速案例研究

為了提高現有平臺的業務處理能力,一種方案是系統擴容,目前電信使用的數據分析系統大多采用商業版本的軟件平臺,例如Teradata平臺的系統擴容價格非常昂貴,而且需要綁定硬件的存儲容量。另一種方案就是采用外部加速方式,即通過Hadoop云平臺可以有效提高業務處理速度。本章將著重介紹采用外部加速實現海量取數加速的應用案例,案例對象是中國電信股份有限公司某省公司的大批量智能取數平臺(intelligent data acquire platform,IDAP),研究目的是通過基于Hadoop框架改造實現業務加速。

4.1 傳統大批量智能取數平臺面臨的挑戰及應對

傳統大批量智能取數平臺的數據集市(采用Oracle數據庫)中存儲的數據量日漸龐大,由于數據量大并且并發業務多,當多用戶在線操作或者取數量多時會存在著明顯的業務瓶頸。該平臺目前常用的功能包括資產取數、訂單類取數、收入類取數以及業務量取數,日常操作中,在取1~3個月數據時有性能瓶頸,具體表現在以下幾個方面。

·如果數據量太大或數據庫對應并發量大,可能會導致取數失敗。

·大數據量的提取,就意味著需要大的存儲空間來存儲數據。因此,存儲空間隨著業務的發展而需要擴充,且存儲空間的增長不會影響性能。

·外部系統大數據量提取,數據庫處理性能低下。

目前的業務瓶頸主要是系統的性能不能滿足業務日益發展的需要,面對大數據量數據分析業務,通過傳統的系統擴容來解決問題的方式已經行不通了。而基于對分布式計算的研究與理論論證,筆者認為可以在較低的硬件成本投入下產生較好的業務加速。針對現有系統的性能瓶頸,筆者著手對其進行基于Hadoop框架的分布式改造工作,圖2方框內為改造后的技術架構,即將海量數據存儲于Hadoop平臺的HDFS分散存儲模型上,然后通過UDF方式將此數據導入數據倉庫Hive中。

圖2 基于分布式計算的IDAP應用改造方案

具體來說,就是在多臺PC服務器上部署Hadoop框架,包括了HDFS以及Hive分布式數據倉庫,然后通過接口將數據集市中的數據導入Hadoop集群。應用Hadoop分布式計算框架提供的分布式文件系統以及Hive分布式數據倉庫服務,替代原有的基于傳統關系型數據庫的IDAP數據集市,原有系統業務邏輯基本不變,仍然采用JDBC接口方式提交SQL業務查詢請求。在進行數據表查詢時,將一個SQL的查詢操作通過UDF自定義的方式調用Hadoop的MapReduce并行架構,從而將SQL查詢轉換為成百上千個子查詢任務,因此可以有效地提高查詢速度,完成業務加速的目標。

4.2 測試數據分析

本次分布式集群硬件采用6臺DELL R710服務器,具體配置為 2 個 Intel E5620 CPU、8×4 GB 內存、8×146 GB SAS硬盤以及4個吉比特網卡。筆者對基于分布式計算框架的IDAP大批量智能取數進行了專門的測試驗證。測試的基準完全基于現有系統的數據集市的真實數據,即總容量2.7 TB總計84億條記錄數。選取傳統平臺上17個SQL取數語句作為測試用例,測試數據如表1所示。

在實際測試驗證過程中,筆者分別記錄傳統和分布式IDAP上收入類取數、訂單類取數、資產類取數、業務量取數等各主題的取數時間,然后進行比較。通過對所有測試用例取數時間的分析,最后得出以下主要結論。

·傳統取數時間在3min以內的測試用例,分布式改造之后,有的測試用例取數時間比傳統取數時間長,有的測試用例取數時間比傳統取數時間短,提升效率不明顯。

·傳統取數時間在3~60min的測試用例,分布式改造之后,所有的測試用例取數時間都比傳統取數時間縮短了,并且提升效率在5倍以上。

·傳統取數時間在60min以上的測試用例,分布式改造之后,所有的測試用例取數時間都比傳統取數時間縮短了,提升效率在10倍以上。

4.3 基于分布式架構IDAP方案與傳統IDAP方案對比

通過基于分布式計算框架對傳統IDAP進行業務加速改造,可以達到以下3個效果。

·改造成本低:Hadoop分布式計算平臺采用開源免費的模式,硬件采用低成本PC設備,只需支付平臺的軟件服務費即可,節省了大量系統升級成本。

表1 取數時間對比

表2 基于分布式架構的IDAP方案與傳統方案對比

·系統改造少:傳統IDAP屬于生產系統,其云加速平臺采用標準的數據訪問接口,對傳統IDAP改造工作量少,基本無需改動,實現了業務無縫升級加速。

·提速效果明顯:經過實際業務數據的測試,采用Hadoop分布式平臺可以實現10倍以上的平均加速效果,完全滿足了業務加速的需求。

傳統的IDAP方案中大批量智能取數平臺部署在一臺P570上,后臺通過光纖連接SAN存儲,大約占用兩個機柜,能耗超過10 000 W。表2為傳統IDAP方案與基于分布式計算框架的IDAP方案的詳細數據對比。

通過表2數據對比,可以得出以下結論。

·傳統方案基于關系型Oracle數據庫,無論從支持的節點數還是數據庫容量都是有限的,而分布式方案可以支持PB級別海量數據,節點規模最大可以達到數千個。

·傳統方案通過小型機+存儲陣列方式構建平臺,初始投入的費用相當可觀,并且日后的維保開支也會很大,而分布式方案通過PC服務器或者工控機就可以組成高性能計算集群,費用可以節省70%以上。

·傳統方案的擴展成本除了實施成本之外,還需要額外的數據庫軟件許可費用,而分布式方案只需要支付實施成本就可以了,顯然分布式方案在成本方面更節省。

·在硬件成本一致的前提下,采用工控機的分布式方案要比采用PC服務器的分布式方案性價比更高,即能夠實現更好的加速效果。

·分布式方案在空間利用率以及能耗方面都要優于傳統方案,也就是說分布式方案為機房的綠色節能提供了可能性。

5 結束語

隨著電信業務的不斷發展,海量數據存儲與分析的需求不斷涌現,利用Hadoop分布式計算框架可以實現海量數據的超值存儲和分析統計,提高數據分析的效率,讓企業更加能適應快速變化的市場,為快速推出新的產品提供數據依據。

1 聞劍峰,石屹嶸.基于云計算的全球眼業務平臺研究.電信科學,2010,26(6)

2 龔德志,聞劍峰.虛擬化技術在電信服務器資源整合中的應用研究.電信科學,2009,25(9):21~23

3 石屹嶸,段勇.云計算在電信IT領域的應用探討.電信科學,2009,25(9):24~28

主站蜘蛛池模板: 成人精品午夜福利在线播放| 欧美在线综合视频| 99热这里都是国产精品| 国产18在线| 婷婷99视频精品全部在线观看 | 亚洲AV无码乱码在线观看代蜜桃 | 97精品久久久大香线焦| 五月婷婷亚洲综合| 中文字幕中文字字幕码一二区| 亚洲αv毛片| 国产毛片高清一级国语| 日本高清在线看免费观看| 国产精品吹潮在线观看中文| 人妻无码一区二区视频| 五月天久久婷婷| 国产成人精品亚洲日本对白优播| 青青草原国产av福利网站| 欧美一区日韩一区中文字幕页| 国产在线观看一区精品| 国产微拍精品| 日本国产一区在线观看| 久久国产热| 99999久久久久久亚洲| 伊人久久精品无码麻豆精品 | 国产免费久久精品99re不卡| 性喷潮久久久久久久久| 国产精品女主播| 一本色道久久88| 成人午夜久久| 青青草原国产免费av观看| 在线综合亚洲欧美网站| 毛片免费在线视频| 久久精品娱乐亚洲领先| 国产尤物jk自慰制服喷水| 久久国产精品嫖妓| 91福利国产成人精品导航| 亚洲中文无码av永久伊人| 亚洲无码高清免费视频亚洲 | 欧美精品在线观看视频| 热99re99首页精品亚洲五月天| 国产成人精彩在线视频50| 色哟哟国产精品| 欧美全免费aaaaaa特黄在线| 一区二区欧美日韩高清免费| 色成人亚洲| 亚洲综合经典在线一区二区| 日本人又色又爽的视频| 秋霞午夜国产精品成人片| 亚洲,国产,日韩,综合一区| 91九色国产在线| 在线欧美a| 国产精品网址你懂的| 免费观看三级毛片| 久久久久亚洲AV成人网站软件| 国产99精品视频| 久久熟女AV| 日韩精品久久无码中文字幕色欲| 欧美成人一级| 国产激爽大片高清在线观看| 日韩欧美中文在线| 国产色爱av资源综合区| 高清欧美性猛交XXXX黑人猛交 | 亚洲精品中文字幕无乱码| 欧美成人国产| 国产精女同一区二区三区久| 国产一级裸网站| 波多野一区| 精品国产欧美精品v| 在线观看免费国产| 国产chinese男男gay视频网| 国产欧美日韩另类精彩视频| 亚洲乱码在线播放| 免费a级毛片18以上观看精品| 伊人91视频| 69精品在线观看| 婷婷激情亚洲| 伊人大杳蕉中文无码| 香蕉视频在线观看www| 国产精品主播| 青青青视频免费一区二区| 国产不卡在线看| 国产成人精品在线1区|