張貝貝
結合大數據產業的發展趨勢以及企業訴求,思特奇自主研發了跨集群統一調度與全景監控技術,并對思特奇大數據集成平臺進行升級改造,有力應對和解決客戶痛點。
你是否正陷于多個集群作業調度的困境之中?你是否正苦苦尋找,百思不得其解故障發生的原因?
你的企業是否也遇到了類似的痛點?場景需求越來越復雜、越多樣化,集群數量越來越多,集群規模越來越大。對此,如何開展跨集群作業調度,如何進行全方位的作業監控以及迅速進行故障定位,成為企業發展大數據必須解決的課題。
隨著越來越多的企業開始提出這樣的訴求,北京思特奇信息技術股份有限公司(以下簡稱思特奇)結合大數據產業的發展趨勢以及企業訴求,自主研發了跨集群統一調度與全景監控技術,并對思特奇大數據集成平臺進行升級改造,有力應對和解決客戶痛點。
厚積薄發 精益求精
談到跨集群統一調度和全景監控技術的研發,北京思特奇信息技術股份有限公司大數據事業部總經理王成剛談道:“思特奇已經積累了七八年大數據平臺方面的相關技術,在這個堅實的基礎之上,針對客戶的需求和痛點,2017年初我們重新整合再出發,研發了跨集群統一調度和全景監控這兩項核心的技術。”
對此,北京思特奇信息技術股份有限公司大數據事業部CTO程艷偉強調:“這兩項技術的研發與出現主要是由場景應用驅動的。
隨著大數據應用場景不斷豐富發展,特別是端到端一體化應用,這些場景應用由不同的任務構成,而每種任務又區分為不同類型,不同類型的任務所需要的運行環境不盡相同,每種不同的物理集群核心能力不同,不可能一個物理集群適用所有場景任務,因此將一個場景應用中不同的任務分配到不同集群運行,是集群資源利用最大化、效率最高的一種形式,在這種情況下,就需要跨集群統一調度。解決完統一調度后,還必須確保在各集群上運行的任務順利成功完成以及跨集群依賴關系能夠有效執行,需要全景監控技術提供保障,做到對整個調度運行的可視、可管、可控。”
據了解,思特奇從2017年初重點研發這兩項技術到現在,已經經歷了一年多的時間,在技術演進過程中又有哪些難點呢?對此,程艷偉介紹。
第一個步驟是要解決跨集群的問題,如何實現跨集群的協調。
第二個步驟是對故障進行定位,這一部分用傳統的做法需要投入很多的精力,但是效率卻不高。“而難點是我們要把上下層打通,實現從應用層到下面資源層面的一個關聯,實現了這個關聯之后,我們又做了可視化的工作,精準定位到問題出在哪個地方。”
目前,雖然這兩項技術已經相對比較成熟,但思特奇精益求精,還在不斷打磨,以求在實際應用中能夠發揮更好的作用。
總體來看,大數據跨集群統一調度與全景監控技術,橫向可以跨集群協同管控,縱向可以從業務應用穿透到CPU、內存等資源使用情況。主要技術特點如下:
1.支持同構運行環境集群。
2.支持異構運行環境集群,包括關系型數據庫,支持:Hbase集群、Hadoop集群、Spark集群、MPP集群(如Gbase集群、GreenPlum集群、Vertica集群、分布式MySQL集群)、傳統關系型數據庫(如Oracle、Db2、TD、MySQL)。
3.支持多個集群數據處理任務在一個界面統一調度編排。
4.支持跨集群任務依賴。
5.支持從應用、任務到平臺、設備垂直貫穿、端到端的一體化運行監控,即從應用角度看一個應用被劃分成多少任務,這些任務在哪些平臺運行,在哪些節點上運行,CPU、內存等資源使用情況,便于及時發現有問題的任務、平臺、節點設備、資源等,進行及時管控干預,如Hive腳本,其他節點都已完成、個別節點運行時間過長等問題。
6.支持從平臺設備資源層面往上看其所承載的應用運行情況。
全景監控通過可視化及日志歸集分析技術實現端到端分析及故障定位,實現任務運行全生命周期管控,可以從應用到資源的運行網絡拓撲中任何一個點進入,進行360度洞察、遍歷,可以及時、準確發現影響任務運行時長、運行結果的原因。
從實踐中來 回到實踐中服務
文學作品的創作講究的是源于生活、高于生活,而程艷偉更愿意這樣形容思特奇研發的技術:“從實踐中來,回到實踐中服務。”該如何理解這句話呢?
“跨集群統一調度與全景監控技術的需求來自于實踐,核心就是解決實踐中遇到的多集群作業協同以及故障迅速定位問題,而最終的目的是服務于實踐,也就是說這一技術很好的解決了實踐應用中的問題。”程艷偉如是說。
對此,他還舉了一個具體的實例。在營銷推薦方面,客戶信息、接觸信息等在Hadoop集群處理,矩陣分解以及關聯規則等在Spark集群處理,營銷信息匹配結果同步到HBase集群,進行被動接觸營銷,同時同步一份到短信網關,進行主動推送。
此外,集群作業運行中,由于有大量不同作業在運行,以及資源、數據等方面的問題,作業異常情況經常出現,需要快速定位,解決問題。
過去,應用調度部分發現作業宕掉或空跑,但是無法確定是哪個節點出了問題。在資源監控層面,某節點運行有問題,但是不知道是哪個應用引起的,又會影響哪些。
基于這些真實的業務場景,通過思特奇大數據集成平臺,現在這些問題都可以解決,從應用層面能夠一眼看到設備資源,從設備資源上能夠看到應用作業情況,從而能夠快速進行故障定位。
據了解,該技術目前已經在山西移動大數據運營管控中心項目中落地。通過該技術,山西移動大數據運營管控中心實現了跨集群運行任務的編排、審核、發布和指令調度,以及設備、平臺和應用的全景運維監控視圖構建,對大數據中心各系統日志進行收集和監控。
“我們最大的優勢是我們通過這些實際的場景,把這些技術點打通,串聯在一起形成一種全局的、全景化的調度體系和監控體系,我覺得這是我們的優勢。”王成剛談道。其實對于用戶來講,他們的訴求很清晰,一是運維人員對技術不太精通,不會太關注底層龐大的、技術性架構的東西。二是用戶更希望專注于業務的開發,實現業務的創新和價值。所以思特奇的平臺落地之后,只需要應用人員接受簡單的業務培訓,就可以很好地駕馭。
內外兼修 共贏產業生態
大數據發展到今天,早已脫離了概念認知的階段,越來越多的實踐應用越來越成熟,可以說,大數據正在進一步拓展,并向更多的細分領域延伸。
王成剛認為,不同的公司所切分的領域有所異同,對于思特奇來說,將會結合人工智能這個點進行發力。在此背景下,大數據可能會發展到數據的鏈接、數據的采集以及邊緣計算的應用。未來還會結合人工智能的發展進入更多的業務領域,并創新商業模式,比如神經網絡、類人腦的機器學習等。
然而,無論哪個時代,對于企業來說,把握時代發展趨勢,打造核心競爭力,馭世而行才更重要。
對思特奇來說,該如何在如此激烈的市場中找到自己的位置,脫穎而出呢?
王成剛認為,從自身來看,肯定還是要修煉企業的技術內功,特別是對于思特奇這樣一個立足于技術的企業。而技術本身涉及兩個層面,第一點是集成能力,在堅實的積累之上把各種技術結合起來,為應用提供服務;第二點是夯實技術底層的基礎技術,包括一些算法的優化、技術原理的研究。
與此同時,要在一些深入的垂直領域做探索性研究,力求通過建立技術門檻打造核心競爭力。
最后一點是與產業同仁共筑開放共贏的生態建設,就當前看,一個企業想要取得成功離不開整個生態的發展。特別是健康的大數據產業生態建立起來之后,思特奇會借助自身的優勢,為整個生態貢獻價值,與產業鏈各方共筑共贏的環境。
一個產業能夠健康可持續的發展要靠產業生態的建設,產業生態的建設要靠各方企業的努力。做一個有追求、有社會責任感的企業,思特奇時刻準備著并不斷踐行,通過持續打磨技術、創新商業模式,不斷為大數據產業生態貢獻力量。
訪談實錄
Q: 中國大數據產業生態聯盟、《軟件和集成電路》雜志
A: 北京思特奇信息技術股份有限公司大數據事業部總經理王成剛
北京思特奇信息技術股份有限公司大數據事業部CTO程艷偉
Q:如何看待當前國內的大數據產業發展?
王成剛:其實從大數據技術本身的發展來看,大數據的發展從底層基礎的技術到平臺建設再到數據的應用,每個環節在國內的發展都表現的不太相同。我們在底層基礎軟件方面的研究還是比較弱的,起碼實力不強,包括我們用的Hadoop或者之前的關系數據庫等,原創不是在國內,這算是一個短板。
然而,我們在整個應用過程中又有非常廣闊的市場,所以我們在應用層方面的貢獻還是比較大的。可以說,我們是站在巨人的肩膀上來做應用這件事,然后不斷對產品進行優化,逐漸地形成了我們自主研發的在特定領域的一些支撐技術和軟件。也就是說,我們的長處是在實踐過程中進行優化、提升,來提高平臺的健壯性和穩定性。
Q:跨集群統一調度與全景監控技術前景發展如何?
程艷偉:大數據未來發展必然是消除數據孤島,實現數據互聯與融合。而數據孤島的消除并不是構建一套物理集群,而是根據不同的業務類型以及集群不同的技術特點,構建業務與技術相匹配的多個集群,充分發揮各自優勢。
因此跨集群統一調度是必然趨勢,同時具備應用作業的全景監控能力,提升跨集群作業效率。
隨著大數據產業發展,無論是垂直行業、還是智慧城市,無論是構建企業級數據中心,還是構建專業中心,多集群協同工作是剛性需求,因此跨集群統一調度與全景監控技術無論是現在,還是將來,必然市場廣闊,需要不斷發展、完善,做更多前瞻性設計,引領大數據跨集群統一調度與全景監控技術發展。
Q:在推廣上,思特奇的跨集群統一調度與全景監控技術未來如何推廣應用?
程艷偉:跨集群統一調度與全景監控技術是思特奇大數據集成平臺的核心技術,按產品化部署模式或合作運營的方式推廣。
跨集群統一調度與全景監控技術可以對一個或多個集群作業進行協同調度與監控,契合大數據發展需求,能夠解決現在以及將來大數據應用發展場景中跨集群作業調度及監控的難題,極具推廣價值。可以按套售賣,每套產品按照支撐的集群類型(每種類型分別標價)、代理節點數,以及作業規模等進行定價,一次性售賣,含部署安裝和售后服務;另一種模式是合作運營模式,這種模式適用于大數據生態中,為不同的租戶提供跨集群調度與監控服務,按作業類型、作業規模以及全景監控使用量計費。
行業應用案例
案例名稱:大數據跨集群統一調度與全景監控技術在數據工坊產品中的應用實踐
核心特點:數據工坊利用跨集群統一調度與全景監控技術為平臺體系設計提供支持:實現面向不同受眾橫向設計三大門戶體系,提高大數據平臺能力開放駕馭能力;大數據平臺服務管控PaaS化,提供按需、受控的開發、運維環境;數據服務能力創新:建立基于大數據平臺的流式數據服務能力和海量數據低延遲查詢服務能力;全景監控體系建設:從工作流、任務全景圖、平臺全景圖、數據全景圖、設備全景圖等5個方面構建監控管理體系。
應用解讀:思特奇數據工坊產品順應時代要求正式開啟了利用大數據重構支撐能力體系的序幕,幫助企業構建大數據開發、管控能力中心,通過計算和數據的分離實現技術和業務解耦,助力企業實現大數據應用開發的簡單化,可快速部署大量大數據分析應用、營銷創新應用等,產生良好的經濟效益。
應用價值:思特奇數據工坊基于大數據平臺,為各行業客戶及各大運營商提供大數據系統整合、數據資產融合,數據和應用的深度解耦的開發體系,完成數據的統一建模和管理,成為平臺再造的目標,實現內部跨條線和外部跨行業的數據整合,對內支撐市場經營、網絡優化、戰略決策,對外提供數據分析產品和服務,實現數據可管理、可共享、可增值;對外探索新的商業模式,實現數據資產的直接價值體現,成為各合作伙伴結合自身實際,依托大數據解決當前實際問題的重要平臺。
同時,產品為大數據應用提供基礎開發、監控平臺,使整個大數據平臺價值顯性化體現。在跨行業合作、數據變現方面獲得了相關行業的認可和肯定。
目前正在溝通交流的包括公安局、銀行、旅游管理部門、旅游景區等,在合作交流過程中,相關單位對于數據工坊的大數據運營管理、開發水平、大數據產品的數據質量表示了肯定,對于提高品牌形象、提供全民大數據認知起到了推動作用。