999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異地數據中心的數據同步與調度系統設計

2021-04-20 06:34:18方志寧張海濱馮雷葛永東
電子技術與軟件工程 2021年3期
關鍵詞:系統

方志寧 張海濱 馮雷 葛永東

(國電電力發展股份有限公司科技與信息管理部 北京市 100101)

1 引言

隨著工業制造企業在自動化、信息化、數字化建設方面不斷發展,以大數據、人工智能為代表的新技術在工業制造企業得到了廣泛應用,這將更好地支撐企業戰略發展需求,提高企業創新能力,并為企業發展提供強大動力,為建設智慧企業提供有力技術保障。文獻[1]中對大數據、云計算作為基礎設施的優勢進行了研究,這也是新一代數據中心的發展趨勢,在此背景下某集團化公司信息化建設也得到了良好的發展,公司本部及分布在全國各地的所屬各單位相繼建設了以大數據技術為基礎架構的數據中心,為上層業務應用創新提供堅實的基礎。

目前,隨著分布在全國各地的所屬各單位數據中心的不斷建立,每個數據中心也成了一個一個的信息孤島,沒有共享的基礎和條件。各數據中心數據得不到有效共享,浪費大量的人力物力,與信息化提高效率減輕勞動強度的初衷還有差距,導致數據對于業務的支撐作用還不夠明顯。因此需要匯集并沉淀業務數據,進行跨中心的數據融合、標準化,形成企業數據資產,并提供數據服務能力,為業務應用創新賦能。

針對上述現狀,文獻[2]提出了數據訪問與位置、平臺、應用無關的解決方案,文獻[3]提出了基于數據平臺的所在行業的市場數據整合的方案,文獻[4-7]也從不同的角度提出了系統間數據共享交換的技術,也有針對應用級開發數據交互功能以實現數據共享。上述的研究對所在行業領域的數據交互進行了探討,或是針對具體業務場景提出了數據交互技術,但在海量數據同步傳輸、數據安全、監控等方面沒有提出有效的解決方法。

因此,在所在行業數據交換共享的場景雖然有針對不同場景數據共享的方案與技術,但在異地數據中心之間的數據同步傳輸需要考慮數據量大、帶寬、數據點選、時效性等各種因素,因此異地數據中心的數據同步傳輸系統在此背景和需求下,通過采用分布式大數據核心技術設計并實現跨數據中心的數據同步傳輸系統,解決異地數據中心的數據融合與同步難的問題。

某集團化公司本部及分布在全國各地的所屬各單位的數據中心作為試點工程,已將異地數據中心的數據同步傳輸系統(以下簡稱:數據傳輸系統)投入運行,通過數據同步傳輸系統,公司本部可以實現與所屬各單位數據中心數據共享,為公司本部和各廠站實現辦公協同化、信息網絡化、業務電子化、決策分析數字化提供數據基礎。通過數據的匯聚、融合、共享、分發、應用,從單向輸出到雙向互動,企業的社交屬性充分發揮,數據共享和融合將帶來多領域協作、跨界創新的多重效應。新價值的創造,將為企業賦能,使其在不斷變幻的市場中保持長盛不衰并保有持續競爭力。

2 系統總體設計

數據同步傳輸系統總體架構設計如圖1,整個系統以分布式大數據技術為基礎架構,整體架構分為三部分:數據傳輸軟件、數據傳輸管控、基礎大數據平臺。

數據傳輸軟件層以大數據技術Apache Nifi 作為數據同步傳輸的核心技術,結合Hadoop、Spark、Flink、Hive、Impala、Kudu 等大數據技術棧,充分發揮大數據分布式處理技術的優勢,實現數據獲取、數據過濾、數據清洗、數據路由、數據壓縮、加密等功能,并支持從不同的數據中心的數據存儲系統中實時或離線批量的方式進行數據同步傳輸,通過Apache Nifi 解決了數據源多樣性、網絡安全以及傳輸速率等問題。

圖1:系統總體架構

數據傳輸管控層是一個基于Web 的管理系統,后臺調用Apache Nifi 的REST API,實現數據的傳輸功能。用戶可以在界面上添加數據中心的配置文件,創建用于跨數據中心的數據傳輸的數據流,并且可以在數據流中配置該數據流的運行頻次和數據傳輸的帶寬,簡單易用,同時也屏蔽了用戶對于Apache Nifi 的學習和使用成本,用戶可以按需點選所需要傳輸的數據。數據傳輸管控系統分為幾個核心模塊:系統監控、數據流管理、模板管理、站點管理等。通過數據傳輸管控系統解決了管理和維護的問題。用戶通過界面可視化的操作,即可實現異地的、跨數據中心的數據傳輸的需求。

基礎大數據平臺主要是基于Hadoop 大數據相關技術承載數據的存儲、計算和分析等功能,作為一個統一的數據存儲和計算平臺,通過數據傳輸軟件實時或離線批量同步過來的數據會統一匯聚在基礎大數據平臺,以便進一步的對數據進行加工處理。

基于以上整體架構,數據同步傳輸系統的數據同步傳輸示意圖如圖2 所示。

數據傳輸管控平臺與數據傳輸軟件系統部署在某集團化公司本部,數據中心管理員或業務人員通過登陸數據傳輸管控平臺配置數據同步傳輸的操作指令,配置完成后數據傳輸軟件系統接受到對應的操作指令后會將指令通過傳輸軟件的代理Agent 同步到對應的異地數據中心,異地數據數據中心解析指令后,將需要同步的數據通過Agent 與數據傳輸軟件系統進行數據同步傳輸,實現異地數據中心的數據同步傳輸,網絡層通過內部的專線,以便滿足數據傳輸的帶寬,以及數據安全及傳輸監控的需求。

3 關鍵技術

數據傳輸系統是采用了分布式大數據技術為核心技術的平臺,支撐海量實時數據、關系數據以及其他數據的安全傳輸通道,將各廠站數據中心數據同步傳輸到公司本部數據中心的基礎大數據平臺。并將數據重要程度劃分優先級,經過壓縮、加密的安全傳輸方式,傳送到公司本部數據中心進行匯聚、下發等,由本部數據中心的大數據平臺進行統一的資源管理和調度。為確保數據傳輸系統能夠滿足各類業務數據的采集、傳輸、匯總、下發的功能、性能、安全性要求,數據傳輸系統的實現需支持:數據壓縮、數據加密、數據校驗、斷點續傳、異步傳輸、安全認證。

近些年以來,數據流傳輸與處理一直是數據同步架構中的痛點之一[8]。而現在有越來越多事物的興起讓企業開始重視數據流傳輸及處理,包括:面向服務的體系結構(SOA)[9],API[10],物聯網IOT[11]和大數據[12-13]。此外,合規性,隱私性和安全性所需的嚴格程度也在不斷提高。對于這些新技術或概念,數據流同步傳輸的需求大致相同,主要區別在于復雜性,適應業務變化的速度,以及大規模邊緣用例。數據傳輸系統旨在幫助解決這些現代數據流同步傳輸的挑戰。

3.1 數據同步傳輸技術

文中在系統總體設計章節有介紹,數據傳輸系統主要基于分布式大數據技術實現,其中Apache NiFi 作為傳輸軟件的核心,Apache Nifi 通過有效地使用專用的預寫日志和內容存儲庫實現數據傳輸的可靠性。它們一起被設計成能夠支持非常高的事務率、有效的負載擴展、寫時復制和發揮傳統磁盤讀寫的優勢。

數據傳輸軟件支持緩沖所有排隊的數據,以及在這些隊列達到指定的限制時提供反壓力的能力,或者在數據達到指定的生命周期時提供反壓力。并支持在隊列中檢索數據設置一個或多個優先級方案。

在異地數據中心的數據同步傳輸的技術實現上,數據是核心,因此不能容忍數據損失的。有些場景必須在幾秒鐘內被處理和交付才有價值。數據傳輸系統采用的Apache Nifi 支持這些細粒度數據傳輸的特定配置。并且能夠可視化的方式對這些數據同步傳輸流進行配置,并將傳輸指令進行語義轉換來進行描述,可以極大地降低復雜性并識別需要簡化的處理流程。數據傳輸系統不僅能夠可視化地建立數據流,而且能夠實時地建立數據流。如果對數據流進行更改,則更改將立即生效。更改是細粒度的,并且與受影響的組件隔離,不需要停止整個數據同步傳輸流來進行某些特定的修改。

數據同步傳輸流往往是高度面向模式的,雖然解決問題通常有許多不同的方法,但能夠共享這些設計好的通用的模式將大有幫助。為此數據傳輸系統提供的模板允許主題專家構建和發布他們的數據同步傳輸流的設計,并讓其他人從中受益和協作。數據傳輸系統采用的Apache Nifi 能夠自動記錄、索引和提供可用的源系統數據,因為數據在系統中傳輸流動、轉換。這些信息對于支持合規性、故障排除、優化等場景非常重要。

數據傳輸系統的數據存儲庫被設計成歷史的滾動緩沖區。只有在數據存儲庫過期或需要空間時才會刪除數據。這與數據來源功能相結合,為在對象生命周期的特定點查找數據、下載數據和重放操作提供了非常有用的基礎。

另外是數據安全,數據同步傳輸流中的數據傳輸通過使用加密的協議(如雙向SSL)提供安全的交換。此外,數據傳輸系統允許對數據進行加密和解密,并使用發送方/接收方等式兩邊的共享密鑰。也支持雙向SSL 身份驗證,并提供可插拔的授權,以便在特定級別(只讀、管理員)上正確控制用戶的訪問權限。如果用戶將敏感屬性(如密碼)在網絡中傳輸,則會立即對服務器端進行加密,即使以加密的形式也不會在客戶端再次公開。給定數據的權限級別應用于每個組件,允許管理用戶具有細粒度級別的訪問控制。這意味著數據傳輸系統能夠處理一個或多個組織的需求。與隔離的拓撲相比,多租戶授權支持自服務的數據同步傳輸流管理模型,允許每個團隊或組織在完全了解數據同步傳輸流的情況下進行管理。

數據傳輸系統的核心是為擴展而構建的,因此一個數據同步傳輸流程可以在其上以可預測和可重復的方式執行和交互。支持的擴展點包括:處理器、控制器服務、任務報告、優先級排序器和自定義用戶界面。對于任何基于組件的系統,隨著規模的擴張,組件之間的依賴會越來越錯綜復雜。為了解決這個問題,數據傳輸系統采用的Apache NiFi 通過提供自定義類裝載器模型,來確保每個擴展組件之間的約束關系被限制在非常有限的程度。因此,在創建擴展組件時,就不用再過多關注其是否會與其他組件產生沖突。

3.2 實時數據同步傳輸

實時數據傳輸支持按需點選功能,支持界面上選擇需要的字段,數據傳輸系統對數據進行裁剪,傳輸點選所需的數據。通過從源端Kafka 消費數據,按照點選規則裁剪的數據推送到目標集群的Kafka,實現數據同步。如圖3 所示。

圖2:數據傳輸示意圖

圖3:實時數據同步

數據傳輸系統可以通過對接Kafka 的方式實現實時數據的傳輸,并可以通過集群的模式提高實時數據傳輸的效率及性能。實時數據傳輸架構中,數據傳輸系統充當Kafka 集群的生產者和消費者,獲取源端數據做為生產者發布到Kafka 集群中,本部數據中心的大數據平臺實時計算引擎如Spark Streaming 或Flink 對Kafka 數據進行實時數據處理,處理完的數據即可寫入大數據平臺HDFS 或HBase 等存儲,同時也可以寫入Kafka 集群,寫回至Kafka 集群的數據會被數據傳輸系統消費,并將數據傳輸至其他廠站數據中心的大數據平臺的HDFS、HBase 或Kudu 中。在數據傳輸系統中配置數據傳輸,可以通過數據傳輸系統的可視化圖形用戶界面,通過拖拉拽的方式構建數據傳輸流程。系統底層采用的Apache NiFi 是高度并發的,其內部封裝了相關的復雜性。處理器提供了高級抽象,屏蔽了并行編程固有的復雜性。處理器會同時運行,并且可以跨越一個處理器的多個線程來應對高負載。通過Apache NiFi 方便地保護了數據傳輸管道免受并發復雜性的影響

3.3 批量數據同步傳輸

離線數據傳輸支持對接HDFS、Hive、Impala等大數據技術組件,根據用戶所選擇的HDFS 數據目錄、Hive 庫/表/字段、或SQL 語句,將獲取到的結構化或非結構化數據同步傳輸到某集團化公司本部數據中心。數據傳輸系統能夠靈活配置并行度,通過設置并行度提高數據傳輸吞吐,保障數據傳輸效率。

離線數據(又稱為歷史數據)存儲在HDFS、Hive 中,并通過Hive/Impala 進行查詢,表數據較多,存量數據較大,通常為GB 級別。而每日數據增量較小,MB 級別。可支持一次全量同步、定時調度或者每日增量的方式進行傳輸。

3.3.1 關系型數據傳輸

數據傳輸系統通過內置關系型數據集成插件,支持Oracle、DB2、SqlServer、Mysql 等常用的數據庫,通過連接關系型數據庫獲取數據,并對數據做簡單轉換及清洗,然后將數據傳輸至本部數據中心的大數據平臺Hive 中。

3.3.2 半/非結構化數據傳輸

數據傳輸系統通過SFTP 連接器,或HDFS 連接器將半結構化或非結構化數據傳輸同步公司本部數據中心的大數據平臺HDFS中,傳輸過程中可以根據需求對數據進行簡單清洗、轉換等。并支持并行模式,獲取源端數據并行同步傳輸。

3.4 數據傳輸流量控制

異地數據中心的數據傳輸,會涉及到數據中心之間的數據鏈路帶寬不夠的問題,為了不影響異地數據中心之間的正常網絡通信,需要控制數據同步傳輸的流量。

通過在數據傳輸系統中使用Apache Nifi 的ControlRate 處理器,在應用層面控制數據傳輸的速率,無需涉及網絡層面的調整。ControlRate 處理器包含兩種數據傳輸速率控制方式:

(1)單位時間內傳輸的數據量大小??膳渲玫臅r間范圍有秒、分、小時、天等;可配置的傳輸速率有B、KB、MB、GB、TB。

(2)單位時間內傳輸的數據條數??膳渲玫臅r間范圍有秒、分、小時、天等;輸入整數可配置在該單位時間最大傳輸的數據條數。

3.5 數據傳輸管控

3.5.1 數據壓縮

數據傳輸系統在保證數據完整性的前提下,縮減數據量以減少存儲空間,提高其傳輸、存儲和處理效率,按照一定的算法對數據進行重新組織,減少數據的冗余和存儲的空間。數據壓縮方式支持:NONE、DEFAULT、BZIP、GZIP、LZ4、LZO、SNAPPY、AUTOMATIC 等。

3.5.2 數據加密

數據傳輸系統支持的數據加密算法包括對稱加密和非對稱加密,滿足跨Internet 數據傳輸必須進行數據加密處理的需求,以及數據加密機制必須符合國家信息安全等保三級防護要求。系統支持的對稱加密采用了包括DES、3DES 等算法。非對稱加密至少包括RSA、Elgamal、ECC(橢圓曲線加密算法)等。加密秘鑰由管理人員進行線下生成并分發,提供密碼定期更新機制。秘鑰及加密算法需采用加密形式保存,并不以明文分發。數據加密的效率不影響數據傳輸效率,加密速度高于數據生成速度。

3.5.3 數據校驗

系統支持數據傳輸校驗,通過數據簽名等算法驗證確保數據的完整性,包括:數據校驗及時發現數據傳輸過程發生的插入、修改、刪除情況。數據校驗采用單向數據摘要算法,通過秘鑰生成數據摘要,數據摘要算法包括MD5、SHA-1 算法等。校驗信息與上傳數據一并發送,并形成對應關系。對于數據校驗不成功的數據自動提交數據源重新上傳并校驗,對于反復校驗失敗的情況提交管理員處理。數據校驗算法的性能不影響數據傳輸效率,校驗速度高于數據生成速度。

3.5.4 斷點續傳

系統支持傳輸中斷后自動斷點續傳,以保證數據傳輸過程中保持較高的傳輸效率,包括:數據傳輸過程中,傳輸平臺記錄當前已經上傳的位置標記,當傳輸過程中出現異常情況造成傳輸中斷時,系統可通過斷點位置接續傳輸。將源文件按長度合理為分為N 塊文件,然后開辟N 個線程,每個線程傳輸一塊,傳輸完成后合并所有線程文件。斷點續傳功能提供N 個斷點并發的能力,最大限度提升傳輸效率。系統斷點續傳支持ftp、http、https 等協議,支持WebService 斷點續傳。

3.5.5 傳輸任務調度

數據傳輸系統提供統一的數據同步傳輸任務創建、任務分發、任務調度管理功能,以實現數據傳輸任務任意調度的能力。用戶可以創建簡單、復雜的數據流,將廠站數據全量、增量或者實時同步傳輸到本部大數據平臺。平臺支持任務的調度方式包括:單次的同步傳輸任務、周期性的同步傳輸任務、定時同步傳輸任務、實時同步傳輸任務。任務調度提交后,對當前正在執行的任務,系統提供對任務的暫停、恢復、停止功能。對已經執行完成的歷史任務,系統提供再次執行、刪除歷史任務記錄功能。通過系統提供的調度功能可以滿足用戶任意調度同步傳輸數據的需求。

4 實際應用

數據傳輸系統已經在某集團化公司本部和所屬火電試點企業、所屬新能源試點企業上線運行,在公司本部部署基礎大數據平臺、數據傳輸管控平臺和數據傳輸軟件系統,在所屬火電試點企業、所屬新能源試點企業分別部署一套數據傳輸軟件Agent 節點用于對接廠站數據中心。系統部署上線后,對接所屬火電試點企業和所屬新能源試點企業兩個電廠數據中心的業務及數據如下:

4.1 所屬火電試點企業數據同步

所屬火電試點企業需要對接的數據源包括實時數據和非實時數據,包含實時數據的有DCS、NCS 系統等生成類數據;關系型數據有OA、EAM 資產管理系統和燃料管理系統等;其他包含半非實時、半結構化數據的有智能跑冒滴漏系統、數字化煤場、智能巡檢機器人系統、燃料全過程管控系統(無人值守)、OA、EAM 資產管理系統、燃料管理系統和人員定位系統。

實時數據存儲在兩類組件Kafka 和關系型數據庫里。消息隊列Kafka 的數據通過實時消費的方式同步到本部基礎大數據平臺,由于Kakfa 一天存入的數據量有8.64 億條,全量同步對帶寬的要求太高,所以本部可以通過點選調度的方式同步所需要的數據。關系型數據庫通過增量同步的方式,采用實時讀取數據庫寫入日志的方式來實時同步關系型數據庫數據。關系型數據庫每單位每天需要實時同步的數據一天大概10MB 左右。非實時數據通過在數據傳輸系統配置每天定時跑批的方式進行同步,一般在晚上系統負載低的時候進行。

4.2 所屬新能源試點企業數據同步

所屬新能源試點企業主要同步風機、電氣和光伏的數據。實時數據會推送到Kafka,通過實時消費的方式同步到本部基礎大數據平臺,Kafka 的存入數據很大,也需要采用點選調度的方式按需同步數據。Kafka 的數據會在下屬單位數據中心被消費存儲到KUDU中,按天進行分區,歷史數據同步通過選擇時間段進行批量同步。

項目上線后穩定運行,完成所屬試點企業兩個分布在不同地區的數據中心與北京總部的數據同步傳輸,實現下屬單位數據中心與公司本部數據中心互聯互通,為后續其他單位數據中心接入打下了堅實的基礎,為實現公司實現智慧企業建設奠定了堅實的數據基礎。

5 結語

本文介紹的異地數據中心的數據同步調度系統基于分布式大數據相關技術來設計與實現,旨在解決異地數據中心的數據同步傳輸問題,針對數據量大、按需點選、任意調度、數據安全、傳輸速率與帶寬控制、數據傳輸監控等技術上的問題提供了實現方案,并結合在線可視化操作方式,簡化數據同步調度操作的復雜度,可以非常直觀的同步調度消費所需數據,從而提高了數據的利用率,提升了業務效率。

目前數據同步與調度系統已在某某集團化公司本部及所屬試點企業投入試運行,在兩個不同區域的下屬單位陸續接入了大量的風機設備數據、運營數據等,滿足了數據共享的需求,后續會陸續接入更多單位的數據,實現公司本部與下屬各單位數據的共享,滿足更多的業務需求。

異地數據中心的數據同步與調度系統目前主要針對海量數據的實時及批量數據同步與調度的技術方案,但在數據傳輸管控、數據斷點續傳、異步傳輸、數據目錄分類等方面依然存在需要進一步提升的地方,后續需要進一步的深入研究。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 无码国产偷倩在线播放老年人| 手机精品视频在线观看免费| 人人看人人鲁狠狠高清| 久久激情影院| 亚洲无码91视频| 国产精品自拍合集| 国产精品嫩草影院av| 久久一日本道色综合久久| 国产精品hd在线播放| 国产麻豆福利av在线播放| 欧美精品一区二区三区中文字幕| 亚洲无码91视频| 精品撒尿视频一区二区三区| 亚洲欧美在线看片AI| 久久久精品国产SM调教网站| 毛片网站在线播放| 丰满人妻被猛烈进入无码| 香蕉视频在线观看www| 精品欧美视频| 婷婷开心中文字幕| 久草热视频在线| 日韩在线播放欧美字幕| 999国内精品久久免费视频| 一级黄色片网| 久久99国产综合精品女同| 亚洲中文字幕精品| 中国国产高清免费AV片| 无码AV高清毛片中国一级毛片| 在线va视频| 欧美啪啪一区| 国产乱子伦一区二区=| 欧美福利在线播放| AⅤ色综合久久天堂AV色综合| a毛片在线| 男人天堂亚洲天堂| 国产在线观看99| 看看一级毛片| 亚洲最大情网站在线观看| 怡春院欧美一区二区三区免费| 国产噜噜噜视频在线观看 | 日韩高清一区 | 亚洲系列无码专区偷窥无码| 久久鸭综合久久国产| 日本福利视频网站| 亚洲av无码专区久久蜜芽| 国产另类乱子伦精品免费女| 91欧洲国产日韩在线人成| 国产成人h在线观看网站站| 永久毛片在线播| 久久久精品久久久久三级| 久久黄色毛片| 五月六月伊人狠狠丁香网| 91精品视频播放| 欧美福利在线观看| 国产精品网址你懂的| 日韩小视频网站hq| 国模私拍一区二区| 亚洲综合婷婷激情| 日韩精品成人在线| 国产微拍一区二区三区四区| 亚洲天堂网2014| 亚洲美女视频一区| 欧美色视频网站| 在线视频97| 亚洲成人精品| 亚洲视频免| 国内精品伊人久久久久7777人| 国产正在播放| 亚洲人成网址| 国产免费人成视频网| 呦女精品网站| 丰满人妻一区二区三区视频| 欧美精品啪啪一区二区三区| 91精品专区国产盗摄| 国产成年无码AⅤ片在线| 日韩精品无码免费专网站| 毛片网站免费在线观看| 黄色网站在线观看无码| 91午夜福利在线观看精品| 国产性生大片免费观看性欧美| 一区二区欧美日韩高清免费 | 国产91色在线|