999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Ceph分布式存儲系統(tǒng)在OpenStack云平臺的設(shè)計(jì)與實(shí)現(xiàn)

2021-11-05 14:02:58
數(shù)字傳媒研究 2021年8期

席 磊

中國廣播電視網(wǎng)絡(luò)有限公司 北京市100045

引言

隨著Openstack云平臺的快速推廣實(shí)踐,其規(guī)模也逐步擴(kuò)大,上層業(yè)務(wù)系統(tǒng)的數(shù)據(jù)總量迅速增加。傳統(tǒng)數(shù)據(jù)存儲方式已難以滿足當(dāng)前企業(yè)對存儲系統(tǒng)的需求,致使存儲逐漸成為了云平臺發(fā)展的瓶頸。Ceph等基于軟件定義的分布式存儲技術(shù)打破了傳統(tǒng)存儲系統(tǒng)軟硬件緊耦合的狀況,將軟件從硬件存儲中抽象出來;將存儲作為云平臺中按需分配、實(shí)時調(diào)度的動態(tài)資源;通過文件存儲、塊存儲和對象存儲三種不同接口方式的存儲類型,支撐了云平臺的多種訪問方式;在擴(kuò)展性、伸縮性、安全性和容錯機(jī)制等方面較之傳統(tǒng)存儲系統(tǒng)都有很大提升。軟件定義的分布式存儲系統(tǒng)正不斷替代傳統(tǒng)的存儲系統(tǒng),成為企業(yè)構(gòu)建云平臺的首選存儲架構(gòu)。

Ceph是一種開源軟件定義分布式存儲系統(tǒng),因?yàn)槠鋬?yōu)秀的設(shè)計(jì)理念及統(tǒng)一存儲(同時提供塊、對象、文件三種接口)的特點(diǎn)被人們接受,已發(fā)展為穩(wěn)定可商用的統(tǒng)一存儲,得到廣泛的應(yīng)用和發(fā)展,是目前云操作系統(tǒng)OpenStack環(huán)境下的主流存儲系統(tǒng)。

2 Cpeh基本原理及架構(gòu)

Ceph是一種為優(yōu)秀性能、可靠性和可擴(kuò)展性設(shè)計(jì)的統(tǒng)一的、分布式的存儲系統(tǒng)?!敖y(tǒng)一”代表Ceph具備一套存儲系統(tǒng)同時提供對象、塊和文件系統(tǒng)三種存儲接口的能力,可滿足不同應(yīng)用需求的前提下簡化部署和運(yùn)維。而“分布式”則意味著真正的無中心結(jié)構(gòu)和沒有理論上限的系統(tǒng)規(guī)模可擴(kuò)展性。

Ceph是目前OpenStack社區(qū)中最受重視的存儲方案,具有諸多優(yōu)勢,如擴(kuò)展能力、可靠性、自維護(hù)等。文章將對Ceph的邏輯架構(gòu)、核心組件、關(guān)鍵工作流程等進(jìn)行扼要介紹。

2.1 Ceph的邏輯架構(gòu)

Ceph的邏輯架構(gòu)層次參見圖1。自下而上的三層結(jié)構(gòu)分別如下。

圖1 Ceph存儲架構(gòu)圖

2.1.1 RADOS基礎(chǔ)存儲系統(tǒng)

可靠、自動化、分布式的對象存儲(Reliable,Autonomic,Distributed Object Store)是Ceph集群的基礎(chǔ),Ceph中的一切數(shù)據(jù)最終都以對象的形式存儲,而RADOS就是用來實(shí)現(xiàn)這些對象存儲的。RADOS層為數(shù)據(jù)一致性及可靠性提供保證。

2.1.2 LIBRADOS基礎(chǔ)庫層

LIBRADOS對RADOS進(jìn) 行抽象和封裝,并向上層提供API,以便直接基于RADOS進(jìn)行應(yīng)用開發(fā),實(shí)現(xiàn)對RADOS系統(tǒng)的管理和配置。

2.1.3 應(yīng)用接口層

這一層包括RADOS GW(RADOS Gateway)、RBD(Reliable Block Device)和Ceph FS(Ceph File System)三個部分,在librados庫的基礎(chǔ)上提供抽象層次更高、更便于應(yīng)用或客戶端使用的上層接口。其中,RADOS GW提供對象存儲應(yīng)用開發(fā)接口,它有與Amazon S3和OpenStack Swift兼容的接口;RBD提供標(biāo)準(zhǔn)的塊設(shè)備接口,RBD類似傳統(tǒng)的SAN存儲,提供數(shù)據(jù)塊級別的訪問;Ceph FS提供文件存儲應(yīng)用開發(fā)接口,兼容POSIX的文件系統(tǒng),可以直接掛載為用戶空間文件系統(tǒng)。

2.2 RADOS的核心組件

Ceph的高可用、高可靠、無單點(diǎn)故障、分布式對象存儲等一系列特性均由RADOS提供。RADOS主要由OSD、Monitor、MDS(只有文件系統(tǒng)才需要)三類節(jié)點(diǎn)組成。

2.2.1 OSD(Ceph對象存儲設(shè)備)

OSD是Ceph集群中存儲用戶數(shù)據(jù)并響應(yīng)客戶端讀操作請求的唯一組件,負(fù)責(zé)將實(shí)際數(shù)據(jù)以對象的形式存儲在Ceph集群節(jié)點(diǎn)的物理磁盤上,它是Ceph中最重要的一個組件。OSD的數(shù)量最多,一般與物理磁盤數(shù)量相等。OSD可以被抽象為兩個組成部分,即系統(tǒng)部分和守護(hù)進(jìn)程(OSD deamon)部分。OSD的系統(tǒng)部分實(shí)際為一臺至少包括一個單核的處理器、一定數(shù)量的內(nèi)存、一塊硬盤以及一張網(wǎng)卡的計(jì)算機(jī)。守護(hù)進(jìn)程(OSD deamon)負(fù)責(zé)完成OSD的所有邏輯功能,包括與monitor和其他OSD deamon通信以維護(hù)更新系統(tǒng)狀態(tài),與其他OSD共同完成數(shù)據(jù)的存儲和維護(hù),與client通信完成各種數(shù)據(jù)對象操作。

2.2.2 Monitor(Ceph監(jiān)視器)

Monitor通過一系列map(包括OSD、MONITOR、PG、CRUSH、CLUSTER等的map)跟蹤并維護(hù)整個集群的狀態(tài),Monitor不實(shí)際存儲數(shù)據(jù),其數(shù)量較OSD少很多。

2.2.3 MDS(元數(shù)據(jù)服務(wù)器)

MDS元數(shù)據(jù)服務(wù)器不直接提供任何數(shù)據(jù),數(shù)據(jù)都由OSD為客戶端提供。MDS用于緩存和同步分布式元數(shù)據(jù),管理文件系統(tǒng)的名稱空間。

2.3 Ceph數(shù)據(jù)存儲流程

先介紹幾個概念:

(1)File:客戶端需要存儲或者訪問的對象文件。

(2)Ojbect:RADOS所 看到的“對象”。RADOS將File切分成統(tǒng)一大小得到的對象文件,以便實(shí)現(xiàn)底層存儲的組織管理。

(3)PG(Placement Group,歸置組):對object的存儲進(jìn)行組織和位置映射,可理解為一個邏輯容器,包含多個Ojbect,同時映射到多個OSD上,一個PG會被映射到n個OSD上,而每個OSD上都會承載大量的PG,PG和OSD之間是“多對多”映射關(guān)系。PG是Ceph實(shí)現(xiàn)可伸縮性及高性能的關(guān)鍵,沒有PG而直接在OSD上對數(shù)百萬計(jì)的對象進(jìn)行復(fù)制和傳播既困難又消耗計(jì)算資源。

RADOS尋址過程中的三次映射如圖2所示,分別是:File到Object的映射、Object到PG的映射、PG到OSD的映射。

圖2 Ceph存儲流程示意圖

2.3.1 File到object映射

這次映射將用戶操作的file映射為RADOS能夠處理的Object。

Client客戶端先聯(lián)系Monitor節(jié)點(diǎn)并獲取cluster map副本,通過map得到集群的狀態(tài)和配置信息;將文件轉(zhuǎn)換為size一致、可以被RADOS高效管理的Object,一份Object擁有一個ID號。

2.3.2 Object到PG映射

通過將對象oid和PG共同經(jīng)過哈希函數(shù)計(jì)算,確認(rèn)對象Object存放在哪個PG中,實(shí)現(xiàn)Object和PG之間的近似均勻映射。Object和PG是多對一的關(guān)系。

2.3.3 PG到OSD映射

這次映射通過Crush算法將PG映射給存取數(shù)據(jù)的主OSD中,主OSD再備份數(shù)據(jù)到輔助OSD中。PG和OSD是多 對 多 的關(guān)系。至此,Ceph完成了從File到Object、PG和OSD的 三 次 映射過程,整個過程中客戶端通過自身計(jì)算資源進(jìn)行尋址,無需訪問元數(shù)據(jù)服務(wù)器查表的數(shù)據(jù)尋址機(jī)制,實(shí)現(xiàn)去中心化,避免了單點(diǎn)故障、性能瓶頸、伸縮的物理限制,這種數(shù)據(jù)存儲和取回機(jī)制是Ceph獨(dú)有的。

3 Ceph分布式存儲的設(shè)計(jì)與實(shí)現(xiàn)

大規(guī)模Ceph分布式存儲系統(tǒng)的規(guī)劃設(shè)計(jì)及實(shí)現(xiàn)是一個復(fù)雜的過程,要考慮的問題很多,如不同類型(塊、文件、對象)存儲接口的選擇、存儲網(wǎng)絡(luò)設(shè)計(jì)規(guī)劃、Ceph的對接方案、硬件配置如何在性能和成本之間取得平衡等等一系列問題,而這些都需在充分了解平臺自身業(yè)務(wù)特性的基礎(chǔ)上,提出個性化的解決方案。下面對Ceph在OpenStack云平 臺 中的 設(shè)計(jì)、優(yōu)化改進(jìn)及部署實(shí)現(xiàn)進(jìn)行論述。

3.1 基于ISCSI的Ceph塊存儲實(shí)現(xiàn)

ISCSI(Internet Small Computer System Interface)是 一 種成熟的技術(shù)方式,常見的各種系統(tǒng)(包括操作系統(tǒng)和應(yīng)用系統(tǒng))一般都對ISCSI有很好的支持。

Ceph集群支持三種形式的存儲接口:文件、對象、塊,其中塊接口(RBD)與SCSI塊設(shè)備讀寫所要求的接口一致,因此可以作為ISCSI服務(wù)的后端存儲設(shè)備。基于ISCSI的Ceph塊存儲在OpenStack云平臺中的實(shí)現(xiàn)方法,對接方式為Ceph分布式塊存儲集群通過ISCSI對接虛擬化層,虛擬化層再通過相應(yīng)驅(qū)動 對 接OpenStack的Cinder、Nova組件,為虛擬機(jī)提供本地系統(tǒng)和數(shù)據(jù)盤服務(wù)。

ISCSI是 一 種SAN(Storage area network)協(xié)議,使用TCP/IP協(xié)議來傳遞SCSI命令與響應(yīng),它定義了SCSI指令集在IP網(wǎng)絡(luò)中傳輸?shù)姆庋b方式。ISCSI為C/S結(jié)構(gòu),客戶端稱為Initiator,服務(wù)端稱為target。

3.1.1 ISCSI target

即磁盤陣列或其他裝有磁盤的存儲設(shè)備。它是一個端點(diǎn),不啟動會話,而是等待發(fā)起者的命令,并提供所需的輸入/輸出數(shù)據(jù)傳輸。

3.1.2 ISCSI initiator

就是能夠使用target的客戶端,它是啟動SCSI會話的端點(diǎn),發(fā)送SCSI命令,通常是服務(wù)器。也就是說,想要連接到ISCSI target的服務(wù)器,必須安裝ISCSI initiator的相關(guān)功能才能夠使用ISCSI target提供的硬盤。

Ceph基 于ISCSI協(xié) 議 對 接 虛擬化層的邏輯架構(gòu)分為三層,分別是ISCSI客戶端(計(jì)算節(jié)點(diǎn))、ISCSI網(wǎng)關(guān)、Ceph集群。ISCSI target對 接Ceph的RBD接口,為上層計(jì)算節(jié)點(diǎn)ISCSI initiator提供服務(wù),實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)通過ISCSI訪問底層存儲,進(jìn)行卷的創(chuàng)建、修改、刪除等管理性操作。如圖3所示。

圖3 ISCSI協(xié)議使用Ceph RBD基本架構(gòu)圖

圖4 ceph存儲網(wǎng)絡(luò)系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D

3.2 巧用Crush分組,避免存儲后端網(wǎng)絡(luò)瓶頸

在存儲網(wǎng)絡(luò)規(guī)劃中,首先需將各網(wǎng)絡(luò)平面分開,一般劃分4張網(wǎng)絡(luò)平面,分別是IPMI管理網(wǎng)、千兆帶內(nèi)管理網(wǎng)、存儲前端網(wǎng)絡(luò)(萬兆)、存儲后端網(wǎng)絡(luò)(萬兆)。IPMI管理網(wǎng)及千兆帶內(nèi)管理網(wǎng)流量較低,我們不做討論。不論是存儲前端或后端網(wǎng)絡(luò),一般情況下依據(jù)各分布式存儲集群的數(shù)量,每個集群后端采用數(shù)量不等的48口萬兆交換機(jī)采用兩兩級聯(lián)的方式提供服務(wù),網(wǎng)口采用雙網(wǎng)口綁定Bond4的方式提供。其中,存儲后端網(wǎng)絡(luò)由于存在大量的數(shù)據(jù)重構(gòu),流量極高,需要進(jìn)行針對性的設(shè)計(jì)考慮。下面介紹一種在大規(guī)模Ceph集群組網(wǎng)過程中,利用Crush分組機(jī)制避免交換機(jī)成為后端網(wǎng)絡(luò)瓶頸的設(shè)計(jì)思路。

對于節(jié)點(diǎn)數(shù)量少于48的分布式存儲集群,使用2臺48口萬兆交換機(jī)AB即可,AB之間使用主備模式,各節(jié)點(diǎn)的兩萬兆后端網(wǎng)絡(luò)也使用bond4模式進(jìn)行雙上聯(lián),后端網(wǎng)絡(luò)的重構(gòu)數(shù)據(jù)不會跨交換機(jī)流動。

但對于節(jié)點(diǎn)數(shù)量大于48而小于96的分布式存儲集群,存儲后端存儲網(wǎng)絡(luò)共使用4臺48口萬兆交換機(jī)ABCD,使用2根40Gb/s級聯(lián)線將交換機(jī)AB連接一起做堆疊,交換機(jī)CD之間同理,這種情況下,后端網(wǎng)絡(luò)的重構(gòu)數(shù)據(jù)將在交換機(jī)AB之間流動,極端情況下可能形成網(wǎng)絡(luò)擁塞。

針對該問題,可以通過Ceph分布式集群進(jìn)行Crush分組進(jìn)行規(guī)避。以集群規(guī)模為60節(jié)點(diǎn)為例,按照20節(jié)點(diǎn)為一組,分為三組,仍提供一個數(shù)據(jù)存儲池。其中前2組連接一個萬兆交換機(jī)A,第三組連接第二個萬兆交換機(jī)B,A與B使用兩根40Gb/s級 聯(lián)線 連 接,Crush分 組原理決定了各個分組之間幾乎沒有數(shù)據(jù)流動,因?yàn)橐环輸?shù)據(jù)的副本或糾刪塊均在一個組內(nèi)。所以兩交換機(jī)之間的級聯(lián)線只會有心跳數(shù)據(jù)通過,不會存在業(yè)務(wù)數(shù)據(jù)量通過,也就不會成為網(wǎng)絡(luò)瓶頸。如圖5所示。

圖5 Ceph存儲后端網(wǎng)絡(luò)示意圖

3.3 SSD+HDD靈活混搭,匹配全業(yè)務(wù)需求

要滿足虛擬機(jī)上各業(yè)務(wù)系統(tǒng)對所掛載的云硬盤差異化性能需求,如對IO需求、延遲大小、網(wǎng)絡(luò)吞吐能力、并發(fā)訪問等,使用單一配置的Ceph存儲節(jié)點(diǎn)難以達(dá)到要求,建議在官方文檔提倡使用SSD+HDD混搭的模式的基礎(chǔ)上,將SSD和HDD以不同比例進(jìn)行混搭,形成不同能力的存儲資源池,從而在性能和成本之間取得平衡。具體項(xiàng)目中可通過調(diào)整Ceph分布式塊存儲集群Crush-Map,設(shè)置Crush ruleset來將不同類型磁盤劃分到同一個存儲資源池,從而制作成高速(highpool)、中速(midpool)、低速(lowpool)三組邏輯存儲池,對外提供不同性能的云硬盤服務(wù);并結(jié)合基于帶寬、IOPS兩種策略的QoS,達(dá)到更加合理、均衡的使用塊存儲服務(wù)。

3.4 小文件聚合存儲,優(yōu)化存儲性能

如果存儲系統(tǒng)中存在海量小文件,每個小文件存儲都會執(zhí)行一次全寫流程,當(dāng)大量小文件并發(fā)訪問時,將導(dǎo)致磁盤壓力加劇,Ceph系統(tǒng)性能下降。

針對該問題,可設(shè)計(jì)一種將小文件聚合存儲的功能,將小對象聚合為大的,基本思路是將新創(chuàng)建的小文件以緊密排列的方式(以4KB對齊)寫入到一類特殊的文件(聚合文件)中。在讀文件時也不再讀取小文件的對象,而是從聚合文件的對象中讀取源文件數(shù)據(jù),每個聚合文件包含多個聚合對象(4MB)。客戶端發(fā)送的讀請求會將小文件所在對象讀入緩存,提高后續(xù)小文件的緩存命中率,有效地縮短了I/O路徑。

小文件聚合存儲有效降低小文件寫入磁盤次數(shù)、減輕寫數(shù)據(jù)壓力;方便落盤和減少磁盤碎片化,同時提升小IO的性能;提高磁盤使用率,讀小文件時將所在對象讀入緩存,提高讀命中率、縮短讀I/O路徑。

結(jié)束語

總體而言,Ceph作為目前OpenStack環(huán)境下的最受關(guān)注的存儲系統(tǒng),通過有針對性的設(shè)計(jì)與優(yōu)化,可以滿足Iaas平臺對于存儲系統(tǒng)的需求。但Ceph在管理便捷性、性能優(yōu)化、業(yè)務(wù)場景適配等方面仍有許多可發(fā)掘的空間,同時企業(yè)對于自身存儲需求也需要不斷的發(fā)掘,最終使Ceph性能得以最大化,為企業(yè)提供更加穩(wěn)定可靠的存儲服務(wù)。

主站蜘蛛池模板: 国产91成人| 欧美午夜久久| 午夜精品影院| 福利视频一区| 久青草免费在线视频| 女同久久精品国产99国| 国产性生交xxxxx免费| 亚洲日本韩在线观看| 呦女精品网站| 国产成人精品日本亚洲77美色| 成人国产精品一级毛片天堂 | 国产日本一区二区三区| 香蕉在线视频网站| 日本午夜三级| v天堂中文在线| 国产噜噜在线视频观看| 亚洲精品亚洲人成在线| 亚洲天堂自拍| 中文字幕人妻无码系列第三区| 亚洲男女天堂| 欧美视频在线不卡| 日韩在线影院| 超清人妻系列无码专区| 亚洲男人天堂2018| 国产电话自拍伊人| 在线观看国产网址你懂的| 一区二区在线视频免费观看| 香蕉蕉亚亚洲aav综合| 重口调教一区二区视频| 在线精品自拍| 国产剧情一区二区| 熟妇人妻无乱码中文字幕真矢织江 | 91精品亚洲| 日日拍夜夜操| 久久96热在精品国产高清| 日韩精品成人在线| 成人久久精品一区二区三区| 任我操在线视频| 在线国产你懂的| 国产久草视频| 久久国产热| 久久综合结合久久狠狠狠97色| 久久综合亚洲鲁鲁九月天| 成人免费午夜视频| 青青青伊人色综合久久| 欧美精品在线免费| 国产swag在线观看| 成人精品亚洲| 狠狠色噜噜狠狠狠狠奇米777| 亚洲色图在线观看| 国产午夜人做人免费视频| 亚洲香蕉久久| 日韩 欧美 小说 综合网 另类 | 欧洲亚洲一区| 亚洲男人在线天堂| 亚洲中文字幕久久无码精品A| 性喷潮久久久久久久久| 国产天天色| 91精品国产综合久久香蕉922 | 久久婷婷色综合老司机| 国内精品手机在线观看视频| 香蕉蕉亚亚洲aav综合| 毛片视频网址| 免费国产高清精品一区在线| 久草国产在线观看| 最近最新中文字幕在线第一页| 国产成人精品视频一区视频二区| 欧美亚洲国产日韩电影在线| 色综合色国产热无码一| 国产精品视频3p| 伊人久久青草青青综合| 国产va欧美va在线观看| 精品久久香蕉国产线看观看gif| 国产黑丝视频在线观看| www.精品视频| 在线观看国产精品第一区免费| 久久精品国产91久久综合麻豆自制| 性色一区| 日韩欧美国产成人| 在线观看欧美精品二区| 亚洲美女一级毛片| 嫩草在线视频|