999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的高能物理數據放置策略

2020-11-10 07:10:20程振京程耀東李海波胡慶寶
計算機工程與應用 2020年21期
關鍵詞:用戶策略

程振京 ,程耀東,3,陳 剛,汪 璐,李海波 ,胡慶寶

1.中國科學院 高能物理研究所,北京100049

2.中國科學院大學,北京100049

3.中國科學院 高能物理研究所 天府宇宙線研究中心,成都 610041

1 引言

隨著高海拔宇宙線觀測實驗LHAASO[1]、大亞灣及江門中微子實驗JUNO 等高能物理實驗建成運行和陸續建成,數據累積規模不斷擴大。超大規模的數據量對數據存儲的性能和效率提出了更高的要求。高能物理領域一般使用EOS[2]、Lustre[3]等分布式集群文件系統,整合集群存儲空間,數據分散存儲在集群各個節點服務器上,對外提供統一的文件訪問服務。

為了應對超大規模數據集的存儲和降低系統構建成本、提供較好的訪問性能,集群系統一般使用統一命名空間的分級存儲架構,使用介質包括傳統機械磁盤HDD 和固態硬盤SSD 等。在現有計算和存儲架構上,大數據集在節點和存儲設備之間的移動會與性能和用戶體驗產生諸多負面影響。因此,合理的數據放置策略對于提升集群存儲系統效率非常重要。

海量數據治理的公認最佳實踐是分類分級管理[4]。傳統的高能物理文件放置方法是根據文件內容,對實驗原始數據、蒙特卡洛模擬數據和重建數據進行簡單分類。這種方式是基于規則的,非常依賴系統管理員和用戶的先驗知識[5]。文獻[6]利用文件已創建時間與訪問熱度之間的相關性完成文件放置,保持各存儲節點的負載均衡,但未考慮存儲節點異構情況。文獻[7]考慮節點負載、節點硬件性能和網絡距離找到最佳文件副本放置節點,但未考慮文件的訪問特點和訪問場景。

本文在這些方法的基礎上,提出了基于隨機森林算法的高能物理文件放置策略。綜合考慮訪問場景和訪問特點將文件劃分為兩類:交互式文件和批處理文件。相比于批處理文件,交互式文件隨機訪問占總體訪問的比例較大,讀寫帶寬和用戶體驗聯系更加緊密。數據放置過程中優先將交互式文件放置在隨機IO性能更好的固態硬盤SSD 中,同時考慮各存儲設備當前負載情況。實驗結果表明,使用此算法可以在不升級擴容現有存儲節點和硬盤的情況下,優化數據放置和用戶體驗,發揮固態硬盤的性能優勢,同時維持各節點的負載均衡。

2 相關工作

2.1 高能物理計算模式

典型的高能物理計算模式是從海量數據中挖掘出稀有事例。事例以文件形式存儲在分布式存儲系統中。基于上述特點,高能物理領域普遍采用集群文件系統以及計算和存儲分離的模式,如圖1所示。

海量實驗數據存儲在I/O服務器中,通過EOS分布式存儲系統來管理,計算節點通過高速網絡從I/O 服務器中獲取數據[8]。中科院高能物理研究所計算中心開發了基于DNS負載均衡的前端登錄系統[9],提供大規模用戶登錄服務,作為用戶在計算和存儲集群的單一入口點。用戶在前端登錄節點可以進行數據文件檢查、計算程序調試、分析作業提交等交互式操作,存儲系統的數據訪問性能對于用戶使用體驗影響較大。后端計算集群通過作業調度系統統一調度和執行用戶批處理計算作業。作業執行時間受任務類型、CPU 主頻、I/O、網絡等因素共同影響。作業完成后,用戶將數據分析結果拷貝到個人計算機上做進一步分析,存儲系統的數據訪問性能對于用戶使用體驗影響相對較小。

圖1 高能物理計算系統典型結構

2.2 EOS架構及數據放置策略

為了滿足PB 級甚至EB 級的高能物理數據存儲與分析壓力,歐洲核子中心CERN 于2010 年開發了EOS文件存儲系統。EOS 是一種基于xrootd 協議[10]框架實現的分布式并行文件系統,采用基于內存的元數據管理架構,節點支持條帶化、文件多副本,可擴展性較好。它提供較高的聚合I/O 帶寬,數據可以透明地在不同存儲池間轉儲,特別適合高能物理高吞吐量的計算模式,和其他傳統分布式文件系統相比具有很大優勢。EOS 主要由元數據管理服務器(MGM)、消息隊列(MQ)和文件存儲服務器(FST)、客戶端四部分組成,如圖2所示。

圖2 EOS典型架構

元數據服務器MGM管理文件系統的元數據,維護數據條帶和文件位置等信息,并且提供命名空間、用戶配額、用戶認證等功能。文件存儲服務器FST使用本地文件系統存儲數據條帶,響應客戶端請求讀出或寫入數據。消息隊列MQ負責元數據管理服務器MGM和文件存儲服務器FST之間的信息同步,數據傳輸等。在EOS元數據服務器設計了存儲池(storage group),存儲池是一組存儲服務器FST 和本地文件系統目錄FS 的集合。可以為每個存儲池配置不同的用戶配額、負載均衡策略、數據冗余、副本和糾刪碼級別等。實際應用中通常根據硬件性能劃分不同存儲池,對用戶提供透明、統一的文件訪問入口。

EOS 中文件寫入過程如圖3 所示。客戶端將請求發給元數據服務器,元數據服務器收到請求后首先檢查用戶權限和文件邏輯路徑,如果成功則創建一條元數據記錄,包括用戶名uid、用戶組名gid、創建時間、訪問權限、邏輯路徑、文件名等,但不會記錄文件大小和文件在存儲集群中的物理路徑。客戶端初始時先把文件寫入本地緩存,完成后再借助放置策略確定數據在存儲集群中的物理位置。最后客戶端和相應存儲服務器FST 建立連接,通過xrootd協議將文件或數據條帶寫入到各存儲設備中。

圖3 EOS文件寫入過程

3 改進的數據放置策略

3.1 問題描述

EOS 默認的文件放置策略是隨機選擇一個當前活躍的存儲池,通過GroupBalancer 組均衡程序選擇一個存儲服務器FST 和本地文件系統目錄FS,但只考慮了存儲空間利用率。高能物理實驗交互式訪問數據和批處理訪問數據(見2.1節)混合放置在不同性能的存儲設備上,可能導致某些存儲設備比較空閑,造成存儲節點負載不均衡。

3.2 策略基本思想

EOS 在數據放置過程中沒有考慮高能物理數據訪問特點和訪問場景的差異。考慮EOS 使用的存儲設備既包含前期部署的基于SATA協議的廉價HDD盤,又包含后期擴展的基于PCIE等協議的高性能SSD盤,將存儲服務器FST和硬盤設備按照性能劃分為快慢兩種存儲池。

改進的數據放置策略首先使用基于決策樹的隨機森林對文件訪問場景進行識別。決策樹[11]是一種無參數的有監督學習模型,本質上是從帶有標簽的訓練數據集中學習分類和決策規則。決策樹計算速度快,能處理訓練數據的離散值和連續值,訓練后的決策樹能夠生成在邏輯上解釋的規則,缺點是容易過擬合,對輸入噪聲和異常值敏感,準確率不高。隨機森林(Random Forest,RF)[12]是一種基于決策樹的集成模型,包含多棵決策樹的弱分類器,通過重采樣從原始訓練樣本集N中有放回地抽取n個樣本構成新的訓練樣本集,進而訓練m棵決策樹,輸出的類別由個別樹輸出的類別的眾數而定。因此隨機森林有很好的抗噪聲和泛化能力。本文使用sklearn[13]數據挖掘和分析工具,在隨機森林訓練和推理過程中利用多核CPU 的并行計算能力,對于大規模數據集計算速度比較快,適合對于性能要求較高的存儲系統場景。

如圖4 所示,在文件寫入本地緩存后,采集文件后綴名、文件大小、文件目錄、訪問權限、創建時間、文件所屬用戶uid、用戶組gid 等信息,經過預處理、特征提取、One-hot編碼[14]作為隨機森林的輸入數據。隨機森林模型保存了文件訪問場景的識別規則。例如,同種訪問場景中的高能物理實驗數據往往文件格式一致,訪問權限相似,甚至共同的父級目錄等。

圖4 基于隨機森林的文件放置框架結構圖

硬盤性能和IO負載是影響存儲節點數據寫入和讀出快慢的重要因素之一。隨機森林根據輸入將文件識別為交互式數據或批處理數據,根據系統管理員事先定義的規則,分別存儲在快速存儲池和慢速存儲池中。存儲池的劃分標準主要考慮硬盤IOPS和吞吐量[15]。同時本文定義了IO 負載指標來衡量存儲設備的負載情況。在存儲池內部選擇FST和硬盤時,綜合考慮所有服務器和硬盤的當前負載。負載指標可以用以下公式來表示:

其中,avgqu表示服務器平均I/O隊列長度;svctm表示服務器平均每次I/O 請求的服務時間;util表示每個硬盤用于I/O操作時間的百分比;iowait表示CPU等待I/O請求時間的百分比。Linux中的top命令和iostat命令[16]主要用于監控節點系統設備的I/O 負載情況,以時間段為單位提供了上述硬盤負載指標。改進的策略模型對同一存儲池內所有服務器和硬盤的負載進行計算,選取負載最低的存儲位置。

3.3 算法描述

算法思想:針對高能物理計算和存儲模式,在文件創建時,從本地客戶端緩存寫入到集群存儲系統之前,根據文件元數據特征,識別為交互式訪問文件或批處理訪問文件,分別選擇合適的數據放置位置,提升數據訪問效率和用戶體驗。

輸入:文件屬性信息,各節點和存儲設備空間利用率、負載指標等

輸出:可以放置文件的FST節點和硬盤

偽代碼如下:

1.while(客戶端發出數據提交至存儲系統的請求){

2.i(f在EOS中分離了快速和慢速存儲池){

3.提取新創建文件元數據特征,包括文件名后綴、文件大小、文件路徑(各級目錄)、訪問權限、創建時間、文件所屬用戶uid、用戶組gid等

4.if(已訓練隨機森林模型){

5.文件元數據特征輸入隨機森林模型進行推理

6.對文件進行分類,并轉至步驟10

}

7.else{

8.根據用戶使用場景不同標記訓練數據

9.離線訓練隨機森林模型,并轉至步驟4

}

10.根據文件類別選擇快速或慢速存儲池

11.統計節點FST 空間利用率以及集群平均空間利用率

12.從步驟11 中挑選空間利用率小于集群平均值的FST節點,計算節點下各存儲設備的IO負載,挑選負載最低的存儲設備作為文件存儲位置。算法結束

}

13.else{

14.使用EOS原有數據放置策略,隨機選擇一個可用存儲池,根據存儲空間利用率選擇一個節點和硬盤存儲設備。算法結束

}

}

4 實驗結果及分析

4.1 實驗環境

本文以中科院高能物理所部署的分布式集群存儲系統EOS 0.4.31[17]為基礎,重寫了元數據服務器MGM中Scheduler 類,該類負責將新創建的文件從客戶端緩存傳輸至存儲集群,默認隨機選擇一個可用存儲池并調用GroupBalancer類,調用Strategy類選擇FST節點。繼承Strategy 類并重載了其中的FilePlacement 方法,增加了使用隨機森林推理文件類型的PredictFileCategory方法,同時增加了GetServerLoad和ChooseDisk方法,計算服務器和硬盤IO負載,選擇一個當前時間段(10 min)內負載最低的存儲節點和硬盤。

實驗環境配置如下:EOS的MGM元數據管理器操作系統選用centos7.4,通過虛擬機構建了四個FST文件存儲服務器節點,根據硬盤介質種類分別定義了快速和慢速兩個存儲池。fst01 和fst02 節點位于快速存儲池,分別配有兩塊240 GB固態硬盤SSD(SSD01-04)。fst03和fst04 節點位于慢速存儲池,分別配有兩塊2 TB 機械硬盤HDD(HDD01-04)。

4.2 實驗結果分析

在算法驗證中,以位于四川稻城的高海拔宇宙線觀測實驗LHAASO為例,針對2019年1月1日至2019年2月1日這一個月內新創建的565 254個數據樣本文件作為訓練集。并根據文件創建后,數據訪問請求的主要來源(前端登錄節點或計算節點)標注不同訪問場景,包含交互式樣本文件80 135 個和批處理樣本文件485 099個,離線訓練隨機森林模型。文件大小介于十幾KB和GB之間。在測試中采集2019年2月2日這一天內新創建的19 149個實驗數據文件樣本作為測試集,其中交互式文件樣本2 731 個,批處理文件樣本16 418 個。本文首先驗證隨機森林模型對高能物理實驗中產生的交互式訪問的數據和批處理訪問的數據分類和識別的準確率,如圖5所示。

圖5 文件類別識別結果

測試中分別使用了RF1(單棵決策樹)、RF7(集成7棵決策樹的隨機森林)、RF15、RF31、RF63、XGBoost(eXtreme Gradient Boosting)極端梯度提升樹、GBDT(Gradient Boosting Decision Tree)梯度下降樹、SVM支持向量機等模型。使用隨機森林對文件類別識別準確率最好能達到84%以上,超過了XGBoost、GBDT、SVM等機器學習分類模型。本文假設初始時各存儲節點都處于空載狀態,硬盤空間使用也是從0開始。數據分布分別如圖6所示。

使用EOS 原有放置策略(圖6(a)),LHAASO 交互式訪問的物理數據和批處理訪問的物理數據混合存儲在所有節點,固態硬盤SSD 和機械硬盤HDD 盤上數據分布幾乎無差異。使用改進的放置策略(圖6(b)),交互式訪問的數據集中存儲在fst01、fst02 節點以及掛載的固態硬盤SSD上,批處理訪問的數據集中存儲在fst03、fst04節點以及掛載的機械硬盤HDD上。

圖6 原有策略和改進策略下數據在存儲節點的分布

數據放置完成后集群存儲節點和硬盤空間使用率如圖7所示,可以看到,相比原有放置策略,改進放置策略提升了固態硬盤存儲池對于交互數據的空間使用率。由于固態硬盤不需要尋道,隨機讀寫速度快,能夠極大提升交互式數據操作效率和用戶使用體驗。改進放置策略同時保證了同一個存儲池內部下各硬盤的負載均衡。

圖7 原有策略和改進策略下集群空間使用率

5 結束語

高能物理一般使用分布式集群存儲系統來存放實驗產生的海量物理數據。傳統數據放置策略沒有考慮用戶不同訪問場景,也沒有考慮同時包含固態硬盤和機械硬盤的異構存儲環境。針對上述問題,本文利用隨機森林模型提出了一種改進的數據放置策略,提取文件大小、文件路徑、權限、用戶id 等多個維度的數據原始特征,對文件創建后的讀寫訪問場景進行預測和識別,分別選取適合放置的存儲池和存儲節點、硬盤。實驗結果表明,改進的放置策略將交互式訪問數據放置在固態硬盤存儲池,批處理訪問數據放置在機械硬盤存儲池,能夠提升用戶交互式訪問體驗,發揮固態硬盤速度快和機械硬盤容量大的優勢。目前以LHAASO為代表的高能物理實驗已積累超過8 200 萬個樣本文件,下一步的工作是在更大規模的樣本文件集中驗證算法的性能和有效性。同時在放置策略中考慮硬盤磨損程度和壽命,以減少數據放置時間和降低數據風險。

猜你喜歡
用戶策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产青榴视频在线观看网站| 熟妇无码人妻| 久久亚洲欧美综合| 欧洲欧美人成免费全部视频| 久久久亚洲色| 九色视频最新网址| 国产精品无码AⅤ在线观看播放| 国产午夜一级淫片| 日本成人一区| 美女免费黄网站| 免费人成黄页在线观看国产| 亚洲国产综合精品中文第一| 99热精品久久| 日本人又色又爽的视频| 九九热这里只有国产精品| 在线一级毛片| 天天色天天操综合网| 中文字幕av一区二区三区欲色| 精品国产一区二区三区在线观看 | 亚洲女同欧美在线| 丁香婷婷在线视频| 一级做a爰片久久毛片毛片| 91偷拍一区| 最新日韩AV网址在线观看| 日韩东京热无码人妻| a级毛片免费在线观看| a天堂视频| 一级爱做片免费观看久久 | 国产一区免费在线观看| 国产精品自拍合集| 日韩人妻无码制服丝袜视频| 欧美亚洲日韩中文| 67194在线午夜亚洲| 国产亚洲欧美另类一区二区| 成人va亚洲va欧美天堂| 久草网视频在线| 国产欧美成人不卡视频| 精品国产美女福到在线直播| 亚洲无限乱码| 久久久久国产精品免费免费不卡| 精品无码一区二区三区电影| 亚洲美女高潮久久久久久久| 欧美日韩一区二区三| 亚洲视频二| 1769国产精品免费视频| 一级做a爰片久久毛片毛片| 国产精品一区二区国产主播| 欧美高清视频一区二区三区| 嫩草在线视频| 亚洲伦理一区二区| 一级毛片在线播放| 亚洲男人的天堂在线| 手机永久AV在线播放| 无码专区国产精品第一页| 国产在线视频欧美亚综合| 国产人成午夜免费看| 怡红院美国分院一区二区| 黄色污网站在线观看| 亚洲国产黄色| 日本福利视频网站| 日韩精品无码免费一区二区三区| 国产一区二区三区在线无码| 国产乱子伦无码精品小说| 亚洲色图狠狠干| 91精品网站| 久久国产精品麻豆系列| 91福利国产成人精品导航| 99re这里只有国产中文精品国产精品 | 性色一区| 最新国产你懂的在线网址| 亚洲嫩模喷白浆| 亚洲精品免费网站| 国产精品免费p区| 精品国产黑色丝袜高跟鞋 | 日韩东京热无码人妻| 亚洲成人在线网| 91久久精品国产| 中国国产A一级毛片| 欧美亚洲欧美区| 熟妇丰满人妻av无码区| 最新国产精品第1页| 成人午夜视频免费看欧美|