999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據算法庫教學實驗平臺設計與實現

2020-09-29 05:49:40陳志奎
實驗技術與管理 2020年6期
關鍵詞:界面用戶管理

趙 亮,陳志奎

(大連理工大學 軟件學院,遼寧 大連 116620)

為了提升大數據專業方向學生的學習實踐能力,我校軟件學院大數據研究所開發了一套大數據算法庫教學實驗平臺。該平臺基于Hadoop 分布式處理框架,著重打造一套適用于多用戶、高并發場景的大數據通用分析處理解決方案,實現適應復雜大數據處理和計算需求的數據分析和挖掘體系,構建魯棒、高效的數據服務平臺。此外,在此平臺基礎上,構建了針對土地數據的教學實踐案例,致力于實現對土地文本數據的搜索及對土地不完整信息的預處理和分析。為了使用戶能夠友好地操作Hadoop 集群進行大數據處理分析,平臺進一步實現了Web 界面化交互操作,提升了用戶的使用體驗。此平臺的有效利用,能夠為學生提供有效的數據分析實驗、實踐資源,提高大數據專業方向的整體教學水平[1-2]。

1 需求分析

1.1 設計目標

平臺實現的整體目標是為大數據專業方向的教學和實驗提供有效的數據分析處理平臺,具體目標如下:

(1)平臺利用HDFS 完成數據的存儲。HDFS 是Hadoop 系統中的分布式文件系統,可以對海量數據進行管理和存儲,是平臺實現的基礎要素。

(2)平臺實現海量數據算法的工具包Mahout,能夠把傳統數據挖掘中的算法有效遷移到平臺上,完成海量數據的分析處理。

(3)平臺利用SSM 框架建設平臺前端交互界面,實現完全圖形化操作。此外,前端實現結合JSTL 技術,完成前后端代碼邏輯的有效分離,使平臺整體層次更加清晰。

(4)平臺通過SSH 協議,建立平臺前端網站與后臺集群的連接。在終端用戶使用平臺時,需要先上傳Input 文件到HDFS 中。利用SSH 中的數據壓縮機制可以有效控制數據傳輸的大小,提升效率。

(5)在平臺土地數據案例應用中,利用Solr 索引技術組織索引土地文本,完成搜索挖掘,能夠實現不同粒度詞匯的檢索。

(6)針對獲取的土地數據中存在的不完整內容,設計不同的數據質量提升預處理模型,進而對數據內容進行跨平臺調用。

(7)平臺基于Hadoop 實現不同外圍接口,實現自定義算法功能。用戶可以提交自己設計的算法包到平臺上,然后通過平臺調用Hadoop 集群進行運行。

(8)在Hadoop 集群中執行具體算法的同時,希望能夠在前端頁面實時輸出結果,提升用戶體驗。

(9)平臺實現需要實現對集群實例的遠程操控,包括對特定節點的操控,以及利用VNC 技術通過Web界面實現界面的可視化操作。

(10)為了提升整個平臺的并發性能,平臺實現部分模塊讀寫分離。平臺運用Redis 進行系統數據緩存,所有用戶請求均落在Redis 上。為了有效保證Redis和MySQL 中數據的一致性,使用Canal 進行功能同步,完成系統解耦。

1.2 功能需求

根據前一節的具體設計目標,本節對基于Hadoop的大數據算法庫教學實驗平臺進行功能細化,保證平臺設計的合理性和有效性。圖1 給出了整個平臺的用例圖。

圖1 平臺用例圖

1.2.1 海量數據存儲管理

本實驗平臺設計主要面向海量數據,因此需要解決海量數據的分割和存儲問題。Hadoop 自帶的HDFS分布式文件系統可以有效調用集群中的節點來存儲數據,但是用戶不能直接對集群進行操作,只能與網站后臺服務器進行交互。所以本實驗平臺需要實現數據的上傳功能,以及網站服務器與后臺集群文件系統間的數據傳輸。此外,平臺需要實現用戶間的邏輯分析,限制用戶訪問和操作數據的權限,保證平臺數據的有效性和安全性[3]。

1.2.2 傳統機器學習算法遷移

傳統的數據挖掘和機器學習方法能夠解決用戶的大多數數據處理需求,但是現有算法設計大多面向小數據樣本,直接用其處理海量數據,效率非常低。因此,本平臺針對具體算法結構,對其進行有效轉換,使其能夠遷移和應用于海量數據處理,并通過前端界面實現算法的可視化操作。

1.2.3 算法自定義

平臺除了具有傳統機器學習算法功能外,還支持算法自定義功能,用于設計面向具體數據處理的用戶算法。在算法具體實現時,只需要上傳符合Hadoop規范的程序文件,然后平臺后臺對程序進行正確性驗證,并將其加入到算法列表中。默認情況下,每個用戶僅能對自己的算法列表中的算法進行操作,不支持用戶間的算法共享。

1.2.4 不完整數據填充

平臺除了具有基礎數據處理算法功能外,還支撐面向土地數據的應用算法。在土地數據的采集和獲取過程中,由于采集設備、傳輸網絡和人為因素等,可能存在部分數據屬性值缺失。針對土地數據的不完整性,設計了面向缺失值填充的數據預處理算法,提升數據的可計算性。

1.2.5 集群實例管理

支持對集群平臺中單個處理節點的信息查詢、管理和Web 界面化交互操作。使用戶更加友好、便捷地管理實驗平臺,使個性化數據應用得以實現。

1.3 安全需求

本平臺中主要包含用戶在表單中輸入的數據和用戶上傳的相關數據。對于數據的安全性保障,本平臺也提供了相應的解決方案。

用戶輸入數據主要包括用戶密碼及算法相關配置和解釋信息,在平臺中使用MySQL 數據庫進行存儲。為了避免數據信息泄露,平臺中使用MD5+SHA 等加密機制對其進行安全性保證。此外,為了防御SQL 注入攻擊,平臺中使用PrepareStatement 類對SQL 語句進行拼接。

用戶上傳的相關數據主要包括數據集和算法實現包。通常數據集的數據量超過單機存儲容量,因此使用HDFS 分布式文件系統對其進行分布式存儲。同時使用HDFS 的文件冗余、副本分配等策略,保證數據的可用性、可靠性和安全性。算法包要被平臺中的具體集群節點進行調用,因此也需要將其上傳到集群中,并且只對具體操作用戶可視,對其他用戶不公開[4]。

1.4 性能需求

本平臺集成實驗室所有普通機器,因此集群節點出現故障的概率較高,需要使用相應的平臺保障機制來提升集群系統的穩定性。在平臺的具體實現中,基于Hadoop 技術, 文件系統采用HDFS 分布式文件系統,主節點NameNode 監管各從節點DataNode 的運行狀態。當從節點發生故障時, 主節點負責重啟故障節點,若故障節點不再可用,主節點根據自身分配策略將故障節點數據轉移,保證平臺數據的可靠和可用。此外,在平臺進行具體的數據運算時, 主節點負責監控管理每個從節點的工作狀態,保證整個集群的有效運行。

2 平臺設計

2.1 總體設計

按功能進行劃分,本平臺包括大數據算法庫模塊、大數據應用模塊和云計算平臺管理模塊[5-6]。

2.2 大數據算法庫模塊

該模塊主要改進、集成數據挖掘與機器學習常用算法,包括分類算法、聚類算法、屬性約簡算法和相關分析算法等。平臺提供友好的用戶操作和解釋界面,提升用戶使用算法的便捷性和高效性。

在平臺使用過程中,用戶主要通過前端界面進行平臺直接交互。當用戶登錄平臺后,主界面會顯示當前用戶權限內可以使用的所有算法列表,用戶可以查看算法詳情和使用相應算法。如果當前算法不能滿足用戶的特殊需求,用戶可以自定義新算法。首先用戶需要上傳提交自定義算法程序,然后等待平臺管理員驗證,驗證成功后,新算法便出現在用戶算法列表中。當用戶使用算法時,首先要給出算法的參數,然后上傳要處理的數據,平臺使用Ajax 和SpringMVC 把用戶提交的數據上傳到網站服務器中,服務器端使用SSH 的SCP 功能,將數據進行壓縮和分發到分布式文件系統中。SSH 的使用能夠保證數據的安全和數據傳輸的實時性。當分布式文件系統收到數據后,Hadoop集群開始執行算法,并通過Ajax 技術將當前數據和算法的執行狀態實時反饋給前端頁面。當整個處理過程執行完畢后,后臺將輸出Output 文件傳遞回網站服務器,可供當前用戶下載查看,同時平臺也支持輸出文件的自動解析。圖2 給出了平臺的總體處理流程[7-9]。

圖2 平臺處理流程

2.3 大數據應用模塊

大數據應用模塊中,主要針對土地數據和業務特點,實現土地文本數據索引和土地缺失數據填充兩個主要功能。

2.3.1 土地文本數據索引

土地業務流程中,需要處理海量的文本數據,本實驗平臺使用Solr 技術組織土地文本的索引和管理。

在土地文本數據組織索引的具體實現中,針對結構復雜的文本格式,需要逐級對索引流程進行創建和管理,具體如圖3 所示[10]。

圖3 索引創建過程

2.3.2 缺失數據填充

在土地數據的處理和分析過程中,缺失數據的存在給準確的分析帶來挑戰。當缺失數據比例較低時,往往忽略缺失數據是一個有效方法。在一些情況下,缺失值的快速修復,如均值填充、中位數填充也是有效的數據填充方案。然而這種簡單的數據填充機制容易引起數據的偏差,所以需要更加有效的數據填充方法。本平臺選用R 中的mice 包完成土地大數據中缺失值的填充。該方法計算的數據填充值是從一個根據缺失數值點的特點設計的數據分布中得到的,可以保證數據的準確性[11]。

2.4 云計算平臺管理模塊

云平臺管理模塊的主要功能包括集群信息查詢、云平臺計算節點管理、集群應用管理以及分布式文件系統管理等。該模塊能夠使用戶通過可視化界面便捷地管理云計算平臺,實現個性化的大數據應用教學實驗方案。可以對具體的數據平臺節點進行操作,實現節點實例的直接接入,方便用戶操作。此外,通過可視化可以查看平臺的分布式文件系統和分布式應用的運行情況,方便了解平臺的實施動態信息。

利用Web 端的節點控制技術noVNC,通過存儲的現有用戶信息和節點信息,可以獲取節點的詳細登錄信息和運行情況。

3 平臺實現

整個平臺的主界面實現如圖4 所示,主要包括基礎大數據算法庫和大數據應用模塊。為了提升主頁面提取和顯示算法類別信息的速度,在緩存中添加主頁面內容請求,直接將請求內容定位到后端的Redis 中。如果請求內容不存在,則重新提取[12]。

圖4 主頁面實現效果

3.1 大數據算法庫模塊

該模塊主要實現了常用的數據挖掘和機器學習算法,并提供一系列幫助文檔,輔助用戶高效、便捷地使用集成的大數據算法。圖5 展示了算法庫中的聚類算法的導航結構,在使用具體某一個聚類算法時,根據提示的使用說明對其進行相應操作,如果算法具體操作過程不符合定義的規范,算法將被終止。

3.2 大數據應用模塊

大數據應用模塊主要實現土地文本數據挖掘和不完整數據填充兩項功能,可以對用戶提供的土地文本進行搜索、挖掘和歸類管理等。如圖6 所示,能夠完成各粒度詞匯的文本檢索,并且面向具體的文檔類型設定了不同的搜索限制。針對土地缺失數據質量的提升,平臺實現了不同的不完整數據處理方案。當用戶上傳的數據中含有缺失值時,通過實現的填充算法進行處理,并對填充過程進行分析和監督。只有當用戶遵守相關數據和格式條件限定時(對應說明界面),才能夠正常使用該功能。

圖5 聚類算法類算法引導頁

圖6 對土地文本數據進行多粒度檢索

3.3 云計算平臺管理模塊

云平臺管理模塊主要實現集群信息的查詢、云平臺計算節點管理、集群應用管理和分布式文件系統管理等,為用戶提供便捷、個性化的大數據管理應用方案。如圖7 所示,用戶可以查看分布式系統和應用的運行狀況以及各節點的實時狀態信息,可以對整個平臺系統進行圖像化操作,提升用戶對平臺管理的便捷性和可操作性。

圖7 集群實例信息列表

4 結語

本文依據我校軟件學院大數據研究所的研究成果,設計了一套全新的大數據專業方向數據算法庫教學實驗平臺。該平臺更新并充實了現有的教學實驗環節,將研究所的研究內容融入教學,很好地激發了學生學習專業知識的積極性和主動性,提升了學生的動手實踐能力。希望本文提出的算法庫平臺能夠為其他院校在大數據人才培養方面提供有益參考。

猜你喜歡
界面用戶管理
棗前期管理再好,后期管不好,前功盡棄
今日農業(2022年15期)2022-09-20 06:56:20
國企黨委前置研究的“四個界面”
當代陜西(2020年13期)2020-08-24 08:22:02
基于FANUC PICTURE的虛擬軸坐標顯示界面開發方法研究
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
人機交互界面發展趨勢研究
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
“這下管理創新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
手機界面中圖形符號的發展趨向
新聞傳播(2015年11期)2015-07-18 11:15:04
人本管理在我國國企中的應用
現代企業(2015年8期)2015-02-28 18:54:47
主站蜘蛛池模板: 日本久久免费| 亚洲国产成人精品一二区| 老司国产精品视频| 亚洲天堂在线免费| 中文字幕在线不卡视频| 中文国产成人精品久久| 亚洲中文无码av永久伊人| 中国一级特黄大片在线观看| 免费xxxxx在线观看网站| 国产色伊人| 欧美一级在线看| 精品综合久久久久久97超人该| 久久精品人妻中文系列| 亚洲精品午夜无码电影网| 国产精品免费p区| 无码在线激情片| 国产精品99久久久| 国产成人精品一区二区不卡| 尤物午夜福利视频| 亚洲午夜福利精品无码不卡| 欧美专区在线观看| 免费国产一级 片内射老| 亚洲天堂视频网站| 国产女同自拍视频| 欧美日本在线| 日韩免费毛片| 国产精品免费福利久久播放 | 国产欧美高清| 亚洲天堂视频在线免费观看| 美女一级免费毛片| 国产成人AV男人的天堂| 中日无码在线观看| 国产欧美高清| 人妖无码第一页| 色AV色 综合网站| 国产午夜不卡| 一级毛片无毒不卡直接观看| 国产精品v欧美| 亚洲欧洲日韩国产综合在线二区| 麻豆精品久久久久久久99蜜桃| 久久久国产精品无码专区| 看国产毛片| 国产美女91呻吟求| 国产资源免费观看| 99久久精品免费观看国产| 91丝袜美腿高跟国产极品老师| 亚洲成a人片| 亚洲一区二区三区在线视频| 日韩亚洲综合在线| 亚洲Av激情网五月天| 综合亚洲网| 精品伊人久久久香线蕉| 日韩欧美国产成人| 亚洲人成网站18禁动漫无码| 久久a级片| 日韩大乳视频中文字幕| 99偷拍视频精品一区二区| 国产成人成人一区二区| 国产麻豆91网在线看| 色老头综合网| 午夜视频在线观看免费网站| 午夜欧美在线| 国产精品伦视频观看免费| 国产区精品高清在线观看| 国产女同自拍视频| 日日拍夜夜嗷嗷叫国产| 欧美激情伊人| 天堂岛国av无码免费无禁网站| 国产欧美日本在线观看| 免费a在线观看播放| 91在线播放免费不卡无毒| 91最新精品视频发布页| 亚洲成人高清在线观看| 99re热精品视频国产免费| 青青久视频| 美女高潮全身流白浆福利区| 国产日韩精品欧美一区灰| 欧美在线免费| 国产美女91呻吟求| 啦啦啦网站在线观看a毛片| 欧美a级完整在线观看| 日本一区中文字幕最新在线|