999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)高校信息系統(tǒng)的方案設計與風險控制

2019-10-08 05:48:50楊愛華
電子技術與軟件工程 2019年15期
關鍵詞:數(shù)據(jù)挖掘分析模型

文/楊愛華

在“互聯(lián)網(wǎng)+教育”的時代背景下,應當深入挖掘高校信息的大數(shù)據(jù)的“金山銀庫”,充分發(fā)揮高校信息管理大數(shù)據(jù)開發(fā)應用的效益。但現(xiàn)階段高校教育中,各系統(tǒng)產(chǎn)生的數(shù)據(jù)分散保存在不同的數(shù)據(jù)庫中,存在嚴重的“信息孤島”,同時互聯(lián)網(wǎng)教育數(shù)據(jù)和第三方部門數(shù)據(jù)未能得到充分利用,無法為教育提供全面的數(shù)據(jù)支撐。大數(shù)據(jù)挖掘技術可以很好地解決這個問題。例如,大數(shù)據(jù)可以通過分析學生的一卡通中的就餐情況,給學生提供科學配餐的建議。大數(shù)據(jù)可關注學生的消費情況,選定貧困生并給與幫助的建議。可見,根據(jù)高校信息構建一個大數(shù)據(jù)挖掘系統(tǒng),對高校實行統(tǒng)籌管理是大有必要的。

1 構建系統(tǒng)方案

基于大數(shù)據(jù)高校信息系統(tǒng)是一個大數(shù)據(jù)離線分析的系統(tǒng),將集合數(shù)據(jù)挖掘以及機器學習的技術,通過建立數(shù)據(jù)分析模型,利用機器學習以及數(shù)據(jù)統(tǒng)計的分析方法,對海量數(shù)據(jù)進行挖掘分析,從中發(fā)現(xiàn)隱藏的數(shù)據(jù)以及背后隱藏的運行規(guī)則,并將挖掘結果進行可視化展示,為數(shù)據(jù)分析人員提供一個良好的交互式分析系統(tǒng)。

1.1 設計方案

根據(jù)現(xiàn)狀調研與需求分析情況,結合高校對數(shù)據(jù)分析的需求,設計高校信息大數(shù)據(jù)挖掘分析系統(tǒng)。技術系統(tǒng)應考慮從架構設計、功能要求、運行環(huán)境要求、性能要求、配置要求、集成要求、系統(tǒng)安全要求、擴展性要求、易用性要求等方面進行分析并以此設計系統(tǒng)的具體工作。

基于大數(shù)據(jù)高校信息系統(tǒng)功能框架的子系統(tǒng)應具備的功能組成,包括數(shù)據(jù)預處理、大數(shù)據(jù)挖掘、大數(shù)據(jù)存儲、算法管理、任務管理、任務執(zhí)行調度、數(shù)據(jù)展示與分析、模型評估、角色管理等。

1.1.1 數(shù)據(jù)預處理

現(xiàn)實中的數(shù)據(jù)大多數(shù)是“臟”數(shù)據(jù),即信息不完整數(shù)據(jù),僅僅包含聚集數(shù)據(jù)或者缺少屬性值的數(shù)據(jù),含噪音數(shù)據(jù),存在偏離期望的離群值或者包含明顯數(shù)據(jù)錯誤,比如 age=“-8”;還有編碼和名字不一致的“臟”數(shù)據(jù),如果要精準預測和計算出結果,需要一致性、準確性、完整性、可信性高的數(shù)據(jù)。但由于獲得的數(shù)據(jù)大,難免會出現(xiàn)數(shù)據(jù)的不完整、冗余度高、雜亂的狀況。

數(shù)據(jù)預處理為大數(shù)據(jù)挖掘準備的有價值的數(shù)據(jù),提供大數(shù)據(jù)分析需要的數(shù)據(jù)集,包括數(shù)據(jù)的加載、數(shù)據(jù)的抽取、數(shù)據(jù)的轉換、數(shù)據(jù)的清洗、數(shù)據(jù)的聚合等。數(shù)據(jù)加載支持從諸如HDFS等大數(shù)據(jù)存儲設備中加載數(shù)據(jù),加載的數(shù)據(jù)內容最好支持Avro數(shù)據(jù)格式。根據(jù)大數(shù)據(jù)挖掘以及機器學習的需要,對數(shù)據(jù)進行相應的處理,最后生成滿足分析要求的數(shù)據(jù)集。

1.1.2 大數(shù)據(jù)挖掘

大數(shù)據(jù)挖掘利用機器學習算法,對預處理產(chǎn)生的數(shù)據(jù)集進行挖掘分析。通過聚類、分類、統(tǒng)計、關聯(lián)分析、回歸、聚合分析等各種機器學習算法,對數(shù)據(jù)集進行分組統(tǒng)計、排重統(tǒng)計、頻度分析等各種挖掘分析,形成數(shù)據(jù)分析結果。

圖1:算法管理頁面

1.1.3 大數(shù)據(jù)存儲

大數(shù)據(jù)存儲對大數(shù)據(jù)挖掘形成的分析結果,存儲到大數(shù)據(jù)環(huán)境中,支持存儲到HDFS環(huán)境中存儲。此系統(tǒng)采用數(shù)據(jù)存儲部分集成大數(shù)據(jù)hadoop的生態(tài)環(huán)境,集成HDFS,挖掘計算的結果存儲HDFS,系統(tǒng)通用功能存儲使用關系數(shù)據(jù)庫。

1.1.4 算法管理

大數(shù)據(jù)挖掘中,算法是精髓。系統(tǒng)用到的數(shù)據(jù)挖掘算法有決策樹、K-均值聚類、Apriori算法、AdaBoost算法、K-近鄰算法、樸素貝葉斯等經(jīng)典算法。實際上隨便拿出一種來都可以稱得上是經(jīng)典算法,它們在數(shù)據(jù)挖掘領域都產(chǎn)生了極為深遠的影響。

在系統(tǒng)中設置算法管理功能。所謂算法管理,即將機器學習算法統(tǒng)一進行配置和管理。在此,可以進行算法的插裝和算法參數(shù)的定義。插裝的算法可以在挖掘分析中使用。算法可升級,在hadoop集群環(huán)境下,在hdfs指定的目錄下,替換算法插件包。

算法管理是用于對數(shù)據(jù)挖掘分析中所需算法信息以及算法參數(shù)的管理,方便用戶對數(shù)據(jù)挖掘分析中所用到的算法進行管理。

(1)支持算法的添加:算法基本信息、類型、算法參數(shù)的名稱、默認值、展示形式等;

(2)支持算法基本信息及算法參數(shù)的修改、刪除;

(3)支持算法基本信息、算法的搜索以及參數(shù)的查看。

算法管理頁面內容如圖1所示。

1.1.5 任務管理與監(jiān)控系統(tǒng)

系統(tǒng)中數(shù)據(jù)計算集成大數(shù)據(jù)計算環(huán)境,利用Spark的計算集群進行數(shù)據(jù)的計算,利用web框架管理與應用框架管理的功能,對計算的任務進行管理與調度。其任務管理是對大數(shù)據(jù)計算與分析的任務進行管理,包括任務的配置、任務的提交、結算結果的查看等功能。監(jiān)控系統(tǒng),對任務的提交以及任務計算進行管理。可查看任務依賴關系及運行狀態(tài),查看任務運行狀態(tài)及運行日志。

1.1.6 數(shù)據(jù)展示與數(shù)據(jù)分析

數(shù)據(jù)展示對計算分析的結果進行展示,并提供對計算結果進行交互分析的界面。分析的結果以圖表化的方式直觀的展現(xiàn)給用戶。大數(shù)據(jù)可視化具有直觀性的優(yōu)點,可以直觀展示高校各項工作指標和變化趨勢,讓高校教育決策有“數(shù)”可依。

1.2 模型評估

最后,我們需要對建立的模型進行評估。模型評估將使用統(tǒng)計分析的方法對模型指標進行統(tǒng)計計算,基于歷史數(shù)據(jù)計算出模型指標值的均值、方差、標準差等參數(shù)的實際閾值與歷史閾值進行比較,通過閾值偏離度來評估模型是否有效,當模型指標計算需要的指標元數(shù)據(jù)為空、模型指標偏離度超過預設偏離度時將給出預警信息,便于用戶對模型指標進行跟蹤分析。

模型評估任務,盡量支持批量評估任務跟蹤執(zhí)行情況統(tǒng)計;支持評估任務運行進度、任務狀態(tài)的實時跟蹤;支持評估任務運行中被終止等。模型評估預警 ,盡量支持評估預警結果詳情查看,支持評估預警報告導出,支持模型指標閾值、偏離度重置。

2 風險控制

基于大數(shù)據(jù)高校信息系統(tǒng)的作用是毋容置疑的,教師信息、教務系統(tǒng)、學生考試系統(tǒng)等各種數(shù)據(jù)信息價值是非常大的,但如果這些數(shù)據(jù)未能被進行有效保護,同樣帶來很大的安全隱患。若系統(tǒng)運行中被黑客攻擊,重要數(shù)據(jù)被篡改,考試信息數(shù)據(jù)被竊取,系統(tǒng)密碼被獲取,后果不堪設想,需加強系統(tǒng)的安全建設。所以要整個系統(tǒng)的生命周期都要注重系統(tǒng)安全問題,定期對開發(fā)團隊進行安全培訓,并聘請滲透測試專家對系統(tǒng)進行漏洞掃描并及時進行漏洞的修復,讓安全問題消失在萌芽狀態(tài)。

3 結束語

大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)上升至國家戰(zhàn)略的高度,滲透到社會生活和經(jīng)濟發(fā)展的各個方面。“大數(shù)據(jù)”這個名詞已經(jīng)根植在我們的大腦里。但如何有效利用大數(shù)據(jù)還是個正在探索的過程。高校信息管理是一項龐大、繁瑣的工作,需要用大數(shù)據(jù)技術挖掘有效數(shù)據(jù),并為管理工作提供量化決策依據(jù)。根據(jù)調研高校信息管理的現(xiàn)狀,在大數(shù)據(jù)環(huán)境下采用Hadoop與Spark結合的方式初步勾畫出一個可行的高校信息系統(tǒng)設計方案。并對系統(tǒng)在開發(fā)中預計出現(xiàn)的風險給出相應的風險控制措施建議。

猜你喜歡
數(shù)據(jù)挖掘分析模型
一半模型
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動化發(fā)展趨勢分析
3D打印中的模型分割與打包
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 亚洲视频二| 高清乱码精品福利在线视频| 天天综合网站| 97国产在线观看| 2024av在线无码中文最新| 国产精品视频导航| 亚洲精品在线影院| 日韩在线网址| 国内精品久久人妻无码大片高| 国产伦片中文免费观看| 福利小视频在线播放| 久久香蕉国产线看精品| 中文字幕66页| 国产免费久久精品99re丫丫一| 中文无码日韩精品| 欧美精品v| 71pao成人国产永久免费视频| 亚洲无码91视频| 欧美一区二区精品久久久| 自偷自拍三级全三级视频| 久草热视频在线| 情侣午夜国产在线一区无码| 国产免费网址| 亚洲成人一区二区| 亚洲中文久久精品无玛| 美女国内精品自产拍在线播放| 91丝袜美腿高跟国产极品老师| 亚洲精品自产拍在线观看APP| 无码福利视频| 亚洲欧洲日本在线| 三级欧美在线| 狠狠做深爱婷婷久久一区| 欧美午夜视频在线| 亚洲婷婷在线视频| 99精品热视频这里只有精品7| 国产真实乱子伦视频播放| 国产呦视频免费视频在线观看| 超级碰免费视频91| 无码日韩人妻精品久久蜜桃| 国内精品视频区在线2021| 2019年国产精品自拍不卡| 亚洲天堂自拍| 国产欧美日韩资源在线观看| 国产高清在线精品一区二区三区 | 在线欧美日韩国产| 四虎精品免费久久| 凹凸国产熟女精品视频| 天堂岛国av无码免费无禁网站| 午夜无码一区二区三区| 亚洲欧美精品在线| 亚洲无限乱码| 久久99热这里只有精品免费看 | 国产网站免费观看| 国产精品亚洲一区二区三区在线观看| 鲁鲁鲁爽爽爽在线视频观看 | 国产经典在线观看一区| 老色鬼久久亚洲AV综合| 强奷白丝美女在线观看| 国产在线精品99一区不卡| 欧美无专区| 超碰精品无码一区二区| 国产精品免费p区| 色爽网免费视频| 国产女人综合久久精品视| 99久久精品国产精品亚洲| 欧美日韩国产一级| 日韩无码视频播放| 国产呦精品一区二区三区下载| 日韩亚洲综合在线| 97影院午夜在线观看视频| 毛片国产精品完整版| аv天堂最新中文在线| 五月天天天色| 久久久久无码国产精品不卡| 一区二区自拍| 亚洲一区无码在线| 亚洲一级毛片| 九九久久精品国产av片囯产区| 无码视频国产精品一区二区| 色欲综合久久中文字幕网| 亚洲第一视频网站| 9999在线视频|