999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據湖的高校大數據管理體系和處理機制研究

2020-06-04 09:39:03谷洪彬楊希魏孔鵬
計算機時代 2020年5期
關鍵詞:機器學習

谷洪彬 楊希 魏孔鵬

摘? 要: 針對高校本身業務系統帶來的不同結構海量數據的存儲管理和高效利用問題,通過比較新興的數據湖技術和傳統的數據倉庫的區別,構建了基于數據湖的高校數據管理體系和數據處理機制,為高校的數據治理提供了數據層的存儲支持,為使用機器學習方法進行大數據分析提供了非結構化數據來源。

關鍵詞: 高校大數據; 數據湖; 數據管理體系; 數據處理機制; 機器學習

Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

0 引言

物聯網、大數據、云計算、移動計算、人工智能正越來越多地進入人們的日常工作和生活中,這些技術潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設提出了更高的要求。高校信息化建設過程中各種網絡設備和應用系統產生了大量的數據,“以數據為核心資產、以數據驅動業務革新”的發展方式已成為高校邁進更高層次的必然趨勢。對于傳統的來自事務系統、運營數據庫和業務應用的關系型數據,數據倉庫可以滿足高校數據治理和存儲的要求,但是隨著信息化建設的進展,來自物聯網設備、網站、移動應用程序、社交媒體和企業應用程序的非關系型數據越來越多,很難存儲在數據倉庫中,而且隨著人工智能在高校中的發展和應用,人工智能需要處理的多數是這些非關系型數據,對數據治理和存儲提出了更高的要求。近年出現的數據湖技術能同時滿足關系型數據和非關系型數據的存儲,同時在性價比、數據質量、適用用戶類型、數據分析領域、靈活性等方面也優于數據倉庫。本文探討了如何利用數據湖技術構建高校數據管理機制和數據處理機制。

1 數據湖的概念

數據湖是一個集中式存儲庫,允許用戶以任意規模存儲所有結構化和非結構化數據。用戶可以按原樣存儲數據(無需先對數據進行結構化處理),并運行不同類型的分析-從控制面板和可視化,到大數據處理、實時分析和機器學習,以輔助管理者做出更好的決策。

對于高校的應用,對傳統業務系統之外的數據,比如來自物聯網、移動設備、網絡日志、視頻監控等的數據——多數是半結構化或者非結構化的,而人工智能技術所擅長處理的正是這些類型的數據,機器學習和深度學習算法可以對這些數據進行建模、訓練和驗證,得出數據之間的關聯性或者因果推斷關系來建立模型進行分析和預測,為高校管理和決策提供數據支持。

2 數據湖與數據倉庫

數據倉庫和數據湖可以滿足不同組織的不同需求和使用案例。

數據倉庫是一個優化的數據庫,用于分析來自事務系統和業務應用程序的關系型數據。事先定義數據結構和Schema,以優化快速SQL查詢,其結果通常用于報告和分析。經過清理、豐富和轉換的數據可以充當用戶可信任的“單一信息源”。

數據湖有所不同,它存儲來自業務應用程序的關系型數據,以及來自移動應用程序、物聯網設備和社交媒體的非關系型數據。捕獲數據時,不事先定義數據結構或Schema。這意味著用戶可以存儲所有數據,而不需要精心設計也無需知道將來用戶可能的數據需求。數據湖中存儲的數據可以包括結構化數據(關系數據庫)、半結構化數據(CSV、XML、JSON的日志)、非結構化數據(電子郵件、文檔、PDF)、二進制數據(圖像、音頻、視頻)[2]。用戶可以對數據使用不同類型的操作(如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習)來獲得分析結果。

用數據湖替代數據倉庫作為高校數據存儲的技術手段,是因為當前高校所擁有的和希望分析的數據類型不再只局限于關系型數據。表1列出了數據湖和數據倉庫在數據來源、數據存儲結構等方面的區別[1,3,4]。

組織構建數據湖和分析平臺時,需要考慮以下的關鍵功能。

⑴ 數據移動

數據湖允許用戶導入任何數量的實時數據。用戶可以從多個來源收集數據,并以其原始形式將其移入到數據湖中。此過程允許用戶擴展到任何規模的數據,同時節省定義數據結構、Schema和轉換的時間。

⑵ 安全地存儲和編目數據

數據湖允許用戶存儲關系數據(例如,來自業務應用程序的運營數據庫和數據)和非關系數據(例如,來自移動應用程序、物聯網設備和社交媒體的運營數據庫和數據)。它們還使用戶能夠通過對數據進行爬網、編目和建立索引來了解湖中的數據。最后,必須保護數據以確保用戶的數據資產受到保護。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲男人天堂2018| 在线看片中文字幕| av一区二区三区高清久久| 亚洲中文字幕av无码区| 成人一级免费视频| 高h视频在线| 欧美日韩中文国产| 91麻豆精品视频| 欧美一区日韩一区中文字幕页| 午夜影院a级片| 欧美精品影院| 中文字幕日韩丝袜一区| 亚洲美女一区| 久久青草免费91线频观看不卡| 妇女自拍偷自拍亚洲精品| 色综合狠狠操| 在线观看亚洲成人| a免费毛片在线播放| 国产精品一区二区无码免费看片| 国产精品亚洲а∨天堂免下载| 看你懂的巨臀中文字幕一区二区| 亚洲精选无码久久久| 伊人激情综合网| 日本少妇又色又爽又高潮| 国产素人在线| 久久国产亚洲欧美日韩精品| 欧美日韩午夜视频在线观看| 99视频只有精品| 国产福利不卡视频| 亚洲精品成人片在线播放| 狠狠干综合| 午夜毛片福利| 人与鲁专区| 天天综合色网| 成人欧美在线观看| 91小视频在线观看免费版高清| 5388国产亚洲欧美在线观看| 久久久久青草线综合超碰| 色窝窝免费一区二区三区| 国产精品一区二区久久精品无码| 久久永久免费人妻精品| 久久久久夜色精品波多野结衣| 亚洲国产在一区二区三区| 2024av在线无码中文最新| www.亚洲色图.com| 自慰高潮喷白浆在线观看| 久久国产精品夜色| 欧美精品在线观看视频| 国产成人av大片在线播放| 伊人激情久久综合中文字幕| 99在线观看视频免费| 黄色成年视频| 国产18在线| 欧美成人国产| 久久精品午夜视频| 久久99精品国产麻豆宅宅| 亚洲精品日产AⅤ| 亚洲a免费| 97精品伊人久久大香线蕉| 97精品久久久大香线焦| 日韩色图区| 97狠狠操| 天堂av综合网| 色亚洲激情综合精品无码视频| 欧美成人午夜视频免看| 91精品情国产情侣高潮对白蜜| 手机在线国产精品| 91啪在线| 国产欧美日韩综合在线第一| 国产成人综合在线视频| 乱人伦视频中文字幕在线| 午夜日本永久乱码免费播放片| 有专无码视频| 亚洲综合一区国产精品| 老熟妇喷水一区二区三区| 一级不卡毛片| 在线国产你懂的| 强奷白丝美女在线观看 | 国产二级毛片| 国产无码性爱一区二区三区| 91人人妻人人做人人爽男同| 亚洲av无码久久无遮挡|