999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計感知的大數據處理與分析課程設計研究

2021-08-07 10:26:58何玉林尹劍飛黃哲學
現代計算機 2021年17期
關鍵詞:數據處理教學內容分析

何玉林,尹劍飛,黃哲學

(深圳大學計算機與軟件學院,深圳 518060)

0 引言

在2015年8月份國務院下發的《促進大數據發展行動綱要》中明確指出[注]http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm:創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系。在教育部公布的《2019年度普通高等學校本科專業備案和審批結果的通知》中顯示[注]http://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487477.htm,截止到2019年10月份,全國高校新增設數據科學與大數據技術專業點196個。研究專門針對大數據專業人才培養的課程內容設計是非常必要的,對大數據戰略的具體實施具有重要的現實意義和社會價值。

深圳大學計算機與軟件學院于2017年啟動大數據特色班的建設,2018年開始進行大數據特色班的招生與授課,其中《大數據處理與分析》被列特色班的核心課程。當前,國內數據科學與大數據專業開設與大數據處理和大數據分析相關課程的兄弟院校還有華中科技大學的《大數據分析與處理》、中國人民大學的《非結構化大數據分析》、山東大學的《大數據管理與分析》等。不同高校對課程內容的設計不盡相同,所采用的教材也不一樣,因此,本文試圖設計一套能夠符合數據科學與大數據技術專業培養要求的、同時又能夠體現深圳大學大數據系統計算技術研究特色的《大數據處理與分析》課程體系。

大數據作為統計學、數學和計算機三大學科的緊密整合,統計學在大數據的技術體系結構中占據重要的位置。因此,在充分借鑒兄弟院校課程設計經驗的基礎之上,結合深圳大學計算機與軟件學院大數據所多年從事大數據系統計算技術相關領域研究取得的科研成果,我們給出了一套以大數據隨機樣本劃分模型(Random Sample Partition,RSP)[1]為基礎的《大數據處理與分析》課程設計方案,讓大數據統計感知[2]的思想貫穿大數據存儲處理、大數據預處理、大數據切分處理、大數據降維處理、大數據統計分析、大數據分類分析和大數據聚類分析七部分的教學內容。

1 課程教學內容設計

在介紹《大數據處理與分析》課程教學內容設計之前,首先明確該課程的教學目的是培養具備初級大數據計算技術運用能力的本科生,以前期課程《大數據計算原理和技術》和《數據挖掘導論》為基礎,通過后續課程《大數據應用概論》和《統計抽樣理論與方法》的學習強化對本課程知識點的進一步掌握和理解,使學生在日后的工作中能夠對實際的大數據計算問題提出行之有效的解決方案。

大數據處理與分析應該包含兩部分的內容:大數據處理強調數據層面的操作方法,大數據分析強調算法層面的訓練模式。處理注重更深層次的數據挖掘,分析注重有針對性的算法訓練。因此,我們設計如圖1所示的《大數據處理與分析》課程教學內容體系。

(1)大數據存儲處理:主要講述分布式存儲系統是如何對大規模數據集進行存儲和管理的[3],包括數據分布、復制與一致性、容錯機制和可擴展性。本部分內容引出Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)在處理大數據的分布式存儲時沒有考慮HDFS數據塊之間的概率分布一致性;

(2)大數據預處理,主要講述針對大數據的缺省值處理、異常點挖掘,以及屬性一致性處理[4],即如何將經典的缺省值插補方法、異常點檢測方法、連續值屬性離散化方法、以及離散值屬性連續化方法應用在數據分布式存儲的場景中,當大數據被表示成批量的數據塊時,數據塊之間的概率分布一致性是如何影響上述對大數據的預處理操作的;

(3)大數據切分處理:主要講述如何基于HDFS數據塊獲得與大數據保持概率分布一致性的RSP數據塊[5],包括RSP的定義、RSP的判定、數據塊分布一致性的判定[6]、大數據復雜性的定義,以及如何基于數據復雜性確定樣本規模,本部分內容是本課程的核心重點,是開展后續大數據分析的基礎;

(4)大數據降維處理:主要講述分布式存儲環境下如何對大規模數據進行特征選擇和屬性抽取。為了處理不同數據塊對應的降維之后屬性不一致問題,我們重點講解在不同的RSP數據塊上采用觀測點策略[7]的降維處理機制,即將原始空間的多維數據轉換為距離空間的一維數據;

(5)大數據統計分析:主要講述如何對大數據進行概率密度函數估計的問題,因為概率密度函數是研究隨機變量數學屬性(期望、方差、信息熵等)的重要統計工具。基于大數據隨機樣本劃分模型,重點講解增量式的大數據概率密度函數估計方法[8]和集成式的大數據概率密度函數估計方法;

(6)大數據分類分析:主要講述如何基于RSP數據塊構建針對大數據的有監督學習模型[9],以神經網絡和貝葉斯分類器兩種典型的有監督學習模型為例,詳細地講解增量神經網絡、增量貝葉斯分類器、集成神經網絡、以及集成貝葉斯網絡的構建方法,并對大數據有監督學習中涉及到的不平衡分類問題以及半監督學習問題進行簡述;

(7)大數據聚類分析:主要講述如何基于RSP數據塊構建針對大數據的無監督學習模型,以K-means和高斯混合模型(Gaussian Mixture Model,GMM)兩種典型的無監督學習模型為例,詳細地探討集成K-means和集成GMM的構建方法,并對一種新型的適用于大數據無監督學習問題的自動聚類算法I-nice進行詳述。

上述七部分的教學內容全部圍繞大數據的處理與分析展開,在課程教學開展過程中,為加深學生對理論知識的理解和掌握,每一部分的教學內容均對應專題實驗以鍛煉學習的實際操作能力。

2 課程應用案例介紹

《大數據處理與分析》課程準備了一個實際應用案例作為對學生理論學習的擴充以及課程學習成果的檢驗:電信用戶通話記錄分群。自2017年深圳大學計算機與軟件學院大數據所與中國電信某省公司簽署戰略合作協議以來,我們收集了海量的電信用戶數據,選取2020年05月01日至2020年06月30日約2TB的全省通話記錄數據,訓練一個能夠將通話分為詐騙電話、騷擾電話、營銷電話,以及正常電話四種類型的學習模型,用以對新的通話記錄進行類型甄別,其中一條通話記錄數據采用如圖2所示的74個字段進行描述。

為了實現上述的電信通話記錄分群任務,首先需要對獲取的電信大數據進行如下的處理操作:

3 課程教學效果分析

本課程于2019-2020學年第一學期首次給深圳大學大數據特色班講授,選課人數30人,每周4學時(2節理論課和2節實驗課)。本學期針對該課程總共設置了5次課后實驗、3次課堂測試、1次期中考試、和1次期末大作業,除去4人放棄本課程的學習之外,其余26人的成績分布下圖3所示:

(a)實驗一成績分布(b)實驗二成績分布

從圖3我們可以清楚地觀察到大數據特色班的所有學生(放棄本課程學習的除外)都能夠較好地完成課后實驗、隨堂測試、期中考試和期末大作業,這表明《大數據處理與分析》課程內容的設計是能夠滿足大數據特色班學生認知需求的,符合數據科學與大數據技術專業的培養要求。圖4和圖5分別給出了《大數據處理與分析》課程教學測評結果和測評結果分析情況,從圖4中可看出大數據特色班的學生對本課程的教學滿意度達到了98.45%,這表明學生在本課程的學習中確實做到了“學有所得、學以致用”,符合了學生對大數據系統計算技術知識的理解與要求。

圖4 《大數據處理與分析》課程教學測評結果

圖5 《大數據處理與分析》課程測評結果分析

4 結語

在當前《大數據處理與分析》課程體系結構尚不完善的情況下,對于如何開展本課程的本科教學工作,結合作者研究團隊獲得的關于大數據系統計算的最新研究成果,提出了一種以大數據統計感知思想為切入點、以大數據隨機樣本劃分模型為基礎的課程設計方案。同時,結合有針對性的應用案例將課程知識點與實際應用有機結合,在重視課程設計的理論性基礎上,增強教學內容的實用性。該方案為今后大數據處理與分析課程的設計提供了一條具有較高可操作性的思路,具有較強的方法論借鑒意義。

猜你喜歡
數據處理教學內容分析
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
挖掘數學教學內容所固有的美
電力系統及其自動化發展趨勢分析
“啟蒙運動”一課教學內容分析
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
“清末新政”也可作為重要的教學內容
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 久久婷婷国产综合尤物精品| 国产成熟女人性满足视频| 久久男人视频| 波多野结衣二区| 免费在线看黄网址| 香蕉久人久人青草青草| 高清免费毛片| 国产激爽爽爽大片在线观看| 亚洲精品视频在线观看视频| 欧洲免费精品视频在线| 不卡的在线视频免费观看| 亚洲综合专区| 无码中文字幕精品推荐| 免费jjzz在在线播放国产| 免费播放毛片| 国产成人精品在线| 一级福利视频| 国产毛片久久国产| 性喷潮久久久久久久久| 国产美女丝袜高潮| 97视频在线精品国自产拍| 网友自拍视频精品区| 麻豆国产精品| 日本三级精品| 色综合成人| 亚洲国产系列| 91丨九色丨首页在线播放| 国产三区二区| 99热国产这里只有精品无卡顿"| 日本欧美成人免费| 国产91九色在线播放| 久久精品免费看一| 日韩黄色精品| 露脸国产精品自产在线播| 免费一极毛片| 国产成人91精品| 四虎成人精品在永久免费| 中国精品自拍| 91久久偷偷做嫩草影院免费看| 国产丝袜91| 久久精品这里只有精99品| 久久99国产乱子伦精品免| 亚洲一区二区日韩欧美gif| 日韩视频福利| 亚洲无码精彩视频在线观看| 欧美日韩激情在线| 久久国产精品波多野结衣| 国产成人一区免费观看| 亚洲国产日韩一区| 亚洲va在线∨a天堂va欧美va| 波多野结衣一区二区三视频| 欧美另类一区| 日韩在线2020专区| 在线看片中文字幕| 91丨九色丨首页在线播放| 亚洲AV无码不卡无码| 青青操视频免费观看| 亚洲男人天堂网址| 亚卅精品无码久久毛片乌克兰| 国产亚洲欧美在线人成aaaa| 亚洲欧美日韩视频一区| 色综合天天娱乐综合网| 婷婷综合在线观看丁香| 国产激爽爽爽大片在线观看| 久久国产免费观看| 亚洲丝袜中文字幕| 啪啪啪亚洲无码| 99热国产在线精品99| 天天综合网亚洲网站| 97人妻精品专区久久久久| 国产人前露出系列视频| 欧美日本激情| 九一九色国产| 毛片网站观看| 好紧好深好大乳无码中文字幕| 亚洲无码熟妇人妻AV在线| 色欲国产一区二区日韩欧美| 欧美中文一区| 中文字幕无码制服中字| 亚洲日韩在线满18点击进入| 国产精品99久久久久久董美香 | 色综合五月|