999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘教學實踐研究

2019-06-09 10:36:01牛宇
軟件導刊 2019年4期
關鍵詞:數據挖掘教學改革

牛宇

摘 要:隨著社會發展,數據分析、數據挖掘類課程建設成為復合人才培養和新學科建設的重要部分。由此,設計面向非信息專業的數據挖掘課程,開展相關的教學實踐研究很有必要。在厘清非信息專業數據挖掘課程的教學目標、內容和考核差異基礎上,提出了“橫縱交叉結構化教學法”。該教學法以經典算法為單元,對單元算法進行“哲學原理—應用實例—重點知識—作業考察”四步橫向推進的方式講解和考察;同時將算法中的重點技術作為單元間縱向線索,串聯成一個完整的數據挖掘標準流程。教學實踐中采用鮮活的實際案例,并強調數據結果分析和應用等方面。最后對實踐教學經驗和發現進行了總結。

關鍵詞:橫縱交叉教學法;數據挖掘;教學改革

DOI:10. 11907/rjdk. 182409

中圖分類號:G434文獻標識碼:A文章編號:1672-7800(2019)004-0210-04

0 引言

隨著“大數據”概念的普及,人類從信息技術(Information Technology,IT)時代進入數據技術(Data Technology,DT)時代。以數據驅動的人工智能、商務智能等不斷催生新的產業和經濟增長點。然而,不斷膨脹的數據量和當前的處理能力差距逐漸擴大,“Drowning in data,but starving for knowledge”現象愈發突出,數據分析人才急缺。為此高校新增了數據科學和數據交叉學科專業,如《數據科學與大數據技術》、《大數據管理與應用》、《電子商務與營銷》、《智能醫學工程》、《金融數據工程》等課程[1]。數據挖掘作為數據科學專業的骨干課程,前承概率論、統計學、數據庫,后引導算法分析、商務智能決策等課程,涉及范圍廣、難度高,對實施非信息專業背景下本科數據挖掘教學是個挑戰[2]。

對數據挖掘課程開展的研究有:將數據挖掘作為一門引導性課程,教學的核心目標是引導學生了解數據挖掘的基本原理和數據挖掘的主要應用方向[3]。但以往數據挖掘實驗環節存在數據量過小,數據集理想化等問題,不能體現實際應用中數據挖掘的需求和問題[4]。

針對數據挖掘教學的共性問題學者們也提出一些前沿改革建議,如李勇[5]提出要細化數據挖掘(機器學習)教學目標,將啟發式和討論式教學、強化實踐教學、教學全過程考核和融合多種教學手段等措施應用于本科機器學習教學,針對數據挖掘配套的學期課程設計,提出圍繞學科特點,通過課程設計建立工程思想,培養工程意識[6-7]。張艷敏等[8-9]認為高校教師應把即將畢業的學生作為重要的教學對象,案例要與時俱進,培養學生采用數據挖掘知識解決實際工程問題的能力;王雷全[10]提出本科機器學習教學中以深度學習作為課程體系主導,以Tensorflow為實踐平臺的機器學習科研實踐課程體系。

還有一些教學實踐中采用了真實數據并將案例應用于相關交叉專業,如廣西民族大學韋艷艷[11]等在數據挖掘實驗教學中,采用淘寶網的真實數據,取得了非常好的教學效果;南京中醫藥大學信息技術學院佘侃侃[12]在數據挖掘課程中,針對中醫藥理論實踐項目采用數據挖掘的方法發現規律;朱衛平[13]研究了如何將數據挖掘與數據庫和法律課程在大數據背景下進行聯動教學;廖旺宇[14]的貫穿式案例教學法應用在四川旅游學院本科教學實踐中,受到學生好評。

從目前成果來看,大量文獻、課程研究都集中在理工類背景的學校或綜合類學校中,人文背景下數據挖掘類課程體系設計和建設實踐較為缺乏[15-16]。本文就此問題從教學目標、教學方法、教學效果方面提出實踐經驗總結,為相關研究提供借鑒。

1 教學目標與特點

數據挖掘(Data Mining,DM)又稱知識發現(Knowledge Discovering),與機器學習(Machine Learning)、模式識別(Pattern Recognition)、人工智能(Aritificial Intelligence)等有較大重復交叉。盡管數據挖掘課程已推廣至眾多學科,但在新專業建設和課程內容設計中,仍與計算機科學等信息類專業有差距。

信息類專業和非信息類專業對數據挖掘課程教育目標差異明顯。信息類專業本身以設計/優化數據挖掘方法和工具本身為目標,更偏重理論性和底層應用,主要是對數據科學中模型的理解和運用。而非信息類專業對數據挖掘更多偏重應用性,培養學生利用數據挖掘方法解決行業問題的能力。其次,教學受眾和基礎不同,非信息類專業和信息類專業在相關數學知識和編程基礎等方面有較大不同。所以在教學設計中,在保留課程核心內容基礎上,對課時安排和內容深淺程度進行適合于教學目標和聽課受眾的調整,見表1。

2 教學方法設計

針對不同學科受眾特點和教學重點的異同介紹教學實踐中的幾個實例。以“電子商務與營銷”專業大三下學期學生為例,該班文理科生各半,前序課程有概率論、統計學、數據庫原理、編程基礎等。課程內容以通用數據挖掘處理流程為主線,對4-5個實用案例做詳細講解和示例,學生通過學習可以掌握3-4類數據挖掘經典算法原理,能使用一門輕量級編程語言(Python)或分析軟件(Waikato Environment for Knowledge Analysis[17],WEKA)進行數據處理操作。

2.1 數據挖掘通用流程

在了解數據挖掘基本概念后,首先需要建立框架概念,了解數據挖掘工作的通用處理流程?;緮祿诰蜻^程需經歷數據獲取、預處理、算法學習和結果分析4個步驟,見圖1。

K近鄰算法(K-NearestNeighbor,KNN)原理簡單,通用性好,適合作為數據挖掘課程入門算法介紹。課堂以KNN為例,講解數據挖掘基本流程(下文提到的各種函數和庫均指Python 庫)。

案例選用加州大學歐文分校UCI(University of California Irvine)機器學習實驗室[18]提供的電離層數據(ionoshpere)為數據源,并以此介紹業界經典科研數據集的采集和常見數據格式。數據獲取后引入3個模塊:轉換器transformer、模型model和流水線pipeline展示預處理、算法模型和流程化概念、用法。其中算法模型如果采用監督式學習方法,則model分為訓練器fit和預測器predictor兩步,而非監督學習方法沒有訓練fit這一步驟。流水線pipeline可以把連續的若干操作保存到工作流中,數據經前一步處理后輸出結果作為下一步的輸入,實現流程化概念和代碼復用。作為結果分析的重要工具,引入Python繪圖庫Matplotlib做數據可視化分析和展示。結果分析對科研和商業數據分析非常重要,是進行模型迭代優化、解讀知識、指導后續操作的重要依據。

數據挖掘基本步驟又包含若干選項和具體步驟。如基于問題的特征選擇、特征構建(Feature Engineering)也屬于預處理的一部分;基于數據特點和具體挖掘問題,采用不同的建模思想從而選擇不同的算法模型,這些都屬于數據挖掘框架的重要部分。

2.2 教學實踐

從數據挖掘10大經典算法[19]中選擇應用廣泛的6種算法進行案例教學,其中包括3種監督式學習(K近鄰KNN、決策樹Decision Tree、貝葉斯Bayes)、兩種非監督式學習(K均值Kmeans、層次聚類AGNES-DIANA)和一種關聯規則(Apriori)方法。眾所周知,每一類經典算法之下都有數十或上百種變形優化算法,基于學習者基礎原因,教學中選擇講授最基本的代表性算法,著重講解這些經典算法體現的核心哲學思想,作為傳遞思維方式和后續自學高階算法的基礎。

兼顧學術和實際操作能力兩個方向,在講解每個算法時推薦1-2篇本領域較新的科技論文,了解當前發展情況,同時學習科技論文的分析方法、思路和寫作技巧。在案例實現方面,選取實操性和趣味性強的前沿應用案例作為課堂和作業代碼案例。

在教學內容結構安排上,采用橫縱交叉結構化教學法,設計橫縱兩條線索,見圖2。

橫向線索顯示一個算法單元的教學和作業考察完整周期。每個單元選擇1-2個“核心算法”講解其原理,接著以“課堂案例”為應用背景,在其中分配若干“知識重點”,并通過“作業考察”強化某項數據挖掘技能。自左向右循序完成一個算法教學單元。每個單元基于難度和教學重點不同安排4-6個課時完成??v向線索主要體現在“知識重點”和“作業考察”這兩列,貫穿每一個橫向算法單元。在知識重點項中,有些只與此單元算法有關,有些則是數據挖掘的基礎知識點在本案例中的運用和實現。如流水線函數在KNN單元引入,數據標準化、矢量化在聚類和貝葉斯單元中體現;分類器評價參數(精度、召回率、準確率、F值等)則放在貝葉斯分類單元中。作業考察部分結合課堂案例,在每個算法單元實現一項重要環節,包括數據載入、特征工程構建、可視化、模型選擇、結果應用分析等,由上而下完成一套完整的挖掘流程。這里考慮受眾的學習目的和編程基礎,作業考察內容不單是算法分析和性能調優,更多放在數據采集、基本數據結構了解、數據載入讀出、可視化和結果分析上。下面以決策樹算法單元教學實踐舉例說明。

3 基于決策樹的體育賽事預測案例

決策樹(Decision Tree)算法原理簡單,計算復雜度較低,可解釋性強,輸出結果易于可視化。下面以決策樹中分類回歸樹CART(Classification And Regression Tree)算法闡述數據挖掘中分類問題的實質及應用,了解監督式學習和非監督式學習的異同。

以一篇用決策樹分析德國非盈利性俱樂部推廣因素發現的文章[20]為例。決策樹除了做分類預測外,由于其算法可解釋性,還可用來做組織行為管理中關鍵影響因素發現、策略影響等。

選取NBA歷史數據,運用決策樹預測球隊賽事輸贏。數據采自體育數據網站[21],數據結構采用pandas中dataframe數據框,分類器采用python機器學習包sklearn中決策樹分類器,同時采用graphviz[21]做決策樹結果可視化(圖3)。本單元的學習重點除了決策樹系列算法原理外,還包含特征工程——從多維度原始數據中構造影響比賽結果的關鍵特征。在數據挖掘里,好的特征選擇會直接影響到最終結果的性能,有時甚至比選擇合適的算法模型更重要。所以構造和發掘潛在關鍵特征非常重要,特征工程的構建作為本教學單元的作業部分重點研究。

決策樹涉及到的基本知識還包括遞歸、貪婪算法、信息熵等。在實際預測應用時,決策樹更多采用隨機森林(Random Forest)的形式出現,由此引入集成學習(Esemble Learning)方式,提升Boosting和分包(Bagging)等概念的理解。

4 結語

將橫縱交叉結構化教學法應用于旅游電子商務專業教學,筆者從學習目的和學習意愿、課程難度、學習中最大障礙、希望學習的知識和技能幾個方向調研,結果見圖4~圖7。經過調研發現:學生學習意愿普遍增強,認為課程難度適中。學生肯定了本文的教學方法,對教師在后續學科建設和課程安排上具有參考意義。

參考文獻:

[1] 中華人民共和國教育部. 關于公布2017年度普通高等學校本科專業備案和審批結果的通知[教高函〔2018〕4號]. [EB/OL]. http://www.moe.gov.cn/srcsite/A08/moe_1034/s4930/201803/t20180321_330874.html

[2] 劉崢,王俊昌. 數據挖掘等進階課程在本科高年級的教學方法 [J]. 現代計算機, 2017(4): 40-42.

[3] 杜卓明. 數據倉庫與數據挖掘課程教學實踐與教學改革探索[J]. 科技視界,2014(10):86-88.

[4] 范祺,朱昌杰,肖建于,等. 以項目驅動的數據挖掘課程教學改革的研究[J]. 科技世界,2012(4):9-10.

[5] 李勇. 本科機器學習課程教改實踐與探索[J]. 計算機教育,2015(13):63-66.

[6] 鄧志鴻,謝昆青. 機器學習課程的教學實踐——以北京大學“智能科學與技術”本科專業為例 [J].? 計算機教育,2016(10):18-20.

[7] 鄧娜,林松,熊才權,等. 基于案例和懸念的數據挖掘教學模式設計[J]. 計算機教育,2018(11): 97-99.

[8] 張艷敏. 大數據環境下的數據挖掘課程教學研究 [J]. 教育天地, 2018(8):175-176.

[9] 邵俊,楊勤麗. 理論創新驅動的數據挖掘課程教學改革[J]. 計算機教育,2017(4):92-94.

[10] 王雷全,吳春雷,郭曉菲. 機器學習科研實踐課程建設[J]. 電子世界,2017(17):50-51.

[11] 韋艷艷,張超群. 信息管理類專業《決策支持系統》實踐教學探討[J]. 高教學刊,2016(24):154-155.

[12] 佘侃侃. 中醫院校數據挖掘課程探索與改革[J]. 教育教學論壇,2013(49):198-199.

[13] 朱衛平,陳佳玲. 大數據時代下的《商務智能與數據挖掘》課程教學改革研究[J]. 計算機教育,2017(10):33-36.

[14] 廖旺宇. 貫穿式案例教學法在數據挖掘課程中的應用[J]. 教育天地,2018(3):209-210.

[15] 戰疆, 尤曉東,曹巍,等. 文科大學數據庫課程改革探索與實踐 [J].? 計算機教育, 2018(10):153-156.

[16] 陶燁,張莉,曹迎春. 面向高校文科生的數據科學基礎課程研究與實踐 [J]. 工業和信息化教育,2017(3): 32-35.

[17] IAN H, WITTEN, EIBE FRANK, et al. Practical machine learning tools and techniques with Java implementations[J]. ACM Sigmod Record , 1999,31 (1):76-77.

[18] UCI. Machine learning repository[EB/OL]. http://archive.ics.uci.edu/ml/datasets/.

[19] WU X,KUMAR V, QUINLAN J R, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems,2008,14(1): 1-37.

[20] PAMELA WICKER,CHRISTOPH BREUER. Exploring the critical determinants of organisational problems using data mining techniques: evidence from non-profit sports clubs in Germany[J]. Managing Leisure, 2013,18(2):118-134.

[21] BASKETBALL REFERENCE. Basketball Stats and history[EB/OL]. http://www.basketball-reference.com/.

[22] GRAPHVIZ. Graph visualization software[EB/OL]. http://www.grap- hviz.org/.

(責任編輯:杜能鋼)

猜你喜歡
數據挖掘教學改革
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
中職學校“生本課堂”的調查研究與實踐
成才之路(2016年25期)2016-10-08 10:03:04
高校三維動畫課程教學方法研究
成才之路(2016年25期)2016-10-08 10:00:36
基于人才培養的技工學校德育實效性研究
成才之路(2016年25期)2016-10-08 09:51:08
現代信息技術在高職數學教學改革中的應用研究
科技視界(2016年20期)2016-09-29 12:59:03
以職業技能競賽為導向的高職單片機實踐教學改革研究
科技視界(2016年20期)2016-09-29 11:20:38
微課時代高等數學教學改革的實踐與探索
科技視界(2016年20期)2016-09-29 11:16:19
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产麻豆永久视频| 精品亚洲欧美中文字幕在线看| 日本在线免费网站| 999在线免费视频| 亚洲男人天堂久久| 亚洲综合色区在线播放2019| 正在播放久久| 四虎亚洲精品| 精品国产自在现线看久久| 99人体免费视频| 亚洲av综合网| 亚洲一欧洲中文字幕在线| 亚洲系列无码专区偷窥无码| 九色综合伊人久久富二代| 精品国产91爱| 国产视频a| 天堂成人在线| 成人午夜福利视频| 九九热精品在线视频| 国产不卡一级毛片视频| 91亚洲精品国产自在现线| 国产成人综合在线视频| 欧美色香蕉| 免费观看欧美性一级| 美女视频黄频a免费高清不卡| 国产小视频a在线观看| 国产十八禁在线观看免费| 91热爆在线| 无码专区国产精品一区| 亚洲午夜片| 亚洲天堂2014| 亚洲黄色网站视频| 日本成人不卡视频| 国产毛片网站| 香蕉99国内自产自拍视频| 国产午夜福利在线小视频| 久久精品人人做人人| 欧美国产日本高清不卡| 亚洲精品日产AⅤ| 日本日韩欧美| 无套av在线| 欧美日本在线| 亚洲va视频| 亚洲国产欧美国产综合久久 | 久久精品娱乐亚洲领先| 五月综合色婷婷| 狠狠躁天天躁夜夜躁婷婷| 久久成人免费| 午夜国产精品视频| 亚洲男人天堂网址| 欧美啪啪一区| 91精品视频网站| 国产在线日本| 免费jizz在线播放| 国产精品部在线观看| 中文国产成人久久精品小说| 国产精品久久久久久搜索| 欧美精品影院| av尤物免费在线观看| 亚洲成人在线免费观看| 亚洲女人在线| 久久99久久无码毛片一区二区| 亚洲日韩国产精品综合在线观看| 国产丝袜无码精品| 9cao视频精品| 婷婷五月在线视频| 婷婷六月色| 国产精品丝袜视频| 欧美中文字幕一区| 亚洲制服丝袜第一页| 精品乱码久久久久久久| h网址在线观看| 久热这里只有精品6| 日韩AV手机在线观看蜜芽| 成人在线综合| 成人国产三级在线播放| 毛片视频网| 国产色婷婷| 免费无码AV片在线观看国产| 国产精品亚洲αv天堂无码| 久久久久久国产精品mv| 91丨九色丨首页在线播放|