何鋒 劉祖根 余建坤 余益民



摘? 要:隨著大數據進入人們生活的方方面面,數據挖掘技術越來越凸顯出其的重要性。但由于該課程涉及到的知識點多,教學要點分散,老師講解時若采用的數據集舉例過多,會使學生陷入無頭緒之中。為了解決這一問題,該文以購物籃數據集為例,使用兩種軟件工具,對數據挖掘技術課程中的關聯、聚類、分類、異常點和復雜網絡分析進行貫穿式教學設計,以便于學生能更好地通過一個數據集來掌握數據挖掘技術,從而獲得相應的大數據分析能力。
關鍵詞:購物籃數據集? 數據挖掘技術? “貫穿式”案例教學設計
中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1672-3791(2019)04(a)-0169-04
大數據分析是指對規模巨大的數據進行分析。大數據可以概括為5個V,即:數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)。隨著大數據時代的來臨,大數據分析也應運而生。大數據分析與數據挖掘的關系可用如表1所示來進行比較。
由表1的概念范疇可知,數據挖掘已經包括了目前最為流行的大數據概念,因此,在教學過程中,鼓勵學生學好數據挖掘的相關知識和技能,是迎接大數據時代的最佳途徑。
但由于數據挖掘課程涉及到的知識點多,教學要點分散,老師講解時若采用的數據集舉例過多,會使學生陷入無頭緒之中。為了解決這一問題,該文采用“貫穿式”案例教學法進行設計。
“貫穿式”案例教學法是指在數據挖掘教學的過程中,教師以某一具有代表性的數據集為例,將該數據集的講解和處理貫穿整個教學過程。采用這樣的教學方法可避免過去對每個章節各自使用不同的數據集,從而導致使知識與概念間的不銜接、學生所學知識不系統的弊端。通過一個數據集貫穿整個課程教學,不僅可以把《數據挖掘技術》課程的知識點系統化,有利于學生對知識體系有著深刻的認知,而且能夠培養學生正確、全面地認識大數據分析與挖掘過程,為其將來解決現實中的實際問題打下堅實的基礎。
該文以IBM SPSS Modeler 18.0自帶的購物籃數據集BASKETSln為例,使用IBM SPSS Modeler 18.0和R-3.3.1等軟件工具,對數據挖掘技術課程中的關聯、聚類、分類、異常點和復雜網絡分析進行教學設計,以便于學生能更好地通過一個數據集來掌握數據挖掘技術,從而獲得相應的大數據分析能力。
1? 關聯分析的教學設計
在現實生活中,人們涉及到較多的社會活動之一就是購物,因此使用購物籃數據集BASKETSln進行分析,能讓學生很快地結合現實生活,從而結合實際展開進一步地學習。
購物籃數據集BASKETSln有1000個客戶,18種屬性(其中包含11種商品),這里面隱含著重要且十分有價值的信息,通過對這些信息的研究與分析,可以教會學生從中獲得有關消費者的一些資料,如他們的購買行為、購買習慣、產品偏好、品牌忠誠度等,這有利于學生學習興趣的培養。
關聯規則是一種無向的數據挖掘方法,它從大量的數據項中尋找有意義的關聯關系。在零售業中,關聯規則可以發現顧客的偏好,從而找到有較大可能連帶銷售的商品。因此,在教學設計上,可以采用Modeler中的Apriori節點進行分析,則可挖掘出如表2所示的一些有趣的模式來。
表2中分別顯示了購買啤酒(beer)和罐裝蔬菜(cannedveg)的客戶購買冷凍食品(frozenmeal)的傾向性很大;購買啤酒(beer)和冷凍食品(frozenmeal)的客戶購買罐裝蔬菜(cannedveg)的傾向性很大;購買啤酒(beer)和罐裝蔬菜(cannedveg)的客戶購買冷凍食品(frozenmeal)的傾向性很大。如果引導學生在學習過程中適當調整最低條件支持度和最小規則置信度,則可以看到更多有趣的規則,這樣就很好地調動了學生的學習積極性。
1.1 聚類分析的教學設計
為了形象地表達商品的購買力,便于教學任務的開展,可以用Web節點把11種商品的銷售情況形象地描繪出來,如圖1所示。
從圖1中我們可以看到,有3組商品組合所屬的客戶群特別明顯,它們分別是:購買魚(fish)和水果蔬菜(fruitveg)組合的客戶群;購買葡萄酒(wine)和糖果(confectionery)的客戶群;購買啤酒(beer)、冷凍食品(frozenmeal)和罐裝蔬菜(cannedveg)的客戶群,這就形成了明顯的3個聚類群體,而聚類群體的形成,是符合現實生活中的“物以類聚,人以群分”這一思想的。
1.2 分類分析的教學設計
有了聚類,自然而然就會產生分類,因此整個教學設計也就自然會過渡到“分類”這一部分知識點了。這時,就可以順理成章地引導學生去分析產生以上3個聚類的客戶群體到底有些什么樣的特征了。采用Modeler中的C5.0節點進行分析,則可產生如圖2所示的結果。
從規則1中我們可以歸納出這個客戶群的一些大概特征,那就是這個組群中的客戶基本都是男性,并且他們的收入都低于16900。整個建模過程如圖3所示。
1.3 異常點分析的教學設計
我們都知道,不是所有的樣本都會歸屬于聚類和分類之中,現實中的數據總會有或多或少的個體遠離群體的。為了形象地描繪這些異常點,從這里開始,使用R語言進行教學設計,繪制出顧客與商品的2-模網網絡,如圖4所示。
從圖4中,可以發現有60個孤立節點,這說明有60個客戶沒有發生交易,真正發生交易的就只有940個客戶。因此,我們的分析應該圍繞著這940個客戶進行。
1.4 復雜網絡分析的教學設計
廣義上講,任何事物都處在一個有形或無形的網絡當中,與網絡中的其他事物形成一種相互依存或競爭的關系。因此,基于網絡拓樸結構去研究數據之間的相互關系是當前大數據分析與數據挖掘的熱門話題,故在教學目標中,引導學生思考數據網絡構成是揭示事物相關性的另一個獨特視角。
使用R語言,引導學生對購物籃數據集中產生真正交易的940個客戶進行網絡基本分析,從而得出如表3所示的結論。
2? 結語
對《數據挖掘技術》課程進行“貫穿式”案例教學設計,用一個恰當的數據集把多個章節中的知識點有機地貫穿在一起,將所講授的內容逐步延伸,這有利于學生對大數據分析與知識挖掘的整個體系有一個完整、深刻的認知。這便于學生在實踐中運用知識后,能夠很好地掌握數據挖掘中的基本知識點、基本原理及方法等知識理論。而Modeler和R兩種軟件工具的交替使用,有助于學生學會在對同一數據集進行分析時,能夠明白不同軟件工具在不同階段的問題處理上的優勢和不足,進行實現大數據分析過程中的優勢互補,從而加深學生對知識體系的認知與領悟。
參考文獻
[1] (美)Jiawei Han,Micheling Kamber,Jian Pei,著.數據挖掘概念與技術[M].3版.范明,孟小峰,譯.北京:機械工業出版社,2012.
[2] 薛薇.R語言數據挖掘方法及應用[M].北京:電子工業出版社,2016.
[3] 施和平,俞晨霞.“貫穿式”案例教學法與“探究式”教學法在《管理學》課程教學中的運用[J].景德鎮學院學報,2016(2):82-85.
[4] 葉品菊.案例貫穿式教學法在VB程序設計教學中的應用[J].安徽電子信息職業技術學院學報,2007,6(5):53-54.
[5] 黃芳.貫穿式案例教學在市場調查課程中的應用[J].科教導刊,2017(1X):76-78.
[6] 鐘兵.機械制造“貫穿式案例”教學模式實踐研究[J].當代教育理論與實踐,2012,4(6):90-91.
①基金項目:云南財經大學校級重點課程建設項目“數據挖掘技術課程”(項目編號:41611217232)。
作者簡介:何鋒(1973—),男,白族,云南昆明人,碩士,講師,研究方向:數據挖掘算法分析。
劉祖根(1970—),男,漢族,湖北武漢人,博士,副教授,研究方向:復雜網絡。
余建坤(1963—),男,漢族,云南昆明人,碩士,教授,研究方向:大數據分析。
余益民(1969—),男,漢族,云南昆明人,博士,副教授, 研究方向:東南亞網絡。