李宏艷


摘要:應用數據挖掘技術對參加計算機基礎課程的學生常規期末考試成績進行挖掘分析,提取有價值的信息,尋找出教學中存在的問題,并利用粗糙集理論各個條件屬性對決策屬性影響力的不同,計算出各種題型對考試結果的重要性,進而確定影響學生考試成績的重要知識點,從而指導教師有重點地研究分析下一步教學活動。應用實踐表明,在計算機基礎課程的常規考試中,利用大數據粗糙集理論屬性重要性來分析判斷學生所學的不同知識點對成績影響的程度,結果與實際情況是吻合的。
關鍵詞:大數據挖掘;粗糙集理論;計算機基礎課程
中圖分類號:G642.41 文獻標志碼:A 文章編號:1674-9324(2017)28-0272-02
計算機基礎課程是高校學生學習計算機的入門課程,不管是計算機專業的學生還是非計算機專業學生都是必須學的,也是必須掌握的計算機技術。本文嘗試在計算機基礎課程的教學中應用大數據挖掘技術,運用粗糙理論、模糊理論、數理統計作為理論基礎,以事實數據作為理論基礎進行分析研究,對學生掌握的基礎理論知識以及理解程度有一個準確的了解和掌握,從而為計算機專業的講師開展計算機教學提供可靠的事實與數據理論依據。
一、大數據及挖掘技術相關的概念
大數據(big data,mega data),顧名思義就是很大的數據,或稱海量數據、巨量資料,具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),又稱為4V特點。
數據挖掘技術則是從海量的、不完全的、隨機的、模糊的數據中,提取人們事先不知道并且是隱藏的數據中的,研究分析的有用信息和知識為我所用,為將來所用。如何對龐大的、海量的、復雜的、不完全、不完整的大數據進行統計分析、推理,發現數據之間隱藏的規律為我所用?如何對大數據這個不精確、不完全的知識的表達與分析,這是大數據背景下高校特別是計算機應用專業的教師、學生應該學習的最重要的基礎知識,掌握并利用大數據挖掘及其相關技術基礎理論知識。
二、大數據挖據技術對計算機教學的指導作用
利用挖掘技術對大數據進行挖掘,可以為國家出臺相關政策與決策提供相應的依據,也可為高校教師在教學的過程中提供優秀教學理論與能與時俱進改進教學方法與內容,為知識的更新轉化提供一個新的、更好的平臺。為以后的定向業務數據學會數據的挖掘。學會準備數據、挖掘數據、分析數據、結果分析、得出結論,為下一步的發展提出指導性意見與建議。
目前大數據挖掘技術的主要方法有大數據數理模型理論、神經網絡模型理論、模糊理論以及粗糙集理論算法技術、決策樹、三角幾何技術等相關數學方法統計分析、歸納等。
(一)利用粗糙集理論對大數據進行挖掘
粗糙集理論是科學家研究不精確、不確定性信息的技術,而目前網絡大數據恰恰具有這樣的特點,挖掘大數據本身所反映出信息和挖掘隱含的價值信息,不附加信息或經驗知識,得出的結論相對說比較客觀、真實,更加符合所統計對象的實際情況,對以后決策抑或改變更加有據可依,有據可查。使用粗糙集理論對信息大數據進行挖掘,就是通過對大數據進行分類、合并同類、屬性約簡、屬性歸類等必要的壓縮,從而找出大數據的規律,找出有價值的信息,預測對象發展趨勢,發展變化,從而制訂相應的策略方法,降低成本,擴大收益。
(二)舉例說明如下
計算機基礎課程在學期結束時,學生將參加期末計算機應用能力考試,考試內容共分為七項:第一項是選擇題,設分值40分;第二項是網絡應用題,設分值為10分;第三項是計算機系統操作,設分值8分;第四項是辦公軟件應用,四項一分項是Word應用,設分值為18分;四項二分項Excel應用,設分值為14分;四項三分項是Power-Point應用,設分值為10分。
筆者從2015級非計算機應用專業抽取30名同學,來參加一次模擬考試,把模擬考試數據進行了整理,形成了原始考試成績表如表1所示。
上表中,用S1、S2、…、S6分別表示選擇題、網絡應用題、計算機系統操作、辦公軟件Word操作、辦公軟件Excel操作、辦公軟件PowerPoint操作,g代表總成績。
(三)設定標準進行數據分析
我們把學生總成績按不同分數段進行離散化處理,首先分數百分化,也就是將得分乘以100后除以設置分。把學生得分總成績按80—100、60—79、0—59分劃分為優秀、合格、不及格,設為1、2、3。利用離散化的方法得出下表2。
(四)數據挖掘分析
設C={S1,S2,S3,S4,S5,S6},決策屬性D={g},根據粗燥集理論公式決策屬性D的重要性公式,分別計算各個條件對決策屬性D影響率,結果如下,
SGF(S1,C,D)=0.38,SGF(S2,C,D)=0.08,SGF(S3,C,D)=0,SGF(S4,C,D)=0.13,
SGF(S5,C,D)=0.26,SGF(S6,C,D)=0。通過分析各題在總分中所占比例,以及得分比重,發現本次模擬考試中,影響最大的是選擇題,其次是電子表格的操作,再次是word。而系統操作和幻燈片使用對總分的影響很小,可以忽略。分析探討深層次的原因,是因為選擇題涉及的知識點多,又側重于概念方面,學生在學習的過程沒有很好地去理解,導致了失分情況比其他題要多。另外電子表格和文字處理操作則是目前最基礎的計算機應用軟件,也是教學的重點和難點,電子表格的難點主要在函數的使用以及函數的設計上,這就需要教師在函數使用上多多設計一些題型讓學生運用函數或函數組合來解決問題,讓學生體會理解函數的用法。幻燈片的操作整體得分較高,相差不大,對考試結果的影響很小。幻燈片軟件操作相對簡單,而且也是學生最感興趣的軟件,學生對基本操作都掌握得較好。對于操作系統和網絡應用技術,由于家庭電腦的普及,在網絡概念和操作上沒有大的問題,很多學生可以說是無師自通,問題也不大。
對于其他大數據挖掘技術筆者在此不一一舉例了,大數據分析方法可以多種多樣,但不管運用什么方法,挖掘出數據隱含的價值信息為我所用,特別隨著大數據時代的到來,大數據的處理技術是計算機基礎課程必須涉及與改革的,這樣計算機基礎課程教學才能與時俱進。
三、結束語
大數據時代隨著互聯網和移動互聯網發展的腳步已鏗鏘有力地到來了,并且已經在某些領域影響著我們的生活、學習與工作。高校在教學實踐中要與時代發展趨勢同行,同時要求高校教師在教學思想、教學理念上迅速做出調整,并制定出最新適合學生今后發展的計算機應用能力培養方案,并且行之有效地付諸實施,做到提高學生的計算機應用以及應變能力,增強就業競爭優勢,滿足社會對復合型職業技能人才的需要。
參考文獻:
[1]劉剛.數據挖掘技術與分類算法研究[D].中國人民解放軍信息工程大學,2004.
[2]張穎.數據采掘的研究與應用[D].中國科學院研究生院(計算技術研究所),1999.
Abstract:To analyze the application of data mining technology in computer basic course on students' scores in the final examination of conventional mining,extracting valuable information,to find out the problems in teaching,and using rough set theory to each different condition attributes of decision attribute influence,calculate the importance of various types of test results,and then determine the important knowledge influence of test scores of students,so as to guide teachers to focus on research and analysis of teaching activities in the next step. The practice shows that in conventional computer courses,using a large data attribute importance of rough set theory to analyze and judge the effect of different knowledge of students' scores on the extent of the results tally with the actual situation.
Key words:big data mining;rough set theory;computer basic course