馮佳音 宋金玲 王東


[摘要]大數據時代,科技的發展為教育帶來了巨大變革,教育更關注學習者的需求,更關注學習者能力提升及綜合素質的發展,數據挖掘支持的高校教學變革勢在必行。提出一種挖掘高校教學網站頻繁訪問節點數據的新方法MFITTSSW,使該方法可以單遍掃描數據集以獲得推薦模式。通過網站應用實踐,發現該方法可以有效關注學習者個體發展需求,對大數據時代進行高校教學變革具有重要意義。
[關鍵詞] 大數據;數據挖掘;高校教學
[中圖分類號]? G642?????? ?? ??????? [文獻標志碼]? A???????? ????????????? [文章編號]? 2096-0603(2018)34-0048-02
隨著現代信息技術的發展,“教育信息化”與人們日常生活的聯系越來越緊密。教育信息化的改革與發展,使其成為教育發展的重點。如,電子白板、在線課程、各種多媒體應用軟件、Web考試系統以及高校教學網站技術相當成熟。但在考試難度控制、題庫選擇等方面還存在一定的問題,主要是題庫選題方法是隨機的,考試的一些重要參數無法統計,很難實現對考試的客觀評價,另外,高校學生尤其是新生在選課以及對自己的專業考慮不足,很難正確選擇自己需要的課程,很難選擇自己喜歡的教學內容。歸根到底,這些信息化技術最大的不足之處就是缺乏對數據信息的分析,發掘數據是否有關系,然后透過數據之間的關系來進行相關內容的推薦。而在如今的大數據時代,數字數據以驚人的速度增長,人們的生活方式和生產方式也發生著前所未有的變化,這些新特點也是當前的教學改革、課程教學方向的熱點。大數據具有三個特征:數據量大、數據產生得快、數據具有多樣性。首先,由于高校課程選擇數據、課程考核數據、評估數據和學習者數據等規模都非常大,因此用來分析的數據量非常龐大,并且在分析這些數據的過程中會產生新的數據,這些數據通常在運行過程中是指數倍增長,往往超出一般數據庫軟件所能捕捉、存儲和分析的數據量。其次,大數據往往是在課程選擇、課程考核和分析等過程中新產生的數據,這些數據是實時、在某一時間段數據量龐大,而不是事件發生后去采集的。再次,大數據擁有非常多的數據類型,選課、考試以及觀看教學視頻中的每個步驟都可以跟蹤采集相關學習行為的數據,如選課的路徑模式、觀看教學視頻時間長度、測試數據的分數、通過率、課程討論論壇數據等數據采集、轉換很困難,需要高質量的軟硬件環境。從以上三點我們可以發現,大數據背景下,課程的選課模式、學習模式、教學考核模式等是通過挖掘大量相關數據從而科學地進行課程建設和改革的,從而提高教師教學和學生自主學習效率。而選課教學網站的數據挖掘不可能對所有數據進行挖掘,只能通過挖掘近期數據的關鍵信息,從頻繁被訪問的節點信息,找出數據摘要。從而推薦相應選課內容以及學習內容。國內外的一些專家學者在網站頻繁訪問節點挖掘方面提出的算法有FTP-DS、DSM-MFI等,彌補了傳統頻繁項集挖掘中多遍速掃描數據集和基于磁盤存儲不足的缺陷。雖然這些算法都可以滿足數據流挖掘中單遍掃描數據和基于內存存儲的特點,但是這些應用滑動窗模型挖掘數據流頻繁訪問節點算法同樣存在著挖掘效率不高和內存存儲數據量過大的問題。
本文針對滑動窗挖掘模型中存在的不足,提出基于時間和事務雙敏感的滑動窗TTS作為概要結構,從而有效綜合滑動窗模型的優點。并構建后綴樹作為基于內存的數據結構存儲到來的訪問節點,通過壓縮后綴樹(CST)方法減少內存中樹型結構所占用的空間,使算法MFITTSSW可以在單遍掃描數據集的基礎上挖掘滑動窗中的頻繁訪問節點。文中主要討論如何確立數據的高效存儲、如何確保數據的高質量性以及如何對數據進行挖掘以保障課程選課和學生學習質量。
一、問題定義
設Ψ={i1,i2,…,im}為項的集合。項集X是Ψ的非空子集,k-項集是包含k個項的子集,可以用(x1,x2,…,xk)表示。帶有唯一標識(tid)的事務T和項的集合由〈tid,(x1,x2,…,xq)〉表示,其中xi∈Ψ,■i=1,2,3,…,q。將數據流分為固定事務數量的窗口,稱為基本窗,記為Bi。一個基本窗Bi是由k個事務組成,基本窗由窗的標識Bid唯一確定。
二、時間和事務雙敏感的滑動窗模型
時間敏感的滑動窗模型是以時間為基本單位,如一分鐘或一小時。然而,由于數據流的概念漂移性,在應用時間敏感滑動窗模型時,在某一個或者某幾個時間單位中存在沒有事務或者只存在一個事務的情況。但是以時間敏感的滑動窗為概要設計的算法不得不處理每一個時間單元的事務,這樣就極大地浪費了CPU處理時間。
事務敏感的滑動窗模型相對于時間敏感的滑動窗有一定的優勢,然而事務敏感的滑動窗模型存在無法適當的定義事務塊大小的問題。用戶定義過大的事務單元塊時,會對內存造成極大的壓力,不利于處理;當用戶定義較小的事務單元塊時,處理又過于頻繁,造成CPU資源的浪費。
時間和事務雙敏感的滑動窗模型TTS(Time and Transaction Sensitive sliding window)是同時限制時間和事務數量的滑動窗,它包括最小限定事務數y、限定的時間單位Tp和擴充時間單位Te。
當給定一個時間t和時間周期Tp時,在[t-Tp+1,t]時間到來的所有事務集形成一個基本窗,叫做一塊。如果在這一時間塊內的事務數小于某一用戶定義數量值y,這時將記錄一個擴充的時間Te,Te的大小為記錄的時間點開始直到整個中的事務數等于y為止。即在一個時間塊中的事務數必須大于等于y。數據流可以分成這些數據塊的和。滑動窗的大小可以由|W|表示,且|W|≥y。這種約束時間和事務的滑動窗稱為時間和事務雙敏感的滑動窗(TTS)模型。
三、基于雙敏感滑動窗的頻繁項集挖掘算法的設計
該方法首先給出構建壓縮后綴樹CST(Compressed Suffix Tree)。然后,給出挖掘雙敏感滑動窗下的頻繁訪問節點MFITTSSW(Mining Frequent Itemsets in Time and Transaction Sensitive Sliding Window)。
(一)基于內存的存儲結構CST
當記錄一個滑動窗中的事務時,首先,根據最小事務數值y確定是否需要擴充時間存儲到來的項集,如果不需要則把各個事務映射為后綴集的形式,分別把計數和結點插入到頭表HT和后綴樹中。之后,遍歷后綴樹的每個分支以查看樹中是否有兩個或者兩個以上的結點需要被壓縮。最終,在內存中保存壓縮后的后綴樹CST。
(二)基于雙敏感滑動窗的頻繁項集挖掘方法MFITTSSW設計
當用戶提出需要挖掘頻繁項集時,首先,從頭表中A開始獲取樹中的根結點R之下的各個分支結點。然后,采用遞歸自頂向下的方法遍歷CST中每個分支。最后,通過事先定義好的支持度閾值判斷是否為頻繁項集。MFITTSSW算法根據不同窗中的不同支持度閾值判斷項集是否為頻繁項集。由于不同的窗中事務數量不同,所以最早到來的窗中判斷閾值要高于近期的事務。充分體現了滑動窗模型的只關注近期事務的特點。同時,由于最早到來的窗中支持度比較高,就會刪除一部分原來是頻繁的,但有新到來的窗后變為不頻繁的項集,節約了內存空間。
四、高校教學選課網站的構建
根據上述算法,設計高校選課教學網站。高校教學根據其培養方案有其標準應用模式,所以要求在進行大數據背景下高校推薦教學的設計過程中,必須考慮高校職能部門的依存性與模塊化的概念,要在現有基礎上構建出模塊化的結構。而個性推薦教學必須充分考慮信息技術在教育改革中的作用,以此來開展推薦教學。
(一)構建學習者模塊
高校推薦教學是學習者自己根據自己的學習傾向、興趣愛好、知識結構等構建的教學方式,但如果學習者對自己沒有清晰明確的了解,就不可能做出有利于自身發展的選擇。所以,根據學習者選擇的個體特性來得到學習者個體特征,具體過程如圖1所示。
(二)構建課程推薦選擇模塊
根據構建的學習者個體特性、高校專業設置特點和科學的學習原理,根據算法的特點推薦出大部分學習者在該專業應該掌握的知識以及梳理出以后的專業發展方向,建立學習者專業培養和課程設置推薦內容,具體過程如圖2所示。
(三)構建教學模塊
教師查看每個學習者的個體特性,分析學生的學習興趣和自身希望的發展方向。根據學生選課情況推薦出課程的學習材料(可能是視頻、文檔和音頻等),并在以后的教學活動中能對每個學習者的情況了如指掌,充分發揮教師教學對學習者的作用,具體如圖3所示。
五、結論
本文針對目前高校教育教學選課中的問題,設計了MFITTSSW算法來挖掘數據流滑動窗中的頻繁訪問節點。在MFITTSSW算法中,首先,提出了新的基于時間和事務雙敏感的滑動窗模型來解決應用滑動窗中存在的問題。之后,提出了有效的CST數據結構來記錄滑動窗中到來的訪問節點。通過實際網站的試用,應用該挖掘算法對推薦學生選課和教學網站的設計與應用有極大的好處。
參考文獻:
[1]張燕南,胡繼岳.關于大數據應用與教育的思考[J].中國電力教育,2013,3(32):5-7.
[2]王傳根,吳昊,劉路路.大數據背景下學習評估方法分析[J].教育教學論壇,2017,10(42):213-215.
◎編輯 武生智