龍坡 何晶
摘 要
傳統學習風格基于調查者提前設定的問卷項目權重,加權后得出學習者所屬的學習風格類型,這種方式存在很強的人為干預的不確定性。本文討論基于機器學習和大數據的方法,通過聚類算法,利用樣本之間客觀存在的關聯關系,自動將大數據樣本分類成多個學習風格分類,從而減少人為主觀因素的干擾,提高學習風格類型判斷模型的準確率。
關鍵詞
學習風格;學習偏好;聚類;機器學習;大數據
中圖分類號: TP18 ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 18 . 86
0 前言
學習風格也稱為學習偏好,或者說是學習者更傾向的學習方式。每個人在對待問題的態度、處理和感知時都具有自己的特點和處理方式。傳統的學習風格測試主要通過問卷調查進行,得到問卷調查后,人工根據預先判斷的權重,進行加權計算,得出所屬的學習風格類型。這種方式,人為因素干預很大。如果模型設定之人對于每一項答案的結果認識有偏差,則整個模型準確度就會下降。本文討論基于機器學習和大數據處理技術,采用聚類算法,利用特征之間的關系,自動地將樣本數據集分成多個類,并以此樣本聚類后的結果作為算法模型,來判定一個新的樣本所屬的學習風格類型。基于聚類算法的學習風格建模策略,能夠減少人工干預對模型造成的誤差,從而提高測試準確率。
1 常見學習風格分類
1.1 凱夫分類法
關于學習風格,一直以來都是各有一套自己的理論體系。國外學者在20世紀70年代開始就提出了學習風格理論,并從多種角度闡述了自己的觀點。學習風格論最早由美國學者哈伯特·賽倫(Herbert Thelen)提出,凱夫(Keefe)將其進一步豐富和發展[1]。國內著名學習風格學者譚頂良先生也提出了自己的分類方法。目前國際上認可度最高的學習風格概念的體系則是凱夫對學習風格概念的界定[2]。
(1)主動型:主動型風格的人喜歡和很多人一起合作學習,也就是我們常說的團隊型選手。
(2)反思型:這類人相對于喜歡獨立自主的去完成工作和任務,具有較強的個人自主意識,偏向獨立觀點。
(3)感官型:感官型的學習者喜歡將學習內容和實際的事物相關聯,他們覺得脫離了真實世界的學習方法是不太能接受。
(4)直覺型:這類的學習者對于知識反應迅速,并喜歡創新的進行學習,不喜歡墨守成規,同時發現能力強,善于洞察事物間的關聯或可能性。
(5)視覺型:視覺型顧名思義就是喜歡即見即所得,他們喜歡從可以看得見的或者實操性比較強的場景中進行學習。
(6)聽覺型:聽覺學習者更傾向于從口述或者文字描述中獲得知識。
(7)循序型:這類學習者比較適合按照某些章法和規則,循序漸進的學習。
(8)總體型:這類的學習者,喜歡先把問題逐個理解的方式學習,而且有時候是跳躍式的吸收知識,很多情況下表現的是頓悟。
1.2 VARK模型
VARK模型是弗萊明(Neil Fleming)提出的學習風格調查問卷。VARK學習風格模型主要學習者類型如下:
(1)視覺學習型:視覺學習者習慣通過觀察來進行學習,大多數的IT從業人員都是偏向于視覺學習者,他們喜歡看到有層次的圖文并茂的學習資源。
(2)聽覺學習型:聽覺學習者傾向于通過與人交流獲取來獲取信息,從中學習。這種風格的人習慣通過溝通來解決問題,并且善于記住聽過的事情。
(3)讀寫學習型:讀寫型的學習者喜歡通過文字來表達和獲取知識。因此他們的寫作能力一般都比較好。
(4)動覺學習型:動覺學習型的人比較喜歡實踐,他們堅信實踐出真知,因此他們善于模擬演練,喜歡扮演角色,從中獲得知識和學習。
(5)多模態學習型:多模態類型的學習者喜歡從多個角度入手學習,而且可以根據自己的需求進行學習風格的切換。
2 聚類算法實現學習風格分類
使用聚類算法實現學習風格分類模型,相同的類別的數據一般具有比較相近的屬性或者特征,而一旦特征或者屬性差異很大,那么數據表現也會截然不同。通過計算學習者的特征向量之間的距離關系,經過多次迭代后,自動的聚成預先設定的幾個分組。自動分組后根據每組樣本的共性,人工判斷每個組所屬的學習風格分類,從而得到學習風格算法模型。當一個新的樣本需要進行學習風格判定時,計算該樣本與每個學習風格分類組的中心距離,距離最近的一個分組即為新樣本所屬的學習風格。
2.1 分類特征的選取
機器學習領域里,樣本數據的特征就是能代表樣本特異性的信息。也就是信息論里面說的,有價值有信息量的數據項,稱作為信息特征[3]。人物的特征包括外貌特征、性格特征、從事工作、家庭背景等等。其中對學習風格影響最大的特征應該是性格特征。性格特征又包括如下幾個方面,態度特征、意志特征、情緒特征、理智特征。以上這些特征,我們可以通過現在普遍適用的問卷調查的方式收集,并給予評分,于是得到多組向量:
特征名稱:態度特征,意志特征,情緒特征,理智特征, 外貌特征,從事工作,家庭背景。
其中,態度特征、意志特征、理智特征、情緒特征在平時生活中,表現出來的是一種程度,程度通過量化后可以用連續的數值進行描述,因此我們可以根據取值情況,給每個性格特征設定一個范圍。外貌特征、從事工作、家庭背景3個特征是離散數據。針對離散數據,機器學習方法中可以轉換成one-hot編碼,從而變成數值型特征,再和其他連續值的特征數組進行合并,從而成功構建后續模型構建所需要的測試數據集。機器學習支持常用的數據格式CSV、SQL、XLS、JSON、HDF5等,這里建議使用HDF5作為數據集,因為它支持壓縮,因此即使我們收集的數據量很大,也能夠處理。
2.2 模型的構建
聚類算法是機器學習里面的一種無監督學習,我們通常使用k-means聚類算法,因為他歷史悠久,并且應用最為廣泛,數據分析領域,工業領域都很流行。具體聚類迭代過程:
(1)首先,要明確分類的個數N,初始化為隨機選擇N個特征向量作為各分類的中心點。關于分組數量,我們可以在選擇一個學習風格分類的時候,就能夠得到,例如我們選擇VARK理論,那么分類個數N則為5。
(2)計算待分配點與每個類別中心點的距離,距離最近的一個中心點的分類,則為待分配點的分類,然后將這個待分配點歸入該分類中。
(3)基于迭代一組數據后,計算每一類所有點的平均值,作為當前類別新的中心。中心點的定義為距離本組所有向量之間的距離都相等的點。
(4)不斷重復上述三個步驟,直到所有組的中心點的位置變化趨近于0的時候,或者說中心點位置收斂。為了保證效果的最佳,還可以重新隨機選擇N個中心點再次迭代,比較多次計算結果,得出最佳結論。
假設我們選擇將學習風格按照VARK模型劃分成5個類別,那么我們的聚類數量就是5,我們隨機選取5個基準學習者的樣本,依次計算所有學習者樣本和這5個樣本之間的距離,并且把它歸類到距離最近的一個基準樣本所屬的組。接下來,我們需要更新計算新加入的樣本和基準樣本之間的中心點,把這個中心點作為新的基準樣本。依次計算完所有樣本和基準樣本之間的距離,納入后再次不斷更新中心點。直到把所有樣本計算完成,形成5個分組,以及5個分組中心點。然后只需要人工審核一下5個組別分別對應VARK模型的學習風格的哪一個類別,進行標記即可。
2.3 模型的應用
經過模型的構建和迭代后,得到了5個VARK模型的類別,以及還知道了每個類別的中心點樣本的特征向量,即模型的基本數據參數。基于聚類模型的常用應用流程和模型構建迭代過程實際上是相似的。首先,根據用戶填寫的問卷調查,拿到用戶輸入的數據,經過屬于預處理,剔除噪聲數據,減少對結果的干擾。第二步,根據我們的特征定義規則,提取待檢測數據的特征向量。第三步,計算該特征向量和5個聚類中心的距離,距離最近的一個聚類中心點所屬的學習風格,即為待檢測數據的學習風格,從而完成一次數據檢測應用。
模型的應用可以發布成web應用或者restful-api服務,如果采用python的sklearn或者Tensorflow等機器學習框架構建模型,可以導出hdf5格式,模型參數也可以保存成支持跨平臺的格式。從而方便根據需求隨時遷移到各種平臺進行應用。
3 總結
聚類算法的穩定性和悠久的歷史,證明了其優越性,我們將其引入到學習風格判定和預測上面,可以提高其客觀性,從而提高其準確性。實際上,在聚類算法的應用過程中,我們可以繼續進一步迭代算法,把新樣本的計算結果和用戶給予計算結果的評分,反饋給系統,系統對模型進行進一步迭代,從而優化系統的準確率。另外,我們還可以考慮采用深度學習來進行學習風格的分類,基于深度神經網絡,我們不需要提取用戶的特征,因此進一步減少人為因素的干預,讓評價數據更加客觀。
參考文獻
[1]王蓉,李小青,劉軍蘭,等.基于大數據網絡用戶興趣個性化推薦模型分析[J].電子設計工程,2019,27(21):5-8.
[2]劉路,魏源.當代大學生學習偏好的差異性比較[J].廣西教育學院學報,2014(3):119-121.
[3]單留舉,王曉東,馬英運.基于大數據的用戶學習偏好建模及應用[J].計算機應用與軟件,2016(1):77-80,共4頁.