羅曉媛,趙麗艷,劉 君,鄒 棟
(1. 黑河學(xué)院理學(xué)院,黑龍江 黑河 164300;2. 哈爾濱理工大學(xué),黑龍江 哈爾濱 150000)
在實際的學(xué)習(xí)過程中,不同的學(xué)習(xí)者在學(xué)習(xí)水平和學(xué)習(xí)效果上存在著差異。一部分學(xué)習(xí)者對網(wǎng)絡(luò)學(xué)習(xí)表現(xiàn)出較高的熱情和參與度,能夠取得較好的學(xué)習(xí)效果;另一部分學(xué)習(xí)者缺乏參與深度學(xué)習(xí)的積極性,甚至偏離了學(xué)習(xí)的目標(biāo)。這一分化現(xiàn)象十分突出,在一定程度上影響了網(wǎng)絡(luò)教學(xué)的整體質(zhì)量和效果。近幾年來,在線教育數(shù)據(jù)呈現(xiàn)出爆炸式的增長,數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用越來越受到重視,數(shù)據(jù)采集器能為學(xué)生提供建議,為教師提供反饋,預(yù)測學(xué)生的表現(xiàn),發(fā)現(xiàn)不良行為,將學(xué)生分組,編制課程,計劃和進(jìn)度,數(shù)據(jù)分析和可視化等。
當(dāng)前已有較多學(xué)者開展了關(guān)于時序數(shù)據(jù)挖掘的研究,趙曉永, 王寧寧, 王磊研究了基于主動學(xué)習(xí)的離群點集成挖掘方法[1],該方法主要根據(jù)各種基學(xué)習(xí)器的對比分析, 從標(biāo)注的數(shù)據(jù)集和各基學(xué)習(xí)器投票產(chǎn)生的數(shù)據(jù)集中抽樣, 得出最終的挖掘結(jié)果;張琳, 李小平, 來林靜,等人研究了基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法[2],該方法提出了游戲教學(xué)的數(shù)據(jù)框架, 構(gòu)建了分層數(shù)據(jù)挖掘模型,以對數(shù)據(jù)進(jìn)行了挖掘。但是存在的離群點挖掘準(zhǔn)確度低的問題。
人工神經(jīng)網(wǎng)絡(luò)是基于一組被稱為人工神經(jīng)元的連接單元或節(jié)點,不同的細(xì)胞層可對其輸入進(jìn)行不同類型的轉(zhuǎn)換,已廣泛應(yīng)用于計算機視覺、語音識別、社交網(wǎng)絡(luò)過濾領(lǐng)域中。為此設(shè)計一個神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘方法。
此次研究的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘方法在教育應(yīng)用中的流程如圖1所示。

圖1 神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘流程
如上圖所示為此次研究方法的離群點數(shù)據(jù)挖掘流程,首先確定分析對象[3],然后明確分析目的,主要對翻轉(zhuǎn)課堂教學(xué)活動進(jìn)行評價。現(xiàn)實教育教學(xué)環(huán)境中,涉及的教育教學(xué)數(shù)據(jù)量大、種類復(fù)雜,并隨時間推移不斷地動態(tài)生成。在以教育因素為研究對象的異常檢測中,需要考慮異常的范圍和數(shù)量等重要因素,以下為具體處理過程。
在檢測對象確定之后,將被檢測對象的數(shù)據(jù)聚類,以去除相對相似的數(shù)據(jù)。對象屬于聚類的程度, 可以通過對象與聚類中心之間的相似度進(jìn)行測量,與平均相似度進(jìn)行比較,若較小,則表示數(shù)據(jù)點屬于離群狀態(tài),收集該部分離群點,統(tǒng)一構(gòu)成異常點集合,基于聚類算法的流程圖如圖2所示。

圖2 聚類流程
假設(shè)Aj是教學(xué)評價數(shù)據(jù)中的一個屬性[4],x、y分別是Aj的兩個取值,Ai代表數(shù)據(jù)集中的另一個屬性,m代表Ai范圍中的一個子集。~w是w的補集,Pi(w∣x)代表屬性Aj取值為x時,Ai取值屬于w集合的條件概率。將Aj屬性下兩個取值x、y相對于屬性Ai的距離表示為
δij(x,y)=Pi(w∣x)+Pi(~w∣y)
(1)
在此基礎(chǔ)上,對兩個屬性值的距離進(jìn)行度量,通過其度量能夠為判斷數(shù)據(jù)對象之間相似度提供基礎(chǔ)依據(jù)。假設(shè)數(shù)據(jù)集的屬性個數(shù)為m,對于數(shù)據(jù)集中任意 屬性的兩個取值x、y之間的距離[5]表示為

(2)
在計算過程中,每個屬性在計算兩個對象之間的距離時,權(quán)重都是相等的。
基于上述計算獲得數(shù)據(jù)可達(dá)距離,在此基礎(chǔ)上對局部可達(dá)密度進(jìn)行計算,計算公式如下所示

(3)
式(3)中,Nk(q)代表距離數(shù)據(jù)點q最近的數(shù)據(jù)點的集合,q代表離群點,lrd代表局部可達(dá)密度[6]。
通過上述計算能夠?qū)⒃u價數(shù)據(jù)區(qū)別與同一屬性下不同屬性的差異。依據(jù)上述聚類處理[7]過程,能夠確定比較對象,針對教育平臺數(shù)據(jù)集中所有對象進(jìn)行比較,可以將不同的數(shù)據(jù)對象劃分到相應(yīng)的子類中,從而確定檢測對象的鄰域,將鄰域范圍內(nèi)的對象作為比較的對象,為時序數(shù)據(jù)離群點挖掘提供基礎(chǔ)。
在上述檢測對象鄰域確定完成的基礎(chǔ)上,對離群點挖掘,由于它的規(guī)模很小,范圍很廣,在分析時非常容易將異常值視為錯誤或無效數(shù)據(jù),也會影響研究對象的總體準(zhǔn)確度,引起誤解,增加分析難度。為此采用神經(jīng)網(wǎng)絡(luò)技術(shù)對時序數(shù)據(jù)離群點挖掘[8]。神經(jīng)元模型如圖3所示。

圖3 神經(jīng)元模型
神經(jīng)元模型如圖3所示[9],通過上圖可以發(fā)現(xiàn)神經(jīng)元模型的組成主要包括輸入以及輸出值、權(quán)值以及輸出函數(shù),不同組成部分之間的基本關(guān)系如下式所示
y=f(wx+θ)
(4)
式(4)中,y代表輸出值,f代表傳輸函數(shù),θ代表偏置,w代表權(quán)值,x代表輸入值。
基于神經(jīng)網(wǎng)絡(luò)的離群點挖掘流程如下所示:
第一步:初始化BP神經(jīng)網(wǎng)絡(luò),對各層的權(quán)值和偏差進(jìn)行隨機初始化,輸入層的神經(jīng)元個數(shù)由數(shù)據(jù)集中數(shù)據(jù)屬性個數(shù)決定。通過上述過程已經(jīng)獲得檢測對象的鄰域范圍,假設(shè)鄰域范圍內(nèi)數(shù)據(jù)集中有m個屬性,則將輸入層的神經(jīng)元個數(shù)設(shè)置為m;
第二步,通過給定訓(xùn)練集,獲取輸入以及輸出向量,分別設(shè)定為向量x和向量y;
第三步,明確節(jié)點數(shù)量[10],對節(jié)點數(shù)量進(jìn)行隱藏以及輸出處理;
第四步,依據(jù)給定數(shù)據(jù)轉(zhuǎn)發(fā)輸出數(shù)據(jù),獲取神經(jīng)網(wǎng)絡(luò)實際輸出值。
第五步,對輸出值進(jìn)行處理,該值可以對數(shù)據(jù)集中分布情況進(jìn)行充分反映,根據(jù)神經(jīng)網(wǎng)絡(luò)輸出值,異常數(shù)據(jù)可以通過熵值結(jié)果加以判定,熵值表示樣本在某種范疇內(nèi)的不確定性。熵[11]越大,樣本的不確定度也就越高,樣本更可能出現(xiàn)異常。提出當(dāng)熵值超過某一閾值時,樣本即為異常點。當(dāng)閾值較小時,設(shè)置一個閾值為E,其范圍為0-1之間。
由此,給出評價函數(shù)E,其與得到的兩種類別樣例個數(shù)相關(guān),即:
E=E(aPr,bPw)
(5)
式(5)中,a、b分別代表權(quán)值,P代表分類為正確的樣例,Pw代表分類為錯誤的樣例,E表示用某一閾值來做異常點判斷的有效性。
E值的大小與異常點碗蕨的效果好壞優(yōu)密切關(guān)聯(lián),該值越大,挖掘效果越好,反之,挖掘效果越差。
E值的大小與分類正確的樣例個數(shù)成反比,即分類錯誤的樣例個數(shù)與E值成正比。所以給出的評價函數(shù)E的公式如下:
E=-aPr+bPw
(6)
為提高挖掘準(zhǔn)確性,采用下述公式減小E誤差,其表達(dá)式為:

(7)
式(7)中,η代表系數(shù),該系數(shù)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)的速度,即學(xué)習(xí)率。
并假設(shè)fr(φ)代表數(shù)據(jù)集中分類正確的樣例的密度函數(shù),fw(φ)為數(shù)據(jù)集中分類錯誤的樣例的密度函數(shù),如圖4所示。

圖4 分類正確與分類錯誤數(shù)據(jù)的分布函數(shù)
這樣就有如下表示

(8)

(9)
從而得到
P(E)=-aPr+bPw
(10)
綜上所述,通過P(E)對異常點挖掘的效率進(jìn)行判斷,該值的大小與挖掘效率呈現(xiàn)正比,該值越大,證明挖掘效率越高,反之,挖掘效果越差[12]。所以P(E)取極大值時,熵的取值最佳。
第六步,根據(jù)神經(jīng)網(wǎng)絡(luò)的實際輸出與期望輸出,對網(wǎng)絡(luò)的輸出誤差進(jìn)行計算,判斷網(wǎng)絡(luò)的停止條件。若符合,則停止訓(xùn)練并退出神經(jīng)網(wǎng)絡(luò)對離群點評價,若不符合,則返回步驟二。
第七步,離群點評價,對檢測出得離群點進(jìn)行評價,弄清數(shù)據(jù)離群的原因。
異常值經(jīng)過識別和驗證后,需要對異常值進(jìn)行后處理,才能準(zhǔn)確為教育決策服務(wù)。第一,從技術(shù)角度分析了離群值的成因;若因技術(shù)原因或人為輸入錯誤,則需剔除這類異常數(shù)據(jù),以減少后期處理難度,提高數(shù)據(jù)的準(zhǔn)確性。第二,主觀臆斷的影響消除技術(shù)誤差因素,采用適當(dāng)?shù)闹悄芡诰蛩惴▽Ξ惓|c進(jìn)行挖掘,建立分析模型,確定適當(dāng)?shù)漠惓7秶詼p少異常點的主觀性,降低異常點相關(guān)性帶來的誤差影響。第三,將異常現(xiàn)象的分析結(jié)果以直觀的形式呈現(xiàn)出來,以便能夠結(jié)合具體的教育教學(xué)情況,詳細(xì)分析異常現(xiàn)象產(chǎn)生的原因,有針對性地提出相應(yīng)的措施和方案,使離群點檢測算法發(fā)揮更大的實用價值。
不斷迭代上述基于神經(jīng)網(wǎng)絡(luò)的計算過程,直至所有的離群點挖掘完畢,才停止此次設(shè)計的算法,以此通過上述過程完成基于神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘。
此次實驗的硬件環(huán)境如下:Intel 處理器 2.40GHz,6GB 內(nèi)存。所用的實驗數(shù)據(jù)來自于翻轉(zhuǎn)課堂教學(xué)數(shù)據(jù)庫。由于原始數(shù)據(jù)量較多,為節(jié)省實驗時間,隨機抽取一定的實驗數(shù)據(jù),抽取規(guī)則如下所示:對樣本數(shù)量較少的類別,抽取全部樣本;對樣本數(shù)量大的類別,隨機抽取10%樣本;對樣本數(shù)量大的類別,抽取1%樣本。根據(jù)上述抽取規(guī)則,得到樣本數(shù)據(jù)集總數(shù)為7000條,共有7項數(shù)據(jù)。

表1 實驗環(huán)境
在上述實驗數(shù)據(jù)準(zhǔn)備完成的基礎(chǔ)上,從準(zhǔn)確性和效率兩個方面,分析此次設(shè)計的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘方法的性能,并為了保證實驗嚴(yán)謹(jǐn)性,將文獻(xiàn)[1]中基于主動學(xué)習(xí)的離群點集成挖掘方法與文獻(xiàn)[2]中基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法與此次研究的方法對比。
采用此次研究的挖掘方法與傳統(tǒng)兩種挖掘方法對實驗數(shù)據(jù)的離散群點數(shù)據(jù)發(fā)掘,對比兩種挖掘方法的挖掘準(zhǔn)確性,對比結(jié)果如圖5所示。

圖5 挖掘準(zhǔn)確性對比
由上述對比結(jié)果能夠看出,由此次提出的挖掘算法能夠準(zhǔn)確檢測出離群點,較傳統(tǒng)兩種檢測算法檢測準(zhǔn)確性高。
傳統(tǒng)的基于主動學(xué)習(xí)的離群點集成挖掘方法、基于游戲教學(xué)的分層數(shù)據(jù)挖掘方法與此次研究方法的挖掘效率對比結(jié)果如圖6所示。

圖6 挖掘效率對比
通過上圖能夠看出,三個方法中,執(zhí)行時間最短的是此次研究的算法,基于主動學(xué)習(xí)的離群點集成挖掘方法執(zhí)行時間最長,由此能夠證明此次研究的方法的有效性。
綜上所述,此次研究的神經(jīng)網(wǎng)絡(luò)技術(shù)下多尺度時序數(shù)據(jù)離群點挖掘方法較傳統(tǒng)方法的挖掘準(zhǔn)確性高,挖掘效率高。原因是,此次研究的挖掘方法能夠預(yù)先對評價數(shù)據(jù)進(jìn)行聚類,有利用了神經(jīng)網(wǎng)絡(luò)技術(shù)對候選離群項集進(jìn)行了檢測,得到最后的離群點,從而提高了離群點挖掘算法的有效性。
針對高校教學(xué)平臺的需求,設(shè)計了基于神經(jīng)網(wǎng)絡(luò)技術(shù)的離群點挖掘算法,對多尺度時間序列數(shù)據(jù)進(jìn)行離群點挖掘,并進(jìn)行了實驗驗證。利用該方法,可以對教學(xué)評價數(shù)據(jù)進(jìn)行基于現(xiàn)實的挖掘,將已有的管理數(shù)據(jù)轉(zhuǎn)化為可利用的知識,從而使教師更好地開展教學(xué)活動。
接下來,將所提出的算法應(yīng)用到某教學(xué)平臺的所有教學(xué)評估數(shù)據(jù)中,探討教學(xué)評估數(shù)據(jù)中的全局異常值、情景異常值和集體異常值,并結(jié)合其它數(shù)據(jù)對異常值進(jìn)行解釋,從而為學(xué)校的教學(xué)工作提供參考。