999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FAST-MCD算法的異常成績檢測研究

2021-11-30 09:34:16孫杰
現代計算機 2021年29期
關鍵詞:檢測方法學生

孫杰

(中國勞動關系學院應用技術學院,北京100044)

0 引言

在教學過程中,難免對學生進行知識學習效果的檢測。在理想情況下,學生的測驗成績是穩定的、平穩的,但在實際情況下難免出現異常成績情況,這些異常成績情況恰好體現了某些學生在學習過程中的問題及存在的風險。有效檢測學生成績中的異常成績,能夠及時地發現問題,指導教師教學。

假設在任何一次測驗中所有同學的測驗成績符合正態分布,且同一個學生在一次測驗中的成績排名是基本穩定的。本文采用2016級至2019級本科生共465人的兩次平時測驗成績作為數據樣本。通過對所采集數據樣本的觀察發現:在測驗成績中,有的同學沒有參加測驗或成績遠低于正常成績。這種情況恰恰說明,某些同學學習過程中可能存在一定的問題。這些學生成績數據與一般的測驗成績的高低或特征不一致,這些數據對象就是孤立點(outlier)。當訓練數據集沒有孤立點污染時,通過訓練數據集構造模型,通過模型判斷新加入的點是否滿足要求(一般通過閾值判斷),不滿足條件的點稱為異常點(novelty)。孤立點和異常點的檢測和分析是一種十分重要的數據挖掘類型。

基于高斯概率密度函數的異常點檢測,首先利用異常較少的數據集擬合出一個高斯分布,當要預測一個樣本是否為異常時,只需將這個新樣本代入高斯分布求出概率,如果概率小于指定的閾值,我們就認為這個樣本是異常的。因此,異常點檢測的關鍵是訓練數據集的收集和閾值的設定。孤立點的檢測不要求用于擬合模型的數據純凈,孤立點的檢測有基于統計學的方法[1]、基于聚類的方法[2]、One Class SVM算法[3]和孤立森林算法[4]等多種。本文基于已有學生成績滿足高斯分布的假設,試圖采用FAST-MCD算法對上述異常成績進行檢測,通過構建限度橢圓檢測學生測驗成績中的異常成績。

1 異常成績檢測模型[5]

n維正態向量X=(X1,X2,…,Xn)T的密度函數為:

其中,

且矩陣B正定的。此時

假設一組有n個樣本的數據,每個樣本有p個元素,數據構成X=(x1,x2,…,xp)T,其中,xi=(xi1,xi2,…,xip)T,i=1,2,…,n。經 典 的 限 度 橢 圓(Tolerance Ellipse)定義為一組p維數據x,其馬氏距離計算如下:

其中xˉ為均值,B是協方差矩陣,卡方分布的α分位數。

實驗證明:基于馬氏距離的限度橢圓模型并不能很好地估計孤立點,而基于魯棒距離(the robust distances)的計算方法獲取的限度橢圓模型可以較好地辨識孤立點。魯棒距離的計算方法如下:

FAST-MCD算法的步驟如下:

(1)假設有n個樣本的樣本集X,選取其子集H1,且而和分別是子集H1的均值和協方差。如果子集則有n個樣本中每個元素到子集H1的距離:

3 實驗結果

實驗運行在Windows系統中的“Anaconda 3+Python 3.7”環境下,采集選修《計算機I》課程的465名同學的兩次平時測驗成績為樣本點,其中包含異常成績,所占比例大約為10%。異常成績包含未參加考試的成績為0或者遠離一般成績范圍的成績。

本文實驗中分別使用經驗協方差(最大似然估計)和魯棒協方差(最小協方差估計)兩種方法對兩次學生測驗成績中的孤立點(或稱為異常成績)進行檢測,兩次測驗成績中的異常成績檢測結果,如圖1所示。

圖1 學生兩次測驗成績中的異常值檢測

可以看出,兩次測驗成績中只要有一次成績較低(或為0),或者兩次測驗成績均較低,即可視為異常成績。另外,雖然經驗協方差方法更容易被離群點影響[5],但在異常成績比例為10%時,兩種檢測方法在成績檢測的最終效果上并沒有太大的差別。

本文實驗中設置異常成績比例為10%,最終篩選出47個點為異常點。刪除異常成績后兩次測驗成績的散點圖,如圖2所示。

圖2 刪除異常成績后兩次測驗成績的散點分布

可以看出,在刪除異常成績之后,學生成績分布更集中,學生兩次測驗成績集中在70~100和65~95之間的數據區域。

當設定成績異常比例為1%時,檢測結果如圖3所示。

圖3 學生兩次測驗成績中的異常值檢測

可以看出,通過魯棒協方差方法得到的限度橢圓完全劃分出了其中一個成績為0的5個數據點,而經驗協方差方法卻將第二次測驗成績為0的一個數據點認為是正常的。這也說明魯棒協方差方法具有更好的穩定性,能夠較為合理地檢測異常成績。

4 結語

最小協方差估計(MCD)是能夠較好地識別樣本集中的異常點,但由于計算較為復雜,我們采取FAST-MCD算法簡化計算過程。通過實驗發現,FAST-MCD方法能夠較快、較穩定地檢測出異常成績。但本文實驗存在一些不足,如依據經驗給出的異常成績的比例比較隨意,缺少理論依據。因此,在將來的研究中,希望能夠依據實際采集的樣本值自適應得到異常數據的比例。

猜你喜歡
檢測方法學生
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
趕不走的學生
學生寫話
學生寫的話
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 污网站免费在线观看| 色视频国产| 欧美日韩国产综合视频在线观看| 免费国产在线精品一区| 欧美综合一区二区三区| 亚洲一道AV无码午夜福利| 免费看美女自慰的网站| 亚洲香蕉在线| 国产精品v欧美| 91福利片| 国内精品免费| 五月综合色婷婷| 色爽网免费视频| 国产视频自拍一区| 蝌蚪国产精品视频第一页| 亚洲水蜜桃久久综合网站| 中文字幕久久波多野结衣| 国产丰满大乳无码免费播放| 高清不卡毛片| 国产爽妇精品| julia中文字幕久久亚洲| 欧美a在线看| www.狠狠| 午夜日b视频| 伊人婷婷色香五月综合缴缴情| 2020极品精品国产| 伊人婷婷色香五月综合缴缴情| 国产精品毛片一区| 夜夜高潮夜夜爽国产伦精品| 日本精品αv中文字幕| 呦女亚洲一区精品| 久久精品国产999大香线焦| 91口爆吞精国产对白第三集| 亚洲美女视频一区| 国产真实自在自线免费精品| 亚洲视频在线观看免费视频| 四虎免费视频网站| 日本在线欧美在线| 四虎成人免费毛片| 国产清纯在线一区二区WWW| 成人在线亚洲| 麻豆精品在线视频| 午夜a级毛片| 国产人成在线观看| 国产一级在线观看www色| 国产成人久久综合一区| 在线看片免费人成视久网下载| 国产成人亚洲无码淙合青草| 97se亚洲综合在线| 97久久人人超碰国产精品| 毛片大全免费观看| 国产成人综合日韩精品无码首页 | 又爽又黄又无遮挡网站| 亚洲日本中文字幕乱码中文| 国产杨幂丝袜av在线播放| 成人中文字幕在线| 2021亚洲精品不卡a| 亚洲成人黄色网址| 红杏AV在线无码| 毛片免费在线视频| 熟妇人妻无乱码中文字幕真矢织江| 国产理论一区| 国内精品自在自线视频香蕉| 久久人搡人人玩人妻精品| 国产成人精品亚洲日本对白优播| 国产精品第一区在线观看| 亚洲一区二区三区在线视频| 色婷婷亚洲十月十月色天| 亚洲AⅤ无码国产精品| 日韩亚洲综合在线| 亚洲国产精品日韩av专区| 国产午夜小视频| 福利视频99| 欧美激情第一区| 亚洲国产成人无码AV在线影院L| 久久久四虎成人永久免费网站| 精品伊人久久久香线蕉 | 老司机精品久久| 91亚洲精品国产自在现线| 亚洲91在线精品| 国产成人综合亚洲欧洲色就色| 亚洲精品无码AⅤ片青青在线观看|