999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

遠程虛擬教育通信中異常數據挖掘技術*

2017-07-19 12:16:05況姍蕓
沈陽工業大學學報 2017年4期
關鍵詞:數據挖掘特征方法

楊 瓊, 況姍蕓

(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)

遠程虛擬教育通信中異常數據挖掘技術*

楊 瓊1,2, 況姍蕓3

(1. 華東師范大學 教育科學學院, 上海 200062; 2. 瓊臺師范學院 信息技術系, 海口 571127; 3. 華南師范大學 教育信息技術學院, 廣州 510631)

針對現有挖掘方法應用到遠程虛擬教育通信異常數據挖掘時,其挖掘準確率及應用效率偏低的問題,提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育中異常數據挖掘方法.采用信息增益法提取遠程虛擬教育通信數據特征,引入WTA規則對在線通信的數據特征進行聚類,在此基礎上,采用稀疏分數方法對數據進行區分,采用FWSCA與差分進化法相結合對運程虛擬教育通信異常數據進行挖掘.結果表明,采用該挖掘方法進行異常數據挖掘,挖掘精度相比傳統挖掘算法精度高、時間短,具有一定的優勢.

遠程虛擬教育; 通信; 異常數據; 挖掘; 數據特征; 聚類; 區分; 精度

隨著計算機網絡、多媒體和虛擬現實技術的不斷進步,網絡遠程教育作為一種現代化的教育手段得到了快速發展[1-2].如何實現安全的遠程網絡教學,使遠程虛擬教育被廣泛地使用到實踐性要求較高的學科中,成為該領域亟待解決的問題[3-4].而對遠程虛擬教育通信中異常數據進行挖掘是解決此問題最有效的方法,近年來也受到廣大學者的重點關注[5-8].

文獻[9]提出基于信息熵的異常數據挖掘方法,該方法通過定義信息熵的異常度來判斷通信數據間的異常情況,并根據異常等級進行挖掘,但是該方法對等級劃分計算較為繁瑣,實效性不強;文獻[10]提出一種基于機器學習的挖掘方法,依據機器學習的相關原理得到標準方程組,建立異常數據挖掘最優模型,經過計算數據的特征向量得到異常數據庫,最后根據計算得到的概率值對異常數據進行挖掘,但是該方法主要針對固定的結構模型,難以大規模推廣應用;文獻[11]提出了基于物聯網的異常數據挖掘方法,借助物聯網中的無線傳感器網絡技術實現對異常數據的挖掘,但是該方法需要大量訓練數據,且挖掘效率較低.針對上述問題,本文提出一種基于空間聚類算法(FWSCA)與差分進化法的遠程虛擬教育通信中異常數據挖掘方法.

1 通信數據特征提取及聚類

1.1 數據特征提取

(1)

式中,lm為第m個樣本的屬性.在此基礎上,采用信息增益法對樣本矩陣進行分類,得到分類期望信息表達式為

I(s1,s2,…,sm)=-pilog2pi
(i=1,2,…,m)

(2)

(3)

(4)

式中:a、b為兩個數據對象;E為數據集中的連續屬性集;B為離散屬性集.在獲得教育通信數據的基礎上需要進行特征聚類分析,以提高數據特征的顯著性.

1.2 數據特征聚類

在提取遠程虛擬教育通信數據特征的基礎上,可引入WTA規則對特征進行聚類,為特征選擇提供基礎依據.

假設訓練集生成原始樹為T,某葉子結點實例個數為n(t),錯誤分類個數為e(t).由于訓練數據是用來生成決策樹的,而基于此訓練數據集的誤差率r(t)=e(t)/n(t)存在偏差,無法精確地選擇最優決策樹,因此將誤差率修改為

(5)

定義此時的適應值函數為

(6)

式中:α為權重因子;H為條件屬性集基數;Lv為通信數據基數;O為距離遞歸函數;D為傳遞距離;A(v)為位串所表示的條件屬性子集.本文將WTA規則聚類算法引入到通信數據中[12],得到中心遞歸方程為

vi(t)=vi(t-1)-ηD(vi(t-1),xnt)

(7)

式中:vi(t-1)為t-1時刻第i個聚類中心;xnt為t時刻第n個到達的數據樣本;η為遞歸因子;D(vi(t-1),xnt)為樣本xnt與中心vi(t-1)的距離.

設有N個樣本數據流,t時刻獲得Nt個新的遠程通訊樣本,新獲得的樣本權值∑qj(t)=1,j=1,2,…,Nt,則可以得到此時的加權聚類中心vi(t-1)及其被選中概率pi(t-1),i=1,2,…,C.vi(0)為初始化空集,采用FWSCA算法將Nt個數據樣本劃分為C個聚類中心,其相應聚類概率可表示為

(8)

式中,uij為樣本xj(1)屬于聚類中心vi(1)的模糊隸屬度,1≤i≤C,1≤j≤Nt.

2 通信異常數據挖掘方法

2.1 通信異常數據區分

(9)

式中,μr為整個遠程通信數據樣本第r維特征均值.以此稀疏表示為基礎,使用L1范數最小化的優化方法確定獲取數據是否存在異常.

假設遠程通信數據集{xi},且xi∈Rd,令數據矩陣X=[x1,x2,…,xn]∈Rd×n中每一列為此數據集里的一個數據向量,然后獲取每個遠程通訊數據量xi對應的重構數據si,即求解遠程通信數據間L1范數最小化線性規劃問題,其表達式為

(10)

式中:X′為X不包括第i列xi的數據矩陣;si=[si1,…,sii-1,0,sii+1,…,sin]T為一個n維系數向量.由于計算si時,X′不包括在X里,所以si中第i個元素設置成0,sij(j≠i)為遠程通信數據集的第j個數據量xj重構后對xi的貢獻.獲得整體遠程通訊數據集在稀疏表示下重構的系數矩陣.

以得到的稀疏重構系數為基礎,對整體數據樣本的重構誤差進行累加,當一個特征及獲取的重構特征誤差較小時,則證明此特征在整體數據集上具備較好的稀疏表示水平,稀疏分數目標函數[13]可表示為

(11)

由式(11)可知,異常數據的確認與Fr有直接的關系,Fr越大,則此特征越重要,說明此數據為正常數據;反之,值越小,特征越不顯著,說明此數據為異常數據.

2.2 異常數據挖掘

(12)

式中,dij(xi,bj)為異常數據對象xi與異常中心數據bj的歐氏距離.在式(12)基礎上進行迭代計算,所有的異常數據簇勢的平均值為

(13)

式中:itr為FWSCA算法的迭代索引指數;c(itr)為第itr次迭代時的異常數據簇個數.第itr次迭代時,異常數據簇的閾值可表示為

MCT(itr)=δCavg(itr)

(14)

(15)

(16)

式中:rand(j)為[0,1]間均勻分布的隨機數;CR為異常數據挖掘概率.CR越大,異常數據挖掘越全面,得到的結果越準確;反之,CR越小,挖掘的異常數據越少,得到結果準確率越低.

3 實驗仿真分析

為了驗證本文提出的異常數據挖掘方法的有效性,將其與信息熵法、機器學習法進行對比研究.實驗以遠程虛擬教育通信數據集為研究對象進行異常數據挖掘分析,該數據集包括1 610個樣本,7個異常數據簇,各異常數據簇里有230個樣本,異常數據樣本均是40個.不同的異常數據簇包括的子特征構造也不一樣,7個異常數據特征分布圖如圖1所示.對于各異常數據簇,若其在相關子空間中,則數據特征服從高斯分布;若在無關子空間中,則數據特征服從均勻分布.

在異常數據集范圍一定的情況下,以異常數據挖掘所需時間為考核量進行挖掘效率方面的對比分析,不同方法挖掘時間對比結果如圖2所示.由圖2可知,采用改進方法挖掘時,其異常數據挖掘時間相比信息熵法和機器學習法有了大幅降低,傳統機器學習方法遍歷所有數據集,不僅增加了硬件成本,同時也降低了挖掘效率,而改進方法利用WTA規則對數據集規劃聚類,之后通過機器對異常數據進行判斷,效率得到提高.

圖1 異常數據特征分布Fig.1 Characteristic distribution of abnormal data

圖2 異常數據挖掘時間對比Fig.2 Comparison in mining time of abnormal data

為了進一步驗證改進方法的有效性及可行性,分別對改進方法與信息熵法及機器學習法進行挖掘精度方面的對比.在異常數據集范圍一定的情況下,異常數據挖掘精度對比分析如圖3所示(圖3a利用3類異常數據簇,3b利用5類異常數據簇).

圖3 異常數據挖掘精度對比Fig.3 Comparison in mining precision of abnormal data

總體比較,相對于機器學習法和信息熵法,采用改進方法進行異常數據挖掘時,其挖掘出的異常數據與實際異常數據更加接近.其他兩種算法挖掘過于保守,能夠挖掘的異常數據較為有限,而本文所提出的方法在某些異常數據簇中的表現過于激進,挖掘精確度有待進一步提高,針對不同異常數據簇進行權重與閾值的調整將是下一步主要研究目標.

4 結 論

針對傳統異常數據挖掘方法存在挖掘精度低,效率差的問題,提出了基于FWSCA與差分進化法的遠程虛擬教育中異常數據挖掘方法,通過實驗分析得到如下結論:

1) 采用改進異常數據挖掘方法時,其數據挖掘時間相比信息熵法和機器學習法有了大幅降低,提高了數據挖掘效率.

2) 改進方法總體的挖掘精度要優于傳統方法,但在某些異常數據簇中表現過于激進,而傳統方法過于保守,需要在權重與閾值方面進一步調整.

[1]牛耕,吳亮.論計算機遠程教育與多媒體技術 [J].科技經濟市場,2015(4):87-88.

(NIU Geng,WU Liang.Theory of computer remote education and multimedia technology [J].Science & Technology Economy Market,2015(4):87-88.)

[2]黃興,孟威,董宏宇,等.電力信息網和通信數據網融合的探索 [J].電力信息與通信技術,2014,21(5):45-48.

(HUANG Xing,MENG Wei,DONG Hong-yu,et al.Exploration of electric power information network and communication of data fusion [J].Electric Power Information and Communication,2014,21(5):45-48.)

[3]鄭羽潔,李茜.基于大數據混沌特性的分區域異常數據挖掘 [J].河池學院學報,2015,21(5):68-73.

(ZHENG Yu-jie,LI Qian.Regional anomaly data mining based on chaotic characteristics of big data [J].Journal of Hechi University,2015,21(5):68-73.)

[4]龔健虎.基于雙曲游散牽引的飛行異常操作數據挖掘 [J].控制工程,2014,21(4):617-620.

(GONG Jian-hu.Flight abnormal operation data mining based on stray traction in hyperbolic [J].Control Engineering of China,2014,21(4):617-620.)

[5]楊庭庭,徐凱.人工智能用于異常數據挖掘研究綜述 [J].電子技術與軟件工程,2014(8):198-200.

(YANG Ting-ting,XU Kai.Artificial intelligence for abnormal data mining research [J].Electronic Technology & Software Engineering,2014(8):198-200.)

[6]王傳玉,劉震,王懷彬.一種基于OPTICS和IncLOF的異常數據挖掘算法 [J].天津理工大學學報,2015,31(6):14-18.

(WANG Chuan-yu,LIU Zhen,WANG Huai-bin.An outlier data mining algorithm based on OPTICS and IncLOF [J].Journal of Tianjin University of Techno-logy,2015,31(6):14-18.)

[7]郭黎利,張海龍,孫志國,等.一種高頻帶利用率的PCSS-OFDM通信技術 [J].沈陽工業大學學報,2015,37(5):542-547.

(GUO Li-li,ZHANG Hai-long,SUN Zhi-guo,et al.A PCSS-OFDM communication technology with high band efficiency [J].Journal of Shenyang University of Technology,2015,37(5):542-547.)

[8]王遠亮,葛建華.一種QoS網絡路由通信數據時延WRR算法優化研究 [J].計算機光盤軟件與應用,2014(15):287-288.

(WANG Yuan-liang,GE Jian-hua.QoS routing network communication data delay WRR algorithm optimization research [J].Computer CD Software and Applications,2014(15):287-288.)

[9]陳鵬,司健,于子桓,等.基于信息熵的網絡流異常監測和三維可視方法 [J].計算機工程與應用,2015,51(12):88-93.

(CHEN Peng,SI Jian,YU Zi-huan,et al.Flow abnormity supervision based on information entropy and 3D visualization [J].Computer Engineering and Applications,2015,51(12):88-93.)

[10]韓瑩,李姍姍,陳福明.基于機器學習的地震異常數據挖掘模型 [J].計算機仿真,2014,31(11):319-322.

(HAN Ying,LI Shan-shan,CHEN Fu-ming.The seismic anomaly data mining model based on machine learning [J].Computer Simulation,2014,31(11):319-322.)

[11]潘俊方,樊阿嬌,茹艷,等.基于物聯網的智慧交通大數據挖掘系統 [J].無線互聯科技,2016,12(5):25-26.

(PAN Jun-fang,FAN A-jiao,RU Yan,et al.Intelligent traffic big data mining system based on iot [J].Wireless Internet Technology,2016,12(5):25-26.)

[12]董本清,彭健鈞.復雜網絡數據流中的異常數據挖掘算法仿真 [J].計算機仿真,2016,33(1):434-437.

(DONG Ben-qing,PENG Jian-jun.Abnormal data mining algorithm in complex network data flow simulation [J].Computer Simulation,2016,33(1):434-437.)

[13]王莉君,何政偉,馮平興.基于ICA的異常數據挖掘算法研究 [J].電子科技大學學報,2015,44(2):211-214.

(WANG Li-jun,HE Zheng-wei,FENG Ping-xing.Study of outlier data mining algorithm based on ICA [J].Journal of University of Electronic Science and Technology of China,2015,44(2):211-214.)

(責任編輯:景 勇 英文審校:尹淑英)

Abnormal data mining technology in remote virtual education communication

YANG Qiong1,2, KUANG Shan-yun3

(1. College of Education and Science, East China Normal University, Shanghai 200062, China; 2. Department of Information Technology, Qiongtai Normal University, Haikou 571127, China; 3. School of Educational Information Technology, South China Normal University, Guangzhou 510631, China)

Aiming at the low accuracy and poor efficiency problems when the traditional mining methods are applied to the abnormal data mining in the remote virtual education communication, an abnormal data mining method based on FWSCA and differential evolution method in the remote virtual education was proposed. The data characteristics of remote virtual education communication were extracted with the information gain method. In addition, the data characteristics of online communication were clustered with the introduction of WTA rule. On this basis, the data were distinguished with the sparse score method, and the FWSCA in combination with the differential evolution method was adopted to conduct the abnormal data mining in the remote virtual education communication. The results show that when it is used for data mining, the proposed method exhibits higher mining precision and short mining time, and has certain advantages compared with the traditional mining algorithm.

remote virtual education; communication; abnormal data; mining; data characteristic; clustering; distinguish; precision

2016-08-31.

海南省高校教育教學改革研究項目(Hnjg2015-81).

楊 瓊(1974-),女,云南大理人,副教授,碩士,主要從事信息技術與多媒體應用等方面的研究.

10.7688/j.issn.1000-1646.2017.04.10

TP 391

A

1000-1646(2017)04-0412-05

*本文已于2017-03-28 17∶09在中國知網優先數字出版. 網絡出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170328.1709.036.html

猜你喜歡
數據挖掘特征方法
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产一区二区三区视频| 2022国产91精品久久久久久| 亚洲a级在线观看| 一本大道AV人久久综合| 国产精品片在线观看手机版| 日本亚洲最大的色成网站www| 国产福利免费视频| 久热中文字幕在线| 久久久亚洲国产美女国产盗摄| 亚洲第一区欧美国产综合 | 国产特一级毛片| 国产精品亚欧美一区二区| a毛片在线播放| 亚洲性影院| 四虎成人精品在永久免费| 一本大道香蕉高清久久| 久久精品人妻中文视频| 国产网站黄| 99久视频| 国产在线观看91精品亚瑟| 女人18毛片水真多国产| 黄色网站在线观看无码| 爽爽影院十八禁在线观看| 国产亚洲视频在线观看| 热re99久久精品国99热| 国产精品太粉嫩高中在线观看| 国产香蕉在线视频| 国产欧美中文字幕| 久久久久久久久久国产精品| 亚洲人人视频| 99热最新在线| 伊人狠狠丁香婷婷综合色| 91小视频在线观看免费版高清| 5388国产亚洲欧美在线观看| 中文精品久久久久国产网址| 国产欧美日韩在线一区| 丁香婷婷激情网| 国产精品美女网站| 午夜啪啪福利| 亚洲日韩欧美在线观看| 国产成人91精品免费网址在线| 九色在线视频导航91| 亚洲AV无码乱码在线观看裸奔| 99r在线精品视频在线播放| 91亚瑟视频| 国产欧美日韩免费| 久久综合结合久久狠狠狠97色| 亚洲欧洲自拍拍偷午夜色| 国产精品私拍在线爆乳| 日韩国产另类| 欧美日韩专区| 久久99精品久久久久久不卡| 婷婷色丁香综合激情| julia中文字幕久久亚洲| 国产成人亚洲精品色欲AV| 性欧美久久| 中文字幕人妻av一区二区| 亚洲Aⅴ无码专区在线观看q| 免费观看成人久久网免费观看| 日韩毛片免费视频| 欧洲成人在线观看| 日本a级免费| 美女潮喷出白浆在线观看视频| 韩日午夜在线资源一区二区| 视频一区视频二区日韩专区| 黄色网在线| 国产流白浆视频| 免费看a毛片| 色悠久久久| 日日噜噜夜夜狠狠视频| 国产亚洲高清在线精品99| 高清亚洲欧美在线看| 黄色网页在线播放| 97青青青国产在线播放| 精品一區二區久久久久久久網站| 亚洲欧美不卡视频| 亚洲视频免费在线| 欧美日韩精品一区二区在线线| 人妻21p大胆| 国产网友愉拍精品视频| 亚洲三级色| 三区在线视频|