大數據在高校學生學習行為模式挖掘中的應用

2018-01-15 14:09:41王曉雪張家禎郭賀王灝

智能計算機與應用 2017年6期

王曉雪+張家禎+郭賀+王灝

摘要：關鍵詞：中圖分類號：文獻標志碼： A文章編號： 2095-2163（2017）06-0167-02

Abstract： With the arrival of the era of big data， people's lives and work are surrounded by massive data， and various kinds of information are also produced at the same time. And a lot of security risks are faced by big data in the process of collection， storage and use. This paper mainly discusses the big data information security issues， introduces the related technology of big data， and analyzes the techniques suitable for mining the learning behavior model.

0引言

隨著大數據時代的到來，人們在通過各種方式獲取信息的同時，也持續產生了各種各樣的信息，如訪問網站的瀏覽信息、電商網站的消費記錄、各種登記信息等。不僅如此，科學計算、醫療衛生、金融、零售業等各行業也均有大量數據在不斷產生和涌現，專家預計到2020年這一數值會超過40 ZB，因此引發了學術界和各國政府的熱議與重視。本文即針對這一課題展開如下探討論述。

1大數據作用

大數據技術目前已經被應用到各個領域，其現實作用可分為以下3類：

1）獲取信息進行預測，如利用數據分析預測股票行情走勢。

2）分析對象個性化特征，如對于網購客戶的搜索信息分析后進行商品推薦。

3）去偽存真辨別真假，如對于論壇虛假信息進行過濾等。

2信息安全問題

研究可知，大數據的利益價值與其帶來的信息安全問題同樣不容忽視。而另有關于社交網絡信息的分析研究表明，通過用戶錄入的個人信息可以發現其興趣愛好、生活習慣、工作領域等信息。目前的保護技術仍有待改進，掌握了客戶信息的企業常常認為經過匿名處理來隱藏用戶標識符即可充分發揮保護作用，但事實上卻并非如此，當相關信息進行相互結合處理時，部分用戶信息還是會被顯性識別出來。目前用戶信息的收集、管理和使用等主要依托企業自律，尚待形成嚴密監管體系，用戶也無法自行決定個人信息的使用和銷毀。

當前，主要的大數據信息保護技術有匿名保護和數據水印技術。其中，匿名保護技術可用于大數據的發布時，如社交網站的發布信息為大數據的主要來源之一，利用匿名保護技術既可以隱藏用戶的標識和屬性，也可以將用戶間關系的保護一并展開完成。而水印技術則是將標識信息嵌入至數據信息中，而且也不會影響數據使用的技術。

3數據挖掘技術

數據挖掘技術具體包括了聚類、分類、關聯規則、信息檢索及序列模式等內容。其中，關聯規則能夠找到數據間的關聯關系，序列模式能夠發現數據中的頻繁模式，而分類、聚類技術就能夠分別在規則已知和未知的情況進行數據分類，另外的信息檢索技術則主要用于提升搜索引擎的搜索質量和效率。本文即以筆者所在院校的學生學習行為模式作為研究對象，將各類數據挖掘融入了學生行為的研究管理實踐，并以此為核心建構科學合理教學模式。

3.1院校大數據特點分析

為發現高校學生的學習行為模式，除學生自行安排的學習時間段外，為使數據收集準確且完整，還需要增補課余時間的安排情況，該過程不可避免地涉及到學生隱私，由此可能導致數據量不足或者由于人為因素得到噪聲和不完整數據。相對應地，由網絡系統記錄的在線學習情況的數據則要更加準確和客觀，但這卻要有關技術和部門的支持與配合。高校學生專業特點不同，學習行為隨學期而具備了階段性變化，因此受到現實情況限制，只收集某專業某一屆學生畢業前的學習行為信息，數據會呈現局部特征明顯、但普遍代表性不高的特點。綜上分析可知，在某專業數據信息收集、分析，并經時間離散化等結構化預處理后，可以存儲于數據庫中等待數據挖掘技術的實踐操作研究。

3.2數據挖掘技術應用解析

1）分類、聚類技術。如果需要通過學習行為對學生進行分類，則適合采用分類聚類技術。具體來說，分類是一種有指導的技術，可以將學生劃分至預先定義的各類中，如可以將學生簡單按照成績分為兩組，也可以細化成按照優、良、中、差多個級別不等。而聚類是一種無指導的技術，需要先從數據出發找到學習行為中相近的記錄實現分組，分組目標事先不能確定，主要依賴數據特征識別分組，結果也需要用戶自行識別和定義。

2）關聯規則技術。利用關聯規則技術則能夠找到學生群體中影響學生成績的行為因素，如某些學生的生活習慣為晝伏夜出，經常逃課，則必然學習成績不良，那么推得的關聯規則即為{（晝伏夜出，逃課）→成績差}，利用這一規則可以輔助教師對學生善加引導，建立和完善管理機制。

3）序列模式挖掘技術。如果需要預測學生學習行為模式，就適于利用序列模式，因其發現事件的先后順序規律，如若有學生晝伏夜出，那么該生有可能即將逃課，最終可能影響成績和畢業，這個模式可以描述為{晝伏夜出→逃課→成績差}。利用如上研究模式，教師就可對學生提前施以約束與糾正，防微杜漸，避免最壞的結果發生。

除了實踐積累的教學經驗和心理學知識輔助，教師還需要更多先驗知識來提升學生指導工作的專業性與靈活性。最好是能夠利用大數據處理技術發現無意忽略或者無法發現的知識，能夠輔助策略性指導的規律，因此研究建議：可以更多考慮選用序列模式挖掘技術。endprint

序列模式挖掘的代表算法有Apriori[1]、GSP[2]、PrefixSpan[3]、SPADE[4]等。這里，關于序列模式挖掘的重點算法將給出如下分析闡釋。

① Apriori算法。設計策略為：首先遍歷數據庫找到長度為1的頻繁序列模式L1，算法步驟如下：

Step 1L1集合中的序列進行兩兩連接，形成的候選集合放在C2中；

Step 2對于C2中的每個長度為2的序列通過數據庫進行測試，如果為頻繁序列則放在L2中，否則放棄。對于L2中的頻繁序列按照上述連接和測試步驟而形成了遞歸處理流程，直至無法找到足夠的頻繁序列Ln進行連接為止。但因為由Ln生成Cn+1的過程中會產生大量的候選序列，尤其是C2的數量非常多，并且兼有源數據庫的海量特點，對于Cn+1中每個序列都要遍歷一次數據庫，使得Apriori算法的缺點也尤為顯著與突出。

② GSP算法和PrefixSpan算法。Srikant提出的GSP算法和Han 等提出的PrefixSpan算法都針對Apriori算法問題引入了變化與改進，GSP算法在Apriori算法的基礎上附增了時間約束，并且在存儲序列時采用拓撲結構輔助篩選頻繁序列，縮小了搜索目標集合，GSP算法比Apriori算法運行時可快上2～20倍。而PrefixSpan算法則改變了搜索策略，利用源數據集找到L1，以L1為前綴進行投影，在生成的投影數據庫中對L1進行挖掘并建立L1投影數據庫，在這個過程中不會生成候選序列集合，L1連接L1便形成了頻繁序列L2，但L1中每個序列均需要生成一個投影數據庫，因此空間和時間上主要就是用于保存和處理投影數據庫，后續的挖掘都是在新投影數據庫中定義支持遞歸設計，搜索規模不斷縮小。

③ SPADE算法。分析可知，前述算法都是基于水平格式數據庫，SPADE算法則是基于垂直ID-LIST格式數據庫的搜索算法，相當于將原來的搜索空間分解成基于頻繁序列的不同的格，然后在每個格里進行遞歸挖掘。雖然搜索策略仍舊是連接-測試，但卻簡化了連接和測試過程。

之后，還有針對數據庫更新時的增量式序列模式挖掘，能夠挖掘多維信息的多維序列模式挖掘，能夠增加用戶參與挖掘機會的基于約束的序列模式挖掘。

對于上述算法，Apriori算法易實現但效率不理想；PrefixSpan算法雖然更加理想但不易實現，并更適宜與約束條件相結合；SPADE算法需要數據結構的配合，缺點與Apriori算法相同。經上述分析，針對學生學習行為數據具有少量且結構化的特點，選擇Apriori算法，并結合一定約束條件來設計展開挖掘。

4結束語

本文主要分析了大數據產生的信息安全問題，重點闡述了數據挖掘經典算法并從中選取適合處理學生數據的算法，未來將以實現算法Apriori，并嘗試添加約束提高效率，去掉用戶不感興趣的序列為研究目標，進一步系統推進相關研究。

參考文獻：

[1] AGRAWAL R， SRIKANT R. Mining sequential pattern[C]//Proc.of the 11th International Conference on Data Engineering. Taipei：IEEE，1995：3-14.

[2] SRIKANT R， AGRAWAL R. Mining sequential patterns：Generalizations and performance improvements[M]//APERS P， BOUZEGHOUB M， GARDARIN G. Advances in Database Technology — EDBT' 96. EDBT 1996. Lecture Notes in Computer Science， Berlin/Heidelberg：Springer， 1996，1057：1-17.

[3] PEI Jian， HAN Jiawei， MORTAZAVIASI B， et al. Prefix Span：Mining sequential patterns eficiently by prefix-projected pattern growth[C]//2013 IEEE 29th International Conference on Data Engineering （ICDE）（2001）.Heidelberg， Germany：IEEE Computer Society， 2001：215-224.

[4] ZAKI M J. SPADE： An efficient algoritm for mining frequent sequences[J]. Machine Learning， 2001，42（1）：31-60.endprint