文章編號:1672-5913(2008)12-0154-05
摘要:本文首先介紹了Web挖掘和電子學習(e-learning)及其在商業和教育中的應用,然后在WebCT學習環境中對學生成績做了一個模式分類的預測實驗,證明了Web挖掘可以成為構建e-learning知識的一種方法,具有改善學生學習模式的潛在作用。
關鍵詞:E-learning(電子學習);Web挖掘;課程管理系統(CMS);數據挖掘;WebCT
中圖分類號:G642
文獻標識碼:B
引言
WWW是一個具有各種各樣格式的巨大的多類型的信息資源,研究人員已開始在這個分布式網絡數據倉庫里研究人的行為并試圖建立模型來理解在虛擬環境中人的行為。當數據挖掘應用于互聯網時,稱為Web挖掘。它是一個從大的數據集里,抽取出隱含在預測信息的有用信息并發現有用模式、概況(profiles)和傾向等的一個過程。Etzioni定義Web挖掘是“...利用數據挖掘技術從Web文檔和服務中自動地發現和抽取信息。”Web挖掘是發現知識的一個迭代過程,是理解網絡消費者和商家的一個重要的策略。
通過互聯網絡可訪問在線學習(電子學習)系統,這些學習系統是具有獨立數據倉庫的企業內部互聯網,通過互聯網可以發現更廣泛的人的行為。電子學習系統通過擴大教育機會來改善教育,比那些沒有很好利用時間并有地點限制的傳統課堂具有更大的潛力,并通過提供新的互動式學習服務和功能來提升傳統課堂效率。電子學習系統提供給學生基于網絡的文本,圖像,多媒體,并提供給教師和學生異步和同步相互交流的方式。電子學習系統使用通用應用軟件提供多種學習方式(自定進度,協作,補習),也提供了豐富的媒體和復雜的交互。在高等教育電子學習中經常使用該應用軟件,此應用軟件被稱為課程管理系統(CMS)。CMS的例子包括Blackboard教育系統管理平臺和WebCT。理解學生行為的組成和行為模式建模的表示在教育研究領域具有挑戰性。
Web挖掘方法可應用于基于CMS的電子學習并解釋系統的使用。Web挖掘可用來探究和研究活動模式。在電子學習系統,闡明并確定使用方式,可提供更深入的了解學生是如何開展基于網絡的學習,以便更好地組織指導網上學習活動。基于CMS的電子學習系統利用Web挖掘可以探究學習行為和模式。然而只有較少文獻討論到基于Web挖掘的CMS。本文介紹了Web挖掘方法,使用分類方法來將CMS數據集進行分類,并解釋了如何應用Web挖掘方法產生模式。本文的關鍵是為了說明Web挖掘的潛力,并確定如何在當前的CMS中進行應用。下面的例子說明了Web挖掘對電子學習的潛在好處。
(1) 理解學生的行為:大學管理人員和教師,通過了解在網絡系統中學生的動態行為,也許能更好地實施電子學習系統。
(2) 確定電子學習系統效能:行為模式可能與系統的性能相關,并能使系統的配置更個性化。管理人員和教師也許能發現E-learning系統的各種使用范圍,并調整資源來優化系統的技術性能。
(3) 衡量教學效果:在電子學習系統,學生使用電子郵件,網上論壇,反饋表格等,表達他們關注的問題和有什么疑問。這些數據完全被記錄在電子學習系統里。 Web挖掘可提供學生活動結果并定期反饋給教師。
這三個例子說明了在CMS中Web挖掘如何能提供關于學生活動的新見解,并處理所需的信息,也建議由管理者和教師定制實現E-Learning。
1文獻調查
Web挖掘在經常用于發展商業和市場智能。例如,在線零售商經常使用Web挖掘來分析在線消費者數據來預測消費者的行為。Web挖掘給數字服務供應商帶來的商業好處包括個性化、協同過濾、加強客戶支持、產品和服務策略的定義、粒子營銷(營銷或定制一個客戶的產品)和欺詐檢測。
電子商務中有下面的幾個Web挖掘算法和系統。Chakrabarti在Web結構挖掘中作出了開拓性努力,這是一個使用超文本鏈接和文件結構的例子。然而這些Web結構方法只考慮到超鏈接信息,而很少關注Web內容。Cooley、Mobasher和Srivastava證明為了達到基于Web用戶概況(profiles)的使用,能動態向Web用戶進行推薦的目的,使用Web使用挖掘是一個很好的辦法。這些行為數據在電子商務活動中的交叉銷售及售后服務非常有用。buchner和mulvenna提出了知識的發現過程,從Web數據中以確定商業智能。基于三項分類標簽“非客戶”、“訪客曾經”、“定期訪客”,該公司可以提供一個特別優惠以吸引潛在的網上購物者。該公司還用關聯規則和序列模式以發現客戶在網上瀏覽行為,使網上購物者遵循一定的路徑就可以得到獎勵,以保證他們對網站的忠誠。Padmanabhan使用網絡服務器日志為某一特定網站產生關于訪問網頁的信任模式。Padmanabhan確定了15個有關數據的信任,分為三類:“(1)使用優惠券,例如“有高收入的年輕購物者傾向于不使用優惠券”。(2)購買食物與正規的飲料,如“購物者在有兒童的家庭傾向于購買正規飲料多于食物”。(3)每天的購物,如“專業人士傾向于周末到商店而不是平時”。
相對于在商業上的Web挖掘活動,沒有更多的Web或數據挖掘應用到教育中。然而,一些工作可說明我們努力的方向。有一項研究側重于社區學院里學生招生(Luan),并報告在此案例中數據挖掘是用來監測和預測社區學生轉移至4年制的大學。此案例研究提出的模型代表已轉學學生的概況,以此來預測目前在社區學院登記的哪些學生有可能轉學。這些預測允許學院個性化和定制與這些可能需要一定幫助和支持的學生進行在線交互。在這種情況下,Luan選擇了一組特征來調查。
① 人口統計信息:年齡,性別,種族劃分,中學,郵政編碼,計劃工作時間,最初報名時的教育狀況
② 財政援助
③ 轉學狀況(基準變量的兩倍)
④ 職業,基本技能,科學,文科課程
⑤ 由課程種類得到和指定等級整個單元
Luan顯示數據挖掘可以應用到高校每年基本信息的數據,所以此模型能用來反復地監控學生轉學的狀態。通過一系列的數據挖掘分析,預測已被轉學學生準確率至少為77.5%,不會轉學的學生預測準確率至少70.0%(數據集合中學生的人數是32000)。Web和數據挖掘的潛在好處是能有效地對虛擬未探索的教育記錄有所支持,并獲得新的有效信息。在表1中,前兩欄Luan顯示在商業世界和教育領域類似問題,第三欄是本文加上去的,是對前兩個問題在E-Learning課程中的延伸。

2研究目標
考慮到Web挖掘在教育中的局限性及其在在線學習中的潛在好處使得更多學生以此為中心,從而有效利用Web挖掘,我們為這個項目設定兩個研究目標:(1)在線學習中的一組CMS數據集通過行為模式能否預測學生的學業成績;(2)能較好理解運用Web挖掘到E-learning系統的過程和從已存版本CMS中去掉使用數據集的一些約束條件。而Web挖掘是商業信息系統中建立知識和價值的一個經過驗證公認的方法,但它在教育中的應用沒有得到很好的理解。從這個意義上說,這項研究主要是探討性的,然而目的是對學習活動建立新的見解,同樣重要的是了解Web挖掘方法是否適合CMS。從CMS中抽取數據并運用Web挖掘方法具有哪些挑戰?數據格式和數據分析需要采取怎樣的策略來建立有意義的觀點?在CMS或Web挖掘方法來提高Web挖掘在E-leaning系統中應用需要哪些挑戰。這項研究重要結果將運用到理解如何更好地利用Web挖掘到E-learning中。應用到此項研究的Web挖掘方法將集中于學習者的行為。例如,我們將研究學生概況,獲取學習資源的頻率,有相似模式學生聚類和學生行為的交叉關系。
3過程和方法
Web挖掘是一個多階段的過程,此過程需要了解如何將數據存儲、格式化在一個數據集中,以及工作階段的選擇、預處理、轉化和挖掘。下面用WebCT來說明這些過程。
3.1選擇
這些數據來自課程管理系統“WebCT”。WebCT中的數據格式如下所示:
用戶概況包括學生的人口統計數據,如用戶身份ID、性別、學歷等。這些數據可通過WebCT中的學生管理工具可得到。
使用數據代表訪問過網頁。這些數據項包括IP地址、頁面引用、訪問時間等。訪問日志是在WebCT中的Web挖掘中主要的使用數據源。
網頁層次結構的描述,內容的主要鏈接。從不同數據源地址如服務器端、客戶端、代理服務器和數據庫等收集到的代表結構的數據。在WebCT中,數據來自服務器端。
3.2預處理
這一步主要包括數據清理。在數據清洗過程中有幾個步驟。首先,必須從文件中刪除所有圖像,因為它們不包括在模式發現里。第二,例如HTTP狀態碼404意味著“在服務器上未找到資源”,這樣所有的HTTP狀態碼的條目也將被刪除掉。第三,從網站代理來的請求都被清除掉。之所以排除這些從網站代理來的請求,是因為有這樣的機制:它們取代服務器回答客戶請求,并沒有深入了解可以識別的用戶的行為。
3.3轉換
數據被轉換成能在不同挖掘應用中可以使用的不同格式。在轉換過程中有這樣幾個最常見的步驟:用戶識別、會話識別、路徑補全和學習行為影射。綜合像后臺數據庫等其他數據也要考慮進去。
3.4挖掘
可以應用到Web領域中的數據挖掘技術有許多,如統計、分類、關聯規則、序列模式、聚類等。本項目使用的數據挖掘技術是分類,它使用一組預分類的例子來生成一個模型,此模型可以歸類人口記錄。有多種算法進行分類,如決策樹、神經網絡分類等。分類算法從預定義的交易訓練集開始工作。分類訓練算法使用這些預定義好的例子來確定一組參數來進行適當地識別。將這些參數編碼成模型的算法被稱為分類器。經過有效地分類,分類器被用在預測模式分類新記錄到這些相同預定義的類里。例如,能識別學生學業表現的分類器可以用來幫助決定是否提供個性化的推薦給某一學生。本文使用了決策樹c4.5,在下面的章節會詳細地介紹。C4.5是Quinlan提出的一個算法,用來從數據中推導出決策樹。
3.5數據
在這項研究中,目標人群是中西部一所研究性大學的選有許多課程的本科學生。對WebCT中的一門課程的訪問日志文件進行分類得到二元決策樹。這門課程是(面授和在線學習)的混合課程,上這門課的總學生人數是748。
仔細調查這門課數據可以識別哪些和學生行為和能夠預測等級的屬性到何種程度。本研究中的預測形式具有季節性的,這是一個隨著時間推移用來代表季節變化的一個術語。季節性的一個例子是一年中的銷售變化,每年高峰期在圣誕節。本研究的一個重要的貢獻是列入季節性影響作為一個教育的屬性并和不同樣本大小訓練數據做比較來確定一個好的分類器。
日志文件包括超過90000條目。WebCT中的日志文件條目如下所示:
???.???.???.?? - ****** [17/Jan/2006:18:10:26 -0600] \"GET
/SCRIPT/stat_1200_lr2/scripts/student/serve_home?_homepage+START HTTP/1.1\" 200 3051
\"-\" \"Mozilla/4.0 (compatible? MSIE 5.0? Mac_PowerPC)\"
(注: *****表示學生ID,???表示IP地址)
評價學生在這門課中的表現時是使用標準變量來表示學生的等級,根據他們的整體等級分為:好,中,差。表2顯示了這些分類。

4結果與討論
Web使用挖掘中使用分類的挑戰是在建立分類器之前很難找到更好的屬性。這混淆了在線學習,因為WebCT文件系統并不持有容易與重要教育結構相關聯的數據方式。舉例來說,像討論頁等功能頁面沒有URL的表示,并且URL的層次很簡單,這意味著不能很好地表示一個頁面的深鏈接。為了解決這些問題,研究者必須從WebCT日志中構建合理的參數。例如,構建Access Period變量來表示學生在午夜12:00和上午8:00和其他在上午8:00到午夜12:00之間區別。同樣,“Test date”表示當有一個測試時,是否在日志文件記錄條目,用“Lecturing date”表示當有講座時是否在日志文件記錄條目。根據WebCT站點可用的信息,可得到這項研究中的屬性為:測試日期、講座日期、學院、學術水平,見表3。

在估計哪些Web使用可能是重要的基礎上,選擇了大部分的屬性、相關的學習行為并找出哪些代表這些屬性的數據是實際可用的。屬性“Access period”、“Test date”和“Lecturing date”決定了周期性因素、在線學習行為和假設的學生周期性地訪問Web站點課程。
經過數據預處理,日志項目中可得到17317個會話。表4顯示了表3中列出了對應屬性日志數據部分樣本。

在這里我們選擇一周、兩周、三周和一個月的日志數據作為訓練數據,目的是確定是否能用少的數據集來構建在e-learning系統中分析學生訪問行為的具有較高精確度和召回率的相對較好的分類器。精確度是正確被分類的數目在整個被分類(包括正確的和不正確的)數目上所占的比例。召回率是正確被分類的數目在整個類數目所占的比例。表5顯示了一周的數據相當接近,可以準確預測類1中作為大數據集的學生。

在某種程度上,老師可以利用學生的行為來預測學生的表現,這樣他們便可以采取的能滿足學生個別需求的以學生為中心策略。該方法的應用顯示幾個星期的日志文件,可以用來預測整個學期70%的學生的最終成績等級的準確度。在此基礎上,假設為學生做一個新的和個性化的推薦預測的結果不好,或者如果預測的學生等級不符合,則由教師來改進教學策略。
5結論
本文揭示了Web挖掘方法在CMS中的應用,并識別了一些利用Web挖掘方法能發現的例證性的學習模式。盡管能發現一些有趣的模式,但仍需探索Web挖掘工具在教育方面的應用。研究結果表明,Web挖掘結合其他形式的數據收集,對我們認識并構建關于E-learning知識有潛在的好處。本文的第二個貢獻是對如何提高e-learning數據集中的Web挖掘進程具有借鑒意義。
目前的研究顯示,Web挖掘在CMS的大型數據集中識別模式對教學和學習非常有用。這些模式可能是某種個性化的形式,并可能導致改進學習和教學過程。例如,如果一個軟件代理能監測學生活動的模式并匹配成績好的學生的相關模式,然后得到改變學生和教師行為的決策建議。這表明我們利用Web挖掘在E-learning中的應用才剛起步,有必要進一步研究和調整Web挖掘的格式和用法來適應教育。