王詩(shī)圓,申 瑩,趙永翼
(沈陽(yáng)師范大學(xué)軟件學(xué)院,沈陽(yáng) 110034)
隨著互聯(lián)網(wǎng)行業(yè)技術(shù)快速發(fā)展以及現(xiàn)代互聯(lián)網(wǎng)技術(shù)在各行各業(yè)內(nèi)的廣度深度的推廣,互聯(lián)網(wǎng)內(nèi)用戶的數(shù)量級(jí)也在迅速擴(kuò)大。同時(shí),隨著現(xiàn)代學(xué)習(xí)型社會(huì)建設(shè)迫切需要,基于互聯(lián)網(wǎng)技術(shù)的網(wǎng)絡(luò)教學(xué)已經(jīng)成為人們學(xué)習(xí)專業(yè)知識(shí)的重要途徑之一。與傳統(tǒng)的學(xué)習(xí)方法相比,網(wǎng)絡(luò)教學(xué)有許多優(yōu)勢(shì)。用戶可以利用課程網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)提供的資源實(shí)現(xiàn)課程的重復(fù)學(xué)習(xí),及時(shí)擺脫傳統(tǒng)教育中教師的束縛,為不同基礎(chǔ)的學(xué)生掌握課程內(nèi)容提供良好的教學(xué)重復(fù)功能。網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的結(jié)合使得網(wǎng)絡(luò)教學(xué)能夠?qū)崿F(xiàn)良好的教師和應(yīng)用。家庭之間的交流。隨著Ajax技術(shù)的成熟和普及,除了視頻模式之外,在線教學(xué)還可以通過(guò)直播來(lái)進(jìn)行。在教學(xué)過(guò)程中,用戶還可以使用直播模塊提問(wèn)、討論和與教師或其他用戶交流。課后,用戶也可以使用電子郵件和留言板與老師或其他用戶互動(dòng)。網(wǎng)絡(luò)教學(xué)并不是傳統(tǒng)的以教師和學(xué)生為中心的星型學(xué)習(xí)模式,而是一種以教師為中心的網(wǎng)絡(luò)拓?fù)鋵W(xué)習(xí)模式,更加科學(xué)更加地完善。
20世紀(jì)80年代末,出現(xiàn)了數(shù)據(jù)挖掘技術(shù),即從海量數(shù)據(jù)信息中獲取有用信息的過(guò)程。在信息數(shù)據(jù)管理、檢索和分析過(guò)程中,基于數(shù)據(jù)庫(kù)技術(shù),包括關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)。存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)通過(guò)萬(wàn)維網(wǎng)被用戶廣泛使用,用戶的行為數(shù)據(jù)也記錄在數(shù)據(jù)庫(kù)中。分析和挖掘這些數(shù)據(jù)已成為一項(xiàng)重要的任務(wù)。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和進(jìn)步,技術(shù)體系逐漸成熟。人們正在轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)在實(shí)際項(xiàng)目中的應(yīng)用。通過(guò)不同的挖掘策略和數(shù)據(jù)集成方法,可以得到較好的結(jié)果。數(shù)據(jù)挖掘技術(shù)在我們?nèi)粘I钪械膽?yīng)用是多樣的,并且滲透到我們生活的各個(gè)方面。它對(duì)我們的生活和工作方式有著重要的影響。即使對(duì)人們的學(xué)習(xí),投資和健康也有微妙的影響。
Apriori算法是現(xiàn)在關(guān)聯(lián)規(guī)則算法中最有影響的頻繁項(xiàng)集挖掘算法之一。其中它的基本思想是先找到所有的頻率集,這些頻率集的出現(xiàn)頻率至少與預(yù)先定義的最小支持頻率相同。然后由頻率集生成強(qiáng)關(guān)聯(lián)規(guī)則,滿足最小支持度和最小置信度。然后,我們使用步驟1中找到的頻率集生成預(yù)期規(guī)則,并生成只包含集合項(xiàng)的所有規(guī)則。每個(gè)規(guī)則的右側(cè)只有一個(gè)項(xiàng)目。這里我們使用中間規(guī)則的定義。一旦生成了這些規(guī)則,就只剩下那些大于用戶給定的最低可信度的規(guī)則。為了生成所有頻率集,使用遞歸方法。偽代碼如下:
(1)L1= fi nd_frequent_1-itemsets(E);
(2)for(k=2 ;Lk-1 ≠ Φ ;k++){
(3)Ck=apriori_gen(Lk-1,min_sup);
(4)for each transaction t∈E
(5)Ct=subset(Ck,t);/
(6)for each candidate c∈Ct
(7)c.count++;
(8)}
(9)Lk={c∈Ck|c.count≥min_sup}
(10)}
(11)return L=∪ k Lk;
使用關(guān)聯(lián)規(guī)則進(jìn)行內(nèi)容推薦是本文的重點(diǎn)。圖3-1描述了使用關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則和實(shí)現(xiàn)內(nèi)容建議的模型。該模型主要由內(nèi)容推薦和關(guān)聯(lián)規(guī)則挖掘模塊組成。關(guān)聯(lián)規(guī)則內(nèi)容推薦模塊主要根據(jù)用戶訪問(wèn)的頁(yè)面內(nèi)容實(shí)現(xiàn)其他內(nèi)容的推薦功能,關(guān)聯(lián)規(guī)則挖掘模塊主要實(shí)現(xiàn)后臺(tái)管理員根據(jù)用戶訪問(wèn)日志挖掘關(guān)聯(lián)規(guī)則的功能,并使用關(guān)聯(lián)規(guī)則挖掘算法挖掘關(guān)聯(lián)規(guī)則,并將挖掘結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中。

當(dāng)前系統(tǒng)有130項(xiàng)信息(即數(shù)據(jù)項(xiàng)),記錄在當(dāng)前系統(tǒng)中的用戶訪問(wèn)日志被指定為樣本數(shù)據(jù),過(guò)濾樣本數(shù)據(jù)中的訪問(wèn)日志記錄會(huì)刪除由于異常收集而部分過(guò)長(zhǎng)或日志標(biāo)記為空的訪問(wèn)日志記錄。過(guò)濾后,獲得了3460條訪問(wèn)日志記錄。首先設(shè)置最小支持度為3,最小置信度為50,執(zhí)行Apriori算法,得到26條關(guān)聯(lián)規(guī)則。我們知道,設(shè)置較低級(jí)別的支持當(dāng)然可以獲得更多的關(guān)聯(lián)規(guī)則,但是較低級(jí)別的支持也可以通過(guò)關(guān)聯(lián)規(guī)則挖掘一些用戶不多的行為模式,這樣的推薦沒(méi)有更好的挖掘含義,更有可能影響推薦的效果。精品課程網(wǎng)站的內(nèi)容具有長(zhǎng)期性,因此隨著用戶訪問(wèn)量的增加,挖掘關(guān)聯(lián)規(guī)則時(shí),相應(yīng)的最低支持度和置信度應(yīng)該逐漸增加。接下來(lái),最小支持度為0.07,最小置信度為70,Apriori被用于挖掘,產(chǎn)生66個(gè)關(guān)聯(lián)規(guī)則,可以作為課程內(nèi)容推薦。
在算法系統(tǒng)的實(shí)際實(shí)施過(guò)程中,由于樣本數(shù)量限制等原因,系統(tǒng)中仍有一些問(wèn)題需要進(jìn)一步地討論和改進(jìn)來(lái)去解決實(shí)際遇到的問(wèn)題,如樣本數(shù)量級(jí)不足、數(shù)據(jù)處理方式欠缺等,若混合多種算法進(jìn)行數(shù)據(jù)挖掘,實(shí)驗(yàn)結(jié)果將更加符合期望水平。