汪政
(湖南第一師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙410205)
基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜膬?nèi)容分析
汪政
(湖南第一師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙410205)
通過(guò)對(duì)于不同用戶在一個(gè)教育數(shù)據(jù)倉(cāng)庫(kù)大量的SQL查詢進(jìn)行系統(tǒng)分析,可更好地發(fā)現(xiàn)用戶興趣所在,實(shí)現(xiàn)性能的改善。前期通過(guò)利用數(shù)據(jù)挖掘方法,之后的進(jìn)一步研究,數(shù)據(jù)挖掘不再成為主要的研究手段。這里具體研究考慮的對(duì)象是教育數(shù)據(jù)倉(cāng)庫(kù),教育數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)已知的教育行業(yè)的數(shù)據(jù)倉(cāng)庫(kù),它包括數(shù)以百萬(wàn)計(jì)的查詢?nèi)罩拘畔ⅰ?/p>
數(shù)據(jù)挖掘;數(shù)據(jù)倉(cāng)庫(kù);教育數(shù)據(jù)挖掘;教育數(shù)據(jù)倉(cāng)庫(kù)
教育數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)在垂直領(lǐng)域上的一個(gè)行業(yè)細(xì)分,通過(guò)使用數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)匯集不同來(lái)源的各種教育數(shù)據(jù)資源,形成覆蓋教育各領(lǐng)域的、綜合的、面向各種教育主題的教育數(shù)據(jù)資源中心。教育數(shù)據(jù)倉(cāng)庫(kù)不只是具備數(shù)據(jù)倉(cāng)庫(kù)的面向主題、集成、非易失的和隨時(shí)間變化這四個(gè)最重要的特征,還應(yīng)該具備友好的表現(xiàn)形式。
(一)面向主題
它是對(duì)應(yīng)應(yīng)用的過(guò)程中某一個(gè)宏觀分析領(lǐng)域所涉及的分析對(duì)象,是針對(duì)某一決策問(wèn)題而設(shè)置的,采用了一種在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的一個(gè)完整統(tǒng)一并一致的描述面向主題的數(shù)據(jù)組織方式。
(二)集成
原有各個(gè)系統(tǒng)中存儲(chǔ)的數(shù)據(jù)經(jīng)過(guò)提取、整合、計(jì)算、去噪(拋棄分析處理中不需要的數(shù)據(jù)項(xiàng),消除不一致和錯(cuò)誤之處)和補(bǔ)充(增加一些可能涉及的外部數(shù)據(jù))。
(三)非易失
從數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原理和訪問(wèn)的機(jī)制出發(fā),數(shù)據(jù)一旦進(jìn)入教育數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)沒(méi)有轉(zhuǎn)換成為歷史數(shù)據(jù)的這一段時(shí)間間隔內(nèi)是不會(huì)丟失的。
(四)隨時(shí)間變化
數(shù)據(jù)隨時(shí)間變化定期更新,也就是說(shuō)在每隔一段固定的時(shí)間間隔后,會(huì)抽取運(yùn)行各個(gè)系統(tǒng)中產(chǎn)生的數(shù)據(jù),轉(zhuǎn)換后集成到教育數(shù)據(jù)倉(cāng)庫(kù)中。而之前的數(shù)據(jù)會(huì)以過(guò)去的版本的形式仍然保留在數(shù)據(jù)倉(cāng)庫(kù)中;
(五)友好的表現(xiàn)形式
一個(gè)友好、方便的使用界面設(shè)計(jì)面向教育行政部門(mén)的管理人員也是非常重要的。查詢是教育數(shù)據(jù)倉(cāng)庫(kù)服務(wù)的最基本、最主要的內(nèi)容。教育數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中每天產(chǎn)生著大量的查詢?nèi)罩荆ㄟ^(guò)對(duì)查詢?nèi)罩镜膬?nèi)容進(jìn)行分析,可以得出各類用戶的查詢習(xí)慣、傾向,而使用者的這些特征決定了教育數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)、算法是否合理,對(duì)于教育數(shù)據(jù)倉(cāng)庫(kù)(如圖1)建設(shè)和維護(hù)有很強(qiáng)的指導(dǎo)作用。如何對(duì)大量的查詢?nèi)罩具M(jìn)行內(nèi)容分析,目前比較有效地就是通過(guò)數(shù)據(jù)挖掘技術(shù)。

圖1 教育數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)體系
用戶對(duì)于教育數(shù)據(jù)倉(cāng)庫(kù)的每一次查詢都會(huì)被記錄下來(lái),記錄的內(nèi)容包括ID、URL、用戶的IP地址、訪問(wèn)日期、時(shí)間、以及查詢的類型等信息。隨著數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展和時(shí)間的積累,查詢?nèi)罩久繒r(shí)每刻都在迅速增大。如何充分的利用查詢?nèi)罩局杏涗浀臄?shù)據(jù),從中發(fā)現(xiàn)用戶的行為習(xí)慣、系統(tǒng)接受查詢之后的反應(yīng)效率、改進(jìn)系統(tǒng)的設(shè)計(jì)也是一個(gè)新的研究領(lǐng)域。
數(shù)據(jù)預(yù)處理是日志挖掘中最重要階段,是后續(xù)數(shù)據(jù)挖掘和分析能否順利進(jìn)行的前提和關(guān)鍵。數(shù)據(jù)預(yù)處理是為了將日志文件轉(zhuǎn)換成數(shù)據(jù)庫(kù)文件而進(jìn)行的工作,其目的是把教育數(shù)據(jù)倉(cāng)庫(kù)的日志數(shù)據(jù)轉(zhuǎn)換為適合進(jìn)行數(shù)據(jù)挖掘的精確數(shù)據(jù)[2]。
用戶查詢教育數(shù)據(jù)倉(cāng)庫(kù)時(shí)會(huì)自動(dòng)創(chuàng)建查詢?nèi)罩拘畔ⅲǜ黝惾罩镜任募晕④浀腎IS產(chǎn)生的訪問(wèn)日志文件為例,其日志文件包含數(shù)據(jù)形式為:“2009-3-2 08:26:25 127.0.0.1 GET/vv/10 -01.xml 200”,其中以空格為分隔符標(biāo)識(shí),日志文件使用的是一種非關(guān)系模型的結(jié)構(gòu)。首先對(duì)于日志文件進(jìn)行預(yù)處理,才能進(jìn)一步實(shí)現(xiàn)挖掘。查詢?nèi)罩驹次募鐖D2所示。
目前,數(shù)據(jù)挖掘技術(shù)作為整個(gè)教育數(shù)據(jù)倉(cāng)庫(kù)挖掘過(guò)程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,數(shù)據(jù)預(yù)處理的目的就是將原始查詢?nèi)罩居涗浗?jīng)過(guò)處理形成會(huì)話文件,為挖掘算法實(shí)施階段作好數(shù)據(jù)準(zhǔn)備。當(dāng)前教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜臄?shù)據(jù)預(yù)處理一般包括以下3個(gè)階段[3]:數(shù)據(jù)收集及數(shù)據(jù)清洗、用戶識(shí)別、建立查詢?nèi)罩玖⒎襟w。
1.數(shù)據(jù)收集及數(shù)據(jù)清洗
數(shù)據(jù)收集可以分為數(shù)據(jù)與管理層數(shù)據(jù)收集、OLAP與數(shù)據(jù)集市層數(shù)據(jù)收集。

圖2 查詢?nèi)罩驹次募?/p>
(1)數(shù)據(jù)與管理層數(shù)據(jù)收集:在數(shù)據(jù)與管理層查詢?nèi)罩局杏涗浟嗣看尾樵兘逃龜?shù)據(jù)倉(cāng)庫(kù)進(jìn)行的每一次請(qǐng)求的信息,全面地記錄用戶的詳細(xì)信息,比如:時(shí)間、日期、IP地址、訪問(wèn)的頁(yè)面等等,并可通過(guò)記錄Cookies和CGI的查詢參數(shù)來(lái)描述各個(gè)不同用戶的行為。使用數(shù)據(jù)與管理層查詢?nèi)罩緛?lái)實(shí)現(xiàn)數(shù)據(jù)采集是有效的,能方便地分析出查詢的行為習(xí)慣。
(2)OLAP與數(shù)據(jù)集市層數(shù)據(jù)收集:利用OLAP與數(shù)據(jù)集市層收集到的信息,系統(tǒng)管理員可以獲取有價(jià)值的數(shù)據(jù),從而有助于優(yōu)化性能,有助于實(shí)現(xiàn)使用挖掘效率。
數(shù)據(jù)清洗是指根據(jù)需求對(duì)查詢?nèi)罩疚募M(jìn)行去噪處理,包括刪除無(wú)關(guān)緊要的數(shù)據(jù)、合并某些記錄、對(duì)用戶請(qǐng)求頁(yè)面時(shí)發(fā)生錯(cuò)誤的記錄進(jìn)行適當(dāng)?shù)奶幚淼鹊取?/p>
2.用戶識(shí)別
用戶識(shí)別,是從查詢?nèi)罩疚募械拿恳粭l記錄中識(shí)別出查詢的用戶。一般通過(guò)三條規(guī)則,結(jié)合用戶提交的查詢信息便可以給不同的用戶賦予不同的用戶ID號(hào)。規(guī)則如下[4]:
(1)如果用戶的IP地址不同,則認(rèn)為是不同的用戶;
(2)如果IP地址相同,而代理agent日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則可以假設(shè)為兩個(gè)不同的用戶;
(3)將訪問(wèn)日志、引用日志和站點(diǎn)拓?fù)浣Y(jié)構(gòu)相結(jié)合構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請(qǐng)求的頁(yè)面同用戶已瀏覽的頁(yè)面間沒(méi)有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個(gè)用戶。
通過(guò)對(duì)各種查詢?nèi)罩疚募占筮M(jìn)行清洗過(guò)濾,消除查詢?nèi)罩局腥哂唷⒉徽_和無(wú)用的數(shù)據(jù),整合成為關(guān)系數(shù)據(jù)模型(如表1所示)[5],到現(xiàn)在已經(jīng)可以開(kāi)始建立查詢?nèi)罩玖⒎襟w。
3.建立查詢?nèi)罩玖⒎襟w

表1 部分導(dǎo)入到關(guān)系數(shù)據(jù)模型的查詢?nèi)罩?/p>
查詢?nèi)罩玖⒎襟w的核心是由事實(shí)表和維度表組成。事實(shí)表不只是可以使用數(shù)據(jù)的匯總,而且包括與相關(guān)聯(lián)的維度表的外鍵;維度表通過(guò)不同角度觀察分析事實(shí)表的記錄來(lái)描敘事實(shí)表中記錄的特性,如某一時(shí)間訪問(wèn)的次數(shù)、來(lái)至某域名的查詢次數(shù)。查詢?nèi)罩玖⒎襟w中主要參照以下4種維度:
(1)時(shí)間維:反映查詢的日期和時(shí)間。
(2)頁(yè)面維:反映查詢了教育數(shù)據(jù)倉(cāng)庫(kù)中的哪些目錄及頁(yè)面
(3)用戶維:反映查詢的域名信息
(4)工具維:反映使用什么方式訪問(wèn)教育數(shù)據(jù)倉(cāng)庫(kù)。
查詢?nèi)罩玖⒎襟w的結(jié)構(gòu)如圖3所示。

圖3 查詢?nèi)罩玖⒎襟w結(jié)構(gòu)
對(duì)于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩玖⒎襟w通過(guò)數(shù)據(jù)挖掘進(jìn)行內(nèi)容分析,能夠發(fā)現(xiàn)隱藏在查詢?nèi)罩局械脑L問(wèn)規(guī)律,了解使用者查詢模式及行為模式,從而做出預(yù)測(cè)性分析,得到有價(jià)值的信息。數(shù)據(jù)挖掘階段首先要根據(jù)內(nèi)容分析的目標(biāo)確定挖掘任務(wù),根據(jù)內(nèi)容分析的知識(shí)類型選擇合適的挖掘算法,最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從查詢?nèi)罩玖⒎襟w中抽取所需的知識(shí)。整個(gè)流程如圖4所示。
查詢?nèi)罩玖⒎襟w數(shù)據(jù)挖掘有3個(gè)問(wèn)題需要關(guān)注:
(1)要針對(duì)查詢和行為模式確定挖掘目標(biāo)。對(duì)于過(guò)寬泛的群會(huì)使我們?cè)邶嬰s的數(shù)據(jù)中,很難發(fā)現(xiàn)任何有價(jià)值的信息。
(2)要圈定合理的時(shí)間段和制定合理的數(shù)據(jù)規(guī)模,可以保證數(shù)據(jù)挖掘工作的順利進(jìn)行。過(guò)大和過(guò)小的數(shù)據(jù)量都不能使內(nèi)容分析的結(jié)果接近正確值;過(guò)小的數(shù)據(jù)量很難說(shuō)明普遍性的問(wèn)題,容易使結(jié)果產(chǎn)生偏差;過(guò)大的數(shù)據(jù)量則會(huì)明顯增加挖掘的難度,降低計(jì)算的效率。
(3)實(shí)際過(guò)程中可根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)對(duì)最小支持度和最小可信度標(biāo)準(zhǔn)作適當(dāng)?shù)恼{(diào)整,以界定邊界規(guī)則的規(guī)模。

圖4 查詢?nèi)罩緝?nèi)容分析的流程圖
如對(duì)于使用者查詢教育數(shù)據(jù)倉(cāng)庫(kù)的次序進(jìn)行序列分析,預(yù)測(cè)今后的查詢模式,進(jìn)而對(duì)所需數(shù)據(jù)進(jìn)行高速緩沖存儲(chǔ),以改善教育數(shù)據(jù)的流通狀況等。挖掘的知識(shí)可通過(guò)規(guī)則、圖表、圖形等可視化的形式表現(xiàn)出來(lái),還可對(duì)教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩局械臄?shù)據(jù)進(jìn)行分類、關(guān)聯(lián)、比較、預(yù)測(cè)、聚類及時(shí)序分析等,下面就幾種常用的分析加以簡(jiǎn)單地討論[6]:
(1)時(shí)序分析側(cè)重于分析數(shù)據(jù)間的前后關(guān)系,分析數(shù)據(jù)間的相似性、周期性。可以發(fā)現(xiàn)某一類教育數(shù)據(jù)的訪問(wèn)模式和訪問(wèn)趨勢(shì),進(jìn)而調(diào)整教育數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)結(jié)構(gòu)和緩沖區(qū)域,以提高教育數(shù)據(jù)倉(cāng)庫(kù)查詢的服務(wù)。對(duì)于教育數(shù)據(jù)倉(cāng)庫(kù)的查詢?nèi)罩径裕瑫r(shí)間序列分析是最重要的一種分析方法,因?yàn)榻逃龜?shù)據(jù)倉(cāng)庫(kù)的查詢?nèi)罩緮?shù)據(jù)是根據(jù)查詢時(shí)間來(lái)記錄的。
(2)關(guān)聯(lián)分析可挖掘出隱藏在查詢?nèi)罩緮?shù)據(jù)間的相互關(guān)系。在查詢?nèi)罩玖⒎襟w挖掘中,可以用來(lái)發(fā)現(xiàn)教育數(shù)據(jù)倉(cāng)庫(kù)上查詢之間的相互關(guān)系,從而能合理安排教育數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的優(yōu)化,提高教育數(shù)據(jù)倉(cāng)庫(kù)的易用性和查詢率.
(3)聚類分析是一種無(wú)指導(dǎo)的分類方法。在查詢?nèi)罩玖⒎襟w挖掘中,可以根據(jù)查詢?nèi)罩緦ふ也樵冃袨橄嗨频拇亟M。教育數(shù)據(jù)倉(cāng)庫(kù)就能夠?yàn)椴煌靥峁┎煌亩ㄖ苾?nèi)容,推薦個(gè)性化的查詢服務(wù),為教育領(lǐng)域整合、優(yōu)化和完善更多的教育資源。
基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜膬?nèi)容分析最終體現(xiàn)為對(duì)于挖掘結(jié)果的解釋和評(píng)價(jià):查詢?nèi)罩玖⒎襟w內(nèi)容分析即挖掘階段發(fā)現(xiàn)的結(jié)果和解釋,經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的知識(shí),這時(shí)需要將其剔除;也有可能結(jié)果和解釋不能滿足要求,需要重復(fù)上述挖掘過(guò)程重新進(jìn)行挖掘。另外,基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜膬?nèi)容分析最后可以使用可視化方式描述和展示,以易于理解。
基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜膬?nèi)容分析可以發(fā)現(xiàn)系統(tǒng)在使用的過(guò)程中的查詢模式和查詢喜好,同時(shí),能夠發(fā)現(xiàn)龐雜的查詢?nèi)罩緮?shù)據(jù)中存在的隱含關(guān)系,將查詢需求從定性分析上升到定量分析,這無(wú)疑對(duì)教育數(shù)據(jù)倉(cāng)庫(kù)的查詢服務(wù)工作起到很好的指導(dǎo)作用。它不僅是教育數(shù)據(jù)倉(cāng)庫(kù)建設(shè)合理的教育資源保障體系的重要依據(jù),也是教育數(shù)據(jù)倉(cāng)庫(kù)開(kāi)展以查詢需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。
在教育數(shù)據(jù)資源數(shù)量和規(guī)模快速增長(zhǎng)的情況下,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜膬?nèi)容分析是一項(xiàng)富有挑戰(zhàn)性的研究任務(wù)。本文論述了利用數(shù)據(jù)挖掘技術(shù)對(duì)教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩具M(jìn)行方法和過(guò)程研究的同時(shí),提出了關(guān)于查詢?nèi)罩镜膬?nèi)容分析,設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)查詢?nèi)罩玖⒎襟w對(duì)教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩具M(jìn)行聯(lián)機(jī)分析處理(OLAP)及數(shù)據(jù)挖掘,能夠有效解決龐大的教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩镜墓芾砗头治鎏幚韱?wèn)題,并對(duì)使用數(shù)據(jù)立方體對(duì)教育數(shù)據(jù)倉(cāng)庫(kù)查詢?nèi)罩具M(jìn)行挖掘進(jìn)行了有益的探討和研究。
數(shù)據(jù)挖掘(Data Mining—DM)技術(shù)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的模式的過(guò)程。模式也就是所挖掘出的信息和知識(shí)[7]。本文中把查詢?nèi)罩究醋魇窃紨?shù)據(jù),查詢?nèi)罩臼欠墙Y(jié)構(gòu)化的,將來(lái)的研究可以把用戶在查詢時(shí)候的查詢過(guò)程、查詢結(jié)果等行為的流數(shù)據(jù)作為原始數(shù)據(jù)。基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢的內(nèi)容分析在以日志作為基礎(chǔ)的前提下,將來(lái)加入查詢的流數(shù)據(jù)作為補(bǔ)充,內(nèi)容分析的方法可以使數(shù)學(xué)的,也可以是非數(shù)學(xué)的;挖掘的方式可以是演繹的,也可以是歸納的。基于教育數(shù)據(jù)倉(cāng)庫(kù)查詢的內(nèi)容分析可以被用于數(shù)據(jù)的存儲(chǔ)和管理、查詢的優(yōu)化、決策的支持以及過(guò)程的控制等,還可以用于教育數(shù)據(jù)自身的維護(hù)。借助查詢的內(nèi)容分析,可以及時(shí)發(fā)現(xiàn)查詢中出現(xiàn)的問(wèn)題,提高了教育數(shù)據(jù)倉(cāng)庫(kù)查詢的效率和質(zhì)量。同時(shí)借助教育數(shù)據(jù)倉(cāng)庫(kù)查詢的各種日志記載每次查詢性能及評(píng)價(jià),方便日后的查閱及教育數(shù)據(jù)倉(cāng)庫(kù)狀態(tài)的評(píng)估。
[1]張維明.數(shù)據(jù)倉(cāng)庫(kù)原理和應(yīng)用[M].北京:電子工業(yè)出版社,2002:15.
[2]Wong J S K,Nayar R.A framework for a world wild web based data mining system[J2000(21):163-185.
[3]Ezeife,Lu Yi.Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree[J].2005(10):5 38.
[4]方杰,朱京紅.日志挖掘中的數(shù)據(jù)預(yù)處理[J].,2010(20):18.
[5]席景科,張辰,謝紅俠.基于數(shù)據(jù)倉(cāng)庫(kù)的Web日志挖掘技術(shù)研究[J].(24):5891-5892.
[6]宋愛(ài)波,胡孔發(fā),董逸生.Web日志挖掘[J].東南大學(xué)學(xué)報(bào),2002(1):15-18.
[7]畢長(zhǎng)泉,曹健,王朝陽(yáng).基于高校圖書(shū)館流通日志的數(shù)據(jù)挖掘[Z].CHINA SCIENCE ANDTECHNOLOGY INFORMATION,2011(4):125.
[責(zé)任編輯:胡偉]
Content Analysis Based on Educational Data Warehouse Query Log
WANG Zheng
(School of Information and Engineering,Hunan First Normal University,Changsha,Hunan 410205)
The paper aims to analyze the SQL query to an educational data warehouse by individual users,and figure out the interest of the users and achieve improvement.Data excavation is employed in the former phase.Education data warehouse is a well-known database,which includes millions of query log information.
data excavation;data warehouse;educational data excavation;educational data warehouse
TP311.13
A
1674-831X(2016)02-0100-05
2015-11-12
汪政(1975-),男,湖南益陽(yáng)人,碩士,湖南第一師范學(xué)院教師,主要從事大數(shù)據(jù)研究。