[摘要] 隨著科學技術的不斷進步以及信息化時代的到來,信息化建設已經(jīng)逐漸滲透到校園網(wǎng)絡信息化平臺的建設過程中,高校數(shù)據(jù)庫共享信息資源平臺的建設為各種高校的數(shù)據(jù)挖掘提供了堅實的技術基礎。本課題以校園卡信息資源的數(shù)據(jù)挖掘為研究目標,通過目前比較先進的數(shù)據(jù)倉庫技術、OLAP技術以及數(shù)據(jù)挖掘技術搭建了校園卡信息管理系統(tǒng)數(shù)據(jù)挖掘模型。
[關鍵詞] 數(shù)據(jù)挖掘; 校園卡; OLAP; 神經(jīng)網(wǎng)絡
[中圖分類號] TP391 [文獻標識碼] A [文章編號] 1673 - 0194(2013)04- 0079- 02
1 數(shù)據(jù)挖掘技術簡介
所謂的數(shù)據(jù)挖掘就是從很多先不是很完全并且模糊有噪聲的隨機數(shù)據(jù)中提取信息和知識的過程,這些信息和知識大多都是人們事所未知的,被隱含在其中的潛在并且有用的。由于當今的信息技術飛速的發(fā)展,被人們所積累應用的數(shù)據(jù)量急劇上升,應該如何從大量的數(shù)據(jù)中對有用的知識進行高質(zhì)量的提取才是當務之急。我們所提到的數(shù)據(jù)挖掘技術就是為這種需求應運而生的,并且不斷地發(fā)展強大起來。這也是知識發(fā)現(xiàn)很關鍵的一個環(huán)節(jié)。
數(shù)據(jù)挖掘技術的主要任務就是關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等。下面是對這些主要的任務做簡單的介紹。
1.1 關聯(lián)分析
在很早之前運用關聯(lián)分析的方法是由Rakesh Apwal等人所提出的。關聯(lián)就是兩個或者兩個以上的變量之間所存在的一定的規(guī)律特點。這種數(shù)據(jù)關聯(lián)在數(shù)據(jù)庫中是屬于非常重要的并且是可被發(fā)現(xiàn)的知識。關聯(lián)又可以大致的分為簡單關聯(lián)、因果關聯(lián)以及時序關聯(lián)。這些關聯(lián)分析主要的目的是尋找數(shù)據(jù)庫里面沒被發(fā)現(xiàn)的隱藏著的關聯(lián)網(wǎng)。可信度和支持度是用來度量關聯(lián)規(guī)則相關性的兩個關鍵的閾值,并且不斷對興趣度以及相關性等參數(shù)進行引入,使被挖掘的規(guī)則越來越符合需求。
1.2 聚類分析
所謂的聚類分析就是把相關的數(shù)據(jù)按照它們的相似程度歸納為若干個類別,其中相同類別中的數(shù)據(jù)具有彼此相似性,不同類別中的數(shù)據(jù)存在著差異。聚類分析建立的是宏觀的概念,從數(shù)據(jù)不同的分布模式及可能的數(shù)據(jù)的屬性間發(fā)現(xiàn)所存在的相互關系。
1.3 分類
分類大多是用規(guī)則或者決策樹的模式表示,它會找出同一個類別的概念進行描述,對該類的內(nèi)涵進行描述,它代表著此類數(shù)據(jù)整體的信息,并且用這種描述進行模型構造。分類就是一種分類的規(guī)則,這種規(guī)則是將數(shù)據(jù)集通過一定的算法而得出的。分類通常被用于規(guī)則的描述以及預測中。
1.4 預測
預測就是從歷史的數(shù)據(jù)中找出一些變化的規(guī)律,并且建立相應的模型,用來對未來的數(shù)據(jù)特征及種類進行推測、預測。預測中通常用預測方差來度量預測的精度及不確定性。
1.5 時序模式
時序模式其實就是根據(jù)已知的數(shù)據(jù)對未來值進行預測。通過時間的序列對重復發(fā)生概率較高的模式進行搜索,所預測的未來值之間的區(qū)別就是它們所處的時間不同。
1.6 偏差分析
數(shù)據(jù)庫中的數(shù)據(jù)是很復雜多樣的,同時也是存在著很多的異常情況,若能夠在數(shù)據(jù)庫中發(fā)現(xiàn)異常的情況很重要。偏差中包含了許多非常有用的知識,尋找所觀察的結果中與參照數(shù)據(jù)之間的差別是偏差檢驗的基本方法。
2 數(shù)據(jù)挖掘技術常用方法
2.1 神經(jīng)網(wǎng)絡方法
神經(jīng)網(wǎng)絡是近幾年逐漸流行的一種計算機技術,被很多研究學者用于各個領域的科學研究,其自身所具備的較高性能的自組織自適應性、分布存儲、魯棒性、高度容錯以及高速并行處理等獨特特性使得其發(fā)展以及應用空間非常巨大,數(shù)據(jù)挖掘問題的解決方案就迫切需要這些特性,因此,眾多的學著逐漸將神經(jīng)網(wǎng)絡方法應用在數(shù)據(jù)挖掘問題的求解中,越來越得到人們的高度關注。神經(jīng)網(wǎng)絡模型比較多樣,但是主要分為3個大類:第一種類可以稱之為前饋式神經(jīng)網(wǎng)絡模型,其主要代表是函數(shù)型網(wǎng)絡、bp反向傳播模型以及感知機,其主要的作用是用于模式識別、預測以及各種分類;第二種類可以稱之為反饋式神經(jīng)網(wǎng)絡模型,其主要代表是連續(xù)模型以及hopfield離散模型,其主要作用域是優(yōu)化各種計算以及聯(lián)想記憶;最后一個種類是自組織映射方法,其主要代表模型是koholon模型以及經(jīng)典的art模型,其主要功能是用于聚類。除此之外,神經(jīng)網(wǎng)絡模型以及算法也具有其自身的局限性,即“黑箱”性,學者在研究的過程中并不能夠深入地理解神經(jīng)網(wǎng)絡的自我學習以及決策過程。
2.2 遺傳算法
數(shù)據(jù)挖掘方法中通常還會用到遺傳算法,遺傳算法是借鑒于自然界生物的基因遺傳以及自適應機理實現(xiàn)目標的隨機搜索,可以理解為一種仿生物的全局優(yōu)化計算方法。遺傳算法之所以在數(shù)據(jù)挖掘中得到應用,主要是因為遺傳算法具備的與其余模型結合較容易、隱含并行性等特征。此外,與粗集、神經(jīng)網(wǎng)絡等計算技術相結合的應用也是遺傳算法的主要應用方向之一,比如借助遺傳算法對現(xiàn)有的神經(jīng)網(wǎng)絡進行優(yōu)化,能夠?qū)崿F(xiàn)在保持現(xiàn)有錯誤率的情況下將多余的隱層單元以及連接刪除掉,再比如可以通過結合bp算法對神經(jīng)網(wǎng)絡進行訓練,進而提取所需的網(wǎng)絡規(guī)則等等。但是遺傳算法也具備收斂較早以及局部收斂等問題。
2.3 決策樹方法
決策樹方法通常用于數(shù)據(jù)量處理規(guī)模比較大的應用中,應用最為廣泛的是預測模型,決策樹算法能夠?qū)Υ罅康臄?shù)據(jù)進行有計劃的分類,并在分類的數(shù)據(jù)中搜尋到潛在的價值比較高的信息,決策樹算法具備較快的數(shù)據(jù)分類速度以及描述非常簡單等優(yōu)勢,因此在數(shù)據(jù)量比較大的數(shù)據(jù)處理中應用得比較廣泛。決策樹算法最為經(jīng)典的是id3算法,是Quinlan在基于信息熵算法的基礎上提出的,但是由于技術等各個方面的瓶頸,使得id3算法具備了較多的局限性:比如學習過程無法遞增、相互關系在同性之間強調(diào)不夠、其決策樹是單一變量等。但是隨著科學技術的不斷發(fā)展,很多學者都對其進行了不同程度的改進,比如id4遞增式學習算法以及ible算法等。
2.4 粗集方法
粗集理論算法的研究對象主要是不確定知識以及不精確的算法模型,粗集理論具備以下幾個突出的特點:信息輸入的表達空間比較簡單、額外相關信息不需要提供、操作比較簡單、算法實現(xiàn)比較簡單。具體處理對象則是與二維關系表相似的信息表,隨著數(shù)據(jù)倉庫管理系統(tǒng)的不斷發(fā)展以及關系型數(shù)據(jù)庫管理系統(tǒng)的不斷成熟,為粗集理論算法在數(shù)據(jù)挖掘中的應用打下了堅實的基礎,但是粗集理論算法在處理連續(xù)屬性的數(shù)據(jù)的時候具備較大的困難,主要是因為續(xù)屬性的數(shù)據(jù)通常具備離散化的特點,但是隨著眾多學者的不斷努力,目前國際上已經(jīng)研究出基于粗集理論的專用的應用工具軟件,比如lers以及kdd-r等。
2.5 覆蓋正例排斥反例算法
覆蓋正例排斥反例算法的實現(xiàn)規(guī)則是排斥一切反例、覆蓋一切正例,其具體實現(xiàn)過程中首先該算法會在正例的集合中隨機挑選一個正例種子,然后將該正例種子與反例集中的一切數(shù)據(jù)進行對比,與字段取值構成的選擇子相容則丟棄,相反的則進行保留,覆蓋正例排斥反例算法按照這種模式將所有的正例種子在反例集合中都進行循環(huán),通過循環(huán)比對,正例的規(guī)則(選擇子的合取式)便會得到,目前典型的覆蓋正例排斥反例算法包括aq11方法、aq15方法以及ae5方法等。
2.6 統(tǒng)計分析方法
在統(tǒng)計分析方法研究之前需要明確相關關系以及函數(shù)關系的概念,相關關系則指的是數(shù)據(jù)庫字段之間的關系雖然無法用函數(shù)公式表示,但是卻依然存在著相關的確定性關系,而函數(shù)關系則指的是可以用函數(shù)公式表示數(shù)據(jù)庫字段之間的確定關系,數(shù)據(jù)庫字段之間便存在著相關關系與函數(shù)關系,分析關系的時候便會用到統(tǒng)計分析方法,即在分析數(shù)據(jù)庫中的信息的時候采用統(tǒng)計學原理,具體包括數(shù)據(jù)的常用統(tǒng)計、相關分析、回歸分析以及差異分析等。
2.7 模糊集方法
模糊集方法的理論基礎是模糊集合理論,主要用于對現(xiàn)實的求解問題進行模糊模式識別、模糊評判、模糊聚類分析以及模糊決策等,其模糊性與系統(tǒng)的復雜性呈正向比例關系,即模糊性越強代表其系統(tǒng)愈加的復雜,傳統(tǒng)的模糊集合理論在刻畫模糊事物的亦此亦彼性的時候采用的是隸屬度,但是經(jīng)過不斷的發(fā)展,概率統(tǒng)計逐漸被融入到了模糊集方法中,李德毅等人充分地結合傳統(tǒng)的模糊集合理論以及概率統(tǒng)計,在此基礎上提出了定性定量不確定性轉換模型——云模型,云理論便逐漸形成了。
3 校園卡研究現(xiàn)狀
校園卡信息管理系統(tǒng)的開發(fā)與建設進一步提升了校園信息化的管理水平,目前校園卡信息管理系統(tǒng)已經(jīng)滲入到各個高校校園的信息化網(wǎng)絡建設系統(tǒng)中,但是就相關調(diào)查結果發(fā)現(xiàn),只有較少的一部分高校真正意義上將校園卡功能用到了極致,大多數(shù)的高校都將校園卡局限應用在消費管理上面,身份識別、信息查詢等功能并沒有得到較好的開發(fā)以及利用。造成校園卡沒有得到充分應用的主要原因是管理水平的缺陷以及對校園網(wǎng)絡信息化管理系統(tǒng)建設的需求不高,高校并不具備一套完善的校園中心數(shù)據(jù)倉庫,校園日常運行管理機制也并不完善。
21世紀屬于信息全球化,學校的建設離不開現(xiàn)代化的管理措施,校園卡不僅是學生以及教職工的消費工具,更應該發(fā)展成為校園的通行證件,校園卡能夠借助先進的科學技術將強大的射頻功能以及數(shù)字化管理理念逐漸融入到校園網(wǎng)網(wǎng)絡中,能夠?qū)崿F(xiàn)高校所有系統(tǒng)的無縫融合,能夠動態(tài)地掌握持有校園卡的人員的實際情況,將校園管理水平提升到了另外一個檔次。
4 校園卡信息管理系統(tǒng)數(shù)據(jù)挖掘模型
現(xiàn)階段,校園卡的主要作用是用于校園內(nèi)的日常消費,因此,校園卡中存儲了大量的持卡人的消費數(shù)據(jù),校園卡信息管理系統(tǒng)的數(shù)據(jù)挖掘通常是以這些消費數(shù)據(jù)作為基礎,并充分結合持卡人的信息數(shù)據(jù),通過數(shù)據(jù)的深入分析得到用于系統(tǒng)決策的關鍵信息。校園卡信息管理系統(tǒng)的數(shù)據(jù)挖掘需要聯(lián)機服務,涉及到的數(shù)據(jù)量比較巨大,傳統(tǒng)的數(shù)據(jù)信息倉庫已經(jīng)無法滿足數(shù)據(jù)量比較大的決策系統(tǒng),具體表現(xiàn)在以下幾個方面:
(1) 數(shù)據(jù)挖掘涉及到大量的數(shù)據(jù)分析,持卡人的行為模式具備運行時間持久、涉及到的數(shù)據(jù)量比較大、系統(tǒng)資源消耗嚴重等特點,與傳統(tǒng)的事務處理并不相同。
(2) 傳統(tǒng)的數(shù)據(jù)庫存儲的大部分數(shù)據(jù)都是用戶的短期數(shù)據(jù),并且數(shù)據(jù)的保存周期根據(jù)數(shù)據(jù)類型的不同而不同,用戶歷史數(shù)據(jù)即使有保存比較持久的,但是也并沒有得到很好的應用,數(shù)據(jù)挖掘技術要想在校園卡信息管理系統(tǒng)中得到充分的應用,必須借助與完善的歷史數(shù)據(jù)記錄,歷史數(shù)據(jù)是決策分析的基礎。
(3) 數(shù)據(jù)挖掘中的決策分析數(shù)據(jù)涉及到的數(shù)據(jù)量非常巨大,是多部門數(shù)據(jù)的有效集合,但是現(xiàn)實情況是不同系統(tǒng)的數(shù)據(jù)集成起來卻非常困難。
針對現(xiàn)有數(shù)據(jù)庫的局限性,必須在數(shù)據(jù)倉庫環(huán)境中搭建完善的數(shù)據(jù)挖掘系統(tǒng)模型。本課題中提出了基于數(shù)據(jù)挖掘技術、Web系統(tǒng)以及OLAP的校園卡信息管理系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)模型,圖1便是校園卡信息管理系統(tǒng)數(shù)據(jù)挖掘模型。
5 總 結
數(shù)據(jù)挖掘技術在校園卡信息管理系統(tǒng)的應用不僅能夠充分地集成學校現(xiàn)有的各個系統(tǒng),還能夠進一步提升校園的信息化管理水平。本課題充分研究了數(shù)據(jù)挖掘技術的方法、技術措施等,在現(xiàn)有校園卡發(fā)展現(xiàn)狀的基礎上提出了圖1所示的基于數(shù)據(jù)挖掘技術、Web系統(tǒng)以及OLAP的校園卡信息管理系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)模型,通過該模型能夠充分地挖掘現(xiàn)有的校園信息數(shù)據(jù),能夠?qū)Q策分析提供必要的研究基礎,幫助校園實現(xiàn)信息管理一體化建設方案。