張靜端
〔摘要〕借助數據挖掘軟件Clementine 120,以Apriori模型和GRI模型為數據挖掘方法,對東華大學近五年來紡織學院博士研究生的借閱記錄進行分析。通過分析數據挖掘的結果,尋找學科領域中相互關聯的知識,輔助教師的教學工作,優化學科建設。
〔關鍵詞〕數據挖掘;關聯規則;學科建設;學科關聯
DOI:10.3969/j.issn.1008-0821.2013.09.029
〔中圖分類號〕G250.13〔文獻標識碼〕A〔文章編號〕1008-0821(2013)09-0145-05
隨著現代社會的不斷發展,知識更新的速度日漸加快,各個學科之間的聯系程度也越來越緊密,出現了許多新的交叉學科及邊緣學科。與此同時,社會對學生的知識面要求也越來越高。在本科教學過程中,教學大綱雖然定期更新,卻仍明顯滯后于社會的發展和要求。高校圖書館,作為向高校師生提供信息服務的部門,有其自身特有的信息優勢和特點。由于目前所有高校都采用了數據庫技術對圖書館進行管理,在圖書的流通過程中,產生了大量的借閱數據。學生尤其是碩博研究生的借閱書刊信息在一定程度上能夠代表學科的發展方向和各學科之間的關聯程度。因此,充分利用這些數據,不僅可以分析不同類型讀者的需求內容,以便及時調整藏書結構與購書投資方向,并且能夠從借閱信息中挖掘出學科間的關聯關系及特點,以便為學科課程設置及內容調整進行有效合理的建議。這將成為高校圖書館信息服務的一個重要課題[1]。
數據挖掘(Data Mining),是指從大量的結構化和非結構化的數據中提取有用的信息和知識的過程[2]。數據挖掘技術是近年來熱門的研究領域,它可以發掘潛藏在資料中的大量可用或未知的信息,以為管理者提供決策參考。在圖書館管理中,最值得進行數據挖掘的是圖書流通資料。因為圖書館借閱記錄向來是讀者實際使用圖書館資源的證據,也是讀者滿足個人信息需求的行為結果,其中潛藏了大量有意義的關系和規則[1,3]。
圖書館在業務流通中產生的數據屬于結構化數據。目前,有關對圖書館業務流通數據進行數據挖掘的文獻研究主要集中在以下兩個方面:
(1)讀者借閱習慣的偏好及行為特征分析;
(2)通過聚類分析對新進書籍與歷史書籍進行聚類,以判斷其價值。
可以看出,目前在圖書館領域中,運用數據挖掘的關聯規則方法來對學科隱性關聯和學科動向進行的研究還是不多見的。本文將采用Apriori和GRI關聯規則模型,對近五年來東華大學紡織學院博士研究生的借閱記錄進行挖掘和分析。博士生一般具有一定的科研水平,并有較為明確的研究方向,利用博士研究生的借閱數據找出學科之間的關聯程度,有助于發現學科間的隱形關聯,以此為依據來為本科學生選修課程以及教學內容和教學計劃的補充與制定提供一定的參考[4]。
2013年9月1第33卷第9期1現?代?情?報1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1基于Clementine的數據挖掘技術對學科隱形關聯的研究1Sep,20131Vol.33No91挖掘模型及軟件簡介
1.1關聯規則的定義
關聯規則是數據挖掘的主要技術之一[5]。所謂關聯規則,就是描述數據庫中數據項(屬性、變量)之間存在(潛在)的規則。利用關聯規則的數據挖掘技術,可以找出大量數據之間未知的依賴關系。
關聯規則定義如下:
設I={i1,i2,…,im}為所有項目的集合,D為事務數據庫,事務T是一個項目子集(TI)。每一個事務具有惟一的事務標識Tid。設A是一個由項目構成的集合,稱為項集。事務T包含項集A,當且僅當AT。
關聯規則是形如X→Y的邏輯蘊含式,其中XI,YI且X∩Y=。如果事務數據庫D中有s%的事務包含X∪Y,則成關聯規則X→Y的支持度為s%。
1.2關聯規則挖掘算法的步驟
關聯規則的任務就是在事務數據庫D中找出具有用戶給定的最小支持度minsp和最小置信度的強關聯規則,關聯規則挖掘可分解為2個步驟: