白晗
摘 要 用關聯規則算法對讀者借書數據進行數據挖掘,在挖掘結果中進行讀者行為分析,并在此基礎上闡述數據挖掘結果對圖書館決策及服務的啟示。
關鍵詞 數據挖掘;關聯規則;讀者行為分析;Apriori算法
中圖分類號:G252 文獻標識碼:B 文章編號:1671-489X(2013)03-0077-02
Application of Association Rules to Demand Analysis of Librarys Readers//Bai Han
Abstract In this paper, the author tells us how to realize the association rules algorithm to readers of data mining. Then the author analyse the results of mining and respectively expounds the data mining of library decision-making and service enlightenment.
Key words data mining; association rules; readers behavior analysis; Apriori algorithm
圖書館的服務對象是讀者,圖書館的各項工作也是圍繞讀者展開的,因此,工作人員需要盡可能地了解讀者的行為,并基于這些行為對圖書館工作進行調整。圖書借閱是圖書館最傳統的職能之一,讀者與圖書館之間的交互最常用的功能就是圖書的借還。
關聯規則算法最典型的就是超市的購物籃分析,超市通過顧客購買商品的數據,可以得出一些對于超市非常有用的信息,對超市的商品排架、宣傳等具有非常重要的意義。對于圖書館而言,這些信息一樣非常重要。本文借用購物籃分析原理,采用Apriori算法對讀者借閱行為進行關聯挖掘分析。
1 Apriori算法
Apriori算法是迄今最有影響的挖掘布爾關聯規則頻繁項集的關聯規則算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。
算法主要分成兩步:首先,找出數據中所有的頻繁項集,這些項集出現的頻繁性要大于或等于最小支持度;然后,由頻繁項集產生強關聯規則,這些規則必須滿足最小支持度和最小置信度。算法的總體性能由第一步決定,第二步相對容易實現。
第一步主要是基于Apriori性質:頻繁項集的所有非空子集都必須也是頻繁的。因此,這一步主要由連接和剪枝兩個過程組成。
連接:頻繁項集Lk-1與自己連接產生候選k-項集的集合Ck。假定事務和項集都按字典次序排序。連接Lk-1Lk-1,Lk-1中的l1和l2項是可連接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1] 剪枝:若一個候選k-項集的(k-1)-子集不在Lk-1中,則該候選集不可能是頻繁的,可由Ck中刪除。Ck可存在hash-tree中。 第二步由頻繁項集產生關聯規則:對每個頻繁項集l,產生l的所有非空子集;對l的每個非空子集s,如果,則產生規則“s=>(l-s)”,min_conf是最小置信度。 2 數據準備 數據挖掘應該選擇多大的樣本比較合適,這是一個困擾很多數據挖掘從業者的問題。樣本數據量大,得出的關聯規則更具有普遍性,但是卻忽略了個性的特點,而恰恰是這個個性化的內容,才是本章數據挖掘結果的亮點所在。因此,本文選取北京師范大學珠海分校工程技術學院工業設計專業一個班級115名學生作為樣本。 ALEPH 500里對讀者流通有關的數據有z36(在借信息表)、z36h(借閱歷史表),通過SQL語句得出原始數據,簡單處理后得到數據格式如下: B1018050002 J214 B1018050002 K837 B1018050005 TP39 B1018050006 I247 B1018050006 I247 B1018050007 TP39 B1018050007 B81 B1018050007 J214 B1018050007 TP39 ………… 因為關聯規則算法要求數據屬性間相互獨立,要構建適合算法的數據模型,對數據進行排序、篩選,得到的數據格式如表1所示(部分)。 3 結果分析 將最小支持度設為0.5,最小置信度設為0.9,最大置信度設為0.93,關聯規則數量設為5,通過計算得到結果如下: Best rules found: 1)B825=O13=74==>TS93=69 conf:(0.93) 2)B825=O172=72==>TP31=67 conf:(0.93) 3)J218=77==>TS93=71 conf:(0.92) 4)O172=75==>TP31=69 conf:(0.92) 5)TH12=72==>TP31=66 conf:(0.92) 從獲得的關聯規則,得出結論: 1)同時借閱B825(個人修養)和O13(高等數學)類圖書的學生,有93%的可能會關注TS93(工藝美術制品工業)類的書; 2)同時借閱B825(個人修養)和O172(微積分)類圖書的學生,有93%的可能會關注TP31(計算機軟件)類的書; 3)借閱J218(各種畫技法:按用途分)類圖書的學生,有92%的可能會關注TS93(工藝美術制品工業)類圖書; 4)借閱O172(微積分)類圖書的學生,有92%的可能會關注TP31(計算機軟件)類圖書; 5)借閱TH12(機械設計、計算與制圖)類圖書的學生,有92%的可能會關注TP31(計算機軟件)類圖書。 4 小結 1)該專業學生較為關注個人修養及心理學(B8)、素描、速寫技法(J214)、數學(O1)、計算機軟件(TP31)、機械設計(TH12)類圖書,這些圖書類別與該專業的專業性質有較強的關聯性,由此可見,讀者借書范圍仍局限在專業范圍內,對于課外閱讀涉獵較少。 2)通過數據挖掘的結果,得到一些有趣的發現:讀者借書種類與所在專業直接相關;學生更關注與課程表上課程相關的圖書;所得的關聯規則與學生的課程表直接相關;設計類專業的學生會更關注個人修養類(B825)圖書;大一學生對英語類圖書的關注不及大二、大三的學生。 3)該專業學生借書數目最多的B825、J214、TP39、I247、TB47類圖書,而這幾類圖書因為圖書館建筑結構等原因,被分在3個不同的閱覽室,這樣該專業學生要想看到自己想要的書,就要跑3個不同的地方,這從根本上違背了阮岡納贊提出的圖書館五定律之一的“節省讀者的時間”。那么,如何改善這種狀況就成為北京師范大學珠海分校圖書館面臨的一個重要課題。 4)將數據挖掘的結果提供給本館負責該院的學科館員,能更有針對性和目的性地為讀者提供信息推送服務,提高圖書館學科服務的質量。 參考文獻 [1]Han Jiawei, Kamber M.數據挖掘:概念與技術[M].北京:機械工業出版社,2008:150-167. [2]Pyle D.業務建模與數據挖掘[M].北京:機械工業出版社,2005. [3]Soman K P, Diwakar S, Ajay V.數據挖掘基礎教程[M].北京:機械工業出版社,2009.