張亮
書目檢索功能個性化推薦關鍵技術的研究
張亮
高校圖書館是進行學習和科研的重要環境,更是師生獲取參考資源的重要渠道。目前,部分高校的圖書書目檢索功能還停留在傳統的線性檢索和僅靠關鍵字檢索的層面上,隱藏在海量的借閱記錄背后的潛在關聯無法被發現,對借書者的需求無法進行預測。關聯規則是從大量數據中挖掘有價值的數據之間的相關關系。擬用等價的關聯規則在書目檢索模塊實現圖書的個性化推薦,以便借書者在海量的圖書資料中找到自己感興趣的圖書信息。
數據挖掘;個性化;關聯規則;書目檢索
隨著網絡化和數字化圖書館技術發展,借閱圖書所產生的信息數據量越來越大,高校圖書館管理系統中存儲著大量的書目信息、借書者信息、檢索信息等數據。圖書書目檢索個性化推薦功能是圖書館管理系統中的重要模塊,它的很大程度上簡化了借書者檢索借閱等其他相關業務的復雜性。如何利用數據技術建立借書者與書目的關聯,讓借書者在第一時間找到對自己有用的書目,實現書目的個性化推薦,是本文研究的內容。本文提出了一種基于等價的關聯規則算法來實現書目檢索的個性化推薦,以此來更好的提高圖書館的服務水平。
1.1 關聯規則
關聯規則[1,2](Association Rules)是數據之間依附關系的數據的自然描述,其主要是研究和發現實際應用中數據屬性之間的關聯關系,對關聯規則進行挖掘是數據挖掘中的一項根本性任務。關聯規則以數據源型數據庫為主要對象,是多個取值相同概率高的數據項之間按照某種規則建立的聯系。
具有支持度support(X→Y),指D中包含X∪Y的概率s%,即式(1):

具有置信度confidence(X→Y),指D中包含的X∪Y與包含的X比率c%,即式(2):

同時滿足用戶給定的最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的關聯規則,即support(X→Y)≥min_sup且confidence(X→Y)≥min_conf,則稱為強關聯規則。通常,只有強關聯規則才是用戶感興趣的,因此,關
聯規則的挖掘就是要發現所有滿足用戶定義的最小支持度和最小置信度的強關聯規則。
挖掘強關聯規則兩個基本步驟如下:
(1)找出頻繁項集:通過用戶給定最小支持度閾值min_sup,尋找所有頻繁項集,即僅保留大于或等于最小支持度閾值的項集;
(2)生成強關聯規則:通過用戶給定最小置信度閾值min_conf,在頻繁項集中尋找關聯規則,即刪除不滿足最小置信度閾值的規則。
1.2 關聯規則Apriori算法
由R.Agrawal提出的Apriori算法是最為著名的關聯規則算法[3],它利用頻繁項集性質的先驗知識(prior knowledge),通過層次搜索的迭代方法,逐步完成頻繁項目集的發現,為了發掘有意義的關聯,一般需要給定兩個閾值:最小支持度(min_sup)和最小置信度(min_conf),其中,頻繁項集就是指一個項目集 X滿足最小支持度(Support(X)>=min_sup)。
Apriori算法由連接(join)和修剪(prune)兩個操作步驟[4]-[5]:
連接(join)步驟:為了找出Lk,可以將Lk-1與自己連接產生候選k項集的集合,該候選k項集記為Ck。Lk-1中的兩個元素L1和L2可以執行連接操作的條件是:

(2)修剪(prune)步驟:一個k項集,如果它的一個k-1項集不是頻繁的,那它本身也不可能是頻繁的。為了減少計算量,可以使用Apriori性質,即如果一個候選k項集任一子集((k-1)項集)不屬于Lk-1,那么該候選k項集不可能成為一個頻繁k項集,因而可以直接從Ck刪除。
Apriori算法核心思想如下[6]:

2.1 書目檢索關聯規則的基本定義
通過上面對關聯規則及Apriori算法的介紹,可知,在Apriori算法中,由于多遍掃描事務數據庫,產生數量巨大的候選項集,支持度計數工作十分繁重,這些都會影響算法的效率,而對于高校圖書館中圖書的海量信息來說,書目檢索功能需要具備高效性,兩者存在沖突矛盾。因此本文提出一種改進的關聯規則生成算法,并給出與關聯規則等價的定義[7]。

支持度(S):規則X→Y的支持度是指“H中包含X∪Y的借書者與全部借書者的百分比”。
置信度(C):規則X→Y的置信度是指:“借閱歷史數據庫中既包含了X又包含了Y的借書者占所有包含了X的借書者的百分比”。
目標:找出H中所有滿足支持度和置信度分別高于借書者指定的最小支持度(min_sup)和最小置信度(min_conf)的關聯規則,即頻繁圖書項目集就是同時滿足大于閾值α和 β的圖書項目集。
2.2 書目檢索算法的基本思想
針對書目檢索關聯規則算法,本節主要將其時間復雜度降低為冪函數,并給出如下的算法[8,9]:
(1)依據歷史借閱記錄,將大于閾值α和β的值無重復的添加到H中,產生頻繁圖書項目集,具體步驟如下所示:
a.把數據庫中的借閱記錄按照借書者進行排序;
b.對每本圖書的借閱頻率f進行掃描,并確定最大借閱頻率F;
c.對每本圖書借閱的借書者p數量進行掃描,并確定借
書者總數P;
d.對同一借書者借閱的同本圖書進行掃描,并做出記號flag;
e.依據f、F、p、P、flag建立頻繁圖書項目集。
(2)依據頻繁圖書項目集產生書目檢索關聯規則數據庫,具體步驟如下所示:
a.對頻繁圖書項目集中的借閱記錄按照借書者進行排序;
b.對頻繁圖書項目集中借書者總數進行掃描;
c.在借閱的圖書中,對于同一借書者獲取其“前件圖書”及“后件圖書”;
d.在其他同一借書者借閱的圖書中檢索相同的“前件圖書”和“后件圖書”是否存在;
e.假如存在,對同時持有“前件圖書”和“后件圖書”的借書者數量進行掃描;
f.參照借書者人數和總人數,進行支持度的計算;
g.參照借書者人數和持有“前件圖書”的借書者人數,進行置信度的計算;
h.在關聯規則數據庫中,對有相同“前件圖書”和“后件圖書”記錄進行掃描,掃描其是否存在。若不存在,分兩條書目檢索規則增添到關聯規則數據庫中,即一條以“前件圖書”、“后件圖書”、支持度、置信度作為檢索關聯規則,另一條以“后件圖書”、“前件圖書”、支持度、置信度作為書目檢索;
i. 循環執行步驟c-h,直到掃描完所有借書者借閱所有圖書。
(3)在書目檢索關聯規則數據庫中,利用初始的“前件圖書”查詢“后件圖書”;
(4)假如檢索成功,就以“后件圖書”作為新的“前件圖書”進行檢索,直到出現相同圖書或者檢索失敗為止。由此獲得與起始“前件圖書”直接或者間接相關的圖書項目集。
2.3 數據源的選取
我校圖書館共計藏書282萬冊,本文僅對教師、本科生、碩士和博士研究生的一天借閱量進行統計,平均每天可達2000余冊,一年借閱量在50萬余冊。在這些數據背后隱藏著大量有用的、有價值的信息。因此,本文以圖書歷史借閱記錄作為書目檢索功能的研究對象,開展圖書關聯性的挖掘研究。本文選取我校2011年7月-2015年7月的借書者借閱歷史記錄為書目檢索模塊進行實例說明。
2.4 數據預處理
本文從圖書館管理系統中抽取了一下數據集:證件號、索書號、條碼號、題名、責任者、借閱日期、應還日期、館藏地等信息,原數據如圖1所示:

圖1 借書者記錄表
在關聯規則挖掘前,需要對圖書借閱數據進行數據預處理。數據預處理[10]就是對采集到的用戶原始的行為數據進行分析,清除與挖掘目標無關的屬性,提供一組干凈準確的、可以挖掘的、適宜分析的對象。
(1)需要完善借書者記錄表。對于主屬性(如證件號、索書號、條碼號、題名)為空的值,將其記錄刪除,部分借書者屬性值顯示不全的記錄,可以將其補全,保證與關聯規則挖掘相關的主屬性不能為空。
(2)刪除借書者記錄表中無關聯的屬性值。對于條形碼、責任者、借閱日期、應還日期、館藏地等與關聯規則挖掘無關的屬性列,可以直接刪除,以便提高挖掘效率。
(3)針對借書者記錄表中內容一致性進行檢查。如專業重組或者重新分類時,造成學生學號(即數據庫中的證件號)反生變化,從而生成錯誤的證件號信息。
執行完(1)-(3)步數據清理的操作后,產生的借閱證記錄表如圖2所示:

圖2 預處理后的借書者檢索記錄
2.5 系統實現和挖掘分析
本文通過多次調試,采用等價的關聯規則算法進行頻繁項集的挖掘,最后確定α的取值為0.608和β的取值為0.15,在次條件下挖掘的支持度和置信度一定大約α和β,其挖掘結果如圖3所示:

圖3 生成的關聯規則
在圖3中雙擊第1條記錄,可以生產書目-書目類別的關聯分析圖,生成效果如圖4所示:

圖4 書目關聯分析圖
通過圖書館書目檢索平臺的分析結果,可以得出,借閱量相對較高的圖書是計算機類和英語類,由此生成的關聯規則也較多。
現代高校圖書館要面向借書者提供個性化的服務,就需要對借書者的需求進行有效的數據挖掘,提供智能化的服務。相比傳統的現行檢索和僅靠關鍵字檢索,采用等價的關聯規則構建的書目檢索個性化推薦模型,可以找到借閱書目之間隱藏的關聯性,向借書者推薦的檢索結果是具有強關聯的書目信息。本文在算法的選擇上雖然采用了等價的關聯規則算法,提高了檢索效率,但在時間和空間的復雜性方面還有一定局限,在今后的研究工作中,可以考慮用其他算法進行改進,進一步提高檢索功能的運行效率。
[1] Bing Liu.Web數據挖掘[M].北京:清華大學出版社,2013.
[2] 曾令明,唐常杰,陰小雄,李川,胡建軍,蔣永光.雙向關聯規則挖掘及其相關性分析[J].計算機工程與設計,2005,26(10):2585-2588.
[3] 趙祖應,丁勇,鄧平.基于Apriori算法的購物籃關聯規則分析[J].江西科學,2012,30(01):96-98.
[4] 陳世保,吳國鳳.一種改進的Apriori算法在試卷評估中的應用研究[J].井岡山大學學報(自然科學版),2012,33(02):58-62.
[5] 劉華婷,郭仁祥,姜浩.關聯規則挖掘Apriori算法的研究和改進[J].計算機應用與軟件,2014,26(01):1-3.
[6] 紀系禹、韓秋明,等.數據挖掘技術應用實例[M].北京:機械工業出版社,2009.
[7] 張瑞云.基于關聯規則模式的數字圖書館智能檢索研究[J].電子技術,2013,(09):73-75.
[8] 李欣.基于關聯規則的圖書館圖書智能查詢系統研究[D].吉林:東北師范大學,2012:20-29.
[9] Osmar R.Zaiane,Mohammad EI-Hajj,Paul Lu.Fast Parallel Assocation Rule Mining Without Candidate Generation.2001:115-126.
[10] 況莉莉.數據挖掘中數據預處理在圖書借閱中的應用[J].淮北職業技術學院學報,2011,10(03):117-119.
Research on Key Issues in Personalized Recommendation Based on Bibliographic Retrieval Function
Zhang Liang
(Network Information Center, China University of Petroleum (East China), Qingdao 266500, China)
College library provides an important learning and research environment and is also an important channel that teachers and students can access reference resources. Currently, in some colleges and universities bibliographical retrieval function still remains in the traditional linear search and keyword search levels. The hidden massive borrowing records can not be found. Demand for the borrower can not be predicted. Association rules is to mine correlation between the valuable date from the massive data. In bibliographic retrieval module, this paper intends to use the equivalent of association rules to achieve a personalized book recommendation. So that borrowers find their own interest in the mass of book information materials.
Data mining; Personalized; Association rules; Bibliographic retrieval
TP311
A
1007-757X(2016)11-0039-03
2016.10.01)
高等教育研究基金(GJKT201502)
張 亮(1981-),男,漢族,江蘇啟東,中國石油大學(華東),網絡及教育技術中心,計算機技術碩士,工程師,研究方向:計算機信息和網絡技術,青島 266500