999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯挖掘的圖書借閱分析

2021-04-02 07:18:58洪怡琳
圖書館研究與工作 2021年4期
關鍵詞:關聯規則圖書館

洪怡琳

(寧波圖書館 浙江寧波 315000)

1 引言

圖書館擁有海量的館藏圖書資源和數字信息資源,能夠為各種類型的讀者提供完整、全面的圖書借閱、信息咨詢等文獻信息服務。而目前大多數圖書館管理系統只提供查詢、統計等基礎功能,對于讀者各類需求很難進行有效預測及把握。正因如此,在沒有確定目標的情況下,讀者往往需要花費大量的時間去檢索、查找自己需要的圖書,過濾掉大量價值不高、自己不感興趣的圖書。精準地捕捉到不同讀者的需求,為其提供高質量的、有針對性的個性化圖書推薦服務的重要性不言而喻。

大數據技術在近些年來不斷發展完善,從數據的儲存采集到數據的分析運算,都實現了技術提升。在圖書館的系統中,存儲著大量的用戶數據,這些數據的種類、數量、增長速度都與大數據的特征相符。關聯規則(Association Rule)在數據挖掘技術中扮演著重要的角色,其目的在于發現數據項之間相互依賴的關系規則或關聯的知識[1]。利用該技術對圖書館數據庫中的海量借閱信息進行挖掘,可找到其中隱藏的關聯規則,發現其中有價值的內容,以提高圖書館的服務質量,更好地服務于讀者。

2 關聯規則挖掘及Apriori算法

2.1 關聯規則挖掘相關理論

數據庫中存放著大量的數據,而數據與數據之間是存在著某種聯系的,這種隱含的聯系可以通過一定的方法和技術發現。這種數據與數據之間的聯系是領域研究中的一個重要的知識,也是數據挖掘的對象,即關聯規則挖掘[2]。

關聯規則是指形如X?Y的式子,其中X?I,Y?I且X∩Y=?,X便是關聯規則的前項,Y是后項,這一關聯規則表示若項集X屬于某一個事務集,那么Y也一定屬于該事務集,且同時滿足了最小支持度(Support)以及最小置信度(Confidence)。

支持度是指事務數據庫中同時包含了事務X和事務Y的百分比,用公式表示為:

支持度是對關聯規則重要性的衡量,它表明這條規則在所有事務中所具有的代表性,顯然支持度越高,關聯規則越重要;支持度低,說明該規則重要性就低,實際當中出現的機會很小。

置信度是指在事務數據庫中包含了事務X的前提下又包含了事務Y的百分比,可表示為:

通常在進行數據挖掘時,會預先設定一個最小支持度閾值(min_sup)和最小置信度閾值(min_conf)。對于挖掘得到的滿足最小支持度閾值和最小置信度閾值的關聯規則稱為強關聯規則。

在關聯規則挖掘中,還有一個很重要的數據指標:提升度。它可以更進一步篩選關聯規則。提升度的計算公式為:

規則提升度由支持度等數據計算得出,當Lift大于1時,說明在關聯規則X?Y中X的出現促進了Y的出現;相反的,當Lift小于1時,就說明X的出現抑制Y的出現。因此可知,只有提升度大于1時,規則具有實際意義。

2.2 Apriori算法

在關聯規則挖掘的過程中,頻繁項集的挖掘算法決定整個挖掘工作是否快速有效。在眾多挖掘算法中,Apriori算法以其創新性的支持度剪枝,來控制候選頻繁項集的指數級增長而被更多地應用[3]。Apriori算法是由Agrawal等人提出的[4],基本思想是使用一種逐層搜索的迭代算法,主要有兩個步驟:①發現頻繁項目集。一個頻繁項目集是一個支持度大于最小支持度(min_sup)的項目集。②從頻繁項目集中生成關聯規則。在最大頻繁項目集中,一個強關聯規則(Confident Association)是置信度大于最小置信度(min_conf)的規則。關聯挖掘的基本模型如圖1所示。

圖1 關聯挖掘流程圖

Apriori算法的基本思想是:首先掃描事務數據庫,計算各個項目出現的次數,產生頻繁1-項集L1,再由L1*L1進行連接運算生成候選2-項集C2,然后掃描事物數據庫統計各個候選2-項集出現的次數,確定其中的頻繁2-項集L2。再由L2進行連接運算產生候選3-項集C3,繼續這個過程生成頻繁k-項集Lk,直到無法再生成頻繁項集為止[2]。Apriori算法利用Apriori性質(任一頻繁項集的所有非空子集都必須是頻繁的)有效地對項集進行剪枝,盡可能不生成和不計算那些不可能是頻繁項集的候選項集,從而生成較小的候選項集的集合[2]。

3 關聯規則在圖書借閱信息中的應用

3.1 數據準備

本文數據源選取浙江工商大學下沙校區圖書館的圖書流通系統中的數據,具體內容系該高校2018年1月1日至2018年12月31日間發生的圖書借閱記錄信息,圖書借閱數據表中含238 709條記錄,包括學號、索書號、圖書名稱等字段,以2018年的借閱情況為基礎,對所有借閱數據進行Apriori關聯規則建模處理,分析用戶借閱習慣,研究如何提高借閱效率問題,分析工具使用IBM公司的SPSS Modeler。

對于收集到的原始數據,由于可能存在缺失值或者噪聲,不能直接用來建模,需要對數據進行預處理。通過數據的清理,減少人工輸入數據的失誤或數據收集時出現的漏洞、填充缺失,使數據的完整性和一致性得以保證。數據清理是提高數據質量和挖掘效率的關鍵環節。清理的數據主要包括了缺失數據、冗余數據和噪聲數據。

(1)數據清理。在借閱數據表中可能存在空缺值,需要通過相關的數據表填充空值數據。例如,在圖書借閱表中,圖書索書號有空值出現,則需要根據相關信息將此空值填充完整。同時,還要對數據出現的隨機錯誤或偏差進行有效干預。

(2)數據集成。在對挖掘數據進行空值和噪聲處理之后,將多個數據源中的數據進行整合。例如,將讀者借閱信息和圖書信息結合,得到適合數據挖掘的有效數據。

(3)數據選擇。選擇挖掘所需的數據,可以大幅提高挖掘效率。例如,在圖書借閱信息表中,可能存在同一讀者多次借閱同一本圖書的情況,這樣的數據記錄有效的僅僅是一條,其余記錄無法提供任何有價值的信息,一般將重復無意義的數據進行刪除,只保留一條借閱記錄從而提高挖掘效率。數據預處理后如表1所示。

表1 用戶借閱信息表(部分)

3.2 基于借閱圖書的關聯規則

運用SPSS Modeler軟件對圖書借閱數據表進行數據預處理后,還需要剔除全年只有一次借閱記錄的信息,這部分數據有1 373條,剔除后剩余210 498條數據記錄。通過關鍵字合并“選擇”節點與“區分”節點后,過濾掉“索書號”與“Booktype2”字段,選擇“使用事務處理格式”,以“ReaderID”字段為ID,以“Booktype1”字段為內容建立Apriori模型。經調試模型選項卡中“最低條件支持度”和“最小規則置信度”,最終確定設置最低條件支持度閾值為10%,最小規則置信度的閾值為75%,最大前項數為5項。具體流程圖見圖2;模型運行結果見表2。

圖2 流程圖

從上面得到的關聯規則看出,后項是I文學類圖書,規則支持度最高的三項為:借閱B哲學宗教類圖書的讀者會借閱文學類圖書的可能性為76.763%,借閱K歷史地理類圖書的讀者會借閱文學類圖書的可能性為79.573%,借閱H語言文字類圖書和F經濟類圖書的讀者會借閱文學類圖書的可能性為75.108%。以上關聯規則的提升度均大于1,說明前項和后項正相關,即這些規則都具有實際指導意義。第14關聯規則提升度最大,在所有有借閱歷史的讀者中,有1 709人借過B哲學宗教類圖書和C語言文字類圖書,占總數的11.478%,其中有1 286人同時借閱了F經濟類圖書。同時借閱哲學宗教類圖書、語言文字類圖書和經濟類圖書的讀者占總讀者數的8.637%。借閱哲學宗教類圖書和語言文字類圖書的讀者同時借閱經濟類圖書的概率是隨機讀者借閱經濟類圖書的1.578倍,提升度越高關聯強度越大。

表2 ReaderID & Booktype1建模結果

由于“ReaderID”和“索書號”兩個字段的離散程度極高,所以在以其為基礎建立關聯規則模型時,只有把支持度和置信度閾值都設置得極低才能得到關聯規則,且該情況下的規則提升度都不是很高。我們希望得到更細致的關聯規則的同時,也能保證其支持度和置信度,故選擇研究小類圖書間的關聯規則,即基于ReaderID&Booktype2的關聯規則。經多次調試,最終確定設置最低條件支持度閾值為10%,最小規則置信度的閾值為70%,最大前項數為5項;運行前需要在“工具—流屬性—選項”中將最大集大小調整至300。執行流后得到用Apriori算法建立的以ReaderID&Booktype2為基礎的關聯規則挖掘模型,其輸出的關聯規則見表3。

這9條規則中,前項主要是I3各國文學、I5歐洲文學和H3常用外國語圖書,后項為I2中國文學類圖書。規則中最高的置信度是第1條規則:82.857%,其含義為借閱I3各國文學類圖書和I5歐洲文學類圖書的讀者則會同時借閱I2中國文學類圖書,所有樣本中借閱各國文學和歐洲文學小類圖書的讀者有1 505位,意味著向同時借閱I3各國文學類圖書和I5歐洲文學類圖書的讀者推薦I2中國文學類圖書的成功率是沒有規則指導下推薦成功率的1.765倍。同時,還可以結合相應類別的熱門書目進行推薦,提高推薦成功率。所有關聯規則的提升度均大于1,具有實際指導意義。

在圖書館藏分布方面,如將I2、I3、I5類圖書放在一起,方便讀者進行選擇,同時也提升了書籍的使用率,有利于將未被使用的書籍推向讀者,在一定程度上也降低了文化資源的浪費。從規則中發現,I2類圖書在各個規則中都有出現,說明I2類圖書的借閱率很高,可以增加該類圖書的館藏資源,指導圖書采購工作,同時做好預留圖書架位的工作,避免頻繁倒架,提高工作效率。

在讀者服務工作方面,比如向借閱了I3類圖書的讀者推薦I2類型的圖書,實現個性化推薦服務,對于借書頻率較低的讀者則可以推薦熱門的I2類圖書以增加其閱讀興趣,進而優化圖書館的服務質量。

4 結論

本文研究了Apriori算法在圖書館圖書借閱數據中的應用,發現將關聯規則應用在圖書館借閱系統有著重要的參考價值:①以讀者為中心,提升讀者的閱讀體驗。圖書館可以通過對讀者的歷史借閱情況進行統計分析,發現其中有意義的關聯規則,使得讀者喜愛的書目能夠快速被讀者找到,滿足不同讀者個性化需求,從而幫讀者節省大量時間和精力。在當下快節奏的工作生活中,提高借閱效率,意味著讀者會有更多的時間專注于閱讀,而不是費盡心思尋找合適自己的書目,這無疑會提升讀者的閱讀體驗,體現了以讀者為中心的理念。②扭轉圖書館的被動式服務理念。有效運用數據挖掘技術,分析讀者的信息行為,從而了解不同讀者的閱讀需求和借閱行為,主動將現有的服務推送給讀者,扭轉傳統的被動式服務理念。讀者可以通過圖書館主動的閱讀推送,獲得貼心的閱讀書目推送,這種方式可以將圖書館與讀者之間的距離拉得更近,從而提升圖書館的服務質量。③圖書管理決策智能化。由Apriori算法得到的關聯規則能夠給圖書管理提供有利的數據支撐,圖書館員在管理過程中,可以依據實際情況進行圖書上架的精細化管理,出于方便讀者借閱的目的,把關聯度較高的圖書類型擺放在一起[5]。并且記錄下各個區塊圖書借閱的相關數據,做好數據處理,以發現圖書擺放之間的相關性。最后將相關圖書信息進行處理分析,轉化為隨時可用的決策知識,防止將來因信息不足而造成圖書管理的決策錯誤。

表3 ReaderID & Booktype2建模結果

猜你喜歡
關聯規則圖書館
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
飛躍圖書館
圖書館里的是是非非
主站蜘蛛池模板: 精品久久香蕉国产线看观看gif| 亚洲国产精品一区二区第一页免 | 精品国产三级在线观看| 丝袜亚洲综合| 国产精选小视频在线观看| 暴力调教一区二区三区| 久久五月视频| 国产成人调教在线视频| 色综合成人| 动漫精品啪啪一区二区三区| 欧美不卡视频在线| 亚洲中文字幕无码mv| 日韩欧美视频第一区在线观看| 午夜免费小视频| 日韩在线播放欧美字幕| 亚洲第一色网站| 亚洲男人的天堂视频| 久久情精品国产品免费| 欧美在线天堂| 国产成年女人特黄特色毛片免 | 欧美色视频在线| 午夜福利免费视频| 波多野结衣中文字幕一区二区| 色有码无码视频| 国产亚洲欧美另类一区二区| A级毛片高清免费视频就| 国产亚洲欧美另类一区二区| 国国产a国产片免费麻豆| 蜜臀av性久久久久蜜臀aⅴ麻豆| 91精品情国产情侣高潮对白蜜| 国产乱人免费视频| 亚洲天堂视频在线观看免费| 亚洲国产成人超福利久久精品| 专干老肥熟女视频网站| 欧美性精品不卡在线观看| 久久青草精品一区二区三区| 欧日韩在线不卡视频| 波多野结衣视频一区二区| 国产成人艳妇AA视频在线| 无码专区在线观看| 国产精品漂亮美女在线观看| 久青草免费在线视频| 国产欧美日韩91| 一级毛片在线播放免费观看| 亚洲人成网站在线观看播放不卡| 狂欢视频在线观看不卡| 国产激情第一页| 天天综合网亚洲网站| 毛片国产精品完整版| 精品视频一区二区观看| 亚洲最黄视频| 国产日韩精品欧美一区喷| 欧美另类精品一区二区三区| 亚洲国产欧洲精品路线久久| 中文字幕乱妇无码AV在线| 国产在线啪| 一本视频精品中文字幕| 久久综合久久鬼| 久久久久青草线综合超碰| 欧洲日本亚洲中文字幕| 亚洲一级毛片在线播放| 色九九视频| 欧美精品成人| 99ri精品视频在线观看播放| 亚洲精品大秀视频| 五月天久久婷婷| 国产精品自拍露脸视频| 97人人模人人爽人人喊小说| 美女国内精品自产拍在线播放| 久久久国产精品无码专区| 中文字幕无码中文字幕有码在线| 夜夜拍夜夜爽| 成人第一页| 91成人免费观看| 成人精品免费视频| 青青青亚洲精品国产| 国产精品欧美激情| 国产人成在线视频| 人妻夜夜爽天天爽| 国产高清在线精品一区二区三区| 四虎精品国产永久在线观看| 91色国产在线|