999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯規則挖掘在高校智慧圖書館個性化服務中的應用研究

2021-05-14 11:10:58蔣天民
內蒙古科技與經濟 2021年6期
關鍵詞:數據挖掘關聯規則

蔣天民,王 英

(南通大學,江蘇 南通 226019)

智慧圖書館是近幾年對圖書館未來發展方向提出的一個新概念,未來的圖書館將不拘泥于空間的限制并且可以被用戶切實的感知。這種感知指的是更廣泛的互聯互通以及在此基礎上的智慧化的管理和服務,使用戶或讀者在這個體系之內能夠體驗更加貼心的個性化服務。日新月異的科技給網絡資源的容量帶來了幾何級的激增,如何從海量的信息中檢索到自己所需要的信息成為人們需要面臨的新的問題。智慧圖書館的策略就是通過技術的調整和改進以及信息重組來為用戶提供“智慧”的信息服務,以解決用戶的需求。這個技術調整和改進以及信息重組的過程就是數據挖掘的過程[1]。

數據挖掘技術是結合了統計方法、計算機技術、人工智能等構成的一種新興學科[2]。數據挖掘來源于統計分析,是統計分析方法的擴展和延伸。大多數的統計分析技術都基于完善的數學理論和高超的技巧,其預測的準確程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發展,數據挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算算法的產生如神經網絡、決策樹使人們不需了解到其內部復雜的原理也可以通過這些方法獲得良好的分析和預測效果[3]。

數據挖掘的海量基礎數據來自各個應用系統的數據庫數據,這些應用系統的數據庫必須具備高速的存儲技術以及高效的索引技術,可以提供海量數據的高性能(并行)查詢,并且使用諸如分布式技術和爬蟲技術,以快速抓取海量的網絡信息數據。與圖書館的發展相比較,數據挖掘技術從計算機科學發展至今已有十多年的歷史。從20世紀70年代開始,數據挖掘技術逐漸在圖書館中展開全方位的應用。在國內,數字圖書館的誕生和發展得益于互聯網的高速發展[4]。隨著數字資源總量和數據庫數量的高速增長,數據庫自動化管理系統隨之進入高校圖書館。所以,數據挖掘技術應用的基礎條件已基本具備,伴隨著數據挖掘技術應用的不斷拓展,在高校圖書館信息管理和信息服務的水平也得到了巨大的提升。

1 數據挖掘的基本算法

1.1 數據挖掘的定義

目前,數據挖掘有許多種定義。簡要來說,數據挖掘就是從海量數據中提取或挖掘知識。通常數據挖掘系統包含圖1中所示的若干組件。

圖1 數據挖掘的組成

數據挖掘包括了以下這些學科和技術:數據庫技術、機器學習、人工神經網絡、模式識別、數據圖形化、空間數據分析、統計學、圖像和信號處理、知識抽取等。數據挖掘系統除了包括以上這些學科和技術之外,甚至還應用到了心理學、經濟學等。

數據挖掘是可以從數據庫中提取有趣的知識規律或深層信息來發現的知識,可以用于決策,過程控制,信息管理,查詢處理。這些規律和知識可以應用到零售業、制造業、財務金融保險、通訊及醫療服務等領域。數據挖掘系統是用來研究和了解數據挖掘規律性的工具。作為一個多學科交叉的領域,數據挖掘被認為是信息產業21世紀最有前途的學科。

1.2 數據挖掘過程

數據挖掘是通過計算機處理、人工分析等方法進行人機交互的過程,并且是完備且可迭代的,該過程主要包含了以下幾個步驟(如圖2所示):數據準備、數據篩選、數據預處理、數據挖掘、模型轉換和評估[5]。

圖2 數據挖掘過程

1.3 數據挖掘算法之關聯規則分析

關聯規則指的是兩個或多個變量的相關性規則特征。數據庫中的數據之間通常不是孤立的存在,而是存在某種關聯。相關性分析是通過分析來發現數據之間的相關性特征,從而獲得數據之間的依賴,以便于今后的數據設計和分析。關聯規則主要由兩個階段組成:①分析數據并獲取數據集中的高頻名稱;②從這些高頻名稱中產生關聯規則。

通過從關聯規則中分析結果,并在個性化圖書館管理系統中采用關聯規則,可以幫助圖書館快速找到與當前正在發生的問題的相關事件,還可以通過分析讀者的檢索內容來獲得當前讀者用戶的信息,以便將相關內容更有效地推送給讀者[6]。

1.4 常用的關聯規則算法之Apriori算法

1993年R.Agrawal等人首次提出了挖掘顧客交易數據中項目集間的關聯規則問題,其核心是基于兩階段頻繁集思想的遞推算法。該關聯規則在分類上屬于單維、單層及布爾關聯規則,這就是經典的Aprior算法。Aprior算法將發現關聯規則的過程分為兩個步驟:第一步通過迭代,檢索出事務數據庫中的所有頻繁項集,即支持度不低于用戶設定的閾值的項集;第二步利用頻繁項集構造出滿足用戶最小信任度的規則。其中,挖掘或識別出所有頻繁項集是該算法的核心,占整個計算量的大部分[7]。

Apriori算法思路簡單,使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數據庫,累積每個項的計數,并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記作L1,然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此迭代,直到不能再找到頻繁k項集。找每個Lk需要一次數據庫全掃描。

算法下一步是基于頻繁項集挖掘關聯規則。置信度大于最小置信度的規則稱為頻繁關聯規則。在算法挖掘出的所有關聯規則中,既可能是頻繁關聯規則也可能是非頻繁關聯規則。然后,將挖掘出的規則的置信度與最小置信度進行比較,大于最小置信度的關聯規則即為頻繁關聯規則[8]。

2 高校智慧圖書館個性化服務模型

2.1 個性化服務模型

高校圖書館不僅是各種實體文獻資源和數字資源的存儲地,同時,它還承擔了學術信息交流中心的角色,為廣大師生提供知識服務。智慧圖書館是一種數字化、網絡化、智能化的信息科學為基本手段的,有著更加高效和便利特點的一種圖書館運行模式,它的最本真的追求就是用最綠色的方式和數字化的手段來實現閱讀。它是未來新型圖書館的發展模式,能實現廣闊的互聯以及共享,它以人為本,進行智慧化的管理和服務。智慧圖書館提供的是智慧服務,而智慧服務的最本質特征就是完成實時的增值,讓知識服務的內涵得以升華,這對于人類的可持續發展有著極其重要的意義[9]。

基于關聯規則挖掘的圖書館個性化服務模型(如圖3)包含3個功能模塊:數據處理、關聯規則挖掘、個性化服務。數據處理是第一步,包含了數據導入、數據整合、數據清洗、數據過濾、數據轉換、數據歸約。第一步過程對于后序關聯規則挖掘的效果將起到至關重要的作用。第二步,挖掘讀者與圖書關系的關聯規則以及圖書與讀者關系的關聯規則,建立讀者特征和借閱的圖書以及圖書和圖書之間的關聯模型。第三步,在讀者個性化服務中應用前面挖掘到的關聯規則。

該模型主要實現了兩個功能:①關聯規則挖掘功能。通過挖掘讀者的借閱歷史來發現某些有價值的關聯規則,歸納出隱藏的規則。②個性化服務功能。將上一步中得到的關聯規則落實到具體的智慧圖書館的個性化推薦服務中去。平臺采用B/S模式,服務器操作系統選擇Windows Server 2008。開發環境使用Visual Studio 2010,開發語言選擇C#。讀者數據存儲工具選擇SQL Server 2008數據庫。關聯規則挖掘算法選擇Microsoft關聯算法[10]。

圖3 圖書館個性化服務模型

2.2 高校圖書借閱數據中的關聯規則應用

高校智慧圖書館管理系統是同時服務于讀者用戶和圖書館管理者的最重要的信息系統,是圖書館管理工作中非常重要的一環。因此,高校智慧圖書館管理系統必須能為管理者和讀者提供及時又充分的信息。高校智慧圖書館常見的信息系統有:圖書管理系統、書刊流通系統、書刊查詢系統、讀者管理系統、費用管理系統。因為都是關系型數據庫,所以每個系統都由若干關系表組成。以上這么多信息系統中連接讀者(讀者借閱歷史)和書刊(書刊更新、借閱、歸還)之間關系最重要的一個信息系統就是書刊流通系統。筆者討論的數據挖掘都是基于這部分數據的開發[11]。

通過對讀者借閱歷史(即圖書流通數據)挖掘關聯規則的目的是通過分析關聯規則來歸納出諸如以下規律:①了解讀者的特點和他們借閱圖書的規律。調查讀者的性別、年齡、專業和其他影響借閱圖書的各種屬性,從中歸納出讀者更有借閱意向的圖書特征,可以更有針對性地向讀者薦閱圖書期刊,這對讀者和智慧圖書館的服務工作都具有重要意義。②通過發掘業務數據庫中借閱歷史之間的關聯可以分析出讀者的借閱習慣。舉例如下:通過挖掘關聯規則得到了圖書A和圖書B之間的某種借閱關系,即圖書A的讀者中有70%也借了圖書B。那么就可以將圖書B推薦給借了圖書A的讀者。合理安排優秀的圖書可以增加借閱量和指導讀者購買。

利用原始數據來挖掘關聯規則的過程也有另一種更廣義的說法叫知識發現(KDD:Knowledge Discovery in Database)。圖4展示了知識發現的過程。知識發現可以歸為3個部分:知識預處理、數據挖掘、結果的解釋和評估(解釋和評估)。

圖4 知識發現過程

2.3 Microsoft關聯算法

Microsoft 關聯規則算法是Apriori 算法的簡單實現,該算法需要合理設定參數,會極大地影響關聯規則挖掘的數量。和該算法密切相關的參數有以下幾方面。

2.3.1 支持度。 支持度是一個項集或者規則在所有事物中出現的頻率,確定規則可以用于給定數據集的頻繁程度。對生成規則無影響,對生成項集有影響。項集{A,B}的支持度是包含A和B的所有交易數總和。表達式為:

support(A?B)=p(A∪B)=NumbeofTransaction(A,B)

(1)

2.3.2 置信度。 一些文獻中也稱為概率或可信度。在發生事件A的條件下發生事件B的概率,該規則表達式如下:

probablity(A?B)=probablity(B|A)=p(A∪B)/p(A)=NumbeofTransaction(A,B)/TotalNumbeofTransaction

(2)

最小置信度是指,用戶只對滿足特定頻率的規則感興趣。它的值和最小支持度是相同的。置信度影響規則的生成,但不影響項集的生成。生成的規則數量取決于設置的最小置信度的值[12]。

2.3.3 增益。 一些文獻中也叫作興趣度分數或重要性,對項集和規則的生成、項集的增益、規則的增益都有影響。項集的增益用以下公式定義:

importance(A?B)=p(B|A)/p(B)=[probablity(A,B)/probablity(A)*probablity(B)]

(3)

它描述了項集A對項集B的影響程度。它的值域是[0,∞]。如果增益等于1,代表事件A和事件B是相互獨立的。如果增益小于1,代表事件A和事件B是負相關的,如果發生了事件A就不可能發生事件B。如果增益大于1,代表事件A和事件B是正相關的,如果發生了事件A也有可能發生事件B。規則的重要性公式為:

importance(A?B)=log(P(B/A)/P(B/notA))

(4)

該公式表示:如果增益為0,代表事件A和事件B相互獨立。如果值為正代表事件A為真時,事件B的概率會增加。如果值為負代表事件A為真時,事件B的概率會減小。

3 關聯規則的挖掘

3.1 圖書借閱數據的來源

筆者選取了南通大學圖書館的數據作為研究對象,挖掘關聯規則的數據來源于南通大學圖書館匯文管理系統中的讀者借閱記錄。選取了2014年1月1日~2018年12月31日之間分類號為TP(自動化技術計算機技術)的946 054條讀者借閱記錄作為數據集,統計如表1所示。每條記錄均包含以下屬性:校園卡號、讀者姓名、院系名稱、圖書題名、圖書分類號、借閱時間。

表1 讀者特征和借閱圖書的關系規則

3.2 關聯規則挖掘工具

數據挖掘和分析工具選擇SPSS的Clementine 8.1,期待能找到讀者的背景信息與借閱行為之間的關聯規則,以及找到圖書之間的關聯規則。

3.3 實驗結果分析

3.3.1 挖掘讀者特征和借閱圖書的關聯。圖書館使用的匯文管理系統是一個關系型數據庫,其中包含了多種維度的借閱記錄數據,每條借閱記錄除了含有借閱圖書的相關信息,還包括了和讀者相關的信息,例如借閱時間、讀者年齡、讀者性別、讀者專業等。我們把以上屬性作為謂詞,開始挖掘關聯規則,把挖掘到的含有兩個以及兩個以上謂詞的關聯規則稱為多維關聯規則[13]。我們設置最低規則支持度為0.1,最低規則置信度為0.4,獲得了186條多維規則。實驗結果如表2所示。

通過分析表2得到如下規則:①2014屆計算機科學與技術專業大一學生,有10.3%的讀者借閱了網頁設計類圖書,12.6%借閱了多媒體方向的圖書,從大二開始,計算機系對學生的根據學生的興趣方向進行重新分班,其中就包括了網頁設計方向班級和圖像處理方向,從挖掘結果可以發現這兩類的支持度和置信度都有所提升; ②計算機專業大三開始學習計算機網絡相關的課程,所以,有15.2%的學生借閱了計算機網絡相關的書籍; ③計算機專業的男生借閱計算機網絡應用和網絡互聯技術的圖書占比為20.1%和20.2%,從男生更偏向于借閱此類圖書很容易聯想到男生在專業選擇和個人興趣方面的偏好,可以利用這個規則向他們提供個性化服務;④計算機專業的女生借閱網頁設計和圖像處理類別的圖書分別占比16.8%和18.1%,女生更偏向于選擇此類專業和興趣愛好的圖書,因此,可以利用這條規則向她們提供個性化服務。

通過上面的實驗數據,我們再來看看規則數與最小支持度和最小置信度之間的關系。將支持度設定為0.05、0.1、0.15、0.2,將置信度設定為0.3、0.4、0.5、0.6,得出二者之間的關系如表2所示。

表2 讀者特征和借閱圖書的關系規則

表3 最小支持度、最小置信度、規則數的6組數據的關系

從表3的結果可以得出,挖掘到有效關聯規則的數量多少取決于最小支持度和最小置信度設置的具體值大小[14]。圖書館的業務應用系統中包含了海量的讀者數據可用于挖掘,但是選取合適的支持度是個難以估算的難題。因此,最小支持度和最小置信度閾值可以根據生成規則的實際數量和預置目標進行合理調整。在挖掘關聯規則的過程中還發現,最小支持度對規則數的影響非常敏感。如果最小支持度大于0.2,挖掘到的關聯規則數為零[15]。

3.3.2 挖掘圖書關聯。由于我們要分析各類圖書之間的關聯規則,所以我們選擇“Apriori”模型建立規則,然后將圖書類別字段的方向選項設置為“兩者”(輸入和輸出字段),其他字段設置為“無”。調整算法參數設置最小支持度為0.15,最小置信度為0.45,獲得了125條關聯規則。實驗結果如表4所示。

表4 圖書借閱關聯規則

通過以上的圖書借閱關聯規則表可以得出以下規則。

規則1:既借閱了數據庫理論和系統又借閱了編程語言類圖書的讀者占比為15.1%。有47.6%的讀者在借閱了數據庫理論和系統類圖書的前提下,又借閱了編程語言類的圖書。

規則2:既借閱了圖像處理軟件又借閱了文本處理類圖書的讀者占比為15.2%。有54.8%的讀者在借閱了圖像處理軟件類圖書的前提下,又借閱了文本信息處理類的圖書。

規則3:既借閱了機器輔助技術又借閱了圖像處理方法類圖書的讀者占比為15.6%。有65.1%的讀者在借閱了機器輔助技術類圖書的前提下,又借閱了圖像處理方法類的圖書。

規則4:既借閱了計算機網絡安全又借閱了網絡操作系統類圖書的讀者占比為16.3%。有54.2%的讀者在借閱了計算機網絡安全類圖書的前提下,又借閱了網絡操作系統類的圖書。

規則5:既借閱了軟件工程又借閱了編程語言類圖書的讀者占比為18.4%。有46.9%的讀者在借閱了軟件工程類圖書的前提下,又借閱了編程語言類的圖書。

最終,將挖掘得到的關聯規則與高校圖書館實際工作以及讀者借閱情況的調研結果進行了比較,發現二者非常相似,表明以上挖掘到的結果是真實可用的。無論如何,由于相對于全校學生來說,計算機系的學生數量較小,大多數學生借閱的圖書都是和本專業相關的,圖書館的藏書量是有限的,圖書更新期較長,這也會產生一些影響,導致挖掘出的關聯規則有一定的局限性。

4 結束語

個性化推薦服務是高校圖書館智慧服務建設中的關鍵內容。筆者探討了在高校智慧圖書館的個性化信息服務中利用數據挖掘的相關技術來獲得關聯規則的案例,然后,將關聯規則應用到圖書的智能查詢和個性化信息推送中去。①介紹了數據挖掘技術的相關概念,并以此為基礎,研究了如何利用圖書館管理信息系統數據中的數據,利用Apriori算法來挖掘借閱記錄等數據,發現讀者對借閱文檔的相關性。發現如下規律:不同類型的圖書有不同類型的讀者。借閱的規律性是存在的,不同學科之間具有某種關聯等等。通過挖掘這些數據間的關系,圖書館員可以購買提供服務信息的圖書,有利于圖書館合理配置館藏資源,改善資源利用率,促進圖書管理的良性循環。②以圖書管理系統為例,介紹了高校智慧圖書館個性化服務系統的結構和業務流程。③介紹了Apriori算法并利用改進的Apriori算法對圖書館數據庫中的借閱記錄等數據進行挖掘。通過挖掘發現,讀者借閱記錄存在某種關聯,不同類型讀者的借閱記錄具有某種規則,不同學科也有某種關聯。通過分析借閱記錄中讀者和圖書的關系,發現這些數據間的關系,為圖書館管理員提供參考,有利于館藏資源的合理分配、提高資源利用率。同時,也為該方面的其他應用研究提供了一些思路。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 污污网站在线观看| 久久精品视频一| 综合成人国产| 欧美日韩国产成人高清视频| 日韩精品一区二区三区视频免费看| 亚洲一级毛片在线观| 色婷婷啪啪| 99青青青精品视频在线| 欧美黄色a| 国产一级特黄aa级特黄裸毛片| 2020久久国产综合精品swag| 国产美女在线观看| 欧美成人在线免费| 老司机aⅴ在线精品导航| 色妞永久免费视频| 亚洲日韩精品无码专区| 亚洲精品日产精品乱码不卡| 黄色在线不卡| 91九色最新地址| 激情视频综合网| 亚洲第一网站男人都懂| 久久亚洲国产一区二区| 国外欧美一区另类中文字幕| 视频在线观看一区二区| 尤物精品视频一区二区三区| 成人国产精品2021| 亚洲精品成人福利在线电影| 91色在线观看| 日韩精品无码一级毛片免费| 亚洲精品自拍区在线观看| 亚洲精品黄| 久久一级电影| a毛片免费观看| 亚洲最大福利网站| 国产精品yjizz视频网一二区| 久青草免费在线视频| 亚洲综合精品香蕉久久网| 精品日韩亚洲欧美高清a | 91成人在线免费观看| 国产成人综合日韩精品无码首页| 国产理论最新国产精品视频| 亚洲av片在线免费观看| 米奇精品一区二区三区| 国产网站黄| 久久精品视频亚洲| 丰满人妻中出白浆| 波多野结衣一二三| 欧美不卡在线视频| 五月天在线网站| swag国产精品| 国产迷奸在线看| 欧美日韩精品在线播放| 久视频免费精品6| 99视频在线精品免费观看6| 天天综合色网| 亚洲色成人www在线观看| 成人一区专区在线观看| 久久久久夜色精品波多野结衣| 国产精品99在线观看| 国产极品美女在线| 色天堂无毒不卡| 波多野结衣在线一区二区| 456亚洲人成高清在线| 午夜福利在线观看成人| 99一级毛片| 日日拍夜夜操| 国产精品微拍| 欧美午夜精品| 亚洲永久色| 好久久免费视频高清| 欧美激情首页| 99在线观看精品视频| 亚洲天堂日韩av电影| 亚洲日本韩在线观看| 性色生活片在线观看| 在线免费a视频| 国产精品亚洲а∨天堂免下载| AV不卡在线永久免费观看| 欧美日韩理论| 欧美五月婷婷| 一级片免费网站| 色成人亚洲|