999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關聯分析在圖書興趣推薦中的應用

2021-06-16 23:49:52周智謙邱松
電子制作 2021年6期
關鍵詞:數據挖掘關聯規則

周智謙,邱松

(武漢城市職業學院設備處,湖北武漢,430070)

0 引言

世間萬物都是有聯系的,這種聯系也稱為相關性或者關聯性(association rule),關聯分析(association analysis)是指如果兩個或多個事物之間存在一定的關聯,那么其中一個事物就能通過其他事物進行預測,目的是為了挖掘隱藏在數據間的相互關系。本文以我校學生近兩年的圖書借閱事務標識和項目集合數據作為分析對象,通過分析事務背后深層次地相互影響的關系即關聯關系,通過關聯分析達到尋找圖書借閱的聯系和規律,發現它們之間的關聯關系的目的。事物的相關性或關聯性是指當一個事物變化時,另一個事物隨著發生變化;或一個事物出現,導致另一個事物出現。

相關性又分為正相關和負相關,正相關是指兩個變量變動方向相同,自變量由大到小或由小到大變化時,因變量同樣由大到小或由小到大變化,即其數據曲線的切線斜率始終大于零;負相關是指自變量的變化導致因變量反向變化,即其數據曲線的切線斜率始終小于零。

關聯分析是數據挖掘相關應用中的一個重要課題方向,已經在各行業中廣泛研究和使用。數據挖掘可以完成數據總結、分類、回歸分析、聚類分析和關聯分析的工作,其中通過關聯規則挖掘可發現大量數據中項集之間有趣的相互關聯規則,關聯分析包括簡單關聯規則和時序關聯規則。以簡單關聯規則舉例來說,分析發現在同一個專業的讀者中有相當比例同時借閱程序語言、算法語言(TP312)、軟件工具(TP311.561)與圖形圖像識別(TP391.41)的,這種規律即為一種簡單關聯規則。

1 數據挖掘

信息社會的特征是數據泛濫但知識相對匱乏,以我校18-19 年圖書借閱數據為例,總借閱數為59302 條,包含的信息有借閱時間、書籍題名、讀者姓名、讀者條碼、年級組、院系、索書號,隨著時間的推移數據積累地越來越多,借閱信息作為借還書的重要數據在圖書借閱系統中使用,如果不對數據庫進行技術統計分析,這些借閱信息不能很好幫助我們理解這些數據,比如無法發現借閱數據之間的關系和規則,無法依據現有數據預測未來趨勢,就將形成數據泛濫和知識相對匱乏的情況。

■1.1 數據挖掘的定義

數據挖掘是一個利用各種方法,從海量的有噪聲的凌亂數據中,提取隱含和潛在的對決策有用的信息和模式的過程[1]。

1995 年在加拿大蒙特利爾的第一屆知識發現和數據挖掘國際會議上提出數據挖掘(date mining)概念。數據庫中的數據被稱為“礦石”,數據挖掘就是在礦石中開采“知識”(黃金)。在計算機科學領域提出的知識發現KDD(Knowledge Discovery in Database)則是在數據庫中發現知識,KDD 的過程為建立數據源、提取數據、數據預處理、模型搭建、模型評估、可視化、應用等。

以我校某工科類學院近兩年圖書借閱信息作分析,對海量數據通過查詢和抽取來獲得了之前沒有獲得的有用信息或規則,該院系共718 人有借閱記錄,其中借閱1 本人數為238,占總人數的33.1%;借閱2 本人數為152,占總人數的21.1%;借閱3 本人數為97,占總人數的13.5%;借閱4 本人數為56,占總人數的7.8%;借閱5 本人數為97,占總人數的4.4%。借閱量從1 本至12 本的人數約占總人數的95%;完全借閱I 類文學種類書籍人數為15 人;僅借一本圖書的238 人中有18%借閱與專業相關,40%借閱文學類書籍;文學類占總借閱量的52.9%,專業相關的占27.6%,而哲學、歷史、藝術、數理科學、經濟、天文等借閱量普遍在1%上下,從側面反映了工科學生的求知欲局限于本專業之內。

但是隨著對數據挖掘的應用與實踐不斷深入,對數據的簡單查詢和抽取已經不能合理描述模型,必須借助于統計學、機器學等其他學科,對數據的預處理和對生成模型的評估是數據挖掘的基礎。

■1.2 數據挖掘方法論

數據挖掘方法論是數據挖掘實施的總體指導方案,目前有三個經典的數據挖掘方法論,它們分別是CRISP-DM方法論、SEMMA 方法論和Tom Khabaza 挖掘9 律,其中CRISP-DM(Cross-Industry Standard Process for Data Mining)方法論由SPSS 和Daimler-Benz 公司聯合制定,是跨行業數據挖掘標準。本課題基于Clementine 數據挖掘,使用了該方法論,它以數據為核心,其數據挖掘是以自然迭代為規律,整體呈現螺旋式數據探索過程,其對應的六個階段分別是:(1)業務理解(business understanding)、(2)數據理解(data understanding)、(3)數據準備(data preparation)、(4)模型搭建(modeling)、(5)模型評估(evaluation)、(6)模型發布(deployment)。

■1.3 數據準備工作

本次數據挖掘的目的是對圖書借閱信息做關聯分析,找到數據背后的隱藏關系;清洗數據共59302 條,剔除系統生成空白借閱信息22 條;清除劃歸至系部的教師借閱信息900 余條,因文學類占全校總借閱量超過62%,與其他門類書籍有較強的關聯性,故需清除所有文學(I)類信息;因為無法產生關聯項,刪除個人名下只借閱一本的信息;研究側重對象是工科學生,對于跨學科的哲學、文史、經濟等大類,只對大類關聯分析,將書籍所屬學科按領域合并;共2466 種書籍,為減小項目集合數量,提高關聯性,如Tp312 為程序語言、算法語言,此類有多個分支,比如JAVA 表示為TP312JA、C++表示為TP312C++、VC 表示為TP312VC 等,故將所有分支匯集成TP312 這個大類,最終得到47 種不重復種類;在做書籍大類關聯分析的基礎上,進一步分析某一工科專業學生的專業書籍關聯情況,共梳理出T 類(工業技術)種63 子類。

2 基于Clementine 的關聯分析

Clementine 提供了基于Apriori 和GRI 的算法,其中Apriori 算法是一種經典的關聯規數據挖據算法,它利用頻繁項集性質的先驗知識,通過逐層搜索迭代的布爾型關聯規則從事務數據庫或關系數據庫中發現同時滿足最小支持度和置信度的頻繁項目集[2]。

■2.1 關聯規則的定義

簡單關聯分析的對象是事務(Transaction),它由事務標識(TID)和項目集合(X)組成,一個事務標識對應一個事務。

事務標識從001 起始,事務總量T=4;TN79、TN309、TP311.12、TP316.81、TP36 為變量名,取值1 代表借閱,0 代表沒有借閱。

■2.2 描述簡單關聯規則的三個測量值

一般使用支持度(Support)和置信度(Confidence)兩個測度指標來描述關聯規則的屬性。

(1)置信度(C)

所謂置信度,就是對簡單關聯規則準確度的反映,它表示選擇A 后,B 出現的概率。算法公式為:

(2)支持度(S)

支持度是指同時選擇A 和B 的概率,或者說是選擇組合的次數占總事務標識條目的比例。算法公式為:

(3)提升度(L)

提升度是置信度與后項支持度的比值,意義是先選擇A對再次選擇B 的提升作用,用來判斷選擇組合方式是否具有現實意義,也即是組合選擇AB 的次數多于單獨選擇B 的次數,說明組合方式有效。算法公式為:

理想關聯規則的置信度(C)和支持度(S)越大越好,并且提升度要大于1。如果置信度高但支持度低,說明規則可信度好但是規則應用機會少;如果支持度高但是置信度低,則說明規則可信度低。故理想的關聯規則是在眾多的關聯規則中較好的一類,在設計模型時,可以對置信度和支持度的閾值做限制以篩選出理想關聯規則。

■2.3 Apriori 算法

(1)確定頻繁項集。以表1 為例,首先由用戶指定最小支持度閾值為0.5,通過單個項目集合依次向多個項目集合迭代,事務總量T=4。通過第一次迭代的計算,分別計算出項集C1 中A 至E 的支持度:A=0.5 B=0.75 C=0.75 D=0.25 E=0.75,因此頻繁項集L1 為A,B,C,E;第二次迭代項集C2為AB,AC,AE,BC,BE,CE,支持度分別為0.25,0.5,0.25,0.5,0.75,0.5,因此頻繁項集L2 為AC,BC,BE,CE;第三次迭代項集C3 為ABC,ACE,BCE,支持度分別為0.25,0.25,0.5,因此頻繁項集L3 為BCE。

表1 事實表示例

(2)產生簡單關聯規則。在高于支持度閾值的前提下,根據用戶指定的置信度閾值來確定理想規則集合。對于第三次迭代產生的頻繁項L3 而言,需要計算BC 出現時E 出現的概率,即置信度CBC→E=0.5/0.5=1,此時置信度最大;計算BE 出現時C 出現的概率,即置信度CBE→C=0.5/0.75=0.67;計算CE 出現時B 出現的概率,即置信度CCE→B=0.5/0.75=0.67。可見,如果設置置信度為1,則產生的簡單關聯規則是(BC)→(E);若設置置信度為0.6,則產生的簡單關聯規則將是(BC)→(E)、(BE)→(C)和(CE)→(B)。

3 模型建立及結論

使用Clementine 對某學院同一專業借閱的圖書進行分析。在分析前,首先對數據進行準備工作,同一人名下借閱同種類型、多本圖書計一本,樣本中總人數為85 人,清洗掉只借一本的10 人,得到借閱至少兩本的可進行關聯分析的人數為75,書籍借閱種類共計46 種;將數據庫中的事務類型表轉換成事實表,得到事務總量T 為75,項目為46。

通過Var.file 節點讀入數據,將Moedling 中的Apriori節點放入,在字段的后項和前項中引入所有需要分析的項目。為能選出理想模型,設置最低支持度閾值為10%,最小規則置信度設置為50%,分析結果如下表2 所示。

表2 Apriori關聯分析結果

其中1 號規則的含義是:借閱TP393(計算機網絡)同時會借閱TP312C(程序語言、算法語言,C 語言),支持度和置信度都大于設定閾值,提升度(L)>1,說明規則具有現實意義,組合方式有效。4 號規則的含義是借閱TP312PH(程序語言、算法語言,PHP 語言)和TP312C(C 語言)的同時會借閱TP312JA(JAVA 語言),并且它的提升度(L)是最高的,說明實際指導意義相對最大。

簡單規則的分析結果可應用于優化圖書館書籍的收納分類和圖書興趣推薦方面。將同一大類書籍按照借閱的關聯規則合理規劃擺放區域,可方便讀者一并借閱;通過優化借閱路徑,在擺放專業相關分類書籍的同時,覆蓋一部分交叉學科書籍,有助于學生補充綜合性知識,使學生能獲得多元的理論基礎和視角。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美综合区自拍亚洲综合绿色| 狠狠色综合久久狠狠色综合| 日韩国产无码一区| 欧美亚洲国产精品久久蜜芽| 在线观看亚洲国产| 免费又爽又刺激高潮网址| 国产黑丝一区| av在线人妻熟妇| 狠狠色丁香婷婷| 亚洲视频色图| 亚洲国产中文精品va在线播放| 久久综合婷婷| 中国国语毛片免费观看视频| 伊人色在线视频| 婷婷激情五月网| 青青青国产精品国产精品美女| 又大又硬又爽免费视频| 亚洲精选无码久久久| 国产00高中生在线播放| 国产精品久久国产精麻豆99网站| 露脸真实国语乱在线观看| 精品伊人久久久大香线蕉欧美 | 在线中文字幕日韩| 人与鲁专区| 欧美影院久久| 天天躁夜夜躁狠狠躁图片| 亚洲大尺度在线| 成人精品在线观看| 色AV色 综合网站| 免费无遮挡AV| 日本三级精品| 国产免费好大好硬视频| 国产一级一级毛片永久| 天天视频在线91频| 91www在线观看| a级毛片网| 乱人伦中文视频在线观看免费| 国产成人综合网在线观看| 麻豆精品久久久久久久99蜜桃| 亚洲天堂网在线观看视频| 欧美亚洲国产日韩电影在线| 欧美一区日韩一区中文字幕页| 91热爆在线| 天天爽免费视频| 亚洲欧洲日本在线| 波多野结衣一区二区三区AV| 福利一区三区| 亚洲成人网在线观看| 亚洲视频免费在线看| 成人一级黄色毛片| 国产亚洲欧美在线中文bt天堂 | 国产成人综合日韩精品无码首页| 欧美成人区| 狼友av永久网站免费观看| 激情亚洲天堂| 国产成人超碰无码| 亚洲精品777| 亚洲精品视频免费看| 免费在线国产一区二区三区精品| 成人国产免费| 久久人人爽人人爽人人片aV东京热| 久久香蕉国产线看观| 色婷婷狠狠干| 亚洲色图欧美视频| 人妻无码中文字幕一区二区三区| 国产亚洲精品自在久久不卡| 亚洲第一中文字幕| 亚洲香蕉伊综合在人在线| 国内丰满少妇猛烈精品播| 色综合激情网| 国产精品一区在线麻豆| 国产成人无码综合亚洲日韩不卡| 色综合激情网| 日本黄色a视频| 女人18毛片一级毛片在线 | 一本一道波多野结衣一区二区 | 99re免费视频| 国产呦视频免费视频在线观看| 热久久这里是精品6免费观看| 欧美亚洲欧美区| 久久久91人妻无码精品蜜桃HD| 国产迷奸在线看|