999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)聯(lián)規(guī)則算法在小數(shù)據(jù)挖掘中的技術(shù)研究

2019-04-08 00:46:32王金娟段珊彭浩徐紅
現(xiàn)代計算機 2019年6期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

王金娟,段珊,彭浩,徐紅

(湖南涉外經(jīng)濟學(xué)院,長沙410205)

0 引言

互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展已然將人類帶到“互聯(lián)網(wǎng)+新能源”為聚合推動力的又一次革命中,在這場革命的推動下,互聯(lián)網(wǎng)己經(jīng)不再是一個簡單的獲取資源的工具,它更是一個以難以想象的速度發(fā)展成為與現(xiàn)實世界緊密融合的數(shù)據(jù)世界。

目前,大數(shù)據(jù)有很多種不同的定義。大數(shù)據(jù)先是從各行各業(yè)如證券金融、電子商務(wù)、搜索引擎等行業(yè)中產(chǎn)生的海量的每天數(shù)萬TB的數(shù)據(jù)[1],這些日益積累出的大數(shù)據(jù)仍然在不停地爆發(fā)式增長,后得出大數(shù)據(jù)既是數(shù)據(jù)量達到PB級甚至EB級的大規(guī)模數(shù)據(jù)。

“大”是大數(shù)據(jù)最直觀最重要的特征,且這些各個行業(yè)里產(chǎn)生的數(shù)據(jù)都緊密相連,如何獲取這些數(shù)據(jù)里的價值是必須也必然要做的長期課題,所以大數(shù)據(jù)更可以準(zhǔn)確描述為:無法在可容忍的時間內(nèi)用傳統(tǒng)方法和軟、硬件平臺對其進行感知、獲取、管理、處理和可視化的數(shù)據(jù)集合,它更涵蓋了數(shù)據(jù)及其采集、處理、分析、解釋等在內(nèi)的一系列相關(guān)的技術(shù)[2]。這些技術(shù)包含數(shù)據(jù)采集,數(shù)據(jù)信息的抽取和清理,數(shù)據(jù)集成于分析,數(shù)據(jù)解釋與部署等內(nèi)容[5],這些內(nèi)容又涉及到數(shù)據(jù)存儲、數(shù)據(jù)安全、數(shù)據(jù)可視化、流計算、云計算、數(shù)據(jù)共享等多方面的技術(shù)集成,所以大數(shù)據(jù)的研究發(fā)展是現(xiàn)代信息產(chǎn)業(yè)技術(shù)的挑戰(zhàn)同時也是新的機遇,它的技術(shù)變革同時也會帶來科技與生活的不斷更替。

1 大數(shù)據(jù)與小數(shù)據(jù)

1.1 小數(shù)據(jù)概述

在當(dāng)今這個大數(shù)據(jù)世界,其數(shù)據(jù)的價值最終要體現(xiàn)在,能更深層次的對人民的生產(chǎn)和生活帶來更好的支持,這就需要行業(yè)縮小與最終用戶的距離,隨著推薦系統(tǒng)領(lǐng)域的提出和發(fā)展,針對單個用戶的個性化推薦技術(shù)己經(jīng)在新聞、閱讀、視頻、音樂等諸多領(lǐng)域大放異彩[7],如何獲取用戶相匹配的信息并推薦給用戶符合其興趣偏好的產(chǎn)品成為一項非常重要的課題,此時小數(shù)據(jù)的概念應(yīng)運而生。

小數(shù)據(jù)是指以單個用戶為中心的全方位數(shù)據(jù),包含數(shù)據(jù)被采集對象實時的身體狀況、社交習(xí)慣、財務(wù)、喜好、行為等一系列的數(shù)據(jù)信息[3]。通過分析小數(shù)據(jù)信息,可初步形成針對個人的數(shù)據(jù)系統(tǒng),利用它能對個人的需求和行為進行預(yù)測,并給出相應(yīng)的決策依據(jù)。小數(shù)據(jù)是基于概率論和數(shù)理統(tǒng)計的傳統(tǒng)統(tǒng)計思想,通過數(shù)據(jù)挖掘算法進行聚類,過濾,挖掘數(shù)據(jù)與用戶之間隱藏的關(guān)聯(lián)特征,并分析計算從而獲得的有限、固定、不連續(xù)、不可擴充的結(jié)構(gòu)型數(shù)據(jù)[6],它更具有個人色彩,也更加符合現(xiàn)在社會要求提供個性化服務(wù)的技術(shù)要求。

1.2 大數(shù)據(jù)與小數(shù)據(jù)的關(guān)系

首先,大數(shù)據(jù)反映的是規(guī)律,小數(shù)據(jù)體現(xiàn)的是個性化。大數(shù)據(jù)的4V特征即量度(Volume)、異度(Variety)、速度(Velocity)和精度(Veracity)反映出的是海量數(shù)據(jù)的總體規(guī)律[2],為提高數(shù)據(jù)在采集、處理、存儲和分析過程的效率可控性,大數(shù)據(jù)要求數(shù)據(jù)信息的組織結(jié)構(gòu)與類型必須標(biāo)準(zhǔn)化,要求數(shù)據(jù)覆蓋行業(yè)面廣、收集內(nèi)容要多、要求具有普適性,能分析得出其變化的規(guī)律。而小數(shù)據(jù)是針對單個用戶的數(shù)據(jù)集合,技術(shù)的研究方向集中圍繞著個人的信息的數(shù)據(jù)采集存儲、分析與決策,它更具有針對性,是為了提供更具有個性化用戶服務(wù)的產(chǎn)品的一次產(chǎn)業(yè)深度細分,因此小數(shù)據(jù)和大數(shù)據(jù)是對平衡的共同追求,而小數(shù)據(jù)注重抽樣,是大數(shù)據(jù)技術(shù)的一個深度分支。

其次,小數(shù)據(jù)在安全方面比大數(shù)據(jù)有更高的要求。大數(shù)據(jù)都來源于很多不同的計算機平臺,只能收集到反映群體特征的數(shù)據(jù),分析的規(guī)律一般是動態(tài)的、具有階段性數(shù)據(jù)特征的重復(fù)結(jié)果[8],而且會有大量的虛假干擾信息,信息價值密度低,安全性也不高。而小數(shù)據(jù)是以用戶個人為中心進行數(shù)據(jù)采集、決策分析對象,一定會涉及到包括用戶的個人生活環(huán)境、興趣愛好,所處的位置信息等多方面的隱私數(shù)據(jù),因此如何通過更好的行業(yè)規(guī)范和技術(shù)手段來保護獲取到的用戶數(shù)據(jù),是擺在面向小數(shù)據(jù)挖掘技術(shù)的一個重要課題。

2 關(guān)聯(lián)規(guī)則算法下小數(shù)據(jù)的挖掘技術(shù)研究

圍繞著用戶的小數(shù)據(jù)挖掘并以此為驅(qū)動設(shè)計出相應(yīng)的產(chǎn)品,就必須以用戶的需求為中心,即基于用戶需求的數(shù)據(jù)挖掘過程是決策最為重要的影響因素,如何準(zhǔn)確掌握用戶需求變化,提高數(shù)據(jù)信息采集的針對性并保障小數(shù)據(jù)的安全性[9],是在小數(shù)據(jù)挖掘的設(shè)計階段必須要重點關(guān)注的問題。

2.1 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個非常重要的課題,它的本質(zhì)是從數(shù)據(jù)背后發(fā)現(xiàn)事物之間可能存在的關(guān)聯(lián)或者聯(lián)系。當(dāng)海量數(shù)據(jù)經(jīng)過采集、處理、分析、解釋后,將不同來源的數(shù)據(jù)進行整合,再利用數(shù)據(jù)分析工具進行快速處理,結(jié)果提供給決策人員作為依據(jù)以此來挖掘小數(shù)據(jù)。小數(shù)據(jù)包含個體特征數(shù)據(jù)、行為監(jiān)控數(shù)據(jù)、第三方共享數(shù)據(jù)及外圍社會數(shù)據(jù)四個部分[10]。用戶個人的特征產(chǎn)生的數(shù)據(jù)是小數(shù)據(jù)的核心,包括用戶的基本信息數(shù)據(jù)、消費生活數(shù)據(jù)、相關(guān)的社會關(guān)系數(shù)據(jù)等多方面信息組成,它有較高的科學(xué)性、真實性、高價值密度和決策可用性;行為監(jiān)控數(shù)據(jù)主要由傳感器網(wǎng)絡(luò)、服務(wù)器監(jiān)控設(shè)備采集數(shù)據(jù)組成,主要實現(xiàn)對個體位置與移動路徑、社會關(guān)系等數(shù)據(jù)的采集與存儲;第三方共享數(shù)據(jù),主要由通信運營商及其它第三方增值服務(wù)商共享數(shù)據(jù)組成,該數(shù)據(jù)全面但安全性較低[3];外圍社會數(shù)據(jù)是合約數(shù)據(jù)提供商提供的共享數(shù)據(jù),它具有很大的挖掘潛能,是小數(shù)據(jù)挖掘非常重要的數(shù)據(jù)補充。

所以,小數(shù)據(jù)的挖掘應(yīng)建立在以用戶個性化需求為前提,從以上四個方面分析采集數(shù)據(jù)集的置信度、支持度,推導(dǎo)出合適的頻繁項集,找出其中的關(guān)聯(lián)規(guī)則再進行判斷、分析并提供能保障安全可靠的數(shù)據(jù)過濾和處理技術(shù)之上,希望能進一步弄清用戶的真實需求。

2.2 關(guān)聯(lián)規(guī)則算法對于小數(shù)據(jù)驅(qū)動的研究

關(guān)聯(lián)規(guī)則算法是從數(shù)據(jù)項的事務(wù)集合中挖掘出,滿足支持度和置信度最低閾值要求的所有關(guān)聯(lián)規(guī)則,這個閾值是由用戶指定,它的數(shù)據(jù)挖掘過程分為兩個過程:先從事務(wù)集合中找出頻繁項目集,再從頻繁項目集合中生成滿足最低置信度的關(guān)聯(lián)規(guī)則。常用的關(guān)聯(lián)規(guī)則挖掘的算法有Apriori算法、FP-Growth算法、CBA算法等。本文采用最經(jīng)典的Apriori算法討論關(guān)聯(lián)規(guī)則對于小數(shù)據(jù)挖掘的決策影響。

決策因素縱橫交錯,在已有的數(shù)據(jù)支持下,要做出相對好的決策就必須建立相關(guān)的算法去反映問題的實質(zhì)。Apriori算法是常用的用于挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法,它采用頻繁項集的先驗性質(zhì)來壓縮搜索空間,利用逐層搜索的迭代方法,找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合[11],找出這些集合的模式有助于做出更好的數(shù)據(jù)推薦。假設(shè)已經(jīng)處理多個數(shù)據(jù)來源的數(shù)據(jù)并整合,得到用戶的數(shù)據(jù)預(yù)處理結(jié)果后得到圍繞著小數(shù)據(jù)的用戶模型如圖1所示,其中個體特征數(shù)據(jù)包含數(shù)據(jù)庫里記錄的基本信息數(shù)據(jù)、消費生活數(shù)據(jù)、相關(guān)的社會關(guān)系數(shù)據(jù)等數(shù)據(jù),占用戶數(shù)據(jù)里比率最多;其次是行為監(jiān)控數(shù)據(jù)包含用戶當(dāng)前所在位置、瀏覽行為習(xí)慣、移動路徑等數(shù)據(jù),在數(shù)據(jù)比率里占第二;而和通信服務(wù)商及增值服務(wù)商采集的用戶訪問過的網(wǎng)絡(luò)信息及流量監(jiān)控等數(shù)據(jù)是共享數(shù)據(jù)在數(shù)據(jù)分布里占第三;而用戶與固定的一些接口程序或者例如百度、搜狗等這些合約數(shù)據(jù)提供商共享的數(shù)據(jù)是外圍數(shù)據(jù),占比最少。針對小數(shù)據(jù)的特征,通過關(guān)聯(lián)算法找出頻繁數(shù)據(jù)集,給出支持度表,就可以提供參考推薦數(shù)據(jù)。表1是利用隨機數(shù)生成法,從某網(wǎng)站的訪問數(shù)據(jù)中,采集到圍繞著移動用戶具有代表性的四個特征數(shù)據(jù)的表格,表中的性別、年齡是個體的特征數(shù)據(jù),可以從數(shù)據(jù)庫直接讀取。

圖1 用戶小數(shù)據(jù)分布模型圖

表1 用戶部分小數(shù)據(jù)表

針對大部分用戶注冊的性別數(shù)據(jù)不一定真實需要去掉噪聲,這里可以從用戶的行為屬性中逐步辨別。登錄城市是行為監(jiān)控數(shù)據(jù)、用戶每天使用的流量是共享數(shù)據(jù)、訪問網(wǎng)站的次數(shù)屬于外圍數(shù)據(jù)。Apriori算法中的頻繁項集表示數(shù)據(jù)在一起出現(xiàn)的概率最大,先以支持度作為判斷頻繁項集的標(biāo)準(zhǔn),再以數(shù)據(jù)的條件概率即置信度進行評估,以下列出算法步驟:

步驟1:生成單一個體數(shù)據(jù)頻繁項集列表,遍歷所有數(shù)據(jù)檢查生成的頻繁項集是否滿足最小支持度,對數(shù)據(jù)剪枝刪除不滿足支持度的項。

步驟2:使用組合方法,在當(dāng)前個體數(shù)據(jù)頻繁項集中生成個體數(shù)據(jù)和行為監(jiān)控數(shù)據(jù)的兩項數(shù)據(jù)頻繁項集,再檢查生成的頻繁項集是否滿足最小支持度,并刪除不滿足支持度的項。

步驟3:重復(fù)步驟2的過程,得到具有四個特征的頻繁項集。

步驟4:從步驟3生成的頻繁項集中挖掘關(guān)朕規(guī)則,判斷每條規(guī)則是否滿足置信度,不滿足則刪除,滿足則保留,生成的所有的規(guī)則按照其置信度進行排序[7],最后得到Apriori算法關(guān)聯(lián)挖掘的結(jié)果。

分析Apriori算法挖掘小數(shù)據(jù)后的結(jié)果,發(fā)現(xiàn)用戶的個體數(shù)據(jù)與外圍數(shù)據(jù),共享數(shù)據(jù)均有較強的聯(lián)系,而共享數(shù)據(jù)與外圍數(shù)據(jù)同樣有很強的關(guān)聯(lián)性,可以解釋為具有某種個體屬性的用戶更傾向于訪問同樣的外圍數(shù)據(jù),從而得到相同的共享數(shù)據(jù)。例如,在一線城市的女性更喜歡訪問提供服務(wù)相近的網(wǎng)站,同時消耗更多的流量,給增值服務(wù)商和網(wǎng)站運營商提供了更多的決策數(shù)據(jù)。

3 結(jié)語

和大數(shù)據(jù)挖掘相比,小數(shù)據(jù)挖掘圍繞用戶特征進行,具有更高的針對性和準(zhǔn)確性,但是如何提高共享數(shù)據(jù)和外圍數(shù)據(jù)的安全性問題仍然亟待解決。關(guān)聯(lián)規(guī)則挖掘算法能從發(fā)現(xiàn)數(shù)據(jù)之間可能存在的關(guān)聯(lián),但Apriori算法每輪迭代都要掃描數(shù)據(jù)集,在數(shù)據(jù)集很大,數(shù)據(jù)種類繁雜的時候,時空復(fù)雜度很高,算法效率太低,因此需要進一步研究能大幅度減少計算時間復(fù)雜度的關(guān)聯(lián)算法進行小數(shù)據(jù)挖掘,為用戶提供更好更高效的服務(wù)。

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 另类综合视频| 精品久久久无码专区中文字幕| 久久精品无码专区免费| 国产精品深爱在线| aa级毛片毛片免费观看久| 国产精品毛片一区视频播| 麻豆精品在线播放| 蜜臀AV在线播放| 最近最新中文字幕免费的一页| 婷婷色中文网| 国产毛片网站| 国产91无毒不卡在线观看| 在线精品亚洲一区二区古装| 午夜精品福利影院| 亚洲人成电影在线播放| 亚洲一区二区三区国产精华液| 国产精品欧美亚洲韩国日本不卡| 亚洲综合色婷婷| 久久99精品国产麻豆宅宅| 国产噜噜在线视频观看| 91无码国产视频| P尤物久久99国产综合精品| 亚洲毛片网站| 免费午夜无码18禁无码影院| 欧美一级在线播放| 国产亚洲高清视频| 久久熟女AV| 国产成人啪视频一区二区三区| 老司机久久99久久精品播放| 毛片一区二区在线看| 亚洲免费毛片| 高潮毛片无遮挡高清视频播放| 午夜精品影院| 亚洲午夜18| 国产精品漂亮美女在线观看| 日本在线欧美在线| 国产区网址| 国产精品30p| 无码AV高清毛片中国一级毛片| 国产高清国内精品福利| 欧美精品在线看| AV不卡在线永久免费观看| 精品国产一区91在线| 国产精品亚洲日韩AⅤ在线观看| 久久伊人久久亚洲综合| 91麻豆久久久| 国产精品浪潮Av| 亚洲婷婷在线视频| 欧美在线国产| 日本91在线| 99人体免费视频| 日韩欧美中文字幕在线精品| 美女潮喷出白浆在线观看视频| 亚亚洲乱码一二三四区| 欧美国产精品不卡在线观看| 日韩av高清无码一区二区三区| 国产在线高清一级毛片| 58av国产精品| 日本不卡在线播放| 国产亚洲视频播放9000| 欧美日韩精品在线播放| 国产亚洲精品资源在线26u| 免费观看国产小粉嫩喷水| 91小视频版在线观看www| 波多野结衣视频一区二区| 在线观看免费人成视频色快速| 欧美日韩一区二区在线免费观看 | 伊人久久婷婷五月综合97色| 国产在线精彩视频论坛| 日本免费a视频| 在线播放精品一区二区啪视频| 午夜成人在线视频| 国产一级裸网站| 尤物在线观看乱码| 成人免费视频一区二区三区| 毛片在线看网站| 色综合五月| 久久午夜影院| 伊人中文网| 国产美女主播一级成人毛片| a国产精品| 97国产一区二区精品久久呦|