999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法研究

2019-04-04 01:02:24徐延強(qiáng)
科學(xué)與財(cái)富 2019年6期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要: 為了信息產(chǎn)業(yè)更好地融入人們的生活和工作,甚至是社會發(fā)展中,如何挖掘數(shù)據(jù)成為了熱點(diǎn)問題。元數(shù)據(jù)是一種關(guān)于數(shù)據(jù)的數(shù)據(jù),挖掘元數(shù)據(jù)有助于數(shù)據(jù)應(yīng)用與存儲,因此,找到一種高效、智能的數(shù)據(jù)挖掘方法十分重要。本文介紹了元數(shù)據(jù)及其集成技術(shù),在此基礎(chǔ)之上,引入分布式垂直頻繁模式,并介紹了其在挖掘元數(shù)據(jù)過程中的使用方法,為從事相關(guān)行業(yè)的工作人員提供一個(gè)新的工作思路。

關(guān)鍵詞: 元數(shù)據(jù);數(shù)據(jù)集成;布式垂直頻繁模式;數(shù)據(jù)挖掘

一、元數(shù)據(jù)及其集成技術(shù)

元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),元數(shù)據(jù)是對數(shù)據(jù)的各種描述,描述的內(nèi)容主要包括數(shù)據(jù)出處、數(shù)據(jù)精度、數(shù)據(jù)質(zhì)量、數(shù)據(jù)處理過程以及數(shù)據(jù)更新與信息維護(hù)等相關(guān)內(nèi)容[1]。最初引入元數(shù)據(jù)的概念,一是為了更加高效、便捷的對數(shù)據(jù)庫進(jìn)行操作,提高數(shù)據(jù)庫更新與維護(hù)的效率與成果優(yōu)化;二是元數(shù)據(jù)的引入可以輔助計(jì)算機(jī)產(chǎn)業(yè)為其他產(chǎn)業(yè)提供專業(yè)技能,將計(jì)算機(jī)技術(shù)更好地融入其他產(chǎn)業(yè)。

元數(shù)據(jù)應(yīng)用非常廣泛,各行各業(yè)都有關(guān)于元數(shù)據(jù)的相關(guān)研究,因此,元數(shù)據(jù)在不同行業(yè)具有一定的差異性,這也是元數(shù)據(jù)的根本特點(diǎn)之一。元數(shù)據(jù)的另外一個(gè)特點(diǎn)就是元數(shù)據(jù)本身必須要對數(shù)據(jù)負(fù)責(zé),最大可能達(dá)到全方面地準(zhǔn)確描述數(shù)據(jù)。目前,在信息產(chǎn)業(yè)和計(jì)算機(jī)技術(shù)中,利用元數(shù)據(jù)可以提高數(shù)據(jù)訪問與檢索效率,也可以實(shí)現(xiàn)數(shù)據(jù)的深度挖掘,對數(shù)據(jù)進(jìn)行加工和處理[2]。

目前,元數(shù)據(jù)的集成技術(shù)在數(shù)據(jù)挖掘領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)成為了一個(gè)研究亮點(diǎn),在機(jī)器學(xué)習(xí)方面更是成為了四大重要研究方向之一,由此可見,元數(shù)據(jù)的集成技術(shù)具有重要意義。與元數(shù)據(jù)本身相比,元數(shù)據(jù)的集成可以進(jìn)一步提高元數(shù)據(jù)的價(jià)值,然而,元數(shù)據(jù)的集成也會發(fā)生數(shù)據(jù)較大的問題,對存儲數(shù)據(jù)的空間需求量加大,因此,找到將最佳組合的元數(shù)據(jù)進(jìn)行集成的科學(xué)方法,在元數(shù)據(jù)研究領(lǐng)域具有重要意義。

二、分布式垂直頻繁模式

當(dāng)今社會信息技術(shù)高度發(fā)達(dá),數(shù)據(jù)集成與挖掘?yàn)樾畔⒓夹g(shù)的發(fā)展提供了有力的數(shù)據(jù)支撐,是信息技術(shù)應(yīng)用在各行各業(yè)的技術(shù)支持。元數(shù)據(jù)集成需要多種不同類型的數(shù)據(jù)相互作用,相輔相成,數(shù)據(jù)挖掘正是為數(shù)據(jù)集成提供基礎(chǔ)數(shù)據(jù)的學(xué)科,分布式垂直頻繁模式是數(shù)據(jù)挖掘中廣泛使用的方法之一。

分布式在元數(shù)據(jù)挖掘中的含義是將整體數(shù)據(jù)分成多個(gè)不同的獨(dú)立的個(gè)體,分布式垂直頻繁模式,就是在海量數(shù)據(jù)中,將數(shù)據(jù)依據(jù)不同分類形式分成若干個(gè)不同的個(gè)體或子集,然后將具有最大重要性的數(shù)據(jù)個(gè)體或子集挖掘出來,最終形成頻繁項(xiàng)集輸出[3]。

頻繁項(xiàng)集在數(shù)據(jù)庫學(xué)科中的定義為,設(shè)Kn(n=1,2,……)為n個(gè)項(xiàng),K={K1,K2,…,Kn}是項(xiàng)的集合,D為事務(wù)數(shù)據(jù)庫。設(shè)有項(xiàng)集S在事物數(shù)據(jù)庫中的支持?jǐn)?shù)表示的是在事務(wù)數(shù)據(jù)庫中包含項(xiàng)集S的事務(wù)項(xiàng)數(shù)目,記為Scount,S在事物數(shù)據(jù)庫中的支持度是指S在事務(wù)數(shù)據(jù)庫中出現(xiàn)頻率,記為S.sup。假使S的支持度大于或等于給定的最小支持度閾值Minsup,則項(xiàng)集S為事務(wù)數(shù)據(jù)庫中的頻繁項(xiàng)集,在后續(xù)元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘中將被挖掘。。

分布式垂直頻繁模式挖掘的主要對象是頻繁項(xiàng)集,分布式垂直頻繁模式通過在海量數(shù)據(jù)中進(jìn)行搜索,將其中一個(gè)數(shù)據(jù)挖掘出來后,一起將另外與之頻繁出現(xiàn)的數(shù)據(jù)挖掘出來,最終合成頻繁項(xiàng)集篩選出來作為結(jié)果進(jìn)行分析,目前,分布式垂直頻繁模式比較主流的算法主要有兩種,分別是Apriori算法和FPGrowth[4]。

Apriori算法是先在數(shù)據(jù)中構(gòu)建數(shù)據(jù)候選集,在這些數(shù)據(jù)候選集中進(jìn)行挖掘,這種算法需要將步驟重復(fù)進(jìn)行多次,歷遍全部數(shù)據(jù),因此用時(shí)較長,當(dāng)數(shù)據(jù)量較大時(shí),Apriori算法效率較低,不適合使用。FPGrowth算法的第一步是構(gòu)建FP-tree,然后使用遞歸算法對FP-tree中的數(shù)據(jù)進(jìn)行挖掘,這個(gè)算法只有兩個(gè)步驟,效率非常高,并且數(shù)據(jù)所需存儲空間較少,應(yīng)用廣泛。

分布式垂直頻繁模式嚴(yán)禁將具有重要影響性的數(shù)據(jù)排除在頻繁項(xiàng)集之外,同時(shí)要求在頻繁項(xiàng)集中可以重建頻繁項(xiàng)集,也應(yīng)保證頻繁項(xiàng)集間具有獨(dú)立性與異同性。

三、元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法

在計(jì)算機(jī)領(lǐng)域,計(jì)算機(jī)設(shè)備和技術(shù)的發(fā)展速度可以用“摩爾定律”來表示,為了更好地實(shí)現(xiàn)良性發(fā)展,與計(jì)算機(jī)協(xié)同發(fā)展,元數(shù)據(jù)集成也正符合“摩爾定律”發(fā)展速度進(jìn)行進(jìn)步。

在計(jì)算機(jī)行業(yè)中,大數(shù)據(jù)和云計(jì)算是兩個(gè)新興的產(chǎn)業(yè)和學(xué)科,具有廣闊的發(fā)展前景,元數(shù)據(jù)是這兩個(gè)學(xué)科的基礎(chǔ),隨著信息化行業(yè)對于數(shù)據(jù)量的要求逐漸增長,傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)不能滿足使用者對于元數(shù)據(jù)的要求,分布式垂直頻繁模式挖掘方法可以滿足現(xiàn)代數(shù)據(jù)挖掘工作的要求。數(shù)據(jù)挖掘是從海量的、較少完整性的、含有噪聲的、較為模糊的、具有隨機(jī)性的數(shù)據(jù)集里面找到高效的、具有實(shí)用性的、可以表示的數(shù)據(jù)信息,數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,挖掘技術(shù)包含多個(gè)學(xué)科的專業(yè)技能。分布式垂直頻繁模式挖掘方法具有高可靠、可在線和彈性伸縮的特點(diǎn),同時(shí)可以提供不同數(shù)據(jù)之間的內(nèi)在關(guān)系和應(yīng)用價(jià)值,能夠?yàn)閿?shù)據(jù)挖掘從業(yè)人員在決策時(shí)提供方便、快捷、迅速和高質(zhì)量的數(shù)據(jù)[5]。

對于數(shù)據(jù)來說,數(shù)據(jù)挖掘是具有嚴(yán)格工作流程的工作,主要包括數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘開展、數(shù)據(jù)挖掘質(zhì)量評估以及挖掘結(jié)果知識表示這八個(gè)主要的過程。基于分布式垂直頻繁模式挖掘方法的元數(shù)據(jù)挖掘過程還需要收集數(shù)據(jù)信息,將不同類型、不同出處和不同特色的數(shù)據(jù)集中管理,通過制定規(guī)則,將數(shù)據(jù)集進(jìn)行表示,清理無用或相關(guān)性較低的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為所需格式或?qū)?shù)據(jù)格式進(jìn)行統(tǒng)一,再根據(jù)數(shù)據(jù)中的信息采用分布式垂直頻繁模式挖掘方法進(jìn)行數(shù)據(jù)挖掘,根據(jù)要求對挖掘出的元數(shù)據(jù)進(jìn)行質(zhì)量評估,最后將元數(shù)據(jù)表示出來,應(yīng)用到其他領(lǐng)域。

以上是數(shù)據(jù)挖掘的基本過程,在元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法中還有很多研究人員不斷提出新的挖掘算法。在Apriori算法的基礎(chǔ)之上,采用歸納手段對數(shù)據(jù)進(jìn)行掃描,這種方法通常只需要進(jìn)行一次掃描,然就可以實(shí)現(xiàn)在海量數(shù)據(jù)中準(zhǔn)確找到頻繁項(xiàng)目,進(jìn)而挑去出具有價(jià)值的數(shù)據(jù)進(jìn)行分析形成元數(shù)據(jù)。也有基于FP-Tree算法進(jìn)行改進(jìn)的數(shù)據(jù)挖掘算法,通過不同時(shí)相的數(shù)據(jù)采集最終形成頻繁項(xiàng)集。另一種算法是在參照FP-grow算法中將數(shù)據(jù)進(jìn)行分段處理的思想,逐步挖掘數(shù)據(jù)中的頻繁項(xiàng)集,這種算法可以讓用戶在線獲取所需頻繁項(xiàng)集,同時(shí)這種算法挖掘的頻繁項(xiàng)集質(zhì)量很高。

由于我們身處環(huán)境的不同以及先天基因等多種因素,每個(gè)人具有不同的個(gè)性,因此對于需求而言具有個(gè)性化的特點(diǎn)。元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法,可以針對不同的個(gè)性進(jìn)行數(shù)據(jù)挖掘,發(fā)揮數(shù)據(jù)長處,達(dá)到用戶滿意度。改革開放以來,人民生活條件得到了極大改善,對于生活質(zhì)量的要求明顯提高,私人訂制行業(yè)受到越來越多人的喜愛,通過分布式垂直頻繁模式挖掘方法,更新和維護(hù)客戶的元數(shù)據(jù),可以大大降低商家成本,同時(shí)更好地為客戶服務(wù)。從事私人訂制的工作人員會根據(jù)客戶的要求或平時(shí)興趣愛好,事先對客戶需求進(jìn)行預(yù)估,通過數(shù)據(jù)挖掘,有助于提高員工預(yù)測結(jié)果與客戶需求的符合程度。

四、總結(jié)

隨著生活質(zhì)量的不斷提高以及社會的不斷發(fā)展,人類產(chǎn)生的數(shù)據(jù)量越來越大,數(shù)據(jù)的管理與應(yīng)用具有很大商業(yè)價(jià)值和社會價(jià)值。在大數(shù)據(jù)時(shí)代下,元數(shù)據(jù)集成的分布式垂直頻繁模式可以更好地適應(yīng)大數(shù)據(jù)行業(yè)需求,提高元數(shù)據(jù)集成的有效性。

參考文獻(xiàn)

[1]尹潔娜.基于元數(shù)據(jù)集成的分布式垂直頻繁模式挖掘方法研究[D].遼寧大學(xué),2014.

[2]姜冰.基于MapReduce的分布式閉頻繁模式發(fā)現(xiàn)方法研究[D].哈爾濱工業(yè)大學(xué),2011.

[3]張力飛,朱驍峰,何炎祥.利用網(wǎng)格服務(wù)的分布式頻繁模式挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(7):179-181.

[4]葉飛躍.基于自適應(yīng)哈希鏈的分布式頻繁模式挖掘算法[J].系統(tǒng)工程與電子技術(shù),2005,27(3):560-564.

[5]馬可,李玲娟,孫杜靖.分布式并行化數(shù)據(jù)流頻繁模式挖掘算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(7):75-79.

作者簡介:徐延強(qiáng),男,蘭州工業(yè)學(xué)院講師,研究方向:數(shù)據(jù)存儲與管理,元數(shù)據(jù)。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 国产女人爽到高潮的免费视频| 久久久久国产一区二区| 日韩在线永久免费播放| 99九九成人免费视频精品 | 欧美精品v| 亚洲无码视频图片| 午夜无码一区二区三区| 欧美精品xx| 性欧美精品xxxx| 国产精品极品美女自在线网站| 亚洲美女AV免费一区| 91麻豆精品国产91久久久久| 在线观看精品国产入口| 久久久国产精品无码专区| 国产成人91精品免费网址在线| 欧美一级黄色影院| 亚洲欧美成aⅴ人在线观看| 婷婷午夜影院| 国产激情在线视频| 成人福利免费在线观看| 国产成人高清在线精品| 精品亚洲麻豆1区2区3区| 国产免费人成视频网| 成人一级黄色毛片| 成人免费午夜视频| 国产乱码精品一区二区三区中文| 啪啪啪亚洲无码| 亚洲精品无码AV电影在线播放| 四虎永久免费在线| 日本免费a视频| 激情综合激情| 亚洲色图欧美一区| 91久久青青草原精品国产| 亚洲成人福利网站| 色婷婷在线影院| 国产一区二区三区在线精品专区| 国产成人精品2021欧美日韩| 日韩欧美91| 国产91蝌蚪窝| 狠狠v日韩v欧美v| 91免费国产高清观看| a级毛片毛片免费观看久潮| 亚洲天堂视频在线播放| 欧美在线三级| 亚洲精品欧美日韩在线| 91精品免费高清在线| 国产精品无码作爱| 青青操国产视频| 国产91av在线| 亚洲成a∧人片在线观看无码| 国产在线观看99| 国产成人亚洲无码淙合青草| 亚洲人成网站18禁动漫无码| 国产成人免费观看在线视频| 精品国产香蕉在线播出| 日韩免费毛片| 99久久精品国产综合婷婷| 亚洲成年网站在线观看| 色悠久久久| 欧美亚洲日韩中文| 狠狠亚洲婷婷综合色香| 91高清在线视频| 国产欧美精品一区aⅴ影院| av一区二区三区高清久久| 国产原创演绎剧情有字幕的| 精品少妇人妻无码久久| 国产理论一区| 女人天堂av免费| 精品视频在线一区| 国产女人18水真多毛片18精品| 国产毛片一区| 99无码中文字幕视频| 多人乱p欧美在线观看| 亚洲精品国产精品乱码不卞| 天天做天天爱夜夜爽毛片毛片| 国产无码制服丝袜| 欧美午夜视频| 男人的天堂久久精品激情| 91久久偷偷做嫩草影院免费看| 热久久这里是精品6免费观看| 一本久道久久综合多人| 亚洲欧美精品日韩欧美|