999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據下不完備信息系統近似空間的并行算法

2014-04-03 07:33:36米允龍
計算機工程與應用 2014年15期
關鍵詞:定義

姜 麟,米允龍,王 添

JIANG Lin,MI Yunlong,WANG Tian

昆明理工大學 理學院,昆明 650500

Faculty of Science,Kunming University of Science and Technology,Kunming 650500,China

1 引言

隨著大數據時代的來臨,對海量數據進行挖掘已成為研究的熱點。而大數據不只是海量的數據,擁有了海量數據后,并且有能力進行處理和分析,挖掘出數據的價值才可以獲取數據的價值,從中獲取真知[1]。面對如何挖掘出海量數據的價值,Google公司提出了分布式文件系統GFS(Google File System)[2]和MapReduce并行編程模式[3],這為數據挖掘提供了一個很好的平臺。在此基礎上,已有不少學者致力于相關研究,并取得了一定的效果。例如,文獻[4]提出的基于MapReduce的Web日志挖掘,文獻[5]對在MapReduce框架下的分布式近鄰傳播聚類算法的研究等。

對于海量數據,傳統的精確處理不再適用[1],更多的是近似性處理。粗糙集理論是一種新的處理模糊和不確定性知識的數學工具,目前成功應用于機器學習、決策分析、模式認別和數據挖掘等領域[6]。基于粗糙集理論,目前已提出許多處理海量數據的算法。如文獻[7]對海量數據的粗糙集近似空間并行算法的研究,文獻[8-11]提出的各種處理海量數據的并行知識約簡算法。然而,以上都是基于未帶缺失信息的海量數據,在實際應用中,很多數據是帶有缺失信息的[12-13]。對于不完備的信息系統或帶缺失信息的海量數據,往往可以采用集值信息系統來處理[13]。同時,傳統的算法是假設所有數據一次性裝入到內存中去,但這并不適用于海量數據。因此,對帶缺失信息的海量數據進行研究是十分必要的。探討如何基于MapReduce并行編程框架,實現對不完備信息系統的上、下近似的并行算法研究,對帶缺失信息的海量數據進一步挖掘具有重要的促進作用。

通過深度分析不完備信息系統的特征,本文在第二部分結合MapReduce并行編程的特點,給出了對原有集值信息系統進行擴展的相關理論。在第三部分提出了一種基于MapReduce框架下不完備信息系統近似空間的并行算法。第四部分通過實驗結果表明,該并行算法對處理帶缺失信息的海量數據是可行的,高效的。

2 相關理論

在這一部分,將介紹一下MapReduce相關技術[2-3]、不完備信息系統[6-7,12,14-16]及其擴展相關理論。

2.1 MapReduce并行編程模型

MapReduce模型是Dean和Ghemawat于2008年提出的并行編程模式,描述如下[3]:

首先,接收輸入key-value對集合;再而,通過執行Map和Reduce兩個函數;最后,輸出相應的key-value對集合。因此,只需要設計出相應的Map和Reduce函數,就能將任務進行并行計算,其形式如下:

Map函數接收一組輸入鍵值對(k1,v1),鍵值對(k1,v1)經過Map函數處理后,并按k1進行排序;combiner類把相同鍵k1關聯的值v1進行本地聚類,產生中間鍵值對(k2,v2);在Reduce階段,鍵k2相同數據的將會被送到同一個Reducer任務中,Reduce再把相同鍵k2的數據整合在一起,進行處理。

2.2 粗糙集相關概念

信息系統 S=(U,AT,V,f),U=(x1,x2,…,xn)是對象的非空有限集合,稱為論域;AT是屬性的非空有限集合;特別的,如果AT=U∪D,C為條件屬性的非空有限集,D為決策屬性的非空有限集,且C∩D=?,則稱S為決策信息系統。其中V=∪a∈ATVa,Va是a屬性的值域;f:U×AT→V是一個信息函數,它為每一個對象的每個屬性賦予一個信息值,即?a∈AT,x∈U,則有f(x,a)∈Va。

定義1[12]對于信息系統S=(U,AT,V,f),若至少有一個屬性a∈AT使得Va中含有缺省值(記作*),則稱S是一個不完備信息系統,記為IS。若AT=C∪D,且有C∩D=?,則不完信息系統IS稱為不完備決策系統(或不完備決策表),記為DS。

定義2[14-15]設 IS=(U,AT,V,f)是一個不完備信息系統,如果 ?a∈AT,x∈U,若有 f(x,a)=*,令 f(x,a)=Va,則稱這是一個不完備信息系統向集值系統的一種轉換,為了簡便起見,稱轉換后的信息系統仍為集值信息系統,記為SIS。SIS是集值信息系統,若AT=C∪D,且有C∩D=?,則稱集值信息系統為集值決策表,記為DIS。

定義3[16]設 DIS=(U,C,D,V,f)是集值決策表,對?a∈A,x∈U,f(x,a)取值從語義方面被析取地解釋。例如:a表示屬性“語言能力”,則 f(x,a)={德語,法語,漢語}也可以解釋對象x會說德語,法語和漢語其中的一種語言。

定義4[14-15]設 DIS=(U,C,D,V,f)是集值決策表,任意屬性子集B?C,定義二元系:

顯然,RB是自反和傳遞的,未必是等價關系。

定義5[15]設 DIS=(U,C,D,V,f)是集值決策表,對于任意 X?U,記:

定義6 設 DIS=(U,C,D,V,f)是集值決策表,若對?x∈U,?a∈C ,若有 f(x,a)=Va,則取 f(x,a)=ai,其中ai∈Va,i表示Va中屬性值的取值數,其中,x=x[1]∪x[2]∪…∪x[i]。則稱為集值決策表 DIS的一個擴展,其中Uˉ=U∪x[i]。

其中,[x]B*={y∈U|(x,y)∈RB*}。對于任意 X?U ,U/RB*={E1,E2,…,Em},為了簡便,記:U/B* 。

則定義相應的上近似和下近似如下:

例1表1為一個不完備決策信息系統,表中“*”表示缺省值。根據定義2和定義3,對不完備信息系統進行轉換。如 f(x3,a1)=*,由定義2、定義3可得,f(x3,a1)={1,2}。其余進行同樣的轉換,則可得集值決策信息系統表2。

由定義4和定義5得到(B=C={a1,a2,a3,a4}):[x1]B={x1},[x2]B={x2},[x3]B={x3},[x4]B={x3,x4},[x5]B={x3,x5},[x6]B={x6}。取 X={x1,x2,x3},則實際上,x5,x6很可能被分在同一類,而在此卻沒有。可以看出,下近似比較寬松,而上近似比較嚴格。為了解決這種情況和大數據的計算要求,對集值信息系統按定義6進行擴展,如表3。

表1 一個不完備決策信息系統

表2 一個集值決策信息系統

表3 決策信息系統

表3 決策信息系統

x1 x2 x3[1]x3[2]x3[3]x3[4]x4[1]x4[2]x5[1]x5[2]x6[1]x6[2]a1111122111222 a2121212121112 a3211111111111 a4221111111112 D112222111122

由定義7可得(其中 B*=C={a1,a2,a3,a4}):[x1]B*={x1},[x2]B*={x2},[x3]B*={x3,x4,x5,x6},[x4]B*={x3,x4,x5},[x5]B*={x3,x4,x5,x6},[x6]B*={x3,x5,x6}。取 X={x1,x2,x3},則有上、下近似為:x4,x5,x6} 。

3 基于MapReduce的不完備信息系統近似空間的計算

在這部分,將根據第二部分的相關理論,研究在MapReduce框架下不完備信息系統近似空間的并行算法。

3.1 MapReduce框架下近似空間算法的并行性研究

于是,關于B*的二元關系定義如下:

則關于 B* 的劃分 U/B*={E1,E2,…,Em},對任意E∈U/B*={E1,E2,…,Em}可以定義如下:

對于信息集合E1,有如下:

例3 D為決策屬性,根據定義8、9可得,U/D={D1,D2},其中 D1={x1,x2,x4,x5},D2={x3,x6}。則有:

根據定義10可得,不完備信息系統經過轉換成集值信息系統,并進行擴展后,可以將其劃分成n個子集值決策信息系統。這說明并行編程的可行性。

3.2 基于MapReduce框架下的并行算法

3.2.1 基于MapReduce下不完備信息系統的二元關系B*的劃分類U/B*計算

算法1 Map()與Reduce()函數

算法1是在MapReduce框架下把不完備信息系統轉化成集值信息系統,并求出相應二元關系劃分類。此算法除Map()和Rduce()函數外,還有對不完備信息進行集值化的splitMap()遞歸函數。

3.2.2 基于MapReduce下不完備決策信息系統決策類的計算

算法2 Map()與Reduce()函數

算法2是根據決策屬性來劃分決策關系類,把決策屬性相同的對象劃分到同一類中。

3.2.3 不完備信息系統近似空間的并行計算

算法3 上近似Map()與Reduce()函數

算法3是處理上近似并行算法,此處存儲的是上近似的索引值,以防止內存溢出。下面算法4關于下近似并行算法存儲的也是索引值。

算法4 下近似Map()與Reduce()函數

4 實驗結果及分析

4.1 數據集及實驗環境描述

在這部分,將選用UCI機器學習數據庫(http://archive.ics.uci.edu/ml/datasets.html)中帶缺失信息的兩個數據集Mammographic Mass Data Set和Breast Cancer Wisconsin Data Set;為了簡便,分別記為:MMDS、BCDS。現在,將MMDS分別復制800次和8 000次,得到新的數據集記為:MMDS1、MMDS2;將BCDS分別復制8 000次和80 000次,得到新的數據集記為:BCDS1、BCDS2。具體數據集描述如表4所示。

表4 數據集的描述

本實驗環境采用Hadoop集群(http://hadoop.apache.org/),該集群由1臺主控制節點和8個計算節點構成。每個節點配置為Intel?Pentium?D CPU 2.80 GHz,2 GB內存和150 GB硬盤。操作系統為Linux Centos 6.3,JDK為Java 1.7.0_17,Eclipse采用32位的Linux版本eclipse-3.3.2。MapReduce框架基于Hadoop平臺0.20.2,其他采用系統默認設置。

4.2 算法效果及驗證

此節,將主要從加速比(speedup)、可擴展性(scaleup)[17]和運行時間3個方面對并行算法進行評價及驗證。

(1)運行時間

數據集 MMDS1,BCDS1,MMDS2,BCDS2分別在1~8個計算節點運行,運行結果如表5所示。

表5 并行算法的運行時間 s

如表5所示,同一數據集隨節點數增加而運行時間不斷減少。并且,數據量越大,遞減的效果越好。這表明,對于大數據,基于MapReduce并行編程取得很好效果。表5還顯示出,雖然數據集BCDS1記錄數比數據集MMDS2少,但是其屬性項數比數據集MMDS2多,導致其運行時間比數據集MMDS2長。易得出,屬性集在上、下近似算法是至關重要的。

以下給出與計算節點數成比例增長的數據集的運行時間。為了計算方便,取記錄數為100 000的數據集MMDS1于一個計算節點上運行,仍記為:MMDS1。同樣,BCDS1,MMDS2,BCDS2在一個計算節點上運行的數據量分別為:700 000,1 000 000,7 000 000。

具體如對于數據集BCDS1來講,用700 000記錄數在一個計算節點上運行,則用700 000×2記錄數在兩個計算節點上運行,并依次下去,可得運行時間如表6所示。

(2)加速比(speedup)

為了測試加速比,固定數據集規模,不斷增加數據的計算節點數。通常,線性加速比是十分理想的;但是,由于節點數增加,集群之間的通信時間會不斷增加。因此,一般很難達到理想的線性加速比。公式如下[17]:

表6 并行算法可擴展性的運行時間 s

其中,T1是固定規模數據集在一個節點上運行時間,Tm是同樣固定規模數據集在m個節點運行時間。

根據表5提供的并行算法運行時間,運用加速比公式(1),可得圖1。

圖1 加速比

如圖1所示,不同數據集隨著計算節點數增加的加速比趨勢。從圖可以看出,數據集的記錄數越多加速比越好,如數據集BCDS2與數據集MMDS1相比,其加速比要好。因此,對于帶缺失信息的海量數據集,基于MapReuce編程模型的并行算法有效性得到證實。

(3)可擴展性(scaleup)

可擴展性指的是同計算節點數成比例增長的數據集的性能比,公式如下[17]:

其中,TDB1是數據集DB在一個計算節點上運行時間,TDBm是數據集m×DB在m個計算節點上運行時間。根據表6提供的并行算法可擴展性的運行時間,運用可擴展性公式(2),可得圖2。

如圖2所示,各數據集隨著計算節點數增加的可擴展性趨勢。從圖2可以看出,各數據集都有較好的可擴展性。同時,圖2還顯示出,數據集規模越大,可擴展性越好,越趨于穩定。

5 結束語

圖2 可擴展性

隨著數據的重要性和不確定性增加,粗糙集已經成為數據挖掘的一種有效工具。運用粗糙集進行數據處理時,上、下近似是其必要的步驟。然而,傳統的上、下近似算法不適合處理海量數據,更不適合對帶缺失信息的海量數據進行挖掘。為了促進對帶缺失信息的海量數據研究,提出了MapReduce框架下不完備信息系統的一種近似空間并行算法。通過對并行算法的時間、加速性和可擴展性的實驗,表明對缺失信息不是很多的情況下,該算法是高效的,能夠處理帶缺失信息的大規模數據集。這對進一步研究帶缺失信息的海量數據具有重要的參考價值。

[1]懷進鵬.大數據及大數據的科學與技術問題[C/OL]//第五屆中國云計算大會,北京,2013.http://www.ciecloud.org/2013/index.html.

[2]Ghemawat S,Gobioff H,Leung S T.The google file system[C]//SOSP’03,2003:29-43.

[3]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

[4]李彬,劉莉莉.基于MapReduce的Web日志挖掘[J].計算機工程與應用,2012,48(22):95-98.

[5]魯偉明,杜晨陽,魏寶剛,等.基于MapReduce的分布式近鄰傳播聚類算法[J].計算機研究與發展,2012,49(8):1762-1772.

[6]張文修,吳偉志,梁吉業,等.粗糙集理論與方法[M].北京:科學出版社,2001.

[7]Zhang Junbo,Li Tianrui.A parallel method for computing rough set approximations[J].Information Sciences,2012,194(1):209-223.

[8]Yang Y,Chen Z,Liang Z,et al.Attribute reduction for massive data based on rough set theory and MapReduce[C]//Yu J.The Fifth International Conference on Rough Set and Knowledge Technology.Berlin Heidelberg:Springer-Verlag,2010:672-678.

[9]錢進,苗奪謙,張澤華.云計算環境下知識約簡算法[J].計算機學報,2011,34(12):2332-2343.

[10]錢進,苗奪謙,張澤華.云計算環境下差別矩陣知識約簡算法研究[J].計算機科學,2011,38(8):193-196.

[11]錢進,苗奪謙,張澤華,等.MapReduce框架下并行知識約簡算法模型研究[J].計算機科學與探索,2013,7(1):35-45.

[12]Kryszkiewicz M.Rough set approach to incomplete information systems[J].Information Sciences,1998,112(1):39-49.

[13]張文修,梁怡,吳偉志.信息系統與知識發現[M].北京:科學出版社,2003.

[14]宋笑雪,李鴻儒,張文修.集值決策信息系統的知識約簡與屬性特征[J].計算機科學,2006,33(7):179-181.

[15]宋笑雪,李鴻儒,張文修.集值信息系統的知識約簡與屬性特征[J].計算機工程,2006,32(22):26-36.

[16]Qian Y,Dang C,Liang J,et al.Set-valued ordered information systems[J].Information Sciences,2009,179(16):2809-2832.

[17]Xu Xiaowei,Jager J,Kriegel H P.A fast parallel clustering algorithm for large spatial databases[J].Data Mining and Knowledge Discovery,1999,3(3):263-290.

猜你喜歡
定義
以愛之名,定義成長
活用定義巧解統計概率解答題
例談橢圓的定義及其應用
題在書外 根在書中——圓錐曲線第三定義在教材和高考中的滲透
永遠不要用“起點”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
嚴昊:不定義終點 一直在路上
華人時刊(2020年13期)2020-09-25 08:21:32
定義“風格”
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
有壹手——重新定義快修連鎖
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 26uuu国产精品视频| 久久免费观看视频| 高清无码手机在线观看| 国产黄在线免费观看| 台湾AV国片精品女同性| 3D动漫精品啪啪一区二区下载| 久久性妇女精品免费| 野花国产精品入口| 亚洲国产成人精品一二区| 中文天堂在线视频| 97久久免费视频| 亚洲一区二区成人| 亚洲区第一页| 国产AV无码专区亚洲精品网站| 欧美激情首页| 伊人久久青草青青综合| 国产午夜看片| 高清乱码精品福利在线视频| 成人免费网站久久久| 国产18页| 色综合日本| 夜夜操国产| 国产免费人成视频网| 免费精品一区二区h| 日本91在线| 国产极品粉嫩小泬免费看| 一本二本三本不卡无码| 欧美日韩成人在线观看| 亚洲一级毛片| 在线观看网站国产| 国产中文一区a级毛片视频| 毛片网站观看| 久久99精品国产麻豆宅宅| 免费无码网站| 国产女同自拍视频| 天天操精品| 最新精品久久精品| 97精品久久久大香线焦| 日本黄网在线观看| 久久无码av三级| 日韩精品少妇无码受不了| 狼友视频一区二区三区| 久久黄色小视频| 国产SUV精品一区二区6| 国产一区在线视频观看| 国内精品久久久久久久久久影视| 国产精品成人AⅤ在线一二三四| 美女高潮全身流白浆福利区| 国产高清毛片| 日韩不卡高清视频| 午夜天堂视频| 一级爆乳无码av| 久草视频福利在线观看| 成人字幕网视频在线观看| 伊人蕉久影院| 麻豆精品久久久久久久99蜜桃| 亚洲第一成年免费网站| 国产福利拍拍拍| 无码精品国产dvd在线观看9久| 国产精鲁鲁网在线视频| 日韩天堂在线观看| 国产精品yjizz视频网一二区| 天堂久久久久久中文字幕| 少妇精品网站| 国产欧美在线观看视频| 91久久偷偷做嫩草影院精品| 不卡的在线视频免费观看| 国产精品自在线拍国产电影 | 亚洲中文字幕日产无码2021| 亚洲欧美一区在线| 伊人婷婷色香五月综合缴缴情| 亚洲娇小与黑人巨大交| 国产人人乐人人爱| 99成人在线观看| 国产精品999在线| 日本人妻丰满熟妇区| 日韩色图区| 精品伊人久久大香线蕉网站| 99手机在线视频| 国产麻豆福利av在线播放 | 亚洲成a人片77777在线播放 | аⅴ资源中文在线天堂|