999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于草圖的分布式數(shù)據(jù)流聚集查詢的研究

2007-01-01 00:00:00陳秋蓮
計算機應用研究 2007年5期

摘要:討論了基于草圖的復雜聚集查詢的近似處理算法。利用隨機技術,在數(shù)據(jù)流過時實時計算數(shù)據(jù)的草圖概要;同時采用了新穎的草圖分割技術,有效地提高近似應答的精度。合成數(shù)據(jù)的查詢實驗表明草圖技術能有效地降低估算誤差。

關鍵詞:草圖概要;近似應答;聚集查詢;草圖分割

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2007)05-0041-03

近年來,在傳感器網(wǎng)絡、網(wǎng)絡監(jiān)控、通信數(shù)據(jù)管理、股票分析等應用領域中出現(xiàn)的數(shù)據(jù)流是大量的、連續(xù)的、隨時間變化的、無限制的數(shù)據(jù)序列,如關系元組、網(wǎng)絡性能參數(shù)、電話記錄、傳感器讀入值等。它們連續(xù)到達,需要連續(xù)處理。由于流數(shù)據(jù)量大且到達速度快,傳統(tǒng)數(shù)據(jù)庫技術難以實現(xiàn)及時處理。數(shù)據(jù)流是無限的,許多歷史數(shù)據(jù)已被丟棄,而傳統(tǒng)的關系系統(tǒng)中的聚集查詢操作(Count、Sum、Avg等)等需要訪問關系的全部數(shù)據(jù)才能輸出結果。如何對數(shù)據(jù)流的復雜聚集操作作近似應答成為目前數(shù)據(jù)流領域研究的難點問題。

目前解決聚集操作的一個常用方法是在數(shù)據(jù)流上定義時間窗口,將無限的數(shù)據(jù)流限制在一個有限的范圍內。然而,時間窗口只關注最近通過的數(shù)據(jù)流,并且當數(shù)據(jù)流流速發(fā)生變化時,如何改變時間窗口的大小來適應流速的變化始終是尚未解決的問題。Alon等人[1]介紹了隨機草圖的概念,F(xiàn)lajolet 和Martin介紹了用草圖技術估算數(shù)據(jù)項不同值的數(shù)量F0的方法。但這些算法需要非常強的獨立屬性的顯式哈希函數(shù)族。 

本文討論了基于草圖的復雜聚集查詢的近似處理算法,利用隨機技術在數(shù)據(jù)流過時實時計算數(shù)據(jù)的草圖概要。同時采用了新穎的草圖分割技術,通過以下兩個方面有效地提高近似應答的精度:①屬性值域的智能分割,使分割后的自連接規(guī)模最小;②為分割后的獨立草圖公平地分配存儲空間。

1分布式數(shù)據(jù)流處理模型

3實驗 

實驗利用文獻[3]的合成數(shù)據(jù)發(fā)生器來生成帶有三個屬性的關系,所產(chǎn)生的元組沿區(qū)間分布。將基于草圖方法和傳統(tǒng)的基于直方圖的方法作比較驗證本文算法的有效性,尤其是檢驗草圖分割對計算近似查詢的影響。對聚集查詢值用相對誤差(|actual-approx|/actual)來作為近似查詢應答精度的度量標準。圖2描述了草圖和直方圖在自連接查詢中,隨可用存儲空間數(shù)量增加所得的誤差。可觀察到草圖的相對誤差幾乎比直方圖要少一個數(shù)量級。圖2的自連接查詢是基于單個關系、單個屬性自連接的查詢,其值域大小為102 400,包含有10 000個區(qū)間。直方圖的結果很差,因為在如此大而稀疏的多區(qū)間值域中,一些桶無法準確地捕捉到數(shù)據(jù)的分布特性。圖3給出了草圖分割的鏈連接查詢估算精度。它由三個二維關系組成,中心關系的兩個屬性與其他兩個關系的一個屬性連接。圖3說明了兩個趨勢:①隨著草圖分區(qū)數(shù)量的增加,聚集查詢估算的相對誤差減小;②當桶數(shù)量增加,直方圖更精確時,根據(jù)減少的誤差來計算草圖分割就更有效。

4小結

利用草圖技術解決復雜的分布式數(shù)據(jù)流的近似查詢是個正在探索的新領域。本文討論了分布式流處理模型、隨機草圖概要及基于草圖的聚集查詢的近似算法,并采用新穎的草圖分解技術來獲得更好的查詢精度。

參考文獻:

[1]ALON N,MATIAS Y,SZEGEDY M. The space complexity of approxi-mating the frequency moments:proceedings of the 28th ACM STOC Symposium on the Theory of Computing[C].[S.l.]:[s.n.],1996:20-29. 

[2]DOBRA A,GAROFALAKIS M,GEHRKE J,et al. Processing complex aggregate queries over data streams:ACM SIGMOD International on Mogement of Data[C].New York:ACM Press,2002:61-72. 

[3]VITTER J S,WANG Min. Approximate computation of multidimensional aggregates of sparse data using wavelets:proceedings of the ACM SIGMOD International Conference on Management of Data[C].New York:ACM Press,1999:193-204.

[4]GEHRKE J,KORN F,SRIVASATAVA D. On computing correlated aggregates over continual data streams:proc. of the ACM SIGMOD Intermational Conference on Management of Data[C].New York:ACM Press,2001:13-24.

[5]CHAUDHURI S,DAYAL U.An overview of data warehousing and OLAP technology[J].ACM SIGMOD Record,1997,26(1):65-74.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 亚洲精品无码抽插日韩| 农村乱人伦一区二区| 成人免费一级片| 在线国产毛片| 日韩高清中文字幕| 欧美第二区| 国产精品私拍99pans大尺度| 午夜爽爽视频| 欧美日韩一区二区三区在线视频| 色综合中文字幕| 亚洲一级毛片免费观看| 色网站免费在线观看| 欧美在线精品怡红院| 91精品国产丝袜| 国产尤物在线播放| 国产精品大尺度尺度视频| 久久久精品无码一二三区| 中文字幕佐山爱一区二区免费| 亚洲一级无毛片无码在线免费视频| 亚洲国产高清精品线久久| 欧美日韩中文字幕二区三区| 国产成人高清精品免费软件| 亚洲视频欧美不卡| 久久国语对白| 亚洲av中文无码乱人伦在线r| 91在线无码精品秘九色APP| 激情视频综合网| 亚洲精品第五页| 日本五区在线不卡精品| 亚洲视频无码| 国产尤物jk自慰制服喷水| 成人福利一区二区视频在线| 免费看的一级毛片| 国产靠逼视频| 国产日韩欧美精品区性色| 午夜影院a级片| 国产一级二级在线观看| 国内精自线i品一区202| 一级毛片在线直接观看| 国产精品欧美日本韩免费一区二区三区不卡 | 国产成人亚洲精品色欲AV| 国产在线视频导航| jizz国产视频| 国产精品视频白浆免费视频| 国产成人免费高清AⅤ| 国产剧情伊人| 国产福利2021最新在线观看| 91久久夜色精品国产网站| 色婷婷天天综合在线| 亚洲第一黄色网址| 黄色一及毛片| 国内熟女少妇一线天| 亚洲欧美一区二区三区蜜芽| 2021国产精品自拍| 亚洲乱码在线播放| 午夜视频www| 久久这里只有精品66| 欧美黄网在线| 特级毛片免费视频| 欧美日韩免费观看| 久久精品最新免费国产成人| 国产成人一区免费观看| 91娇喘视频| 亚洲日本精品一区二区| 香蕉国产精品视频| 人妻无码一区二区视频| 一本大道AV人久久综合| 亚洲天堂视频在线观看| 国产丝袜无码一区二区视频| 99国产在线视频| 91蜜芽尤物福利在线观看| 国产美女久久久久不卡| 熟女成人国产精品视频| 露脸国产精品自产在线播| 成人免费一级片| 91午夜福利在线观看| 国产理论精品| 国产无人区一区二区三区| 无码人中文字幕| 免费看美女毛片| 直接黄91麻豆网站| 欧美区一区|