999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析挖掘復雜的數據類型的分析與研究

2014-04-29 00:00:00李秋
中國電子商情 2014年13期

引言:作為一個新興的研究領域,自從20世紀80年代開始以來,數據挖掘已經取得了顯著進展并且涵蓋了廣泛的應用。今天,數據挖掘已經被應用到了眾多的領域,同時出現了大量的商品話的數據挖掘系統和服務。然而,許多挑戰依然存在。

一、挖掘復雜的數據類型

本文概述挖掘復雜數據類型的主要研究與進展。復雜數據類型匯總在圖1中。本文介紹挖掘序列數據,如挖掘時間序列、符號、列和生物學序列。由于這些主題的廣泛性,本文只給出一個高層概述,而不深入討論。

圖1"挖掘的復雜數據類型

二、挖掘序列數據:時間序列、符號序列和生物學序列

序列事件的有序列表。根據事件的特征,序列數據可以分成三類:(1)時間序列數據;(2)符號序列數據;(3)生物學序列。讓我們考慮每種類型。

在時間序列數據中,序列數據有相等的時間間隔(例如,每分鐘、每小時或每天)記錄的數值數據的長序列組成。時間序列數據可以被許多自然或經濟過程產生,如股票市場、科學、醫學或自然觀測。

符號序列數據有時間或標稱數據的長序列組成,通常不是相等的時間間隔觀測。對于許多這樣的序列,間隙(即,記錄的事件之間的時間間隔)無關緊要。例子包括顧客購物序列、web點擊流,以及科學和工程、自然和社會發展的事件序列。

生物學序列包括DNA序列和蛋白質序列。這種序列通常很長,攜帶重要的、復雜的、隱藏的語義。這里,間隙通常是重要的。

讓我們考慮這些序列數據的挖掘。

  • 時間序列數據的相似性搜索

時間序列數據集包含不同的時間點重復檢測得到的數值序列。通常,這些值在相等時間間隔(例如,每分鐘、每小時或每天)檢測。時間序列數據庫在許多應用都很普遍,如股票市場分析、經濟和銷售預測、預算分析、效用研究、庫存研究、產出預測、工作量預測和過程與質量控制。對于研究自然現象(例如,大氣、溫度、風、地震)、科學與工程實驗、醫療處置等也是有用的。

與一般的數據查詢找出嚴格匹配查詢的數據不同,相似性搜索找出稍微不同于給定查詢序列的數據序列。許多時間序列的相似性查詢都要求子序列匹配,即找出包含與給定查詢序列相似的子序列的數據序列的集合。

對于相似性搜索,通常需要先對時間序列數據進行數據或維度規約和變換。典型的維歸約技術包括:(1)離散傅里葉變換(DFT);(2)離散小波變換(DWT);(3)基于主成分分析(PCA)的奇異值分解(SVD)。在此不做詳細討論。使用這些技術,數據或信號被映射到變換后的空間。保留一小組“最強的”變換后的系數作為特征。

這些特征形成特征空間,它是變換后的空間的投影。可以在原數據或變換后的時間序列數據上構建索引,以加快搜索速度。對于基于查詢的相似性搜索,技術包括規范化變換、原子匹配(即找出相似的、短的、無間隙窗口對)、窗口縫合(即縫合相似的窗口,形成大的相似序列,允許原子匹配之間有間隙),以及子序列排序(即對子序列匹配線性排序,確定是否存在足夠相似的片段)。關于時間序列數據的相似性搜索,存在大量軟件包。

最近,研究人員提出把時間序列數據變換成逐段聚集近似,使得時間序列數據可以看做符號表示的序列。然后,相似性搜索問題變換成在符號序列數據中匹配子序列的相似性搜索。我們可以識別基本模式,并為基于這種基本模式的有效搜索構建索引和散列機制。

  • 序列分類

大部分分類方法都基于特征向量構建模型。然而序列沒有明顯的特征。即便使用復雜的特征選擇技術,可能的特征的維度也非常高,并且序列特征的性質也很難捕獲。這使得序列分類成為一項具有挑戰性的任務。

序列分類方法可以分為三類:(1)基于特征的分類,它們把序列轉換成特征向量,然后使用傳統的分類方法;(2)基于序列距離的分類,其中度量序列之間相似性的距離函數決定分類的質量;(3)基于模型的分類,如使用隱馬爾科夫模型或其他統計學模型來對序列分類。

對于時間序列或其他數值數據,用于符號序列的特征選擇技術不能用于非離散化的時間序列數據。然而,離散化可能導致信息損失。最近提出的時間序列shapelets方法用最能表示類的時間序列為特征,取得了高質量的分類結果。

  • 生物學序列對比

生物學序列通常是指核苷酸或氨基酸序列。生物學序列分析比較、對比、索引和分析生物學序列,因而在生物信息學和現代生物學中起著至關重要的作用。

序列對比基于如下事實:所有活著的生物體都是進化相關的。這意味這進化中相近物種的核苷酸和蛋白質序列應該表現出更多的相似性。比對是對序列以便獲得最大程度的一致性,它也表示序列之間的相似度。兩個序列是同源的可能性是很有用的。這樣對比也有助于確定多個物種在進化樹中的行對位置,這種進化樹稱為種系發生樹

三、總結

挖掘復雜的數據類型在數據挖掘發展中具有重要的作用,它能有效的提高可伸縮性、交互性和基于約束的挖掘方法,對序列數據、其他類型的數據都能有效的整理。

參考文獻

[1](美)陳封能,范明 等譯,數據挖掘導論(完整版)[M],人民郵電出版社,2011.

(作者單位:江西現代技師學院)

主站蜘蛛池模板: 精品久久久久久久久久久| 在线视频亚洲欧美| 亚洲AV无码一区二区三区牲色| 97视频免费在线观看| 在线另类稀缺国产呦| 无码一区二区三区视频在线播放| 欧洲欧美人成免费全部视频| 91极品美女高潮叫床在线观看| 亚洲品质国产精品无码| 区国产精品搜索视频| 国产99视频精品免费观看9e| 久久99热66这里只有精品一| 精品伊人久久久久7777人| 尤物视频一区| 91精品专区国产盗摄| 小说 亚洲 无码 精品| 久久国产亚洲欧美日韩精品| 欧美另类精品一区二区三区| 欧美综合成人| 国产96在线 | 色网站在线视频| 亚洲日本中文字幕天堂网| 午夜毛片福利| 色悠久久久| 高清视频一区| 91小视频版在线观看www| 欧美一区二区三区香蕉视| 91小视频在线观看| 欧美一级高清片久久99| 日本五区在线不卡精品| 福利姬国产精品一区在线| 狠狠综合久久久久综| 激情综合网址| 久久国产黑丝袜视频| 国产性爱网站| 国产女人18水真多毛片18精品| 精品国产成人高清在线| 午夜啪啪福利| 国产无吗一区二区三区在线欢| 激情乱人伦| 精品日韩亚洲欧美高清a| 华人在线亚洲欧美精品| 国产在线无码av完整版在线观看| 日韩成人高清无码| 色视频久久| 亚洲不卡无码av中文字幕| 欧美日韩专区| 亚洲aⅴ天堂| 2021精品国产自在现线看| av尤物免费在线观看| 亚洲一区二区三区国产精华液| 亚洲天堂区| 欧美日韩国产高清一区二区三区| 亚洲免费黄色网| 午夜成人在线视频| 亚洲国产精品成人久久综合影院| 免费人成视网站在线不卡| 五月激情婷婷综合| 国产精品林美惠子在线观看| 暴力调教一区二区三区| 国产亚卅精品无码| 国产精品久久久久久久伊一| 呦视频在线一区二区三区| 亚洲欧美在线看片AI| 狼友视频一区二区三区| 婷婷六月综合| 97青草最新免费精品视频| 无码丝袜人妻| 欧美一级专区免费大片| 国产在线自在拍91精品黑人| 真人免费一级毛片一区二区| 亚洲欧洲日产国码无码av喷潮| 性视频一区| 色婷婷电影网| 欧美国产成人在线| 最新午夜男女福利片视频| 亚洲美女视频一区| 97人人模人人爽人人喊小说| 99一级毛片| 欧美日韩成人| 国产日韩欧美精品区性色| 国产网站一区二区三区|