引言:作為一個新興的研究領域,自從20世紀80年代開始以來,數據挖掘已經取得了顯著進展并且涵蓋了廣泛的應用。今天,數據挖掘已經被應用到了眾多的領域,同時出現了大量的商品話的數據挖掘系統和服務。然而,許多挑戰依然存在。
一、挖掘復雜的數據類型
本文概述挖掘復雜數據類型的主要研究與進展。復雜數據類型匯總在圖1中。本文介紹挖掘序列數據,如挖掘時間序列、符號、列和生物學序列。由于這些主題的廣泛性,本文只給出一個高層概述,而不深入討論。













圖1"挖掘的復雜數據類型
二、挖掘序列數據:時間序列、符號序列和生物學序列
序列事件的有序列表。根據事件的特征,序列數據可以分成三類:(1)時間序列數據;(2)符號序列數據;(3)生物學序列。讓我們考慮每種類型。
在時間序列數據中,序列數據有相等的時間間隔(例如,每分鐘、每小時或每天)記錄的數值數據的長序列組成。時間序列數據可以被許多自然或經濟過程產生,如股票市場、科學、醫學或自然觀測。
符號序列數據有時間或標稱數據的長序列組成,通常不是相等的時間間隔觀測。對于許多這樣的序列,間隙(即,記錄的事件之間的時間間隔)無關緊要。例子包括顧客購物序列、web點擊流,以及科學和工程、自然和社會發展的事件序列。
生物學序列包括DNA序列和蛋白質序列。這種序列通常很長,攜帶重要的、復雜的、隱藏的語義。這里,間隙通常是重要的。
讓我們考慮這些序列數據的挖掘。
時間序列數據集包含不同的時間點重復檢測得到的數值序列。通常,這些值在相等時間間隔(例如,每分鐘、每小時或每天)檢測。時間序列數據庫在許多應用都很普遍,如股票市場分析、經濟和銷售預測、預算分析、效用研究、庫存研究、產出預測、工作量預測和過程與質量控制。對于研究自然現象(例如,大氣、溫度、風、地震)、科學與工程實驗、醫療處置等也是有用的。
與一般的數據查詢找出嚴格匹配查詢的數據不同,相似性搜索找出稍微不同于給定查詢序列的數據序列。許多時間序列的相似性查詢都要求子序列匹配,即找出包含與給定查詢序列相似的子序列的數據序列的集合。
對于相似性搜索,通常需要先對時間序列數據進行數據或維度規約和變換。典型的維歸約技術包括:(1)離散傅里葉變換(DFT);(2)離散小波變換(DWT);(3)基于主成分分析(PCA)的奇異值分解(SVD)。在此不做詳細討論。使用這些技術,數據或信號被映射到變換后的空間。保留一小組“最強的”變換后的系數作為特征。
這些特征形成特征空間,它是變換后的空間的投影。可以在原數據或變換后的時間序列數據上構建索引,以加快搜索速度。對于基于查詢的相似性搜索,技術包括規范化變換、原子匹配(即找出相似的、短的、無間隙窗口對)、窗口縫合(即縫合相似的窗口,形成大的相似序列,允許原子匹配之間有間隙),以及子序列排序(即對子序列匹配線性排序,確定是否存在足夠相似的片段)。關于時間序列數據的相似性搜索,存在大量軟件包。
最近,研究人員提出把時間序列數據變換成逐段聚集近似,使得時間序列數據可以看做符號表示的序列。然后,相似性搜索問題變換成在符號序列數據中匹配子序列的相似性搜索。我們可以識別基本模式,并為基于這種基本模式的有效搜索構建索引和散列機制。
大部分分類方法都基于特征向量構建模型。然而序列沒有明顯的特征。即便使用復雜的特征選擇技術,可能的特征的維度也非常高,并且序列特征的性質也很難捕獲。這使得序列分類成為一項具有挑戰性的任務。
序列分類方法可以分為三類:(1)基于特征的分類,它們把序列轉換成特征向量,然后使用傳統的分類方法;(2)基于序列距離的分類,其中度量序列之間相似性的距離函數決定分類的質量;(3)基于模型的分類,如使用隱馬爾科夫模型或其他統計學模型來對序列分類。
對于時間序列或其他數值數據,用于符號序列的特征選擇技術不能用于非離散化的時間序列數據。然而,離散化可能導致信息損失。最近提出的時間序列shapelets方法用最能表示類的時間序列為特征,取得了高質量的分類結果。
生物學序列通常是指核苷酸或氨基酸序列。生物學序列分析比較、對比、索引和分析生物學序列,因而在生物信息學和現代生物學中起著至關重要的作用。
序列對比基于如下事實:所有活著的生物體都是進化相關的。這意味這進化中相近物種的核苷酸和蛋白質序列應該表現出更多的相似性。比對是對序列以便獲得最大程度的一致性,它也表示序列之間的相似度。兩個序列是同源的可能性是很有用的。這樣對比也有助于確定多個物種在進化樹中的行對位置,這種進化樹稱為種系發生樹
三、總結
挖掘復雜的數據類型在數據挖掘發展中具有重要的作用,它能有效的提高可伸縮性、交互性和基于約束的挖掘方法,對序列數據、其他類型的數據都能有效的整理。
參考文獻
[1](美)陳封能,范明 等譯,數據挖掘導論(完整版)[M],人民郵電出版社,2011.
(作者單位:江西現代技師學院)