陳炳鑫 ,陳黎飛*
(1.福建師范大學數學與信息學院,福州,350117;2.數字福建環境監測物聯網實驗室,福建師范大學,福州,350117)
符號序列(symbolic sequences)通常由有限個離散型符號按照特定的規律排列而成,當前許多數據挖掘的應用都基于符號序列的表現形式.例如在生物信息學中,由{'A','T','G','C'} 等代表不同堿基符號構成的基因即為一種符號序列.對基因進行分析是生物信息學極其重要的研究內容之一,生物學家對不同功能的基因進行分類,可以進一步研究同源序列之間的進化關系[1-2].由于符號序列長短不一,且具有特殊的時空順序關系等特點,針對向量型數據的經典方法無法直接運用于符號序列分類任務中,因此對其進行挖掘仍存在挑戰性.目前已經提出了多種序列的分類方法[3],其中基于距離的分類方法因其簡單而得到了廣泛的研究.
現有的序列距離度量方法大致可分兩種:一種是序列對齊(alignment based)方法,如基于動態規劃[4-5]或編輯距離[6]等思想進行符號序列的分類挖掘.盡管該方法常用于符號序列分類,但其通?;谳^高的計算復雜度.另一種是非對齊(non-alignment)的方法,該方法采取表征學習[7-10]的手段構造出序列的特征.其中子序列法[3]是一種常見的方法,通過一些重要的短子序列來表示序列的特征.但該方法得到的是序列的局部結構特征,且生成的特征維度較高,同時子序列法得到的特征在某些情況下并非統計獨立[11],降低了歐幾里得距離等度量的有效性.相比……