李 麗,賴俊星
(1.中國人民解放軍91001部隊(duì)通頻室,北京 100072;2.中國船舶工業(yè)綜合技術(shù)經(jīng)濟(jì)研究院,北京 100072)
當(dāng)前,自動(dòng)識(shí)別系統(tǒng)(Automatic Identification System,AIS)在船運(yùn)領(lǐng)域中廣泛應(yīng)用,以提高船舶航行的安全性與效率。AIS數(shù)據(jù)內(nèi)部蘊(yùn)含著大量的海上交通時(shí)序信息,包括航速、航向、經(jīng)緯度等船舶的動(dòng)態(tài)信息和船名、呼號(hào)等船舶靜態(tài)信息。船載AIS數(shù)據(jù)是記錄船舶航行與作業(yè)信息的大規(guī)模數(shù)據(jù),包含船舶行為特征與航行規(guī)律,AIS數(shù)據(jù)挖掘,是研究船舶行為特點(diǎn)的重要方法。在眾多AIS數(shù)據(jù)挖掘方法中,相似性搜索可以幫助人們進(jìn)行相似航線識(shí)別以及異常船只的檢測,在提升船舶航行安全以及船舶目標(biāo)信息識(shí)別等方面具有重要的實(shí)際應(yīng)用與研究意義。
AIS數(shù)據(jù)屬于時(shí)間序列數(shù)據(jù),在時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域中,給定待查詢數(shù)據(jù)段在數(shù)據(jù)庫中搜索到與其相似的數(shù)據(jù)是較為基本的要求。然而,對(duì)于AIS數(shù)據(jù)進(jìn)行相似性搜索是一種具有挑戰(zhàn)性的工作,主要由于:1)相比于單變量時(shí)間序列數(shù)據(jù),AIS數(shù)據(jù)這種多變量時(shí)間序列數(shù)據(jù)具有海量、高維的特點(diǎn),使得捕獲其數(shù)據(jù)特征更加困難;2)由于AIS數(shù)據(jù)中時(shí)序特征以及屬性變量潛在關(guān)聯(lián)關(guān)系的存在,為相似性表示增加困難。
在眾多時(shí)間序列相似性搜索方法中,基于二進(jìn)制編碼的模型被廣泛使用,例如:局部敏感哈希(LSH)通過計(jì)算產(chǎn)生編碼的漢明距離來得到最相似的數(shù)據(jù)段,這種方法相比于傳統(tǒng)相似性方法可以降低計(jì)算過程中的時(shí)間復(fù)雜度。另外一種廣泛使用的方法是使用滑動(dòng)窗口切割原始時(shí)間序列數(shù)據(jù),然后通過最小距離方差法生成搜索索引并計(jì)算索引結(jié)構(gòu)來搜索時(shí)間序列數(shù)據(jù)段?!?br>