張成龍
(茅臺學院釀酒工程自動化系,貴州遵義564500)
基于旅游大數據的數據降維方法分析與研究
張成龍
(茅臺學院釀酒工程自動化系,貴州遵義564500)
當前,大數據技術在金融、貿易、和醫療健康等行業得到了較好的應用,但在旅游領域的應用還處于起步階段。該文首先對旅游大數據的特點進行了簡要的分析,針對這些數據特點系統總結分析了旅游大數據降維方法,并詳細介紹了當前應用最為廣泛的幾種數據降維方法,深入分析、比較了不同降維方法的優缺點,最后提出了數據降維技術仍待解決的問題與今后的研究方向。
旅游大數據;數據降維;主成分分析;拉普拉斯特征映射
近年來,隨著我國“互聯網+”發展戰略的提出,旅游行業得到大力發展,信息技術等高端技術在旅游產業廣泛應用,各大景區景點管理監測系統不斷完善,以及同城旅游、飛豬等相關旅游APP的應用推廣,這些系統應用通過記錄與游客相關文本、圖像、音頻、視頻數據,產生并積累了大量的旅游數據[1],這些數據組成類別多樣,同時還存在強非線性、樣本分布不均、低信噪比、高維度等特點,由于這些數據與傳統意義上的數據有很大的不同之處,因此在進行旅游數據的分析處理過程中,我們要根據不同數據的特點采取不同的技術方法。
數據降維技術是當前對大數據進行分析的最常用的方法,其目的是通過線性或非線性映射將樣本從高維空間映射到低維空間。對旅游行業來說,其主要的數據來源是旅游系統、應用不斷儲存積累記錄的與游客相關的文本、圖像、聲音、視頻等數據,這些數據普遍具有高維性。如果用傳統的數據處理方法對數據進行處理往往會存在“維數災難”[2]與“空空間現象”[3]等問題,因此對旅游行業產生的數據進行降維處理就成了旅游大數據分析的一個重要步驟和組成部分。
目前大量國內外研究學者提出了許多降維方法,單純從技術層面上講,降維方法可以分為線性以及非線性兩種類別,因此本文從兩種不同分類類別出發,詳細闡述了現有幾種經典降維方法以及它們之間的區別,并對所述方法進行系統分析比較,最后針對待解決的問題提出自己的觀點。
主成分分析方法[5](Principal Component Analysis),也被稱為PCA算法。它是最早開始使用的線性降維方法,該算法通過構建樣本協方差矩陣進行特征提取,可以快速有效完成樣本數據的處理、壓縮和提取。
假設數據空間RD中的一個具有N個樣本的樣本集{Xi},樣本點的維度為d,協方差矩陣為M。其算法實現步驟如下:
Step 1:將樣本集表示成矩陣形式,并對矩陣進行歸一化處理。
Step 2:計算協方差矩陣,并求出對應的特征值及特征向量。
Step 3:降序排列特征值對應的特征向量,取前k行組成新矩陣M。
Step 4:計算Y=MX,Y即為降到k維后的低維數據。
盡管PCA算法被人們所廣泛使用,但PCA算法還是有一定的局限。第一,作為一種線性降維技術它不適用于非線性結構數據分析;第二,當前還沒有精準可靠的方法代替過往經驗,用來確定主成分保留程度。
線性判別分析法(Linear Discriminant Analysis),也被稱為LDA算法。作為一種經典的模式識別算法,該算法主要采取映射實現原始數據到低維空間的投影,最大化不同類別的樣本點的類間距離,同時最小化同類別的樣本點的類內距離。
其算法實現步驟如下:
Step 1:輸入原始數據,并進行各類別的均值向量;
Step 2:針對輸入原始數據,根據Step 1求解均值向量,分別計算樣本點總距離、類間距離、類內距離;
Step 3:根據各類內距離,構建總體類內距離的逆矩陣,并進行投影向量和閾值計算;
Step 4:完成原始數據到低維空間的投影。
LDA算法是一種高效的特征提取方法,相比較PCA算法,該算法在進行降維過程中針對樣本點進行信息標注,為樣本點分類提供明確的方向,可以更加有效的保證在高維數據空間下,實現不同類別數據在低維空間中的最佳分離。
當前環境下,數據結構更加復雜,為了能夠針對高維數據中的非線性結構數據進行處理,需要采用非線性方法進行數據降維,目前非線性數據降維方法主要分為基于核的非線性算法和基于流行學習的非線性算法兩種類別。
基于核的非線性方法能夠有效避免“維數災難”,減少降維運算的計算量,該算法主要通過引入核函數將樣本數據從原始空間映射到更高維的特征空間,進而采取現有的線性降維方法對高維空間數據進行降維[7]。我們可以理解為基于核的非線性降維方法是通過核函數實現對線性降維方法的擴展。
以核主成分分析法(Kernel Principal Component Analysis,KPCA)為例,我們可以將KPCA算法看成是PCA算法對于非線性結構數據的推廣,其主要思想是把輸入數據X經過一個非線性映射φ(X)映射到特征空間R,然后在特征空間中執行線性PCA算法。此方法雖然在一定程度上起到非線性降維的作業,但由于其本質仍是在高維特征空間利用線性方法降維,所以有時在面對非線性結構的數據時仍然無法處理,并且對起降維關鍵作用的核矩陣的設計目前仍然處于研究階段。
隨著對降維理論方法的不斷研究與探索,在實際應用領域人們逐漸發現,現實問題中的許多高維數據,往往具有內在的低維流行結構,并且通過觀測發現這些高維數據其實往往只受幾個內在約束變量控制。
例如對于某一對象X進行觀測,得到D個觀測變量(x1,x2,…,xD),對這些觀測變量而言其內部僅由D個因素決定。這樣觀測n次,我們就能得到D維空間中的n個數據點,X=[x1,x2,…,xn]由于其內在參數只有D維,因此這n個觀測數據將在D維的觀測空間中形成低維流行。通過對這D維流行的研究有助于對觀測對象X的影響因素進行了解。近年來許多專家學者針對流行學習算法進行了綜述,其中最為常用的基于流形學習的經典算法拉普拉斯特征映射算法。

黃山云海攝影 鄧根寶
拉普拉斯特征映射(Laplacian Eigenmap),簡稱LE,它是由Bekin和Niyogi二人提出的一種基于局部的算法[8-9]。其思想是通過保持數據的局部性來發掘潛在的流行結構,也即高維空間中相互接近的點在低維的嵌入空間應該比較接近。此算法來源于圖譜理論,通過數據樣本及相鄰樣本間的邊構成一個拉普拉斯圖,嵌入映射就通過求解拉普拉斯映射的特征向量得到,算法過程如下:
Step 1:構造鄰域圖,主要是構造邊系數,如果兩個樣本點間是“接近的”,就在這兩個數據樣本間設置一條邊,否則兩個數據樣本間就不存在邊。
Step 2:計算拉普拉斯圖的邊系數,即如果節點i與節點j之間存在一條邊,則Wij=1,否則Wij=0。
Step3:計算嵌入結果,為保持局部性,在低維空間中用各個樣本的近鄰重構樣本數據,使得在原始空間中相近的點,在低維嵌入空間中也比較接近,最小化以下目標函數如式1:

其中L被稱為拉普拉斯算子。L的特征向量近似等同于標準LEE算法中求M=(I-W)T(I-W)的特征向量。
數據降維方法的實施效率與算法的復雜度大小、參數選擇息息相關,其中算法的時間復雜度以及空間復雜度大小直接關系到算法的可行性;算法的參數選擇影響到算法的穩定性。因此本文分別從算法的數據集要求、參數設置、時間復雜度以及空間復雜度對上述各類降維算法進行分析對比。
數據降維方法的復雜度主要由樣本點的個數n、樣本原始維數D、目標維數d以及算法涉及的參數如近鄰點個數k和迭代次數協同決定。
數據降維算法的參數主要存在于非線性算法中,其主要參數為近鄰點數k與樣本目標維數d。
對于數據降維線性方法PCA算法和LDA算法,協方差矩陣時間復雜度為O(Dn),D×D協方差矩陣特征分析時間復雜度為O(D3);對于數據降維非線性方法KPCA算法,KPCA時間復雜度為O(Dn2),n×n矩陣特征分析時間復雜度為O(n3)。
拉普拉斯特征映射算法與KPCA算法相似,同樣需要對n×n矩陣進行特征分析,由于基于流形學習的非線性方法,其n×n矩陣為稀疏矩陣,降低了矩陣特征分析的時間復雜度,其時間復雜度為O(Pn2),同時對拉普拉斯建立稀疏的鄰近圖計算需要時間復雜度O(Dn logn),計算拉普拉斯高斯核需要O(PnD),其中P表示稀疏矩陣中非零元和零元的比率。
綜上所述,各算法對比情況如表1。

表1 各算法參數對比
本文針對旅游大數據分析中的數據降維方法進行了全面的總結,并從待處理數據的性質與幾何角度對幾種典型的數據降維方法進行了分類闡述、詳細比較??偨Y得出現存數據降維方法的缺點如下:
1)現存非線性數據降維方法實際應用效果較差,甚至效率低于傳統的非線性算法,因此對于非線性數據降維方法有待繼續深入研究;
2)基于核的數據降維方法其性能相較于傳統的數據降維方法有所提升,但是對與該方法的關鍵技術-核矩陣的設計還沒有一種明確的設計方法,需要后續繼續研究;
3)流形學習的提出為數據降維提供了非常有利的框架,但是它們大多都為局部方法,因此這類算法受噪音影響大,特別是面對低信噪比的旅游數據時,影響尤為明顯,如何減少噪音的干擾、提高算法的精度也是今后研究的一個重要方向。
[1]劉強,秦泗釗.過程工業大數據建模研究展望[J].自動化學報,2016(2):161-171.
[2]Bellman R.Adaptive Control Processes:A Guided Tour[M].Princeton,New Jersey:Princeton University Press,1961.
[3]Scott D,Thompson J.Probability density estimation in higher dimensions[C].In Proceedings of the 15thSymposium on the Interface Computer Science and Statistics,1983:173-179.
[4]吳曉婷,閆德勤.數據降維方法分析與研究[J].計算機應用研究,2009(8):2832-2835.
[5]李榮雨.基于PCA的統計過程監控研究[D].杭州:浙江大學,2007.
[6]Kruskal A J.Linear discriminant[M]//Modern Multivariate Statistical Techniques.Springer New York,2013:237-280.
[7]詹宇斌.流形學習理論與方法及其應用研究[D].長沙:國防科學技術大學,2011.
[8]劉海紅,周聰輝.半監督拉普拉斯特征映射算法[J].計算機工程與設計,2012(2):601-606.
[9]Zhang Z,Zha H.Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[M].Society for Industrial and Applied Mathematics,2005.
[10]Zhang Z,Zha H.Linear low-rank approximation and nonlinear dimensionality reduction[J].Science China Mathematics,2004,47(6):908-920.
[11]Zhan Y,Yin J.Robust local tangent space alignment via iterativeweighted PCA[J].Neurocomputing,2011,74(11):1985-1993.
TP311 文獻標識碼:A 文章編號:1672-7517(2017)07-0097-03
2017-06-12
2017-06-25
張成龍(1992—),男,山東棗莊人,碩士,研究方向為大數據分析,多源數據融合與集成。