四川大學工商管理學院 朱超 何躍
改革開放30年來,旅游業持續快速發展,引人矚目。西部地區是我國旅游資源最為富集的地區,資源總量約占全國總量的40%。特別是實施西部大開發戰略10年來,西部地區的旅游基礎設施、公共服務設施以及產業體系不斷完善,產業功能和素質不斷拓展和提升,旅游業成為西部地區的重要產業,對促進農民增收和脫貧致富,推進生態環境和文化的保護,促進民族團結和邊疆穩定,實現區域協調發展發揮了重要作用。四川作為具有豐富旅游資源的西部大省,在旅游業的建設和發展上有自身的優勢和特色。
關于旅游市場的研究,目前大多數都是采用定性的研究方法,或者統計方法,例如,周子波[1]等人從國內旅游業中存在的問題入手,闡釋了中國旅游業的內部結構調整,并提出了發展國內旅游業的幾點意見。李江帆[2]等人運用投入產出理論,以廣東省投入產出表為依據,對旅游業的產業關聯和產業波及效應作了定量分析;周欣胤等[3]曾經使用Apriori關聯規則挖掘模型,對四川省2007年卷煙市場數據進行過研究,找出了其中的關聯規則;以及蘇振揚,趙慶國[4]曾論述了基于關聯規則的數據挖掘技術在中小學師資管理系統中的應用。
通過文獻查閱,還沒有發現應用關聯規則的Apriori算法,對旅游市場進行研究的論文。本文用收集的四川旅游市場調查資料,用數據挖掘中的關聯規則算法,對消費者喜愛的四川旅游景點進行挖掘分析,為四川旅游業的發展提供輔助決策依據。
關聯規則[5]是美國IBM Almaden Research Center的Rakesh Agrawal等人于1993年首先提出來的KDD研究的一個重要課題。關聯規則挖掘問題[7]就是事務數據庫中,找出具有用戶給定的最小支持度minsup和最小置信度minconf的關聯規則。數據挖掘[6-8]又稱知識發現,是指從大量數據中提取可信的、新穎的、有效的并最終能被人們理解的模式處理過程。
關聯規則挖掘算法分為兩個步驟:(1)發現頻繁項目集。通過用戶指定的最小支持度,尋找所有頻繁項目集;(2)生成關聯規則。通過用戶指定的最小可信度,在最大頻繁項目集中,尋找可信度不小于最小可信度的關聯規則。
經典算法Apriori是一種寬度優先的多趟掃描算法,第一步掃描數據庫,計算數據庫中所有單個項目的支持計數,并把大于最小支持計數的項目組成1維頻繁項集,稱之為1_項集,即L1。然后重復掃描數據庫,第k次掃描產生K_項集Lk,第k+1次掃描時,首先通過對Lk中的項目集的連接操作生成(K+1)_項集的候選集Ck+1,再利用剪枝操作刪除Ck+1中小于最小支持計數的項集,從而得到Lk+1,直到無頻繁項集生成為止,最后的頻繁項集的集合為[1]。
Apriori算法利用Apriori性質(頻繁項目的所有非空子集都必須是頻繁的)有效地對項集進行剪枝,盡可能不生成和不計算那些不可能是頻繁項集的候選項集,從而生成較小的候選項集的集合。
四川省2007年旅游業數據來源是四川省城調隊專項處調查問卷數據。在四川省境內不同地州市共發出500份調查問卷,收回416份有效問卷。數據分析使用Clementine軟件建立Apriori關聯規則挖掘模型,對四川省2007年旅游市場數據進行研究,找出其中的關聯規則。在分析中用到的被調查者的基本信息包括被訪者的年齡、文化程度、被訪者的月收入水平;用到的調查問題有:最近十個月出游過的四川旅游景區、印象最深刻的景區、挑選游玩景區時影響最大的因素、滿意度評價(包括:住宿、餐飲、游客擁擠程度等)。被訪者回答問題時,答案是用1、2、3、4等來表示的,如:導游服務態度這個問題:1表示不滿意,2表示不太滿意,3表示一般,4表示較滿意,5表示滿意。其他問題類似。部分數據信息如表1所示。

表1 部分調查數據表
數據預處理是對數據源進行加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行平滑,對丟失的數據進行填補,消除不合格數據,消除重復記錄等,使之符合數據挖掘的要求。主要工作有檢查拼寫數據,完成數據類型轉換。
問卷數據不能直接作為數據源使用,因為Apriori算法只能處理布爾型的數據,因此,需要將原始數據全部轉換成布爾型的數據。具體做法是每個問題的每個選擇項都作為新表的一個字段,如果原表選擇了該選項,則對應字段的值為1,否則為0。
轉換后的部分數據信息視圖如表2所示,其中,A1表示問題A的第一個選項。B1表示消費者背景的第一個選項,余此類推。

表2 轉換后的部分調查數據表
分析收入水平、受教育程度、年齡、職業與最喜愛的景區的關聯規則。將轉換好的旅游者收入水平、受教育程度、年齡、職業與旅游者最喜愛的景區的數據存入Excel文件并作為數據源在Clementine軟件中輸入,將旅游者收入水平、受教育程度、年齡、職業設定為“輸入”,最喜愛的景區設定為“輸出”,支持度設為15%以上,置信度25%以上,建立Apriori 關聯規則挖掘模型得到輸出結果如表3所示。

表3 家庭收入、受教育程度、年齡、職業與最喜愛的景區的關聯規則
由表1可知,九寨溝是最受歡迎的景區之一。就收入水平而言,收入為2001-3000元,大專及以上文化程度的旅游者最喜愛的景區為九寨溝,其支持度在15.1%,說明了收入水平在2001-3000元,大專及以上文化程度的旅游者在調查人群中所占的比例是15.1%,置信度45.2%,說明了該類旅游者有45.2%的概率到九寨溝旅游消費。從年齡來看,25~44歲的旅游者中,最受歡迎的也為九寨溝景區,這部分人群收入較穩定,有一定的消費能力;就受教育程度而言,中專和高中、大專及以上學歷的旅游者偏好九寨溝;就職業而言,公務員最喜愛的景區也為九寨溝,而離退休人員則喜愛成都武侯祠,因為離市區近,方便且消費較低,適合離退休人員。同時,可以看到收入水平為1501~2000元的旅游者最喜愛的景區為峨眉山,說明峨眉山的消費水平較九寨溝略低,受較低收入者的喜愛;因此,四川旅游業相關部門應從多個方面著手,針對旅游人群的不同特征,加大景區宣傳力度,開展針對性的活動以吸引旅游者,例如,針對潛力消費者開展優惠活動,開發具有吸引力的文化、興趣愛好、休閑等多種模式的旅游產品,集中力度解決交通、食宿等突出問題,同時大力開發其他景區,促進四川旅游業全面、較快發展,使人們看到更美好的四川。
文章采用了數據挖掘方法中的Apriori算法分析了四川省旅游市場相關數據,從紛繁復雜的數據中找出了游客消費行為的本質特征,突出解決了收入水平、年齡、職業、受教育程度及四川境內最受歡迎的景區之間的關聯規則問題,從而為有針對性的制定營銷策略,提供了輔助決策依據。
同時,我們知道旅游景區的受歡迎程度往往也是氣候、季節等因素的綜合反映。本文由于沒有考慮旅游景區季節氣候等自然界因素,挖掘的結果有一定局限性,因此在今后研究中,挖掘出的關聯規則最好結合旅游市場的季度信息進行綜合分析,以提高其有效性。
[1]周子波,韓鵬輝.淺談我國國內旅游業[J].中國商貿,2009(17).
[2]李江帆,李冠霖,江波.旅游業的產業關聯和產業波及分析——以廣東為例 [J].旅游學刊,2001(03).
[3]周欣胤,何躍.基于Apriori算法的四川省卷煙市場的研究[J].中國商貿,2010(04).
[4]蘇振揚,趙慶國.基于關聯規則的中小學師資管理系統應用研究[J].軟件導刊,2009(2).
[5]Mehmed Kantardzic.閃四清,陳茵,程雁等譯,數據挖掘-概念、模型、方法和算法[M].北京:清華大學出版社,2002.
[6]Jiawei Han, Micheline Kamber.范明,孟小峰等譯.數據挖掘——概念與技術[M].北京:機械工業出版社,2001.
[7]Usama Fayyad, Gregpru Oatesdu-Shapiro, Padhraic Smyth, RAMASACY UTHURU SAMYMY, ETAL .Advances in Knowledge Discovery and Data Mining [M].AAAI Press/The MIT Press, 1996.
[8]Gregory Piatesdy-Shapiro, Willam J Frawley, Editors .Knowledge Discover y in Databases [M].AAAI Press,1991.