四川大學 霍葉青 何躍
在激烈的市場競爭中,只有掌握卷煙消費群體的特征,才能立于不敗之地。信息是決策的基礎,通過市場調查,可以獲得大量的信息。通過對調查得到的卷煙市場中的消費群體的數據進行聚類分析,可歸納出有利于提高卷煙的生產和銷售的信息。
聚類分析是數據挖掘領域中的核心技術之一,聚類分析處理的數據對象的類是未知的,把數據按照相似性歸納成若干類別。它是從給定的數據集中搜索數據對象之間所存在的有價值的數據分布模式,實現在同一聚類之間的樣本差異最小化,而在不同聚類樣本之間的差異最大化的一種挖掘技術[1]。
文章使用K-均值聚類方法進行分析,對四川省2007年卷煙市場數據進行研究,找出其中的群體規則。
聚類分析是根據一定的分類規則,劃分記錄集合,確定每個記錄所在類別。使得同一類別中,個體之間差距較小,不同類別中,個體之間的差距較大的一種挖掘技術。聚類技術能把不同格式的數據快速分簇,其中主要有K-均值聚類方法。
K-均值聚類方法是一種在無類標號數據中發現簇和簇中心的方法,通過迭代把對象劃分到不同的簇中,以求目標函數最小化,使生成的簇盡可能地緊湊和獨立[2]。
設需分析的樣本為Xi,i = 1,2 …,N。給定一組初始中心Ck,k=l,2 …,K。初始中心可以是從訓練數據中隨機選擇的個體。K-均值算法交替執行的步驟:
(1)對每個樣本Xi,找出離它最近的中心點( 簇):

(2)計算每個簇中數據點的均值,并且該均值向量成為該簇新的中心:

其中nk為第 k簇包含的樣本數。
四川省2007年卷煙市場數據來源是四川省卷煙市場調查問卷數據。在四川省境內不同地州市共發出4000份調查問卷,收回2730份有效問卷。數據分析利用SPSS軟件來進行,在分析中用到的被調查者的基本信息包括被訪者的年齡、受教育程度、被訪者的月收入和家庭收入;用到的調查問題有常吸的卷煙產品的價格、最常吸的品牌、選購自己吸的卷煙時決定購買影響最大的因素、用于送禮和應酬的卷煙時決定購買影響最大的因素。被訪者回答問題時,答案是用1、2、3等來表示的,如受教育程度這個問題:(1)表示沒受過正式教育,(2)表示小學,(3)表示初中,(4)表示高中,(5)表示中專/技校/職高,6表示大專,7表示大學或以上程度。其它問題類似。
應用1是通過對用戶的基本信息數據和被訪者常吸的卷煙產品的價格、最常吸的品牌的數據進行的聚類分析,該聚類定義為4個類中心[3],其最后聚類中心和每個聚類中的案例數如表1所示。
由表1可知:被訪者的年齡的四個聚類中心都為36-40歲,說明這個年齡段的吸煙者較多,并且受教育程度大都為高中、中專/技校/職高。隨著被訪者月收入和家庭月收入的增加,用戶購買的卷煙產品的價格也隨之升高,說明隨著人們生活水平的提高,對香煙的要求也隨之提高,卷煙廠為了吸引更多高收入的客戶群體,需要從提高香煙的品質、包裝等多方面來提升香煙的價位。

表1 最終聚類中心和案例數

表2 最終聚類中心和案例數

表3 最終聚類中心和案例數
第二類的人數最多,達到1159個,說明購買4.01~5元價位的人最多,而4.01~5元價位中購買軟紅梅的人最多。從第一類看出,購買6.01~7.00元價位的人數次之,其中主要是購買阿詩瑪。第四類也可以看出,購買15.01~20.00元價位的人數最少,其中蓋紅河88是比較受歡迎的。而第三類8.01~10.00元價位中較偏愛軟紅河88,由此可知,軟紅梅、阿詩瑪、軟紅河88和蓋紅河88是用戶喜歡的卷煙產品,卷煙廠需要大量生產這幾種煙來增加銷售量。
應用2是通過對用戶的基本信息數據和選購自己吸的卷煙時購買影響最大的因素的數據進行的聚類分析,該聚類也定義為4個類中心[3],其最后聚類中心和每個聚類中的案例數如表2所示。
由表2可知:第一類消費者在選購自己吸的卷煙時決定購買影響最大的因素是自己習慣的因素,第二類是價格合適,第三類是煙味清淡、醇和、不燥,而第四類是追求新鮮,嘗試新口味。第一類到第四類的綜合收入水平是依次升高的,可見隨著收入水平的增加,用戶對香煙的要求也是依次變高的,這也再次說明卷煙廠為了吸引更多高收入的客戶群體,需要從提高香煙的品質、包裝等多方面來考慮。
并且從表中也可以看出,隨著年齡的降低,對香煙的要求也在變高,年齡大的用戶喜歡買自己已經習慣了的牌子,而年輕人更喜歡嘗試新的品種,所以當卷煙廠有新的卷煙生產出來的時候,應通過一些宣傳手段重點向年輕人宣傳新的卷煙產品。
應用3通過對用戶的基本信息數據和用于送禮和應酬的卷煙時決定購買影響最大的因素的數據進行的聚類分析,該聚類也定義為4個類中心,其最后聚類中心和每個聚類中的案例數如表3所示。
由表3可知:第一類和第三類用戶在用于送禮和應酬的卷煙時決定購買影響最大的因素是品牌名氣大的香煙,所以卷煙廠應該通過電視廣告、報刊廣告或者網絡等等手段來增加卷煙的知名度,第二類用戶認為體現身份最重要,所以卷煙廠應該通過考慮卷煙的包裝等可以體現身份的做法,而第四類用戶認為符合現代潮流最重要,所以卷煙廠可以在包裝上規劃可以展示潮流的圖畫等等,來提高卷煙的銷售量。
文章采用了數據挖掘方法研究四川省卷煙市場數據,在SPSS中運用K-均值聚類方法進行分析,旨在通過采用數理統計技術和相關統計學工具,對調查到的卷煙用戶的數據進行深度分析和處理。從紛繁復雜的數據中找出客戶消費行為的本質特征,從而有針對性地制定營銷策略,對卷煙廠的生產和銷售策略有較強的指導意義。
[1]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,1998.
[2]趙躍,余詩武.基于Web內容挖掘技術的應用研究[J].科技情報開發與經濟,2008,18(36):122~123.
[3]郭秀娟,戰冬梅.K—means聚類算法分析及在教師授課質量評價中的應用[J].吉林工程技術師范學院學報,2009,6(25):74~77.
