文赟 高安明 蒙琴英 鄭蓉勤
摘 要:市場調研主要以問卷調查法展開,其收集到的數據大都是以定類或定序的方式呈現的,除了進行簡單的描述性統計以把握總體情況外,還希望對變量間的相關性進行研究,由于調研數據的局限性,使得大多數統計方法不能夠滿足其前提條件。本文以畢節煙草公司展開的市場調查為基礎,重點介紹針對分類變量進行相關性分析的統計方法,即列聯表分析與卡方檢驗,以期為高質量的市場調查、消費者研究等提供借鑒與參考。
關鍵詞:市場調研 列聯分析 卡方檢驗
中圖分類號:F723 文獻標識碼:A 文章編號:2096-0298(2017)03(b)-164-04
1 引言
行業開展“消費者在哪里,我們就到哪里”的主題卷煙營銷活動,使煙草企業對消費者市場的重視大大提升,并且隨著卷煙營銷市場化取向改革的深入,市場分析的作用越來越大。為響應國家號召,畢節煙草公司于2016年2月1日~3月20日,采用抽樣調查的方式收集到來自畢節市各縣區1620份有效問卷,通過對消費者進行全方面的分析,主動順應消費環境的變化,用數據說話,提高數據分析駕馭市場的能力,并不斷完善面向消費者的營銷機制,實現從精準營銷向數據營銷的轉變。
近年來,有不少相關文獻對煙草企業市場調研進行研究,如長沙縣煙草專賣局,劉智和廖文在卷煙消費者行為——基于長沙縣一文中,根據消費者行為學理論分析消費者行為,并提出相應的營銷對策[1];中國煙草總公司發文,煙草行業市場調研覽要,對市場調研的主要內容、操作步驟及影響因素進行了詳細描述,文中強調了數據分析的重要性[2],楊宇在管理觀察期刊中寫過列聯表分析在市場調查中的應用[3]。
上述文獻從不同角度、運用不同方法對市場調研及消費者調查展開分析,根據其分析結果對研究主體提出了合理有效的建議,但由于市場調研的特殊性,收集到的資料有很多是屬于定類數據,對于這種數據并沒有提供一個簡潔有效的分析方法。基于此,本文力求對我國煙草行業消費者做深入研究,探求消費者屬性與其消費行為之間的影響關系等,為提高數據分析駕馭市場的能力奠定基礎。
2 列聯分析與卡方檢驗
列聯表又稱交叉表,是以列表的形式表示兩個或多個變量同時發生的頻數,與頻數分布表相比,從列聯表中我們不僅可以得到單一屬性的樣本分布情況,還可以得到不同屬性共同影響下的樣本分布,分析一個或多個變量在某一因素影響條件下的分布,挖掘各因素之間的關系,通過對不同因素的交叉分析發現隱藏在數據背后的事實。
卡方檢驗是在列聯表建立的基礎上進行的,運用統計量對變量之間的相關關系進行科學驗證,檢驗變量之間的是否存在聯系及聯系的緊密程度如何等。本文所運用的卡方檢驗屬于非參數統計范疇,不需要數據滿足正態性分布的要求,使用范圍的局限性較弱,在市場調查中可以發揮巨大作用。
3 列聯表卡方檢驗原理
對列聯表進行卡方檢驗的目的是為了檢驗多個變量之間的獨立性,若變量之間沒有關聯,則說明變量是獨立的。在實際分析中,不僅要了解單個變量的分布特征,還要分析多個變量不同取值下的分布,掌握多變量的交叉分布特征,進而分析變量之間的相互影響和關系,列聯表可以挖掘各因素之間的關系,通過不同的細分凸顯出隱藏的事實,對交叉表進行卡方檢驗,可以將變量間的相關關系進行科學的展示,同時為后續的變量之間更深入的分析找到清晰的方向[4]。由于列聯表分析所要求的數據類型通常是定類、定序數據,問卷調查收集到的數據大多以定類、定序的方式呈現,故在絕大部分的市場調查中,做好交叉分析就能夠得到足夠充分有力的結論了[5]。
4 分析結果
畢節煙草市場調研數據分析使用SPSS18.0和Excel2013軟件,首先對數據進行預處理及頻數分析,之后對樣本進行列聯表卡方檢驗。
4.1 數據預處理
對調查數據進行預處理,這是在數據分析前的準備工作。審核問卷進行,剔除問卷中無效和惡意作答問卷,減小誤差使分析結果更接近現實;錄入問卷數據,將調查問卷變成數據表格,以便為展開后續的數據分析。經過數據審核,依據調查問卷編制成基礎數據表,為后續數據分析所用。
4.2 頻數分析
頻數分析是數據分析的第一步,對于問卷收集到的數據進行頻數分析,首先可以對樣本進行一個總體把握,對于樣本的分布情況是否符合調查所需,能夠在一定程度上判斷出樣本是否具有總體代表性,抽樣是否存在系統偏差等,并以此證明后續相關問題的分析是否具有代表性和可信性。
4.2.1 編制頻數分布表,對研究對象進行頻數分析
由于在進行市場調研時不僅收集了消費者的煙齡、煙量相關的數據,還收集了消費者年齡、收入等其他屬性,在對煙齡進行頻數分析時,眾所周知,年齡與煙齡之間顯著相關,年齡越大,煙齡越長。因此在對消費者煙齡進行頻數分析時,需要通過加權方法,計算得到某一煙齡在總體中所占比例。
4.2.2 以編制的頻數分布表為基礎,以圖的形式呈現在報告中
頻數分布表對變量的每個指標都有體現但不夠直觀,所以通常對頻數分布表以餅圖、柱形圖的形式呈現。
由圖1可以看到,煙齡在21年及以上的消費者占總體的29%,煙齡在11年~20年的消費者占總體的36%,煙齡在6年~10年的消費者占總體的27%,煙齡在1~5年的消費者占總體的7%,煙齡在1年及以下的消費者占總體的1%,具體分布占比詳見圖1。
對消費者的日均吸食量進行頻數分析,結果顯示:有52.67%的消費者其日均吸食量在10支~19支,24.81%的消費者其日均吸食量在20支~39支,14.8%的消費者其日均吸食量在6支~9支。若以包來衡量,73%的消費者日均吸食量在1包以下,27%的消費者超過1包,而有77.48%的消費者其日均吸食量在0.5包~2包。


根據分析結果可以看出,樣本分布基本能反映消費者面貌,能夠滿足分析需要,由此進行后續相關問題分析是可行的。
4.3 列聯表卡方檢驗
為分析畢節消費者日均吸食卷煙量與基本屬性之間的關系,對日均吸食量和屬性進行交叉分析和卡方檢驗。卡方檢驗是以屬性變量—煙齡為前提,檢驗變量間—日均吸食量與煙齡之間是否獨立,即是否存在某種相關關系最常用的方法。表2是消費者卷煙日均吸食量與煙齡列聯表。
從表3可以看出,隨著煙齡的增長,日均吸食量呈現明顯的增加趨勢,在煙齡為11年~20年,日均吸食量為10年~19支這一交叉點達到最大值,隨后隨著煙齡的增長,日均吸食量的增長呈現下降趨勢。
由上述結果可知,期望頻數小于5的比例占20%,因此使用似然比卡方統計量的值。似然比卡方統計量的值為255.320,對應的p值為0.000,小于給定的顯著性水平0.01,所以拒絕原假設,認為在1%的顯著性水平下,日均吸食量與煙齡是相關的,也就是說不同煙齡的消費者,其日均吸食量是不同的。
而這種關聯程度又是如何呢?從對稱度量可以得到,相關系數φ=4.15,V=0.208,CC=0.383。其檢驗的p值都是0.000,小于給定的顯著性水平0.01,說明在1%的顯著性水平下,煙齡和日均吸食量的關聯在統計意義上是顯著的。
為使日均吸食量與煙齡之間的相關關系更加明顯,對原始數據進行重新分組,將煙齡為1年以下的消費者與1年~5年的消費者合并為一組,形成一個新的列聯表如表6所示。
根據日均吸食量與消費者煙齡的二維列聯表作出如圖3的百分比堆積圖,可以較為直觀地看出,消費者的煙齡越長,其日均吸食量就越大。
進一步,將“煙齡”作為影響因素變量對消費者“日均吸煙量”做回歸分析,結果如表7所示。
表7中展示的是各個煙齡層消費者的平均吸食量,由回歸方程可知,消費者日均吸煙量與煙齡成正比,且隨著煙齡提高一個層級,日均吸煙量就增加3.048支。
5 結語
根據此次調查與分析結果,按照日均吸食量,可以將畢節農村消費者劃分為三個主要群體:輕度煙民約占煙民總量的17%,日均吸食量在10支(含)以內,煙齡一般較短;中度煙民約占煙民總量的 53%,日均吸食量在11~20支(含)之間;重度煙民約占煙民總量的27%,日均吸食量在21(含)支以上,煙齡一般在10年以上;且隨著煙齡等級的上升,煙量有明顯提升。
針對市場調查中數據分析所存在的問題,本文以數據分析為導向,由淺入深的對數據分析方法進行了詳細闡述,并結合畢節市煙草公司所展開的消費者市場調查,詳細介紹了對數據分析方法尤其是列聯分析在實際調研中的應用,在原來單一變量分析的基礎上,將消費者屬性與目標變量直接進行關聯,對數據的分析更為細致、深入。
參考文獻
[1] 劉智,廖文,湯葦葦.卷煙消費者行為——基于長沙縣[J].當代經濟,2012(22).
[2] 王艷.煙草行業市場調研覽要[J].經濟研究導刊,2010(13).
[3] 楊宇.列聯表分析在市場調查中的應用[J].管理觀察, 2009(13X).
[4] 楊錦忠,宋希云.單一響應變量統計分析在煙草學研究中應用的若干問題[J].中國煙草學報,2014(08).
[5] 鄭晶晶.問卷調查法研究綜述[J].理論觀察,2014(10).
[6] 孫鉞,狄英.論統計調查方案的設計[J].行業探討, 2011, 10(07).
[7] 陳膺強.應用抽樣調查[M].北京師范大學出版社,2010.
[8] 全洪臣.市場調研原理與應用[M].大連:東北財經大學出版社, 2008.