唐中君,崔駿夫,唐孝文,朱慧珂
(1.北京工業大學經濟與管理學院,北京 100124;2.北京工業大學北京現代制造業發展研究基地,北京 100124)
當前有關需求模式挖掘的研究主要集中于特定產品的銷量與其產品屬性間的關系[1-3]。這些研究通過分析特定產品的屬性與銷量之間的關系,挖掘銷量與產品屬性間的規律,獲得該特定產品的銷量規律。然而,僅挖掘特定產品的銷量規律難以從市場全局掌握該類產品的需求特征,難以從一類產品的全局指導新產品研發。因此,需要從市場全局性趨勢識別可用于指導設計研發的需求特征模式。由于市場的動態變化,還需要動態識別需求特征模式。全局性的需求特征模式代表一類產品在近期消費活動中頻繁出現但需要挖掘一類產品的具有可重用性特點的全部屬性,還需要動態挖掘該類產品的不同產品屬性及屬性間關系組合所代表的產品與其銷售總量之間的關系。本文旨在提出滿足這些要求的需求特征模式挖掘方法。
根據產品的生命周期特性,可將產品分為長生命周期產品和短生命周期產品。依據顧客從產品消費中獲得的主要價值,產品可分為體驗品和功能品。典型的短生命周期體驗品有電影、體育賽事、電子游戲、話劇等。以電影為例,2013至2016年我國上映的476部商業電影中,總票房過億的有121部,其中超過10億的有12部;小于1千萬的有151部,占比約32%。由此可見,短生命周期體驗品的銷售總量具有極大的波動性,難以挖掘需求特征,更難以挖掘其需求特征模式。因此本文以短生命周期體驗品為對象,研究其需求特征模式挖掘方法。
為解決短生命周期體驗品因銷售總量的極大波動性導致的需求特征難以挖掘問題,本文提出一種按銷售總量分區的產品需求特征模式挖掘方法。分區的原因是,所有產品的銷售總量波動性大,難以挖掘需求特征;依銷售總量分區后,各區的銷售總量波動性相對小,各區的需求特征更具規律性,從而易于挖掘需求特征。本文的產品需求特征模式是指高銷售總量區間內產品集具備,但中、低區間不具備的產品屬性關系模式。該模式說明市場需求動向,可用于指導新產品開發生產,降低新產品投資風險。產品屬性關系模式包含關聯屬性集合及屬性間的關系特征。因此,本文所提方法包括產品屬性挖掘方法和屬性關系模式挖掘方法。有關產品屬性的挖掘方法,文獻有質量功能展開[4]、灰色分析[5]、假設檢驗[6]、結構方程模型[7]、因子分析[8-10]、有向主題模型[11]、CART樹[12]、貝葉斯網絡[13]、潛在語義分析[14]、描述統計[15]等方法,但上述挖掘方法僅能得到不同體驗品的主要屬性,未能挖掘相對全面的產品屬性,難以適用于短生命周期體驗品產品屬性的全面挖掘。并且這些研究所用源信息主要是消費者反饋數據[4,7,8-12,14]和產品本身數據[5-6,13,15],沒有用產品介紹。通常產品介紹為純文本文件且包含顯性及隱性屬性。內容分析法是一種以文本及文本使用環境為源信息,并可獲得有效推論的研究方法,其主要功能是對源信息進行顯性和隱性特征的共同挖掘。相較于上述文獻所用方法,內容分析能挖掘更加全面的產品屬性,為更加準確、動態挖掘產品需求特征模式提供有利條件。因此,為挖掘較為全面的產品屬性,可以基于內容分析法,提出短生命周期體驗品的產品屬性挖掘方法,但尚未發現類似研究。
對于按銷售總量分區的產品屬性關系模式挖掘,尚未發現有關研究。對于銷售總量與產品屬性間關系的挖掘方法有邏輯斯蒂回歸[16]、假設檢驗[17]、文本情感分析[18]、統計推斷[19]、核方法[20]、支持向量回歸[21]。這些方法通過分析屬性與銷售總量之間的關系,可以挖掘銷售總量與產品屬性間的規律,適用于特定產品銷售量的預測,但無法挖掘不同銷售總量區間內產品集的產品屬性關系模式,難以從一類產品的總體去把握需求規律。關聯分析用于發掘數據集中變量之間的關系,該方法通過頻繁集和關聯規則表示變量之間的關聯關系,并利用支持度和置信度衡量變量之間的關聯強度。關聯分析可用于挖掘不同銷售總量區間內產品集的產品屬性關系模式,進而可以識別產品屬性關系模式與銷售總量區間值之間的關系。因此,可以基于關聯分析,提出短生命周期體驗品按銷售總量分區的產品屬性關系模式挖掘方法,進而可以獲得高銷售總量區間具備,但中、低區間不具備的關系模式,從而得到需求特征模式,但尚未發現類似研究。
為實現產品屬性的全面挖掘及按銷售總量分區的產品屬性關系挖掘,提出如圖1所示的融合內容分析和關聯分析的短生命周期體驗品需求特征模式挖掘方法。圖1中兩個虛線矩形分別代表兩個挖掘階段,包括產品屬性挖掘階段和屬性關系挖掘階段。每個階段包含若干活動,用實線矩形表示。每個活動的輸入和輸出用平行四邊形表示。箭頭代表流程走向。

圖1 需求特征模式挖掘主流程
產品屬性挖掘階段以產品介紹為輸入,通過內容分析識別和提取產品屬性,挖掘該類產品屬性,輸出產品屬性表。以該表為輸入,屬性關系挖掘階段按銷售總量將已有產品分成高、中、低三個區間,生成三類區間的產品屬性表,運用關聯分析法獲取各區間中滿足最小支持度的頻繁集,進而得到關聯屬性規則集,然后運用關聯分析法的先驗原理對關聯屬性規則集進行網絡圖構建,實現屬性間關聯關系的可視化表達,得到不同銷售總量區間內產品集的產品屬性關系模式,最終輸出該類產品的需求特征模式。
基于內容分析法的產品屬性挖掘方法如圖2所示。圖中,平行四邊形表示輸入和輸出;矩形表示工作內容;菱形表示判斷條件;實線箭頭表示流程走向;虛線箭頭表示包含關系;左側虛線矩形表示粗粒度挖掘步驟;右側虛線矩形表示細粒度挖掘步驟。

圖2 基于內容分析法的產品屬性挖掘流程
由圖2可知,依據輸入內容的不同,基于內容分析法的產品屬性挖掘分為兩大部分,分別是對已有產品介紹集的挖掘和對新產品介紹集的挖掘。
對已有產品介紹集的屬性挖掘包括目標確定、類目體系構建、預編碼,正式編碼四個主步驟。每個主步驟包含若干子步驟。
第一步,目標確定。使用內容分析法挖掘產品屬性的目標是獲得產品屬性庫,并得到已有產品介紹集的產品屬性表。產品屬性庫應能涵蓋已有產品介紹集中的全部屬性。產品屬性表包含由產品屬性庫構成的表頭和依據已有產品介紹編碼填充的二元值。
第二步,類目體系構建,包括產品屬性庫的構建和編碼指南表的建立。選用結合法并遵循窮盡、互斥和均衡等原則[22-23]構建類目,得到一個分層分級的多層級類目體系結構。該體系首先由一級類目組成,一級類目應盡可能使用粗粒度方式囊括短生命周期體驗品的屬性類。例如,電影可分為犯罪類、愛情類等。接著對每一類屬性進行細分,形成二級類目。例如,每種類型電影又可細分為主角設置、劇情模式和主題精神等。若二級類目的屬性無法滿足研究粒度需要,則進一步細分。例如犯罪類電影的主角設置可分為警察、毒販、黑社會等。類目的總層級數根據研究所需粒度大小確定。此外,為滿足窮盡原則,應在每一級類目中設置“其他”項,用于代表非研究重點的類項。依據構建好的類目體系,即可得到產品屬性庫。基于類目體系,可建立編碼指南表。該表應包含類目體系、所有最細粒度類目說明和編碼規則。類目說明用于幫助編碼人員理解類目體系;編碼規則用于指導編碼人員編碼。
第三步,預編碼。該步驟旨在消除類目構建人員與編碼人員對類目理解的差異,從而驗證類目體系,并使編碼人員能夠在正式編碼過程中將識別出的產品屬性歸入正確的類目。預編碼分為對編碼人員的編碼訓練和信度檢驗。編碼訓練要求在正式預編碼之前,編碼人員熟悉并理解編碼指南表,并對短生命周期體驗品的特性有一定了解,能夠識別產品介紹文本中涉及的隱性屬性,從而能夠正確編碼。如果編碼人員對編碼指南表理解有誤或類目構建人員與編碼人員理解不一致,需要通過研究討論修改類目體系或重新定義類目,完善類目體系,使類目構建人員與編碼人員最終達成一致。
當最終達成一致并且所有編碼者對編碼說明和內容文本熟悉后,即可進行編碼訓練和信度檢驗。編碼訓練要求編碼人員按照編碼規則對預編碼樣本進行編碼。預編碼樣本需從已有全部產品介紹中按總體的20%抽取。編碼過程是,若類目體系中的屬性在某產品介紹中出現,則在產品屬性表中相應位置填入1,未出現則填0。信度檢驗采用剔除隨機因素的一致率Scott'sPi方法,計算公式為Pi=(PAo-PAe)/(1-PAe),其中PAo是觀察到的一致率;PAe表示隨機一致率,等于每個數值出現概率的平方之和。該方法去除了偶然概率因素,檢驗值在不小于0.75的情況下均可接受。若信度檢驗未通過,需對編碼人員再次進行編碼訓練并重新預編碼,直到通過信度檢驗。
第四步,正式編碼。編碼過程就是識別出已有產品介紹中的產品屬性,并將其歸入相應類目。識別產品屬性可分為識別顯性屬性和隱性屬性。顯性屬性是指文本中明確說明的屬性。例如,針對電影《毒戰》的介紹“剛剛結束一次危險任務的津海市緝毒大隊隊長張雷在醫院意外見到因車禍入院治療的蔡添明,身經百戰的張雷迅速判定蔡添明與毒品勾當有關”,可以明顯看出主角設置為警察和毒販。隱性屬性是指需經過語境推斷得出的屬性。例如,針對電影《湄公河行動》的介紹“2011年10月5日,兩艘商船在湄公河金三角水域遭遇襲擊,13名船員全部遇難。泰國警方從船上搜出90萬顆冰毒。消息傳回國內舉國震驚”,需要根據“湄公河”、“冰毒”、“消息傳回國內”等推斷出劇情涉及走私、販毒。編碼完成后,得到已有短生命周期體驗品的產品屬性表,并將其作為產品屬性關系模式挖掘階段的輸入。
以上是針對已有產品介紹集的產品屬性挖掘,當有新產品介紹出現后,首先將新產品介紹與已有產品屬性庫進行匹配。若新產品介紹出現的屬性未能包含在已有的產品屬性庫之內,則在現有類目的基礎上完善類目體系,并進行編碼,從而得到新一階段的產品屬性表。若新產品介紹出現的屬性均包含在屬性庫之內,則直接通過正式編碼,獲取新的產品屬性表。
基于關聯分析的產品屬性關系模式挖掘方法如圖3所示;圖例同圖2。產品屬性關系模式挖掘包括按銷售總量分區、產品屬性頻繁集發現、產品屬性關聯規則挖掘、網絡圖構建和需求特征模式發現五個主步驟。每個主步驟又包含若干子步驟。

圖3 基于關聯分析的產品屬性關系模式挖掘流程
第一步,按銷售總量分區。依銷售總量的高、中、低將已有短生命周期體驗品分為三類,分別代表需求熱點、基線水平和難以回本,進而得到銷售總量高、中、低各區間內產品集的產品屬性表。
第二步,產品屬性頻繁集發現。在獲得分區的產品屬性表之后,設置合適的最小支持度并使用Apriori算法挖掘產品關聯屬性之間的關系。Apriori算法是發現關聯規則頻繁集的算法。在給定數據集D和最小支持度minsup下,該算法從數據集中找到頻率大于等于minsup的項集,支持度超過minsup而且由k個項構成的項集稱為k-項集,記為Lk,即頻繁k-項集。支持度Support(X→Y)=|T(X∪Y)|/|T|,其中|T(X∪Y)|表示同時包含X產品屬性集合和Y產品屬性集合的數據個數;|T|表示產品屬性表中的數據總數。最小支持度的設定需通過多次運行Apriori算法并觀察頻繁集才能確定。用Apriori算法挖掘產品屬性頻繁集的算法描述如下:
輸入:產品屬性表T,最小支持度minsup;
輸出:產品屬性頻繁集;
符號定義:Ck為k-項候選集;Lk為k-項頻繁集;
L1={頻繁 1-項集};
for (K=1;Lk!=?;k++) do begin
Ck+1= 由Lk項集生成;
for T表中的每條數據do begin
對所有Ck+1中的項集,如果也同時包含于本條數據,頻數增加1;
Lk+1=Ck+1中滿足支持度大于或等于minsup的項集;
end
end
returnLk+1
第三步,產品屬性關聯規則挖掘。關聯規則挖掘是在得到頻繁集的基礎上,找出置信度超過最小置信度minconf的項集,并提取規則。規則的表示形式為X→Y,X稱為前項,Y稱為后項。規則的置信度Confidence(X→Y)=|T(X∪Y)|/ |T(X)|,其中|T(X)|表示包含X產品屬性的數據個數。最小置信度的選取需在所得頻繁集的基礎上多次運行規則挖掘算法并觀察規則集才能確定。關聯規則挖掘算法描述如下:輸入:產品屬性頻繁集,最小置信度minsup
輸出:產品屬性關聯規則集合
for each 頻繁集L do begin
產生其所有子集s;
for each 非空真子集s do begin
ifSupport(L)/Support(s)>=minconf
return 規則s→(L-s);
end
end
第四步,網絡圖構建。在得到的關聯規則集合中,由頻繁2-項集產生的規則能夠體現兩個屬性之間的關聯關系,且規則的前項和后項之間并非因果關系,故將每個屬性視為網絡節點,并將頻繁2-項集的規則刻畫成無向網絡圖,從而可視化關聯屬性及屬性間的關系。對于其他由非頻繁2-項集產生的關聯規則,根據先驗原理“如果一個項集是頻繁的,則它的所有子集也一定是頻繁的”,亦可轉化為對2-項頻繁集關聯規則的描述。例如對一條規則{a,b,c}→g0gggggg可推出是由頻繁4-項集{a,b,c,d}產生,故該頻繁集的子集{a,d}、{b,d}、{c,d}都是頻繁的,所以產生的規則{a}→g0gggggg、{b}→g0gggggg、{c}→g0gggggg中一定會有若干條滿足minconf的頻繁2-項集的關聯規則。網絡圖體現了產品關聯屬性及屬性間的關聯關系。其中,節點的度數越高,則該節點的尺寸越大,說明與該屬性存在關聯關系的屬性越多。
第五步,需求特征模式發現。在得到高、中、低銷售總量區間關系模式的網絡圖后,結合支持度、置信度兩項指標和網絡分析方法對相應規則以及屬性網絡進行對比分析,即可識別高銷售總量區間關系模式與其他兩區間關系模式的差異。中、低銷售總量區間不具備,僅在高區間具備的關系模式即為當前消費者對該類產品的需求特征模式。
本節所提方法具有五方面特點。第一,能動態挖掘需求特征模式。需求偏好的不斷變化使得消費者的需求特征模式不斷改變。該方法通過持續獲取新產品銷售總量及新產品介紹集的產品屬性表,能持續不斷地進行關系模式的更新挖掘,從而動態獲得需求特征模式。
第二,能全面挖掘產品屬性并且產品屬性具有可重用性。所提方法不但能挖掘文本中的顯性特征,還能挖掘隱性特征,而其他文本挖掘方法只能針對文本中的顯性內容進行挖掘。短生命周期體驗品的產品介紹沒有產品屬性的明確說明,使用本文所提方法能夠提取產品的隱性屬性,從而可以獲取更全面的產品屬性。并且,因內容分析法的類目構建遵循窮盡原則,故產品屬性庫能囊括該類產品的近乎全部屬性。此外,所提方法不斷對新出現的產品介紹進行類目構建,能動態得到短生命周期體驗品的產品屬性庫。當挖掘新產品的產品屬性時,可以直接利用現有類目體系或在現有類目體系基礎上進行完善以挖掘新的產品需求特征模式,可以大大減少時間成本。
第三,能可視化構建需求特征。所提方法通過關聯分析得到各銷售總量區間的產品屬性間的關聯規則,并將規則以網絡圖形式表達,形成產品屬性關系網。通過對比高、中、低銷售總量區間的產品屬性關系網,能得到可視化的需求特征模式。
第四,對數據內容具有包容性,適用性強。該方法利用短生命周期體驗品的產品介紹提取產品屬性關系模式,產品介紹是文本數據。因此,該方法同樣適用于包含產品屬性的其它類別文本數據,例如消費者評論等。
第五,對數據結構具有包容性,適用性強。該方法以文本網絡結構數據為輸入數據,將該類數據轉化為網絡圖形式體現數據節點之間的關系。因此,該方法同樣適用于能轉換為網絡圖的其它復雜結構數據,例如產品本身數據。
利用網絡爬蟲方法從電影資料庫(http://www.1905.com)抓取數據,得到2013至2016年國內上映的476部電影的劇情簡介及總票房數據。對比各類電影數量及票房波動性,選定數量較多且總票房波動性較大的65部犯罪電影和190部愛情電影,分別進行需求特征模式挖掘,以便驗證本文所提方法的可行性。
第一步,目標確定。目標是通過電影劇情簡介獲取電影屬性庫及電影屬性表。
第二步,類目體系構建。通覽所獲劇情簡介并結合現有文獻資料[24],構建了電影產品屬性的三級類目體系。一級為電影類型;針對每個一級類目又分為主角設置、內容模式和主題精神等二級類目;每個二級類目又擴展出若干三級類目。兩類電影的類目體系如表1和表2所示。依據構建的類目體系即可構建電影屬性庫和電影編碼指南表。

表1 犯罪電影類目體系

表2 愛情電影類目體系
第三、四步,預編碼及正式編碼。近年主要觀影人群為青年,碩士生具備文本閱讀和理解能力,易于識別電影簡介中的顯、隱性屬性。因此,選取兩位具有觀影愛好的碩士生獨立進行編碼工作。在編碼員熟悉類目體系并了解編碼規則后,進入預編碼階段。為檢驗編碼員的編碼信度,按總體的20%抽取樣本,得到13部犯罪電影和38部愛情電影樣本。采取剔除隨機因素的Scott'sPi方法對兩位編碼員的結果進行檢驗,得到0.84的一致率,通過檢驗,可以進入正式編碼階段。正式編碼時,若劇情簡介中提到的屬性與屬性庫中屬性重合,則在編碼表相應位置填1,不重合填0。編碼完成后獲得由布爾型數據組成的電影屬性表。
挖掘電影屬性關系模式時,首先依總票房對選定的兩類電影分區。綜合考慮總票房的波動性及是否盈利,將電影劃分為票房過億區間,代表需求熱點電影集;小于一千萬區間,代表難以回收成本電影集;一千萬至一億區間,代表目前電影市場基線水平的電影集。對于犯罪類電影,各區間電影數依次為28、22、15部。對于愛情類電影,各區間電影數依次為57、73、60部。
基于之前獲得的電影屬性表,依據上述分區即可獲得各區的電影屬性表,然后確定最小支持度和最小置信度。本文將上一步獲得的電影屬性表作為Apriori算法的輸入,經過多次調試和對結果的觀察,最終確定犯罪類電影的最小支持度為15%,最小置信度為65%;愛情類電影的最小支持度為10%,最小置信度為80%。通過Apriori算法挖掘,得到犯罪類電影過億區間的規則23條,一千萬至一億區間的規則12條,小于一千萬區間的規則12條;愛情類電影過億區間的規則39條,一千萬至一億區間的規則34條,小于一千萬區間的規則14條。表3展示了兩類電影在不同總票房區間內按置信度降序排列的部分規則。

表3 犯罪類電影和愛情類電影關聯規則(部分)
對每個總票房區間內所有由頻繁2-項集產生的關聯規則進行無向網絡圖構建,并依節點度數區分節點大小。度數越大,代表該屬性節點的關聯屬性節點越多,從而該屬性節點度數越大。網絡圖見表4。
對比按總票房分區的犯罪類電影關聯規則及網絡圖,可以發現該類電影具有如下需求特征。在主角設置方面,過億區間中警察屬性節點的度數為10,大于該區間內其他主角屬性;其他兩區間中度數最大的主角屬性均為平凡人。在內容模式方面,過億區間中警察與走私、追兇和販毒規則的置信度均超過80%;一千萬至一億區間中復仇與平凡人規則的置信度達到87.5%;小于一千萬區間中平凡人與詐騙、偷盜和復仇規則的置信度均超過80%。在主題精神方面,過億區間以強調邪不壓正和批判錯誤的法律意識為主;其他兩區間主要以強調人性的自私和扭曲的道德意識為主。

表4 兩類電影不同總票房區間的產品屬性關系模式網絡圖
注:表中字體大小和節點大小代表屬性出現的頻率,越大頻率越高。
綜合主角設置、內容模式和主題精神的需求特征,可得出近年國內犯罪類電影的需求特征模式是:集中于以警察為主角的故事,其主要對抗對象為毒販、殺手、黑社會;情節以走私、販毒、追兇為主;主題精神突出邪不壓正和批判錯誤的法律意識。體現該需求特征模式的代表作有《湄公河行動》、《殺破狼2》、《掃毒》等。
對比總票房分區的愛情類電影關聯規則及網絡圖,可以發現該類電影具有如下需求特征。在主角設置方面,過億區間中包含純情少年和傻妞規則的置信度最高,達到90.909%;一千萬至一億區間中,高富帥和摩登女的故事則成了主旋律,包含高富帥和摩登女規則的置信度最高,達到100%;小于一千萬區間中則沒有明顯的主角設置偏好。在內容模式方面,過億區間主要集中于青春校園愛情故事和都市愛情故事,并且純情少年或傻妞的青春校園追愛故事規則的置信度均高達90%以上;其他兩區間則主要以都市愛情故事為主。在主題精神方面,目前愛情電影的主題精神以表達人們對愛情的迷茫為主。
綜合主角設置、內容模式和主題精神的需求特征,可得出近年愛情類電影的需求特征模式是:主角設置以純情少年或傻妞為主,故事的發生背景多以校園為主,講述青年們的追愛歷程,表現人們對愛情的迷茫。體現該需求特征模式的代表作有《致我們終將逝去的青春》、《匆匆那年》、《左耳》等。
本文提出了一種按銷售總量分區的產品需求特征模式挖掘方法。該方法以不斷更新的已有短生命周期體驗品產品介紹集和銷售總量為源信息;通過內容分析建立產品屬性庫,獲得較全面的產品屬性,得到產品屬性表;通過產品屬性關聯分析,對關聯分析結果進行需求特征的可視化構建,挖掘出高銷售總量區間內產品集具備,但中、低區間不具備的產品屬性關系模式,從而得到反映市場需求動向的動態需求特征模式。該模式可用于指導新產品研發設計,降低新產品投資風險。基于2013至2016年中國犯罪類電影和愛情類電影數據,驗證了方法的可行性,并且得到了近年犯罪類電影和愛情類電影的需求特征模式,可用于指導這兩類電影的創作。
本文提出的需求特征模式挖掘方法所用信息源為產品介紹,因此,該方法不僅適用于短生命周期產品,同樣適用于具有產品介紹的長生命周期產品。研究存在三方面局限。首先,本研究僅通過產品介紹獲取需求特征模式,沒有運用產品本身和消費者評論。將來可嘗試豐富源信息,從而挖掘更加全面的需求特征模式。其次,該方法的第四步以人工方式進行,具有一定主觀性,效率較低。為降低主觀性提升效率,未來可通過構建產品屬性庫中的屬性類目和可能的顯性及隱性屬性之間的一對多關系,提出產品屬性表智能化構建方法。第三,該方法只能用于按銷售總量挖掘的需求特征模式,無法挖掘產品銷售趨勢模式,值得將來研究。