999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RBM-BPNN的民航潛在高價值旅客預(yù)測

2019-09-13 03:36:40劉澤君
計算機應(yīng)用與軟件 2019年9期
關(guān)鍵詞:分類價值特征

徐 濤 劉澤君 盧 敏

1(中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院 天津 300300)2(中國民航信息技術(shù)科研基地 天津 300300)3(民航旅客服務(wù)智能化應(yīng)用技術(shù)重點實驗室 北京 101318)

0 引 言

近年來,隨著航空市場迅猛發(fā)展,民航企業(yè)合作競爭日益增強。為了提高競爭力,航空公司推行了常旅客計劃。然而,由于常旅客計劃的門檻較高并且反饋的利益較少,導(dǎo)致了當(dāng)前消費尚少,但潛在價值較高的旅客群流失,不利于航空公司長遠(yuǎn)的利益發(fā)展。因此,如何預(yù)測旅客的價值成長趨勢并發(fā)現(xiàn)潛在高價值旅客,先于其他競爭對手將其發(fā)展為高忠誠度高價值旅客成為了航空公司重點關(guān)注的問題。

目前,國內(nèi)外關(guān)于潛在客戶預(yù)測的研究主要運用基于特征分類的行為分析方法。林友芳等[1]構(gòu)建旅客同行關(guān)系網(wǎng)絡(luò),統(tǒng)計同行行為特征,利用多層感知器進(jìn)行分類預(yù)測。喬珂等[2]從高鐵客票數(shù)據(jù)中選擇了6類乘客價值影響因素作為分類指標(biāo),采用LCM模型進(jìn)行高鐵旅客的潛在類別分析。Nakahara等[3]從銷售信息中歸納出客戶購買行為特征,并用聚類算法發(fā)現(xiàn)潛在客戶。

總體來看,上述方法都是先用統(tǒng)計方法提取潛在客戶行為特征,再用機器學(xué)習(xí)模型進(jìn)行分類預(yù)測。然而,民航潛在高價值旅客與低價值旅客往往存在特征相似性,統(tǒng)計方法提取的特征帶有主觀色彩,難以準(zhǔn)確表達(dá)潛在高價值旅客特征信息,因而影響分類預(yù)測準(zhǔn)確性。

為解決以上問題,本文將RBM[4]和BPNN[5]相結(jié)合。一方面,BPNN能發(fā)現(xiàn)旅客行為特征與價值類別之間復(fù)雜的非線性關(guān)系,相比其他分類模型具有更強的泛化和容錯能力,更適用于民航潛在高價值旅客預(yù)測問題。另一方面, RBM能夠自動提取特征,無需經(jīng)驗支持或人工干預(yù),可以保證旅客行為特征的客觀性、全面性,從而提高BPNN的分類預(yù)測效果。

本文提出了一種基于RBM-BPNN的潛在高價值旅客預(yù)測方法。首先依據(jù)航空公司的發(fā)展需求,設(shè)計民航潛在高價值旅客定義方法,并設(shè)置旅客類別標(biāo)簽;然后利用RBM自動提取潛在高價值旅客和低價值旅客的行為特征;最后根據(jù)旅客行為特征,利用BPNN進(jìn)行民航旅客的分類預(yù)測,從而發(fā)現(xiàn)潛在高價值旅客。

1 預(yù)測模型構(gòu)建

民航潛在高價值旅客預(yù)測的關(guān)鍵有兩點:一是定義潛在高價值旅客,不同領(lǐng)域有不同的價值定義方式,民航領(lǐng)域的價值定義方式應(yīng)符合航空公司的發(fā)展需求;二是設(shè)計擁有優(yōu)秀的民航潛在高價值旅客特征表達(dá)能力和良好的特征學(xué)習(xí)能力的分類預(yù)測模型。

1.1 潛在高價值旅客定義

潛在高價值旅客定義分為兩步:計算旅客價值、設(shè)置旅客類別標(biāo)簽。

1.1.1計算旅客價值

采用RFM模型(Recency Frequency Monetary)[6]作為民航旅客價值的衡量標(biāo)準(zhǔn)。RFM模型包含三項價值指標(biāo):最近一次消費時間與當(dāng)前時間之差R、最近消費頻率F和最近消費金額M。根據(jù)RFM模型,將旅客pi的價值表示為:

value(pi)=αi·βT

(1)

式中:αi=(Ri,Fi,Mi)表示旅客pi的價值向量,αi的各分量表示旅客pi最近乘機日期與當(dāng)前日期之差(此項為負(fù)值)、近期乘機次數(shù)以及近期乘機金額的歸一化值;β=(βR,βF,βM)表示權(quán)值向量,用于確定各分量在價值中的占比,一般由民航業(yè)背景結(jié)合專家經(jīng)驗確定。

1.1.2設(shè)置旅客類別標(biāo)簽

為了進(jìn)行有監(jiān)督的分類學(xué)習(xí),需要劃分價值類別,設(shè)置旅客類別標(biāo)簽。一般而言,潛在高價值旅客是指當(dāng)前價值較低,未來一段時間后價值較高的旅客。記T為當(dāng)前時刻,T′為未來某一時刻,V為價值閾值,表示高價值與低價值的分界限,根據(jù)旅客整體的價值分布,由價值衡量指標(biāo)計算得到。若旅客在T時刻的價值小于V,在T′時刻的價值大于等于V,則稱其為潛在高價值旅客,價值曲線如圖1(I)所示。反之,若旅客在T時刻的價值小于V,在T′時刻的價值仍然小于V,則稱為低價值旅客,價值曲線如圖1(II)所示。

圖1 旅客價值曲線圖

T時刻到T′時刻的時間差|T-T′|的長短與民航業(yè)發(fā)展特征密切相關(guān),對于航空公司而言,若該時段設(shè)置的過長,旅客對航空公司現(xiàn)階段發(fā)展的作用不大;若該時段設(shè)置的過短,旅客的出行次數(shù)不足以形成行為偏好。綜合考慮,將該時段設(shè)定為一年。航空公司可依據(jù)旅客上一年的出行記錄預(yù)測其在下一年的價值,做出相應(yīng)的決策。

定義價值閾值V。從旅客歷史出行記錄中可以獲得旅客的近期消費情況,利用RFM模型計算出旅客價值并降序,根據(jù)20-80原則[7],價值排名在前20%的旅客創(chuàng)造了80%的利潤,可視為高價值旅客。

設(shè)置旅客類別標(biāo)簽。一年后,旅客的價值會呈現(xiàn)不同的發(fā)展趨勢,從而形成四種類別。其中:高價值旅客為兩年均表現(xiàn)為高價值的旅客;異常旅客為在上一年表現(xiàn)為高價值且在下一年表現(xiàn)為低價值的旅客;潛在高價值旅客為在上一年表現(xiàn)為低價值且在下一年表現(xiàn)為高價值旅客的旅客;低價值旅客為兩年均表現(xiàn)為低價值的旅客。旅客類別劃分如圖2所示。

圖2 旅客類別劃分

1.2 RBM-BPNN分類預(yù)測模型

RBM是無監(jiān)督學(xué)習(xí)模型,由可視層和隱藏層組成,其隱藏層能夠擬合可視層分布,常用于各領(lǐng)域的特征提取問題。BPNN是有監(jiān)督學(xué)習(xí)模型,由輸入層、隱藏層和輸出層組成,能夠通過復(fù)雜的函數(shù)變換發(fā)現(xiàn)輸入和輸出之間的關(guān)系,常用于各領(lǐng)域的分類預(yù)測問題。本文結(jié)合二者的優(yōu)點,提出RBM-BPNN分類預(yù)測模型,模型由一個RBM和一個BPNN組成,結(jié)構(gòu)如圖3所示。

設(shè)RBM可視層節(jié)點vi的數(shù)目為m,代表m維輸入屬性,隱藏層節(jié)點rhj的數(shù)目為n,代表n個行為特征。則RBM的能量函數(shù)為:

(2)

式中:ai為vi的偏置;bj為rhj的偏置;wij為兩層之間的連接權(quán)重。θ={w,a,b}為RBM中所有參數(shù),根據(jù)式(2)可得到(v,rh)的聯(lián)合概率分布為:

(3)

(4)

RBM的節(jié)點只有激活(1)、抑制(0)兩種狀態(tài),且激活狀態(tài)條件獨立,則有:

(5)

(6)

式中:σ(x)=(1+e-x)-1為Sigmoid激活函數(shù)。

采用對比散度算法(Contrastive divergence,CD)[8],通過式(5)、式(6)對可視層和隱藏層進(jìn)行重構(gòu),更新參數(shù)θ,當(dāng)從隱藏層得到的可視層節(jié)點分布與原樣本的分布最大程度相近時,認(rèn)為該隱藏層為可視層的另外一種表達(dá),是輸入數(shù)據(jù)的特征,θ={w,a,b}條件下的式(5)即為行為特征的表達(dá)式。

將從RBM得到的輸出特征作為BPNN的輸入,增強BPNN的分類預(yù)測效果。設(shè)BPNN隱藏層節(jié)點bhk的數(shù)目為s;輸出層節(jié)點ul的數(shù)目為2,代表兩類分類結(jié)果;wjk為輸入層到隱藏層的權(quán)重;wkl為隱藏層到輸出層的權(quán)重;ck為隱藏層的偏置;dl為輸出層的偏置。則BPNN隱藏層節(jié)點輸出為:

(7)

預(yù)測結(jié)果的表達(dá)式為:

(8)

設(shè)yl為實際樣本標(biāo)簽,在得到期望輸出之前,BPNN轉(zhuǎn)入反向傳播階段,誤差函數(shù)為:

(9)

1.3 基于RBM-BPNN的民航潛在高價值旅客預(yù)測

基于RBM-BPNN的民航潛在高價值旅客預(yù)測的思想為:根據(jù)上一年表現(xiàn)為低價值的民航旅客的行為屬性,利用RBM-BPNN分類預(yù)測模型判斷其是潛在高價值旅客還是低價值旅客。高價值旅客和異常旅客非本文研究的重點,不作討論。基于RBM-BPNN的民航潛在高價值旅客預(yù)測方法的實現(xiàn)步驟如下:

Step1根據(jù)RFM模型劃分旅客類別,設(shè)置民航旅客類別標(biāo)簽,將上一年處于低價值的旅客的類別標(biāo)簽及行為屬性組成樣本,劃分訓(xùn)練集和測試集。

Step2RBM-BPNN分類預(yù)測模型初始化,隨機賦值RBM的參數(shù)wij、ai、bj和BPNN的參數(shù)wjk、wkl、ck、dl。

Step3RBM訓(xùn)練。輸入訓(xùn)練集,使用CD算法進(jìn)行RBM訓(xùn)練,提取旅客行為特征,重構(gòu)誤差滿足要求后保存RBM網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)θ={w,a,b}。記v和rh分別為初始可視層和隱藏層,v′和rh′分別為重構(gòu)后的可視層和隱藏層,η1為RBM學(xué)習(xí)率,則RBM各參數(shù)的更新準(zhǔn)則為:

(10)

Step4樣本重組。用RBM的隱藏層rh替換BPNN的輸入層,作為旅客的行為特征,將旅客的類別標(biāo)簽及行為特征重組為樣本。

Step5BPNN訓(xùn)練。使用誤差反向傳播法[9]逐層調(diào)整BPNN的權(quán)重和偏置,學(xué)習(xí)旅客行為特征與價值類別之間的關(guān)系,訓(xùn)練誤差SE達(dá)到目標(biāo)精度后保存BPNN網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)wjk、wkl、ck、dl。記η2為BPNN學(xué)習(xí)率,則BPNN各參數(shù)更新準(zhǔn)則為:

wkl←wkl+η2bhk(yl-ul)

dl←dl+η2(yl-ul)

(11)

Step6分類預(yù)測。確定RBM-BPNN分類預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu)后輸入測試集,采用保存的RBM參數(shù)θ={w,a,b}和BPNN參數(shù)wjk、wkl、ck、dl進(jìn)行旅客的分類預(yù)測,得到預(yù)測結(jié)果。

2 實 驗

實驗所用的數(shù)據(jù)集是中國民航旅客訂座記錄(Passenger Name Record, PNR),選取2010年后的某年X及次年全部旅客的出行數(shù)據(jù)進(jìn)行實驗。根據(jù)RFM價值模型和20-80原則,可以得到X年的潛在高價值旅客和低價值旅客數(shù)目(如表1所示)。

表1 數(shù)據(jù)集統(tǒng)計信息

2.1 數(shù)據(jù)預(yù)處理

PNR數(shù)據(jù)集中,一條記錄僅代表一名旅客的一次訂票信息。為了不損失信息的反映一名旅客多次出行的情況,需要將同一名旅客的多條記錄合并,這既反映旅客全部出行的選擇,又反映其對于選擇的偏好。

原始PNR數(shù)據(jù)集含有10個屬性,分別是性別、出生年份、航空公司、起飛日期、起飛時間、艙位、座位號、座位行號、折扣和航線距離。對于原數(shù)據(jù)集的離散型屬性(性別、出生年份、航空公司、起飛日期、艙位、座位行號、座位號),將其值域內(nèi)的每一個取值作為一個子屬性,并依次記錄旅客對于每個子屬性選擇的頻次;對于原數(shù)據(jù)集的連續(xù)型屬性(起飛時間、折扣、航線距離),先將屬性離散化,用相應(yīng)的離散區(qū)間替換連續(xù)屬性值,再依次記錄旅客對于每個離散區(qū)間選擇的頻次。

又因RBM的訓(xùn)練要求節(jié)點為二值0-1變量,因此對合并后的數(shù)據(jù)做二元化處理。對于一名旅客只能取唯一值的自然屬性(性別、出生年份),將每個屬性劃分為0、1二值;對于一名旅客可取多值的屬性(航空公司、起飛日期、艙位、座位行號、座位號、起飛時間、折扣、航線距離),分為零、低、中、高四項,每項設(shè)定閾值。最終,輸入樣本維度為2 288維(如表2所示)。

表2 屬性維度統(tǒng)計信息

2.2 實驗評價指標(biāo)

實驗選取精確度、召回率和F1值三個指標(biāo)評估方法的性能。

2.3 實驗及結(jié)果分析

從處理后的數(shù)據(jù)集中隨機抽取潛在高價值旅客樣本及低價值旅客樣本各8 000條,組成16 000條訓(xùn)練樣本;隨機抽取潛在高價值旅客樣本及低價值旅客樣本各2 000條,組成4 000條測試樣本進(jìn)行實驗。

參數(shù)wij、wjk、wkl、ai、bj、ck、dl的初始值通常為從一組均值為0,標(biāo)準(zhǔn)差為0.01的正態(tài)分布中抽取的隨機值;RBM可視層節(jié)點vi數(shù)目m為2 288,與輸入樣本維度一致;BPNN輸出層節(jié)點ul數(shù)目l為2;RBM重構(gòu)誤差小于2%時停止訓(xùn)練,BPNN目標(biāo)精度設(shè)為0.1。

為測試本文方法的性能,進(jìn)行了兩種不同的實驗。

1) 確定RBM-BPNN分類預(yù)測模型的最佳參數(shù)。RBM隱藏層節(jié)點數(shù)目n以及BPNN隱藏層節(jié)點數(shù)目s是對模型輸出結(jié)果影響最大的參數(shù),需要通過多次訓(xùn)練,對比尋找合適的值。

RBM隱藏層節(jié)點數(shù)目n取100到2 100,每次訓(xùn)練增加200。從圖4可以看出,當(dāng)隱藏層節(jié)點數(shù)設(shè)為700時三項指標(biāo)最高,因此,將RBM隱藏層節(jié)點數(shù)目設(shè)為700。

圖4 RBM隱藏層節(jié)點數(shù)目對結(jié)果的影響

BPNN隱藏層節(jié)點數(shù)s取50到650,每次訓(xùn)練增加50。從圖5可以看出,當(dāng)隱藏層節(jié)點數(shù)設(shè)為150時,精確度和F1值最高,且召回率較高,因此,將BPNN隱藏層節(jié)點數(shù)目設(shè)為150。

圖5 BPNN隱藏層節(jié)點數(shù)目對結(jié)果的影響

2) 不同行為分析方法的對比。令n=700,s=150,將本文提出的基于RBM-BPNN的民航潛在高價值旅客預(yù)測方法(簡稱RBM-BPNN方法)與BPNN方法、DT方法、PCA-BPNN方法在相同的數(shù)據(jù)集上進(jìn)行對比。其中,BPNN方法與DT方法采用了14個統(tǒng)計特征,包括性別、年齡、月平均出行次數(shù)、平均里程數(shù)、空閑時間出行比例、正常時間出行比例、繁忙時間出行比例、頭等艙出行比例、商務(wù)艙出行比例、經(jīng)濟(jì)艙出行比例、平均折扣、節(jié)假日出行比例、工作日出行比例、周末出行比例。PCA-BPNN方法利用經(jīng)典的PCA特征提取算法從原始數(shù)據(jù)中抽取特征,再輸入 BPNN進(jìn)行分類預(yù)測。不同方法的實驗結(jié)果如表3所示。

表3 方法的對比 %

通過實驗可以看出:

(1) BPNN方法在三項指標(biāo)上均高于DT方法,這說明BPNN比DT具有更強的自適應(yīng)能力,更適用于PNR數(shù)據(jù)集。

(2) BPNN方法和DT方法的三項指標(biāo)均低于80%,說明基于特征分類的行為分析方法無法精確有效地發(fā)現(xiàn)潛在高價值旅客。這是由于統(tǒng)計方式提取的特征具有較強的主觀性,難以合理地表示原始數(shù)據(jù),是導(dǎo)致分類效果欠佳的重要原因。

(3) RBM-BPNN方法在三項指標(biāo)上均高于BPNN方法和DT方法,說明RBM-BPNN方法比基于特征分類的行為分析方法更能有效識別潛在高價值旅客。這是由于RBM以概率計算方式自動選取性能良好特征,摒棄冗余特征,發(fā)現(xiàn)隱藏特征,所提取的特征比統(tǒng)計特征更為客觀。

(4) RBM-BPNN方法在三項指標(biāo)上均高于PCA-BPNN方法,說明RBM提取的特征比PCA提取的特征性能更好。這是由于RBM的特征提取過程是以擬合輸入為目的,特征能夠較為精確地代表原始數(shù)據(jù);而PCA的特征提取過程是以去相關(guān)性為目的,忽略了特征之間的相關(guān)性和差異性,使得特征喪失了對數(shù)據(jù)的解釋性,難以精確地反映原始數(shù)據(jù)的信息。

從對比實驗的結(jié)果可見,基于RBM-BPNN的民航潛在高價值旅客預(yù)測方法具有更高的旅客分類準(zhǔn)確率和民航潛在高價值旅客預(yù)測能力。

3 結(jié) 語

本文將RBM的無監(jiān)督特征提取與BPNN的有監(jiān)督分類功能相結(jié)合,提出了基于RBM-BPNN的民航潛在高價值旅客發(fā)現(xiàn)方法,對民航旅客未來的價值類別進(jìn)行了預(yù)測。實驗結(jié)果表明,與基于特征分類的行為分析方法相比,本文方法可以明顯提高民航潛在高價值旅客發(fā)現(xiàn)效果。由于RBM-BPNN分類預(yù)測能夠直接從原始數(shù)據(jù)集中自動提取并分類特征,無需經(jīng)驗支持或人工干預(yù),因此可以用于不同領(lǐng)域的行為分析問題。

猜你喜歡
分類價值特征
分類算一算
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
一粒米的價值
“給”的價值
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美午夜理伦三级在线观看| 中文字幕在线欧美| 成人精品在线观看| 日本www色视频| 无码福利日韩神码福利片| 国产成人精品2021欧美日韩| 国产成人一区| 三级视频中文字幕| 国产高清精品在线91| 亚洲综合18p| 中国一级特黄大片在线观看| 国产亚洲精品无码专| 久久婷婷五月综合色一区二区| 国产一区成人| 在线中文字幕网| 国产日韩丝袜一二三区| 一边摸一边做爽的视频17国产| 波多野结衣无码中文字幕在线观看一区二区 | 天天色综合4| 欧美成人国产| 亚洲视频一区| 欧美日韩理论| 国产女人18毛片水真多1| 国产精品男人的天堂| 亚洲久悠悠色悠在线播放| 国产噜噜在线视频观看| 亚洲天堂精品在线| 国产精品女主播| www精品久久| 亚洲精品无码成人片在线观看| 国产在线观看91精品亚瑟| 人妻少妇乱子伦精品无码专区毛片| 97超碰精品成人国产| 亚洲无码精彩视频在线观看| 热久久国产| 99热这里只有精品5| 亚洲国产成人麻豆精品| 国产乱人免费视频| 一区二区三区在线不卡免费| 日韩毛片在线视频| 国产精品无码制服丝袜| 日韩小视频在线播放| 青青青视频蜜桃一区二区| 免费观看欧美性一级| 无码精品国产VA在线观看DVD| 免费一看一级毛片| 欧美亚洲中文精品三区| 亚洲人成人伊人成综合网无码| 亚洲精品自产拍在线观看APP| 波多野结衣视频一区二区 | 日本国产精品一区久久久| 精品国产黑色丝袜高跟鞋| 谁有在线观看日韩亚洲最新视频| 蜜桃视频一区| 亚洲成人网在线观看| 午夜电影在线观看国产1区| 欧美亚洲国产精品第一页| 国产内射在线观看| 91久久精品国产| 久草视频一区| www.狠狠| 免费国产黄线在线观看| 中文字幕免费在线视频| 亚洲一区网站| 尤物在线观看乱码| 精品久久久久成人码免费动漫| 青青热久麻豆精品视频在线观看| …亚洲 欧洲 另类 春色| 亚洲日本www| 亚亚洲乱码一二三四区| 毛片在线播放网址| 色婷婷在线播放| 国内嫩模私拍精品视频| 免费国产高清视频| 国产麻豆va精品视频| 四虎影视永久在线精品| 超碰91免费人妻| 精品久久蜜桃| 国产日韩欧美中文| 国产精品成人AⅤ在线一二三四| 亚洲人网站| 少妇极品熟妇人妻专区视频|