999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種智能學習的動態客戶標簽方法的研究

2014-08-01 14:56:27苗潤生
鐵路計算機應用 2014年8期
關鍵詞:分類特征模型

蘇 燕,王 猛,苗潤生

(1.哈爾濱鐵路局 信息技術所, 哈爾濱 150008;2.哈爾濱鐵路局 客運處,哈爾濱 150008)

一種智能學習的動態客戶標簽方法的研究

蘇 燕1,王 猛2,苗潤生1

(1.哈爾濱鐵路局 信息技術所, 哈爾濱 150008;2.哈爾濱鐵路局 客運處,哈爾濱 150008)

研究客戶標簽的生成機制,構建一種動態的客戶標簽更新方法,結合One-Class分類和支持向量機算法智能模擬人類的學習行為,能夠在模型的復雜性和學習能力之間衡量并不斷自我優化,僅通過典型有限的小樣本訓練集,即可建立客戶標簽模型,又由于小樣本可有效提高運行效率,實現客戶標簽的動態更新。

客戶標簽;向量機;One-Class;動態

隨著鐵路信息化的飛速發展,客票數據以其豐富的類型和龐大的數據量成為鐵路信息化數據中具有強大潛在價值的數據之一。結合互聯網數據進行客戶行為分析,構建屬性標簽體系兩層面客戶需求分析,建立客戶識別模型,實現精準營銷,是鐵路在傳統運輸業激烈競爭中取勝的關鍵。客戶標簽就是基于所獲取到的客戶屬性和客戶特征,基于業務特征規則和客戶標簽規則,采用一種類自然語言方式對客戶特性進行重新的描述,并在相應的主動營銷過程中基于客戶標簽進行精確營銷。目前,主要運用分類和聚類方法,利用客戶屬性和行為對客戶進行標簽。

1 現有客戶標簽分類方法研究

分類方法是一種有指導學習方法,在明確假設或者客觀結果前提下,對具有標記的訓練樣本進行學習建立分類分析模型,以盡可能正確地對訓練樣本之外的示例的標記進行預測,即對客戶進行分類標簽,訓練例的標記都是已知的,因此訓練樣本的歧義性最低。目前主流的分類算法有神經網絡分類算法、貝葉斯分類算法。

神經網絡分類算法,通過模擬動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。盡管神經網絡方法具有較高的分類精度,但是由于難于提取其所隱藏分類規則、局部極小值等缺陷影響了其發展推廣。貝葉斯算法,是利用概率統計知識進行分類的算法,適用于大規模數據。算法訓練樣本的必須假定樣本屬性相互獨立,不存在依賴關系,而實際中客戶屬性和行為間不可能完全相互獨立。

聚類分析計算方法在客戶標簽模型中應用的方法,主要有層次聚類分析和K-MEANS聚類分析。層次聚類分析通過迭代合并對給定的數據集進行層次似的分解,直到所有的樣本組成一個分組或者某個條件滿足為止,更適合于有潛在層次結構的數據,例如客戶的消費行為數據。K-MEANS聚類分析是一個迭代過程,直至滿足某個閥值退出,該算法的前提必須要輸入聚類數量K,在未知的情況下則需要從K=1開始進行測試,當k達到一定大的時候,就可以取到了最佳的k值,完成聚類。

2 技術實現方案

針對傳統分類方法的弊端,構建一種動態的客戶標簽更新方法,結合One-Class分類和支持向量機算法智能模擬人類的學習行為,能夠在模型的復雜性和學習能力之間衡量并不斷自我優化,僅通過典型有限的小樣本訓練集,則可自動分析獲得規律,建立客戶標簽模型,又由于小樣本可有效地提高運行效率,實現客戶標簽的動態更新。除此之外,通過引入One-Class分類思想,僅需選取目標數據樣本則可完成模型的訓練和建立,既降低了樣本選取的難度和工作量,又排除了假樣本數據對于訓練效果的影響,因此結合One-Class支持向量機算法,更符合鐵路業務大數據分析的需求,主要分為以下3個階段。

2.1 確定特征向量

特征向量的準確選取是建立數據挖掘模型的關鍵因素。對于不同的標簽模型要建立不同的特征向量集,隨著業務的不斷發展變化,特征向量集也要隨之更新。特征向量集是建立在客戶特征基礎上。客戶特征,包括客戶屬性特征和客戶行為特征兩方面。屬性特征即客戶的外在屬性,如性別、出生日期,團體企業性質等客戶基本信息,此類信息很少甚至不會變化,在本方法中定義為靜態特征。行為特征則是客戶的個人行為屬性,例如列車等級選擇行為、席別選擇行為、訂購渠道行為等等,行為特征隨著外界因素的影響而變化,穩定性較差,將此類信息定義為動態特征。通過對樣本數據客戶特征的分析和學習建立分析模型,挖掘出客戶旅程選擇、乘車類型、訂票渠道等特征。

(1)特征向量的選取

客戶標簽的建立,基于行為特征規則和客戶屬性規則。為了保證模型的全面性和準確性,在客戶屬性特征的基礎上,使用多維度的客戶行為特征共同作為訓練樣本的特征向量集。

對于不同的標簽定義,要采取不同的特征向量集。以內容偏好模型為例,客戶特征向量集包含靜態特征如性別、年齡等用戶基本特征,動態特征則要通過匯總旅客的購票和實名制數據,如旅客購票的車次、發站、到站,席別,列車等級等數據,以及旅客所居區域信息,按所需多種統計口徑,匯總旅客的購票行為信息,對于模型的特征向量選定后,便可對原始選取的樣本數據進行特征向量提取,作為訓練模型的輸入。

(2)特征向量編碼和歸一化處理

支持向量機的輸入要求每個數據樣本都要以實數向量的形式出現,因此,對于非數字特征數據,首先需要將其數據化。在旅客屬性和行為數據中除了少數漢字信息和字母外,都有對應的數字代碼,因此作為樣本數據直接輸入訓練。

對于客戶特征中包含漢字的信息,除地址信息外其他相對價值很小,可以剔除掉,而地址信息除了用戶基本特征中的歸屬地等粗略的區縣級別的信息有對應的數字代碼外,更細級別的地址類信息則可以選用經緯度數據標示。對于字母的處理,針對26個字母大小寫分別配置對應的數字代碼,則完成所有有價值信息的統一數字編碼。

2.2 選取標簽樣本訓練集,建立客戶標簽模型

(1)One_class支持向量機算法

SVM方法是基于小樣本的智能機器學習方法,其基本原理可以簡單的理解為將非線性向量映射到一個更高維的空間中,如圖1所示。

圖1 輸入空間到特征空間的映射

將輸入空間中線性不可分的數據集映射后變換為線性可分,然后在這個高維空間里建立一個使兩個超平面的距離最大的最大間隔超平面,如圖2所示。即通過小規模訓練樣本的學習過程,形成最優分類規則。

傳統的機器學習一般都是需要正負2類訓練樣本,而對于客戶標簽模型非此即彼,且假設的負樣本中也可能是潛在的正樣本數據,為了避免假負樣本影響訓練結果,引入One-Class SVM,即訓練樣本只有一類,標簽為1或者-1,用一種訓練樣本訓練分類器,再用分類器去測試標簽為1和-1的測試樣本。One-Class分類問題,就是一個two-class分類問題,負樣本中的唯一元素就是原點,而所有的訓練數據都是正樣本。One-Class分類問題返回一個函數,函數值為1的是最小半徑的球體包含最多的數據點,如圖3所示,其他的則為-1。

圖2 最優分類超平面

圖3 One-Class SVM

One-Class 支持向量機已被成功應用到許多領域,特別是存在數據不平衡的文件分類、預測等領域。

(2)獲取訓練樣本,建立客戶標簽模型

由于支持向量機是指導學習算法,因此需要有已知的樣本集用于訓練建立模型,每一類標簽用戶需要一個訓練樣本。標簽用戶樣本的獲取可以從現有的標簽用戶中抽取小量數據作為訓練樣本,或者從聚類結果中尋找目標標簽用戶的分類,從中選取小量樣本,不同類型的標簽選擇不同的樣本選取方式。樣本的規模直接影響建模的效率,因此只需選定具有典型特征的樣本。

以文中舉例的內容偏好模型為例,在模型的特征向量選取完成后,則需確定訓練樣本進入模型學習階段。對于已有分類的業務(如互聯網購票,電話訂票等),則可直接采用包含業務標簽信息及具體內容的樣本數據;對于沒有具體分類業務(如POS結算等),既可利用簡單規則匹配來進行內容分類,目標是用盡可能少的規則,覆蓋80%的客戶,也可利用挖掘方法對業務內容進行解釋分類,然后根據分類結果選取樣本數據。

將樣本數據按照選取的特征向量集的規則進行處理后,作為訓練模型的輸入。模型的輸入主要分為用戶靜態特征、內容分類規則、旅途規劃等。模型經過訓練后,形成黑盒子分類規則,即完成了內容偏好模型的建立。

2.3 動態更新客戶標簽

支持向量機是基于小樣本的統計學習理論,基于結構風險最小化,是目前針對小樣本分類等問題的最佳方法。在求解大規模數據分類需要較大內存來存儲向量矩陣,而矩陣的大小則依賴于樣本數,只要選取有限的少量具有典型特征的樣本,則可在保證分類精度的同時,有效降低空間開銷,提高效率。相對于原有的客戶標簽算法而言,大大降低了分類時間,為實現客戶標簽的動態更新提供了可能。隨著客戶行為特征的不斷變化,及時更新客戶分類標簽,為市場的精準營銷提供有力的支撐。

3 結束語

本文結合One_class分類思想和支持向量機的智能學習算法,僅通過有限少量的目標標簽客戶樣本即可構建標簽用戶分類模型,實現動態更新客戶標簽。通過One_class支持向量機訓練樣本只有一類,在本文應用中,選取目標標簽客戶作為訓練集,即正樣本,既降低了樣本的規模,又避免了假負樣本對于模型的影響;基于支持向量機的標簽客戶模型是一種更智能的符合人類自然行為方式的數據分析模型,僅需有限的典型小樣本即可構建具有自我改善性能的客戶標簽分類模型,有效地降低了樣本選取的難度。而影響支持向量機分類效率的主要因素是特征的規模,標簽的建立基于客戶有限的特征,因此通過精準的特征集選取,可以有效地提高分類效率和分類效果。

目前,鐵路客運營銷多是對車流信息、票務信息的分析預測,還沒有一個完善的基于對客戶行為分析預測的軟件和方法。對于某些管內短途車,上座率比較低的車次,以及鐵路在傳統運輸業的長遠競爭,可以通過分析客戶標簽數據,搶占客流,提高鐵路旅客發送人數。

[1] 王 偉,鄭東良.支持向量機的分類機理研究[C]. 信號與信息處理技術第三屆信號與信息處理全國聯合學術會議論文集,2004.

[2] 魯 培. 一種改進的基于項目聚類的協同過濾推薦算法[J]. 科技傳播,2011(1).

責任編輯 方 圓

Dynamic customer label method of intelligent learning

SU Yan1, WANG Meng2, MIAO Runsheng1
( 1. Institute of Information Technology, Haerbin Railway Administration, Haerbin 150008, China; 2. Department of Passenger Transport, Haerbin Railway Administration, Haerbin 150008, China )

This article mainly studied on the mechanism of the customer label, built a dynamic customer label update method, combined with One-Class classif i cation and support vector machine (SVM) algorithm to simulate human learning behavior intelligently, was able to measure between the model's complexity and learning ability and be constant self optimization. The customer label model could be built by typical limited small sample training set. The small sample could effectively improve the operation eff i ciency, implement a dynamic update of customer labels.

customer label; vector machine; One-Class; dynamics

U293.2∶TP39

A

1005-8451(2014)08-0016-04

2014-02-19

蘇 燕,工程師;王 猛,高級工程師。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产成+人+综合+亚洲欧美| 亚洲欧美日韩动漫| 99在线免费播放| 国产乱子伦一区二区=| 伊人激情久久综合中文字幕| 91精品在线视频观看| 亚洲国产一成久久精品国产成人综合| 亚洲美女一级毛片| 老司国产精品视频91| 日韩午夜福利在线观看| 精品国产自在现线看久久| 玖玖免费视频在线观看| 亚洲天堂高清| 噜噜噜综合亚洲| 国产无码精品在线播放| 欧亚日韩Av| 最新国产午夜精品视频成人| 亚洲国内精品自在自线官| 久久精品娱乐亚洲领先| 四虎成人在线视频| 日韩av无码精品专区| 在线免费观看AV| 日韩AV无码一区| 欧美 亚洲 日韩 国产| 色偷偷av男人的天堂不卡| 成人午夜亚洲影视在线观看| 免费在线播放毛片| 爆操波多野结衣| 久久精品人人做人人爽| 色网站免费在线观看| 免费可以看的无遮挡av无码 | 欧美一区二区三区欧美日韩亚洲| 国产精品原创不卡在线| 国产视频久久久久| 毛片网站观看| 免费不卡在线观看av| 91视频免费观看网站| 狠狠色成人综合首页| 亚洲人成网站日本片| 成人亚洲天堂| 日本人妻丰满熟妇区| 四虎国产永久在线观看| 国产大片喷水在线在线视频| 另类综合视频| 久久免费视频播放| 天天综合网站| 国产日韩欧美黄色片免费观看| 欧美日韩国产在线人| 极品私人尤物在线精品首页 | 日韩在线播放中文字幕| 亚洲最新网址| 四虎影院国产| 亚洲天堂网视频| 亚洲人成网7777777国产| 国产精品永久在线| 国产欧美综合在线观看第七页| 国国产a国产片免费麻豆| 国产精品页| 18黑白丝水手服自慰喷水网站| 免费国产高清视频| 国产福利在线观看精品| 91精品专区| 久久国产V一级毛多内射| 九色91在线视频| 欧美有码在线| 国产精品无码制服丝袜| 精品福利网| 一级香蕉视频在线观看| 伊人久久青草青青综合| 国产精品jizz在线观看软件| 亚洲天堂.com| 亚洲AV无码乱码在线观看裸奔 | 91小视频在线| 成年A级毛片| 亚洲第一黄片大全| 国产主播在线一区| 99热这里只有成人精品国产| 日韩欧美在线观看| 国产伦片中文免费观看| 在线观看91香蕉国产免费| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲无码熟妇人妻AV在线|