999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中的聚類算法的研究

2017-09-14 06:48:22山東科技大學(xué)王子墨
電子世界 2017年17期
關(guān)鍵詞:數(shù)據(jù)挖掘

山東科技大學(xué) 王子墨

數(shù)據(jù)挖掘中的聚類算法的研究

山東科技大學(xué) 王子墨

本文主要研究了據(jù)挖掘中的聚類算法,利用密度以及均勻抽樣方法來(lái)縮減數(shù)據(jù)規(guī)模,從而提高了聚類的運(yùn)行效率;并將粒子群算法與及模擬退火算法相結(jié)合,在原有算法的基礎(chǔ)上進(jìn)行改進(jìn)進(jìn)而獲取更佳的初始中心;進(jìn)一步將算法應(yīng)用到和真實(shí)數(shù)據(jù)集,例證了本文方法的正確性和有效性,并進(jìn)行對(duì)比,證明新算法的高效性,也進(jìn)一步證明了新算法的正確性,對(duì)以后的研究起到了正確的指引作用。

聚類算法;粒子群算法;模擬退火法;數(shù)據(jù)挖掘

聚類分析近些年來(lái)被廣泛運(yùn)用到客戶劃分領(lǐng)域,對(duì)客戶群體的劃分,從客戶的購(gòu)買行為、瀏覽記錄等屬性劃分為不同的客戶群體。本文以數(shù)據(jù)抽樣為核心,比較分析了現(xiàn)存抽樣算法性能的優(yōu)劣,同時(shí)研究抽樣技術(shù)在海量數(shù)據(jù)聚類分析中的應(yīng)用,結(jié)合密度以及均勻抽樣方法來(lái)縮減數(shù)據(jù)量為了減少K-means 算法對(duì)初始聚類中心的依賴性和敏感性,對(duì)K-means算法初始聚類中心的優(yōu)化選擇進(jìn)行理論研究。提出基于自然選擇和基于模擬退火的粒子群算法來(lái)選取更佳的初始中心。針對(duì)K-means算法在實(shí)際應(yīng)用中算法存在的不足,結(jié)合三角不等式來(lái)減少迭代次數(shù),提高運(yùn)算效率并提出改進(jìn)算法,使新算法具有更好的全局收斂,并將其應(yīng)用到實(shí)際問(wèn)題中,從而證明新算法的實(shí)用性。

根據(jù)以上主要內(nèi)容,擬解決的關(guān)鍵技術(shù)是對(duì)大數(shù)據(jù)抽樣和K-means算法進(jìn)行理論研究,通過(guò)對(duì)國(guó)內(nèi)外關(guān)于聚類分析的研究文獻(xiàn),對(duì)大數(shù)據(jù)抽樣和K-means算法的理論成果做進(jìn)一步的總結(jié)。針對(duì)大多數(shù)聚類算法在面對(duì)海量高維數(shù)據(jù)所表現(xiàn)的不足以及K-means算法初始中心選取的隨機(jī)性,利用抽樣縮減數(shù)據(jù)量后,結(jié)合粒子群算法,提出改進(jìn)算法,最后對(duì)人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集進(jìn)行挖掘,并將其應(yīng)用到實(shí)際問(wèn)題中,從而證明新算法的實(shí)用性。

從航空公司系統(tǒng)內(nèi)的客戶基本信息、乘機(jī)信息以及積分信息等詳細(xì)數(shù)據(jù),根據(jù)末次飛行日期,抽取2006年4月1日至2008年4月1日內(nèi)所有乘客的詳細(xì)數(shù)據(jù),總共16382條記錄,63個(gè)屬性其中包含了如卡號(hào)、入會(huì)時(shí)間、性別、年齡、會(huì)員卡級(jí)別、工作地城市、工作地所在省份、工作地所在國(guó)家、觀測(cè)窗口結(jié)束時(shí)間、觀測(cè)窗口乘積積分、飛行公里數(shù)、飛行次數(shù)、飛行時(shí)間、乘機(jī)時(shí)間間隔、平均折扣率等。對(duì)數(shù)據(jù)預(yù)處理的過(guò)程主要包括數(shù)據(jù)清洗、數(shù)據(jù)選擇以及數(shù)據(jù)轉(zhuǎn)換等操作。首先對(duì)數(shù)據(jù)進(jìn)行缺失值分析與異常值分析。由于原始數(shù)據(jù)量大,而空缺值所占比例較小,對(duì)該問(wèn)題影響不大,因此對(duì)其進(jìn)行丟棄處理;由于原始數(shù)據(jù)中屬性過(guò)多,根據(jù)航空公司客戶價(jià)值相關(guān)屬性,刪除與其不相關(guān)、弱相關(guān)或冗余的屬性。例如:卡號(hào)、性別、工作地城市、工作地所在省份、年齡等屬性;最后根據(jù)方法進(jìn)行屬性約簡(jiǎn),簡(jiǎn)化為5個(gè)屬性指標(biāo),給定樣本的數(shù)據(jù)特點(diǎn),從已知的樣本屬性中提煉出L、R、F、M、C五個(gè)指標(biāo)作為航空公司客戶細(xì)分的參數(shù)。L代表客戶關(guān)系長(zhǎng)度(會(huì)員入會(huì)時(shí)間距觀測(cè)窗口結(jié)束的月數(shù)),R代表客戶最近一次消費(fèi)距今時(shí)間長(zhǎng)度,F(xiàn)代表客戶在觀測(cè)時(shí)間內(nèi)的消費(fèi)頻率,M代表客戶在觀測(cè)時(shí)間內(nèi)的飛行里程,C代表客戶在觀測(cè)時(shí)間內(nèi)所乘航班的平均艙位折扣系數(shù)五個(gè)屬性維。

由于原始數(shù)據(jù)中并沒(méi)有直接給出L、R、F、M、C五個(gè)指標(biāo),需要通過(guò)原始數(shù)據(jù)來(lái)提取這五個(gè)指標(biāo),具體計(jì)算方法如下:

(1)L=LOAD_TIME-FFP_DATE

會(huì)員入會(huì)時(shí)間距觀測(cè)窗口結(jié)束的月數(shù)=觀測(cè)窗口結(jié)束時(shí)間-入會(huì)時(shí)間

(2)R=DAYS_FROM_LAST_TO_END

客戶最近一次消費(fèi)距今時(shí)間長(zhǎng)度=最后一次乘機(jī)時(shí)間至觀測(cè)窗口末端時(shí)長(zhǎng)

(3)F=FLIGHT_COUNT

客戶在觀測(cè)時(shí)間內(nèi)的消費(fèi)頻率=飛行次數(shù)

(4)M=SEG_KM_SUM

客戶在觀測(cè)時(shí)間內(nèi)的飛行里程=觀測(cè)窗口總飛行公里數(shù)

(5)C=AVG_DISCOUNT

客戶在觀測(cè)時(shí)間內(nèi)所乘航班的平均艙位折扣系數(shù)=平均折扣率

待分析的客戶數(shù)據(jù)被整理成如表所示。這樣每一條客戶數(shù)據(jù)就被表示成由五個(gè)特征屬性組成的向量

根據(jù)聚類結(jié)果進(jìn)行分析如下,第1類客戶入會(huì)時(shí)長(zhǎng)(L)長(zhǎng)、平均折扣率(C)較高但是乘坐的次數(shù)(F)少、飛行里程(M)較短。這類客戶是否在本航空公司消費(fèi)的不確定性較大,可能是對(duì)本航空公司沒(méi)有較為全面的認(rèn)知,無(wú)所謂選擇哪個(gè)航空公司,所以維持與此類客戶的互動(dòng)尤為重要,航空公司需要定期向此類客戶普及本公司較其他公司的優(yōu)勢(shì),針對(duì)他們不定期的推出系列優(yōu)惠,增加此類客戶選擇本公司的次數(shù)。

第2類客戶飛行里程(M)長(zhǎng)、最近乘坐過(guò)本公司航班(R)少。這類客戶要么不選擇本公司,要選擇的話必定會(huì)給公司帶來(lái)較大的利益,是較為理想的消費(fèi)群體,因此航空公司要考慮將精力放在他們身上,一對(duì)一聯(lián)系此類客戶,了解他們不滿意的地方,及時(shí)改進(jìn),給他們更好的乘機(jī)體驗(yàn),提高其滿意度,客戶自然會(huì)在以后的出行時(shí)選擇本公司,持續(xù)給公司帶來(lái)較高的利益。

第3類客戶和第4類客戶的平均折扣率(C)較高、最近乘坐過(guò)本公司航班(R)少、但飛行里程(M)較短或乘坐的次數(shù)(F)少。這類客戶需要航空公司發(fā)掘其潛在價(jià)值,提高其滿意度,使得此類客戶再次或者多次選擇本公司。

第5類客戶的最近乘坐過(guò)本公司航班(R)少、里程(M)較短、乘坐的次數(shù)(F)少。這類客戶是航空公司的一般客戶或低價(jià)值客戶,可能是在航空公司打折促銷時(shí)才會(huì)乘坐該公司的航班。所以公司最好掌握此類客戶的最新信息,在出行率較高的時(shí)期,錯(cuò)開(kāi)乘機(jī)高峰時(shí)段推出優(yōu)惠力度較大的航班,通過(guò)短信或者公眾號(hào)的方式告知此類客戶。

兩種不同算法的收斂性比較情況如圖,從圖中可以看出本文改進(jìn)的聚類算法比k-means算法具有更快的收斂速度。

以對(duì)航空客戶數(shù)據(jù)進(jìn)行客戶細(xì)分為主要內(nèi)容,將基于優(yōu)化初始聚類中心的加權(quán)k-means算法與傳統(tǒng)k-means算法均應(yīng)用到航空公司客戶細(xì)分上,通過(guò)數(shù)值實(shí)驗(yàn)結(jié)果,分析了客戶細(xì)分的實(shí)驗(yàn)結(jié)果,對(duì)聚類產(chǎn)生的客戶類型進(jìn)行了解釋,說(shuō)明了應(yīng)用的合理性。

[1]朱玉全,楊鶴標(biāo)等.數(shù)據(jù)挖掘技術(shù)[M].南京:東南大學(xué)出版社,2006,163-167.

[2]章兢,張小剛等.數(shù)據(jù)挖掘算法及其工程應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2006,6-9.

[3]陳安,陳寧等.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006,179-190.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 亚洲成人免费在线| jizz在线免费播放| 亚洲一级毛片免费看| 国产精品无码AⅤ在线观看播放| 毛片网站观看| v天堂中文在线| 免费人成视网站在线不卡| 亚洲第一区精品日韩在线播放| 青青热久麻豆精品视频在线观看| 日韩毛片视频| 国产乱人伦AV在线A| 天堂亚洲网| 手机在线免费不卡一区二| 免费一级α片在线观看| 国产精品嫩草影院视频| 青青久视频| 日本不卡在线播放| 国产一区自拍视频| 久久久精品国产SM调教网站| 无码免费视频| 色综合久久综合网| 极品私人尤物在线精品首页| 精品视频一区在线观看| 99久久国产综合精品2023| 久久久久久尹人网香蕉| 午夜影院a级片| 91麻豆精品国产高清在线| 亚洲天堂网2014| 成人午夜亚洲影视在线观看| 91亚洲免费视频| 国产自在线播放| 熟女成人国产精品视频| 囯产av无码片毛片一级| AⅤ色综合久久天堂AV色综合| 99热这里只有精品2| AV在线天堂进入| 亚洲欧美精品日韩欧美| 国产成人免费手机在线观看视频| 亚洲综合色区在线播放2019| 亚洲第一成人在线| 激情在线网| 国产乱子伦视频三区| 久久久受www免费人成| 国产欧美日韩视频怡春院| 国产在线无码一区二区三区| 国产精品色婷婷在线观看| A级毛片高清免费视频就| 久久免费精品琪琪| 久久黄色影院| 国产产在线精品亚洲aavv| 国产熟女一级毛片| 国产欧美日韩综合在线第一| 99精品在线视频观看| 黄色不卡视频| 中文字幕乱码二三区免费| 亚洲欧美在线综合图区| 欧美一级高清片欧美国产欧美| 欧美日韩v| 国产91在线|中文| 久久成人18免费| 亚洲色图另类| 熟妇丰满人妻| 国产女人18水真多毛片18精品| 日本AⅤ精品一区二区三区日| 久久这里只有精品国产99| 91色在线观看| 91尤物国产尤物福利在线| 国产精品福利一区二区久久| 欧美日韩专区| 成人免费一级片| 亚洲 欧美 偷自乱 图片| 免费网站成人亚洲| 日韩资源站| 久爱午夜精品免费视频| 日韩AV无码免费一二三区| 伊在人亚洲香蕉精品播放| 亚洲免费福利视频| 中文字幕在线免费看| 嫩草国产在线| 精品国产免费第一区二区三区日韩| 色综合天天操| 色综合久久88色综合天天提莫|