999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據預測處理模式研究

2017-03-24 11:15:33王金海
卷宗 2016年11期
關鍵詞:數據挖掘大數據

摘 要:大數據的時代,數據的產生和收集是基礎,數據挖掘是關鍵,在日新月異的應用背后,產生的是數據爆炸式增長和來自大數據分析的挑戰,如何有效的利用這些數據也是一個難題。所以研究大數據各種預測的模型的研究就尤為重要,本文結合大數據時代的數據特點,研究大數據的預測處理模式,提出一種算法融合的模型框架,并通過實驗數據集驗證模式。

關鍵詞:大數據;數據挖掘;特征工程;模型融合;Hadoop

1 研究背景及意義

大數據時代當前面臨的挑戰是根據大數據進行預測[1]研究,利用已知數據進行預測的模式產出,本文對大數據預測處理模式進行研究,同時創新性的提出一種融合算法模型框架,最后用數據集[3]來驗證模型的準確性。

2 預測處理模式研究

基本處理模式

本文研究的大數據[4]預測處理模式主要分為幾個過程,如下:

1.問題與業務理解

問題與業務的理解是對數據挖掘的需求進行確認,對預測與挖掘目標有一個明確的定義。

2.數據收集與預處理

原始的數據要傾國清洗或者預處理的方式,才能使最終的結果準確或者可用。

3.數據挖掘

a)特征工程

b)模型訓練

c)模型評估

4.結果解釋和評估

特征工程

特征工程[5]是將原始數據轉化為特征,在進行特征工程的時候,影響其預測結果有三大因素:模型的選取是否合適,可以用的數據是否好用,提取的特征是否實用。

數據預處理

對數據進行挖掘之前,必須首先準備好挖掘的數據,需要對數據進行預處理,提高分類或預測的準確性、效率和可擴展性。

1.數據清理。數據清理是指在消除或者減少數據中噪聲和處理缺失值數據預處理。

2.相關性分析。猶豫數據集中的許多屬性與挖掘任務本身可能是無關的。

3.數據轉換。利用概念分成,可以將數據泛化到更高層次的概念。

特征選擇

特征選擇是根據有意義的特征輸入數據挖掘的算法和模型進行訓練。特征選擇是特征處理的核心部分。包括以下幾種方法:

1.過濾特征[6]:該思路是自變量和目標變量之間的關聯。

2.封裝特征:該思路是通過目標函數來看是否加入一個變量。

3.嵌入特征:該思路是學習器來自動選擇特征。

算法框架

本問研究內容創新性采用算法模型的融合方式,即多模融合的學習算法框架 ,建立組合預測方法,得到優選的預測處理模式,克服單個預測算法的缺點,提升了算法預測的準確性。

GBDT

GBDT算法是Boosting算法的一種具體實現形式,它是一種非線性的模型,每次迭代都是在減少殘差的梯度方向新建一顆決策樹,迭代多少次就會生成多少決策樹。

LR

LR是廣義的線性模型。LR模型可以很好的并行化,其是一種線性模型,其可以處理上億條的訓練樣本。但是這種線性模型限制它的的學習能力,不能處理大量的特征。

GBDT與LR的融合

GBDT的決策樹的通道可以直接作為LR輸入特征使用。所以本文將兩種算法結合,提出一種GBDT與LR融合的算法模型。這種模型相比如人工尋找特征和特征組合,這種方法省時省力,效率更高。經過融合算法模型進行特征和特征組合的自動發現,LR的輸入特征來自GBDT生成的特征。

模型評價

模型評價是驗證特征工程與算法框架的重要評測環節。一般采用均方根誤差評價法。

其計算公式如下。

3 實驗數據集分析

數據分析

通過分析某省部分公交線路的歷史公交卡交易數據,分析推測乘客的出行習慣和偏好,從而建立模型,預測未來公交客流。即:根據公交線路歷史刷卡數據,預測不同公交線路6點-21點各時段的客流情況。

特征工程

原始數據包含特征Use_city features、Line_name features、Terminal_id features、Card_id features、Create_city features、Deal_time features、Card_type features、Weather features。特征按照具體的內容又可以分為:計數、比值、Flag、時間間隔、時間層級、規則、排序、地理特征等八種。由于篇幅有限,這里不詳細介紹各特征。

算法框架

算法采用GBDT和LR融合算法,基本原理見圖1,GBDT作為主要分類器,表3得到的訓練參數是經過模型訓練得到的。其中,GBDT3是單模型中評價效果最好的模型。經過GBDT生成的特征,下一步使用LR對GBDT生成的模型進行融合,把每個GBDT 模型對測試集的預測結果合并作為LR的訓練集。

結果評價

模型結果評價采用RMSE評測,公式如下:

經過線下的預測集測試,7模型混合GBDT特征模型與LR融合的算法框架最終得到82%的評分值,說明整個預測模式效果很好。

4 結論

本文研究基于大數據的預測處理模式,研究了包括特征工程、算法框架、模型評價等大數據預測處理的關鍵步驟,提出多模融合算法:GBDT與LR融合算法,相比于傳統算法,多模的融合算法結合了LR速度快、效率高,是一種精確、有效的預測處理算法。最后本文用真實的數據集驗證了所研究的處理模式和多模算法的正確性。

參考文獻

[1] 孟小峰, 慈祥, MengXiaofeng,等. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013, 50(1):146-169.

[2] 李建中, 劉顯敏. 大數據的一個重要方面:數據可用性[J]. 計算機研究與發展, 2013, 50(6):1147-1162.

[3] 應毅, 劉亞軍, 陳誠. 基于云計算技術的個性化推薦系統[J]. 計算機工程與應用, 2015, 51(13):111-117.

[4] 趙娜. 大數據研究綜述[J]. 電子測試, 2015, 14(5):87-90.

[5] Crone S F, Kourentzes N. Feature selection for time series prediction - A combined filter and wrapper approach for neural networks[J]. Neurocomputing, 2010, 73(s 10-12):1923-1936.

[6] Liu D, Li T, Liang D. Incorporating logistic regression to decision-theoretic rough sets for classifications[J]. International Journal of Approximate Reasoning, 2014, 55(1):197-210.

作者簡介

王金海(1990-),男(滿族),籍貫黑龍江,碩士研究生,在讀學生,研究方向:智能信息處理。

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 好紧太爽了视频免费无码| 国产乱人视频免费观看| 伊人久综合| 人妻精品全国免费视频| 亚洲国产精品无码AV| 毛片卡一卡二| 久热re国产手机在线观看| 四虎影视永久在线精品| a在线观看免费| 国产情侣一区| 2020亚洲精品无码| 青青草国产一区二区三区| 亚洲伊人天堂| 狠狠干欧美| 国产最新无码专区在线| 成人综合网址| 99热国产这里只有精品无卡顿"| 亚洲欧美自拍视频| 亚洲无码高清视频在线观看| 亚洲精品成人福利在线电影| 青青国产视频| 韩国v欧美v亚洲v日本v| 成人在线观看不卡| 久久久久国产一区二区| 67194成是人免费无码| 在线观看欧美精品二区| 欧美成人国产| 四虎成人精品在永久免费| 一级毛片在线播放免费观看| 制服丝袜亚洲| 日韩福利在线观看| 国产激情无码一区二区三区免费| 国产区免费精品视频| 99这里只有精品6| 婷婷亚洲天堂| 精品一区二区三区四区五区| 精品国产免费人成在线观看| 青草精品视频| 国产成人a在线观看视频| 日本高清免费不卡视频| 国产99久久亚洲综合精品西瓜tv| 97se亚洲综合在线天天| 国产97公开成人免费视频| 四虎成人在线视频| 久久黄色一级视频| 久久亚洲美女精品国产精品| 精品无码日韩国产不卡av| 欧美成人影院亚洲综合图| 国产香蕉一区二区在线网站| 国产日韩精品一区在线不卡| 久久人妻系列无码一区| 19国产精品麻豆免费观看| 日韩无码白| 久久久久中文字幕精品视频| 日韩天堂网| 四虎永久在线精品国产免费| 国产精品成人一区二区不卡| 超清无码熟妇人妻AV在线绿巨人| 国产福利免费视频| 亚洲精品国产乱码不卡| 国产精品成人不卡在线观看| 日本精品影院| 人妻丰满熟妇αv无码| 中文一级毛片| 欧美精品亚洲精品日韩专| 在线观看国产精品第一区免费 | 天天爽免费视频| 久久不卡精品| www.狠狠| 成年女人a毛片免费视频| 亚洲欧美综合在线观看| 99色亚洲国产精品11p| 亚洲AⅤ综合在线欧美一区| 欧美亚洲一区二区三区在线| 国产高潮流白浆视频| 免费人欧美成又黄又爽的视频| 亚洲免费人成影院| 一级毛片免费观看久| 操国产美女| 欧美特黄一级大黄录像| 玖玖精品视频在线观看| 免费看美女自慰的网站|