999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用邏輯回歸算法分析銀行營銷數據

2021-06-16 07:19:46鄭淞元
電子制作 2021年2期
關鍵詞:分類特征模型

鄭淞元

(浙江省杭州學軍中學,浙江杭州,310000)

0 引言

存款營銷是銀行吸收存款的主要經營模式,通過對銀行歷史營銷數據進行建模,利用模型去判斷一個潛在客戶是否會有存款業務,從而幫助銀行提高營銷成功率和營銷效率,更好的分配人力資源,節省成本。本文將使用spark框架中的邏輯回歸實現,按照數據分析的步驟,分析銀行營銷數據,建立邏輯回歸模型,預測客戶是否會存款,并提出建議。

1 邏輯回歸算法

■1.1 邏輯回歸的原理

邏輯回歸是一個有監督機器學習算法中的分類算法。通常是利用已知的特征變量來預測一個離散型目標變量的值(如0/1,是/否,真/假)。通過邏輯回歸擬合得到結果變量值是一個概率值(0-100%),根據概率值的大小和根據業務場景確定的分類閾值,映射為最終預測目標變量的分類值,如:概率值大于等于50%,映射目標變量分類值為1;概率值小于50%,映射目標變量分類值為0。

■1.2 邏輯回歸與線性回歸

線性回歸的基本思路是對多維空間中存在的樣本點,用特征的線性組合去擬合多維空間中點的分布和軌跡,公式如下:z=θ0 +θ1x1 +θ2x2 +θ3x3......+θnxn=θTx;

2 特征工程

■2.1 特征工程概述

特征工程是對原始數據進行加工,提取滿足算法和模型要求的特征變量。特征工程包括特征提取、特征轉換、降維等操作。Spark提供了多種特征工程算法的實現。本驗中,我們使用了StringIndex 和 OneHotEncoder 兩種特征轉換算法。

■2.2 StringIndex編碼

StringIndex是指把一組字符型標簽編碼成一組數值型標簽索引,索引的范圍為0到標簽數量。索引構建的順序為標簽的頻率,優先編碼頻率較大的標簽,即出現頻率最高的標簽為0號。如果輸入的是數值型的,將轉成字符型,再對其進行編碼。

表1 StringIndex特征轉換示例

在上述例子數據中,a出現了3次,c出現了2次,b出現了1次,按照category頻率從高到低,從0開始編碼,所以a的編碼為0.0,c的編碼為1.0,b的編碼為2.0。

■2.3 OneHotEncoder編碼

OneHot編碼將已經轉換為數值型的類別特征,映射為一個稀疏向量對象,對于某一個類別映射的向量中只有一位有效,即只有一位數字是1,其他數字位都是0。如下列例子,有兩個特征屬性:

婚姻狀況:[“已婚”,“單身”,“離異”,“未知”]

有無房貸:[“有房貸”,“無房貸”]

機器學習算法不接收字符型的特征值,需要將字符型分類值的特征數字化,對于某一個樣本,如[“已婚”,“無房貸”],最直接的方法可以采用序列化的方式:[0,1],但是這樣的特征處理并不能直接放入機器學習算法中。對于類似婚姻狀況是4維,有無房貸是2維等問題,可以采用One-Hot編碼的方式對上述樣本[“已婚”,“無房貸”]進行編碼,“已婚”對應[1,0,0,0],“無房貸”對應[0,1],則完整的特征數字化的結果為:[1,0,0,0,0,1],這樣做會使數據變得連續,但也會非常稀疏,所以在Spark中,用了稀疏向量來表示這個結果,并且邏輯回歸算法的分類器是需要連續數值作為特征輸入的。

3 Spark介紹

Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎,其核心特點是基于內存的,對于大型的、低延遲的大數據分析應用有很好的性能表現。Spark的計算模型借鑒吸收了Hadoop MapReduce優點,同時也著力去解決MapReduce的一系列問題。

Spark具有如下幾個主要特點:

(1)運行速度快:構建RDD的DAG支持循環數據流結構,通過執行引擎進行內存中的并行計算處理。

(2)容易使用:提供了多種語言的交互方式,比如Scala、Java、Python和R語言等,可以方便得通過Spark Shell使用上述幾種語言編程交互式使用Spark。

(3)通用性:強大而完整的工具套件和技術棧--SQL查詢、streaming流式計算、機器學習和圖算法等相關組件。

(4)運行模式多樣:可單獨得構建集群來使用,可運行在Hadoop之上,可以在Amazon EC2等云環境中進行部署,數據源也可以很多樣化,可以訪問HDFS、Cassandra、HBase、Hive等多種數據源。

4 實驗設計

■4.1 實驗環境及數據

本實驗基于windows系統平臺。使用的編程語言主要是Scala,開發工具為Scala IDE。本次實驗數據來自:https://github.com/ChitturiPadma/datasets/blob/master/bank_marketing_data.csv。

■4.2 營銷數據結構分析

在數據bank_marketing_data.csv中,包含4萬多條記錄和21個字段,本次實驗中,我們使用其中10個字段作為因變量,1個字段作為目標變量,具體列明含義如表2所示。

表2 數據字段描述

■4.3 特征工程

經過對數據的概要分析可知,營銷數據中除了數值型的字段 (age、duration、previous、empvarrate),還有一些包含分類值的字符型字段(job,marital、default、housing、poutcome、loan)。本步驟就要利用特征工程,對分類字段進行特征轉換,使用spark提供的StringIndex和OneHotEncoder算法。

圖1 特征工程加工后的分類變量

最后需要對在對目標變量y進行StringIndex數據轉換后,就可以基于編碼后的向量字段應用邏輯回歸算法進行預測了。

■4.4 建立邏輯回歸模型進行預測

基于Spark平臺進行邏輯回歸分析的基本步驟如下:

(1)實例化一個向量組裝器對象,將向量類型字段和數值型字段形成一個新的字段:features,其中包含了所有的特征值 val;

(2)對目標變量進行StringIndexer特征轉換,輸出新列;

(3)將特征按順序進行合并,形成一個數組 val;

(4)將原始數據selected_Data進行8-2分,80%用于訓練數據training。20%用于測試數據test,評估訓練模型的精確度 ;

(5)實例化邏輯回歸算法;

(6)將算法數組和邏輯回歸算法合并,傳入pipeline對象的stages中,然后作用于訓練數據,訓練模型;

(7)將上一步的訓練模型作用于測試數據,返回測試結果;

(8)顯示測試結果集中的真實值、預測值、原始值、百分比字段;

(9)創建二分類算法評估器,對測試結果進行評估val。

val splits = selected_Data.randomSplit(Array(0.8,0.2))val lr = new LogisticRegression()var model = new Pipeline().setStages(transformers:+ lr).fit(training)

圖2 代碼1(邏輯回歸模型進行預測)

運行代碼,可以得出結果如圖3所示。

圖3 預測結果圖像

圖3運行后輸出的測試結果前10條數據,其中probability 列值范圍是[0,1],對應的發生概率,如果某個分類值出現的概率大于0.5,那么預測值prediction就是對應的那個分類值。對20%測試集的預測精確度為:0.9192031636279924,即:精確度為 90% 以上,說明我們模型是有效的,預測的準確度比較高。需要注意的是,每次運行的精確度不會完全一樣,有稍微差別。

5 總結

本文章介紹了運用邏輯回歸機器學習算法的基本步驟,以銀行營銷數據為基礎演示了的分析預測方法,該方法包括以下步驟:

(1)獲取銀行營銷數據;(2)分析營銷數據的結構;(3)概要分析數據字段的內容;(4)對數據使用特征工程;(5)建立邏輯回歸模型并進行預測。

除上述步驟外,根據數據情況和具體場景,有時還需要對數據進行清洗。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 亚洲精品视频在线观看视频| 女人18毛片久久| 欧美成人午夜影院| 四虎在线高清无码| 天天爽免费视频| 亚洲人成网站18禁动漫无码| 少妇精品网站| 无码国内精品人妻少妇蜜桃视频| 亚洲日韩高清在线亚洲专区| 国产高清无码第一十页在线观看| 久久激情影院| 亚洲一区无码在线| 欧洲亚洲一区| 九九热精品视频在线| 亚洲成a人片在线观看88| 青青热久免费精品视频6| 色婷婷狠狠干| 亚洲中文在线看视频一区| 无码精品福利一区二区三区| 97在线免费视频| 亚洲成人黄色在线| 国产美女精品在线| 三级视频中文字幕| 91国内在线观看| 亚洲男人在线| 最新加勒比隔壁人妻| 亚洲乱伦视频| 久久永久免费人妻精品| 亚洲欧美色中文字幕| 色哟哟国产精品一区二区| 色欲不卡无码一区二区| 最新国产你懂的在线网址| 国产精品深爱在线| 视频国产精品丝袜第一页| 曰AV在线无码| 午夜视频免费试看| 亚洲黄色片免费看| 麻豆精品国产自产在线| 伊人激情久久综合中文字幕| 国产成人综合欧美精品久久| 国产91无码福利在线| 成人午夜网址| 亚洲色中色| 亚洲第一黄片大全| 欧美午夜网| 日韩久草视频| 91精品啪在线观看国产91| 欧美不卡二区| 国产无码性爱一区二区三区| 亚洲天堂自拍| 亚洲欧洲免费视频| 国产成人麻豆精品| 好紧太爽了视频免费无码| 欧美国产综合视频| 国产亚洲欧美另类一区二区| 五月天在线网站| 国产精品嫩草影院视频| 2022国产无码在线| 91欧美亚洲国产五月天| 精品一区二区久久久久网站| 爆乳熟妇一区二区三区| 最新国产午夜精品视频成人| 日本人妻丰满熟妇区| 国产香蕉一区二区在线网站| 白浆视频在线观看| 亚洲综合中文字幕国产精品欧美 | 亚洲第一极品精品无码| 国产福利一区视频| 亚洲天堂在线免费| 欧美一区中文字幕| 久久这里只有精品国产99| 97久久超碰极品视觉盛宴| 91国内外精品自在线播放| 伊人久久婷婷| 久久精品人人做人人综合试看| 中文无码精品a∨在线观看| 亚洲v日韩v欧美在线观看| 免费一级毛片在线播放傲雪网| 狠狠色丁香婷婷| 波多野结衣在线se| 91香蕉视频下载网站| 亚洲aⅴ天堂|