999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP 神經(jīng)網(wǎng)絡(luò)的人口普查收入預(yù)測(cè)

2021-03-25 04:05:58馬曉星
現(xiàn)代計(jì)算機(jī) 2021年4期
關(guān)鍵詞:模型

馬曉星

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

BP(Back Propagation),即反向傳播算法,常用于訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò),進(jìn)行監(jiān)督式學(xué)習(xí)。BP 神經(jīng)網(wǎng)絡(luò)是近年來(lái)應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò),常見的神經(jīng)網(wǎng)絡(luò)有循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、逆向圖網(wǎng)絡(luò)等。反向傳播這一術(shù)語(yǔ)在神經(jīng)網(wǎng)絡(luò)中廣為人知是于1986 年由兩位科學(xué)家宣布的,之后這一技術(shù)被獨(dú)立發(fā)現(xiàn)了很多次,且有很多研究甚至可以追溯到20 世紀(jì)60 年代,在結(jié)構(gòu)上分為輸入層、隱藏層和輸出層。它的基本思想是梯度下降法。在擬合神經(jīng)網(wǎng)絡(luò)時(shí),基于梯度搜索技術(shù),通過(guò)反向傳播計(jì)算損失函數(shù)及其梯度,調(diào)整網(wǎng)絡(luò)權(quán)值使損失下降到最小。BP 算法通過(guò)鏈?zhǔn)椒▌t計(jì)算損失函數(shù)對(duì)每個(gè)權(quán)值的梯度,從最后一層向前迭代,每次計(jì)算一層。

基本的BP 算法包括兩個(gè)過(guò)程。從輸入到輸出的方向,計(jì)算網(wǎng)絡(luò)誤差,從輸出到輸入的方向,調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值。向前傳播時(shí),信號(hào)從輸入端,經(jīng)過(guò)非線性映射到達(dá)輸出端,若輸出信號(hào)與預(yù)期值的均方差沒(méi)有達(dá)到期待值,則轉(zhuǎn)為誤差反向傳播過(guò)程。反向傳播時(shí),誤差從輸出端開始逐層傳遞,經(jīng)過(guò)隱含層到達(dá)輸入端,各層的權(quán)值都會(huì)以誤差為依據(jù)得到調(diào)整。通過(guò)網(wǎng)絡(luò)權(quán)值和閾值的調(diào)整,使得誤差沿著梯度方向下降,經(jīng)過(guò)反復(fù)的訓(xùn)練,直到達(dá)到最大迭代次數(shù)或誤差達(dá)到期待值,訓(xùn)練結(jié)束。此時(shí)的網(wǎng)絡(luò)參數(shù),即訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)模型,若將類似樣本作為輸入信息,網(wǎng)絡(luò)經(jīng)過(guò)自行計(jì)算,得到預(yù)測(cè)輸出。

BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用非常廣泛,于安雷等人[1]使用BP神經(jīng)網(wǎng)絡(luò)做軟件模型的缺陷預(yù)測(cè),郝海霞等人[2]使用PSO 改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)做函數(shù)擬合,陳立君等人[3]使用BP 神經(jīng)網(wǎng)絡(luò)做木材紋理分類研究,傅建平等人[4]基于BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練出發(fā)動(dòng)機(jī)磨損模式識(shí)別模型。林泉等人[5]基于BP 神經(jīng)網(wǎng)絡(luò)對(duì)心電數(shù)據(jù)進(jìn)行壓縮,解決了現(xiàn)有的心電數(shù)據(jù)壓縮方法開支較大、難以在實(shí)際工程應(yīng)用中發(fā)揮作用等問(wèn)題。

人口普查由國(guó)家出一套統(tǒng)一的標(biāo)準(zhǔn)和規(guī)定,對(duì)全國(guó)現(xiàn)有人口挨家挨戶的進(jìn)行一次全面登記調(diào)查。它是當(dāng)前采集人口信息的一種最基本最科學(xué)的方法,其重點(diǎn)是了解當(dāng)?shù)厝丝谧兓桶l(fā)展、性別占比、出生占比等,是提供人口數(shù)據(jù)信息的重要來(lái)源。本文使用的人口普查數(shù)據(jù)集來(lái)自1994 年,主要調(diào)查數(shù)據(jù)包括年齡、教育程度、工作類別、國(guó)籍、性別等多項(xiàng)屬性,基于BP神經(jīng)網(wǎng)絡(luò)分析主要特征值,預(yù)測(cè)個(gè)人收入是否超過(guò)$50K/年。

1 相關(guān)研究

1.1 BP神經(jīng)網(wǎng)絡(luò)算法原理

神經(jīng)元是神經(jīng)網(wǎng)絡(luò)最基本的單元。圖1 給出了神經(jīng)元的一般模型。BP 神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)有雙曲正切函數(shù)、閾值函數(shù)和s 型函數(shù)。

圖1 神經(jīng)元模型

前向傳播時(shí),信號(hào)從輸入層進(jìn)入,經(jīng)過(guò)隱藏層,到達(dá)輸出層。神經(jīng)元的輸出為:

神經(jīng)網(wǎng)絡(luò)是將多個(gè)神經(jīng)元按一定規(guī)則聯(lián)結(jié)在一起而形成的網(wǎng)絡(luò),其輸入神經(jīng)元的個(gè)數(shù)等于輸入樣本的數(shù)據(jù)維度,輸出神經(jīng)元個(gè)數(shù)與等于需要預(yù)測(cè)的分類數(shù)。通常使用的是三層神經(jīng)網(wǎng)絡(luò),即隱藏層的層數(shù)為一層。

若為二分類問(wèn)題,BP 網(wǎng)絡(luò)使用Sigmoid 作為傳遞函數(shù),它的特點(diǎn)是函數(shù)導(dǎo)數(shù)和其本身都是連續(xù)的,Sigmoid 函數(shù)有多種定義,其單極性函數(shù)定義如下:

若為多輸出神經(jīng)元,通常采用Softmax 函數(shù),它是二分類Sigmoid 函數(shù)在多分類上的擴(kuò)展,Softmax 能將多分類結(jié)果以概率的方式展示出來(lái)。

采用損失函數(shù)來(lái)衡量輸出值和預(yù)期值之間的誤差,損失函數(shù)值越小,代表擬合程度越好,計(jì)算公式為:

BP 神經(jīng)網(wǎng)絡(luò)采用梯度下降法訓(xùn)練模型,調(diào)整網(wǎng)絡(luò)參數(shù)使模型在訓(xùn)練過(guò)程中的損失函數(shù)值下降到最小。

本文使用一個(gè)隱含層,其節(jié)點(diǎn)數(shù)基于經(jīng)驗(yàn)公式確定,公式為:

1.2 BP神經(jīng)網(wǎng)絡(luò)的缺陷及優(yōu)化

如果BP 網(wǎng)絡(luò)的初始權(quán)值設(shè)置不合適,BP 網(wǎng)絡(luò)易陷進(jìn)局部極小值。BP 網(wǎng)絡(luò)采用梯度下降技術(shù)來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,這使得網(wǎng)絡(luò)只會(huì)“下坡”而不會(huì)“爬坡”。基于梯度下降的BP 算法,其固有缺陷難以克服。BP 的梯度下降不能保證能找到誤差函數(shù)的整體最小值,可能陷入誤差曲面的局部極小值后難以沖出。這些參數(shù)需要不斷地訓(xùn)練才能逐步固定,而過(guò)度的訓(xùn)練會(huì)造成過(guò)擬合現(xiàn)象,即擬合誤差減少而預(yù)測(cè)誤差增大。

PSO 粒子群算法是優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)最常見的算法之一。基于PSO 算法來(lái)調(diào)整BP 神經(jīng)網(wǎng)絡(luò)權(quán)值的過(guò)程是:使用PSO 粒子群算法替換BP 算法中的梯度下降法,優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)模型的權(quán)值和閾值,直到其適應(yīng)度不再有意義地降低。得到初始權(quán)值后,再使用BP算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)一步迭代優(yōu)化,得到更精確的解,直到網(wǎng)絡(luò)參數(shù)滿足預(yù)期誤差,即可得到精確的最優(yōu)權(quán)值和閾值組合。PSO 算法與BP 算法的融合主要體現(xiàn)在兩個(gè)方面,首先PSO 算法中粒子的位置向量對(duì)應(yīng)BP算法的全部連接權(quán)值和閾值,PSO 算法通過(guò)適應(yīng)度函數(shù)尋找最優(yōu)位置,也就是在尋找BP 網(wǎng)絡(luò)的最優(yōu)權(quán)值和閾值。其適應(yīng)度函數(shù)的定義對(duì)應(yīng)于BP 算法均方誤差,粒子的適應(yīng)度采用BP 算法的前向傳播來(lái)計(jì)算。

2 基于BP神經(jīng)網(wǎng)絡(luò)的收入預(yù)測(cè)模型實(shí)現(xiàn)

2.1 特征選擇

人口普查數(shù)據(jù)集的數(shù)據(jù)復(fù)雜,數(shù)據(jù)維度高,為了更好地適應(yīng)BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,需要對(duì)數(shù)據(jù)進(jìn)行特征選擇,嘗試剔除數(shù)據(jù)中的噪聲,選擇出對(duì)于預(yù)測(cè)模型而言的重要特征。基于隨機(jī)森林的特征選擇能夠計(jì)算單個(gè)變量的特征重要性并對(duì)特征進(jìn)行重要性排序,進(jìn)而實(shí)現(xiàn)從所有特征中選出重要性靠前的特征。

基于隨機(jī)森林計(jì)算特征M 重要性步驟如下:

(1)對(duì)每一顆決策樹,選取對(duì)應(yīng)的袋外數(shù)據(jù)(Out Of Bag,OOB)來(lái)計(jì)算袋外數(shù)據(jù)誤差。袋外數(shù)據(jù)就是對(duì)數(shù)據(jù)集進(jìn)行多次抽樣得到子數(shù)據(jù)集,用于訓(xùn)練決策樹。剩余沒(méi)有參與決策樹訓(xùn)練的數(shù)據(jù)用于計(jì)算模型的錯(cuò)誤率,對(duì)決策樹進(jìn)行性能評(píng)估,即袋外數(shù)據(jù)誤差err1。

(2)隨機(jī)改變樣本數(shù)據(jù)的特征值M,即對(duì)OOB 所有樣本的特征M 隨機(jī)加入噪聲干擾,重新計(jì)算其袋外誤差err2。

(3)假設(shè)隨機(jī)森林有N 顆數(shù),則特征M 的重要性I 為:

若加入隨機(jī)噪聲后,計(jì)算得到OOB 準(zhǔn)確率嚴(yán)重下降,則說(shuō)明特征M 對(duì)分類結(jié)果影響度很高,即特征M重要程度比較高。

2.2 One-Hot編碼

對(duì)類別特征,需要進(jìn)行One-Hot 編碼(獨(dú)熱編碼),即利用0 和1 表示某些參數(shù),使用N 位狀態(tài)寄存器來(lái)對(duì)N 個(gè)狀態(tài)進(jìn)行編碼。例如輸出值工資,分為>=50k和<=50k,編碼分別表示為[0,1]和[1,0];若特征值婚姻狀況分為已婚、未婚、離婚、喪偶,則未婚狀態(tài)的編碼為[0,1,0,0]。獨(dú)熱編碼能處理非連續(xù)性特征,使得特征矩陣的數(shù)據(jù)變得稀疏,在一定程度上也起到了擴(kuò)充特征的作用。

表1

將處理過(guò)的數(shù)據(jù)集按照3:7 分割為測(cè)試集和訓(xùn)練集,首先將訓(xùn)練集輸入BP 神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)反復(fù)迭代,調(diào)整網(wǎng)絡(luò)權(quán)值和閾值,得到收入預(yù)測(cè)模型。然后將測(cè)試集輸入預(yù)測(cè)模型中進(jìn)行測(cè)試,計(jì)算網(wǎng)絡(luò)損失和準(zhǔn)確率,最后得到可視化結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

神經(jīng)網(wǎng)絡(luò)輸入神經(jīng)元個(gè)數(shù)即特征值在預(yù)處理和獨(dú)熱編碼后的個(gè)數(shù),在本次實(shí)驗(yàn)中input_n=95,設(shè)輸出神經(jīng)元個(gè)數(shù)output_n=2,設(shè)置訓(xùn)練網(wǎng)絡(luò)的學(xué)習(xí)率為0.01,數(shù)據(jù)集規(guī)模為32561 個(gè)樣本。實(shí)驗(yàn)采用的計(jì)算機(jī)配置如表2。

表2

基于以上實(shí)驗(yàn)環(huán)境和參數(shù)訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò),得到收入預(yù)測(cè)模型的訓(xùn)練和測(cè)試損失如圖2。每次批處理的樣本規(guī)模為64,迭代次數(shù)為20,訓(xùn)練損失和測(cè)試損失在epoch=10 以前隨著迭代次數(shù)增加急速下降,當(dāng)epoch 超過(guò)30 時(shí),損失函數(shù)開始收斂,實(shí)驗(yàn)證明基于BP 神經(jīng)網(wǎng)絡(luò)的個(gè)人收入預(yù)測(cè)模型具有較高的收斂速度。

圖2 訓(xùn)練和測(cè)試損失

圖3 分類準(zhǔn)確率

神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率公式如下:

訓(xùn)練得到分類準(zhǔn)確率如圖3。當(dāng)epoch>15 時(shí),分類準(zhǔn)確率達(dá)到百分之百。實(shí)驗(yàn)證明基于BP 神經(jīng)網(wǎng)絡(luò)的個(gè)人收入預(yù)測(cè)模型具有較高的準(zhǔn)確率。

4 結(jié)語(yǔ)

本文基于人口普查數(shù)據(jù)集,訓(xùn)練出了基于BP 神經(jīng)網(wǎng)絡(luò)的個(gè)人收入預(yù)測(cè)模型,并經(jīng)過(guò)真實(shí)的實(shí)驗(yàn),證明了該模型具有較高的收斂速度和準(zhǔn)確率。近年來(lái)研究學(xué)者們探討了很多基于BP 神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法,例如將BP 神經(jīng)網(wǎng)絡(luò)與遺傳算法或PSO 粒子群算法結(jié)合,提高了收斂速度,避免其陷入局部極小值。

然而隨著數(shù)據(jù)規(guī)模越來(lái)越大,BP 神經(jīng)網(wǎng)絡(luò)在處理大數(shù)據(jù)樣本時(shí)暴露出了較明顯的缺陷,例如收斂速度慢,準(zhǔn)確率下降等。我們?cè)诮酉聛?lái)的工作中,也將聚焦于數(shù)據(jù)并行化訓(xùn)練算法,研究集成學(xué)習(xí)算法與BP 神經(jīng)網(wǎng)絡(luò)的結(jié)合方式,并且基于Hadoop 或Spark 等大數(shù)據(jù)平臺(tái),使BP 神經(jīng)網(wǎng)絡(luò)適應(yīng)大數(shù)據(jù)場(chǎng)景,表現(xiàn)出更好的訓(xùn)練效果。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人亚洲精品蜜芽影院| 日韩精品一区二区三区视频免费看| 2020极品精品国产| 国内精品视频| 久久这里只有精品2| 国产你懂得| 日韩一区二区三免费高清| 97成人在线视频| 国产91精品久久| 亚洲色图欧美视频| 欧美一级视频免费| 色天堂无毒不卡| 国产精品综合久久久| 日韩av无码精品专区| 国产成人一级| 在线国产你懂的| 国产精品30p| 无码精油按摩潮喷在线播放| 人妻91无码色偷偷色噜噜噜| 波多野结衣无码视频在线观看| 国产高清无码麻豆精品| 亚洲色图在线观看| 免费中文字幕一级毛片| 波多野结衣一二三| 国产精品手机在线观看你懂的 | 免费aa毛片| 日本亚洲欧美在线| 国产视频大全| 九九精品在线观看| 日韩 欧美 国产 精品 综合| 99久久性生片| 激情综合五月网| 美女无遮挡免费网站| 人妻丰满熟妇啪啪| 99尹人香蕉国产免费天天拍| 在线免费a视频| 六月婷婷激情综合| 中文字幕无线码一区| 久久精品人妻中文系列| 久久久噜噜噜久久中文字幕色伊伊| 亚洲aaa视频| 亚洲三级电影在线播放| 日韩福利在线观看| v天堂中文在线| 婷婷色丁香综合激情| 五月天天天色| 国产亚洲欧美日本一二三本道| 国产高潮流白浆视频| 91成人免费观看在线观看| 国产一区三区二区中文在线| 国产香蕉在线视频| 精品国产香蕉伊思人在线| 亚洲精品视频免费| 国产免费一级精品视频| 国产99欧美精品久久精品久久| 一级毛片免费不卡在线视频| 亚洲国产在一区二区三区| 亚洲天堂免费| 色噜噜中文网| 三区在线视频| 亚洲最大福利网站| 欧美成人午夜影院| 国产美女无遮挡免费视频| 深夜福利视频一区二区| 在线观看亚洲人成网站| 亚洲人成网址| 国产国模一区二区三区四区| 欧美精品啪啪一区二区三区| 日韩毛片免费视频| 日韩国产一区二区三区无码| 亚洲精品色AV无码看| 99久久精品久久久久久婷婷| 日韩一区二区三免费高清| 久久五月视频| 一区二区三区成人| 亚洲欧美在线看片AI| 国产第八页| 国产免费网址| 国产毛片高清一级国语| 日韩欧美国产精品| 久久永久免费人妻精品| 中文无码伦av中文字幕|