999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的育齡婦女二孩生育意愿預測

2017-12-07 02:03:12李冬領
軟件 2017年11期
關鍵詞:數據挖掘分類模型

李冬領

(南京郵電大學經濟學院,江蘇 南京 210046)

基于數據挖掘的育齡婦女二孩生育意愿預測

李冬領

(南京郵電大學經濟學院,江蘇 南京 210046)

探討數據挖掘模型與傳統的Logistic回歸模型在育齡婦女二孩生育意愿預測上的準確性。采取五折交叉驗證法,基于正確率、查準率、查全率、AUC和Press'Q檢驗這五個指標對四種分類方法(Logistic回歸、支持向量機、決策樹和隨機森林)進行對比分析。結果表明:Press'Q的值均大于 3.84,說明所有分類方法均好于隨機分類結果;從各指標均值看,隨機森林表現最好,與Logistic回歸相比,其正確率高1.7%,查準率高3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。本研究探索的數據挖掘新方法和模型,可為今后研究類似二孩生育問題提供新的思路和嘗試。

數據挖掘;二孩生育意愿;建模;預測

0 引言

從我國2013年開始實施“單獨二孩”政策, 到2015年 10月全面實施一對夫婦可生育兩個孩子的政策,二孩生育意愿一直是學者們研究的熱點問題。學者在研究育齡婦女二孩生育意愿時大都采用描述性統計分析和 Logistic回歸的方法,而現實中影響育齡婦女生育意愿因素很多,許多不顯著因素的綜合作用可能會對生育意愿產生較大影響,但只有顯著變量才可以引入Logistic回歸模型中,因此Logistic回歸方法不一定能夠準確的對生育意愿進行判別和預測。數據挖掘的方法廣泛應用于分類數據的判別與預測,在自然科學研究領域已廣泛應用,但在人文科學研究領域還很少見。本文嘗試采用數據挖掘的方法對育齡婦女二孩生育意愿進行建模和預測,以期新方法和模型可為今后類似研究提供新的思路和嘗試。

1 研究現狀

近年來,學者對育齡婦女二孩生育問題的研究較多。從研究內容上看主要有兩個方面:一是研究生育意愿的變化[1];二是研究生育意愿的影響因素[2]。從研究方法上看,現有研究主要采取描述統計和Logistic回歸方法。生育意愿在很大程度上決定了生育行為,在宏觀層面上一般可以利用全國人口普查數據及人口抽樣調查數據對育齡婦女的生育意愿進行估算;但在微觀層面上,鮮有研究對生育意愿做出判別與預測。

數據挖掘的方法在分類的判別上已經得到普遍應用。主要的分類模型有決策樹、支持向量機和隨機森林等算法。決策樹模型具有可讀性高,分類速度快等優點[3]。李傅冬等在用決策樹對意外妊娠婦女人群的流產方式選擇進行預測時,誤判率僅為11.90%,得出的模型較為穩定,擬合較好[4]。張琪等用決策樹模型進行分類判別結核病治療效果時,得出的準確率為78%[5]。支持向量機模型在分類時運用較多,將向量映射到一個更高維的空間里,對非線性、多維度的小樣本數據表現較好[6]。李菲雅等對我國人口預測時,建立了支持向量機模型,結果表明,支持向量機比原有模型在預測查準率有了明顯改進[7]。袁勇等將支持向量機方法應用到時間序列問題的預測上,并與神經網絡模型預測的結果進行比較, 結果表明支持向量機方法有更高的查準率[8]。傅文杰等用支持向量機模型對土地利用進行分類,通過與最大似然分類算法對比,實驗結果表明支持向量機模型在分類查準率上有了很大的提高[9]。隨機森林模型是一種多數表決的分類算法,分類擬合效果較好,已得到廣泛的應用[10]。馬玥等用隨機森林算法的農耕區土地利用分類研究,結果表明用隨機森林算法的總體準確率為 85.54%[11]。李貞子等在隨機森林模型對卵巢良惡性腫瘤進行建模分析,結果表明,隨機森林回歸模型的結果好于多元回歸模型[12]。Jo?o Maroco在數據挖掘的方法對老年癡呆進行預測一文中,運用隨機森林、支持向量機、神經網絡等多種分類方法建立模型,發現隨機森林模型的預測結果較好[13]。雖然支持向量機、決策樹、隨機森林的方法已經有廣泛的應用,但在生育意愿問題方面還沒有學者涉及,因此本文嘗試用以上幾種數據挖掘方法對育齡婦女二孩生育意愿進行建模和預測。

2 數據來源及研究方法

2.1 數據來源

本研究數據來源于2015年1月江蘇省家庭生育意愿與生育行為研究問卷。調查采用分層抽樣方法收集資料,按江蘇省地級市進行分層,分別選取江蘇省13個地級市;調查對象為20到35歲有江蘇省縣級及以下戶籍的已育一孩的婦女,共發放問卷400份,最終回收有效問卷394份。調查內容包括四個方面:①個人與家庭基本情況,包括夫妻年齡、結婚時間、學歷、職業、家庭人口數、經濟情況、醫療情況等。②生殖及健康,包括一孩生育時間、小孩性別、夫妻健康狀況、是否有人照顧小孩等。③對小孩的期望,包括期望小孩的文化程度、職業、成長滿意度、身體健康等。④生育意愿與行為,包括理想孩子數及性別、生育意愿、生育計劃、以及打算要或不要孩子的原因等。本文根據以往學者的研究及專家意見,選取對生育意愿有影響的29個變量為自變量,“是否愿意再生育一個孩子”為因變量;由于回答“不確定是否要生育二孩”的家庭,很大程度上是沒有考慮過要不要生育二孩,為了減少建模時的不確定性,在分析育齡婦女二孩生育意愿時,僅對有明確意愿的264份數據進行分析。

2.2 分類方法

(1)Logistic回歸算法。二項Logistic回歸是常見的分類算法,由條件概率分布P(Y/X)表示,隨機變量Y取值為1或0。它是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法,在社會科學領域應用較多[14]。

(2)決策樹算法。決策樹是一種基本的分類算法模型,模型以樹狀結構呈現,在分類時,基于基尼系數進行特征的選取;具有可讀性好,擬合速度快等優點。在訓練數據時,依據損失函數最小化的原則建立決策樹模型;預測時,根據決策樹模型對新的數據進行分類[3]。

(3)支持向量機算法。支持向量機一般通過分類器和核函數相結合的方法進行建模。通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。它的基本模型是定義在特征空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化,最終可轉化為一個凸二次規劃問題的求解。支持向量機多用于分類和回歸分析,將向量映射到一個更高維的空間里,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢[6]。

(4)隨機森林算法。隨機森林是由多個決策樹組合而成的機器學習算法;首先,通過自助法采樣法,從訓練數據中重復隨機有放回的抽取m個新的訓練集,然后構建m個決策樹,通過決策樹組建隨機森林,未被抽到的樣本組成 m個袋外數據,進行誤差估計;每棵樹生長過程中,從所有特征變量中隨機抽取一部分,抽取變量根據基尼系數最小的原則,選取屬性最優的進行決策樹分支;最后,根據多棵決策樹對數據進行預測,根據多數表決的方法選取票數最高的類別;隨機森林算法可以產生高準確度的分類器,對于不平衡分類,也能起到較好的建模效果[15]。

2.3 分類評價標準

True positives(TP)表示本身為正,實際也被預測為正的個數;False positives(FP)表示本身為負,但被預測為正的個數;False negatives(FN)是表示本身為正,但被預測為負的個數;True negatives(TN)表示本身為負,實際被預測為負的個數,混淆矩陣見表1。

表1 混淆矩陣Tab.1 Confusion matrix

本文根據以下幾個指標評價模型的性能:(1)正確率(Accuracy),Accuracy =(TP+TN)/(TP+FN+FP+TN),是正確分類的樣本數與總樣本數的比值,正確率越高,分類效果越好。(2)查準率(Precision),precision=TP/(TP+FP),是精確性的度量,表示被分為正例的樣本中實際為正的占比。(3)查全率(Recall),Recall=TP/(TP+FN),表示有多少個正例被分為正例。(4)AUC,是ROC曲線下面積,表示處于 ROC 曲線下方的那部分面積的大小,一般AUC的值在0.5到1.0之間,AUC越大,模型準確性越高。(5)Press’Q,是用來檢測模型分類結果與隨機的分類結果是否與顯著性差異,其服從自由度為1的卡方分布,因此當Press’Q的值大于3.84的時候說明其在0.05的顯著性水平上是顯著的,值越大顯著性越強其中N是總的樣本數,n是被正確分類的樣本數,k是分類組數。

3 建模過程

3.1 算法步驟

為了防止使用相同的數據造成的過擬合和隨機現象,我們采用5折交叉驗證法,并重復10次,對4種分類器進行訓練和測試。步驟如下:(1)把總樣本分為5份,每次取其中的4份作為訓練集,剩余的1份作為測試集;(2)更換其中1份數據,重復5次訓練和測試;(3)重復1、2步驟10次;(4)基于50次實驗結果,比較各分類算法的性能。

3.2 模型參數設置及實現

(1)Logistic回歸模型,建立模型時調用 R語言軟件的“nnet”包里的“multinom”函數,然后用建立的模型對預測集進預測。

(2)決策樹模型,建立模型時調用 R軟件的“rpart”包;通過設置復雜性參數CP值,對樹進行剪枝以確保其準確度,經過多次實驗,發現把復雜性參數CP值確定為0.014,模型準確率最高,然后用建立的模型對預測集進行預測。

(3)支持向量機模型,建立模型時調用R語言軟件的“e1071”包,建立支持向量機模型。模型的分類器有三種:C分類、nu分類、one分類;核函數一般有四種:線性核函數、多項式核函數、徑向基核函數、神經網絡核函數。為了選擇較好的模型,把三種分類器和四種核函數相結合,共12種組合,分別用訓練集建立模型,并檢驗模型的準確性。通過實驗得到最終正確率較高的模型為 nu分類器和徑向基核函數組合的支持向量機模型,然后用建立的模型對預測集進行預測。

(4)隨機森林模型,調用 R語言軟件的“randomForest”包,建立隨機森林模型。其重要的參數“mtry”是建立隨機森林模型時每次分支時所選擇變量的個數,選擇合適的“mtry”數量可以提高模型的準確率,通過多次實驗,我們確定最佳“mtry”數為15。參數“ntree”是建立模型時生成決策樹的數量,“ntree”參數設置較低時會使模型的錯誤率偏高,較高時會使模型復雜度變高,經過實驗發現當“ntree”大于500時,模型的錯誤率趨于穩定,因此我們把“ntree”設置為 500;然后用建立的模型對預測集進行預測。

4 結果與分析

5折交叉驗證法,10次實驗的平均結果如表 2所示。隨機森林的總體表現最好,與 Logistic回歸相比,其正確率高 1.7%,查準率高 3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。支持向量機在正確率、查準率、Press’Q 三個評價標準的值也好于Logistic回歸。

表2 各分類方法結果對比Tab.2 Th e results of the methods comparison

(1)正確率:圖1為四種分類方法正確率的箱線圖,可看出準確度最高的是隨機森林,然后依次是支持向量機,Logistic回歸和決策樹。隨機森林正確率結果比 Logistic回歸集中,說明隨機森林結果比較穩定。

圖1 正確率箱線圖Fig.1 The boxplot of accuracy

(2)查準率:圖2為四種分類方法查準率箱線圖,可以看出查準率最高的是隨機森林,然后依次是支持向量機、Logistic回歸和決策樹。

圖2 查準率箱線圖Fig.2 The boxplot of precision

(3)查全率:圖3為四種分類方法查全率箱線圖,可以看出查全率最高的是隨機森林,然后依次是Logistic回歸、支持向量機和決策樹。

(4)AUC:圖4為四種分類方法AUC的大小,可以看出 AUC最高的是隨機森林,然后依次是Logistic回歸、決策樹和支持向量機。

(5)Press’Q:圖 5為四種分類方法 Press’Q 的大小,可以看出準確度最高的是隨機森林,然后依次是支持向量機、Logistic回歸和決策樹。

圖3 查全率箱線圖Fig.3 The boxplot of recall

圖4 AUC 箱線圖Fig.4 The boxplot of AUC

綜上所述,四個分類模型的Press'Q檢驗結果的中位數均大于 3.84,表明所有分類方法都好于隨機結果。在各模型中隨機森林模型在正確率,查準率、查全率、AUC和Press'Q這5個評價標準中均表現最好;且隨機森林結果較Logistic回歸更為穩定。

5 結論

本文利用決策樹、支持向量機、隨機森林、Logistic回歸模型,對育齡婦女二孩生育意愿建模,并對二孩再生育意愿進行預測。結果表明隨機森林模型在5個分類評價標準的表現均好于學者廣泛應用的 Logistic回歸模型;支持向量機在準確率、查準率、Press’Q三個指標上也好于Logistic回歸模型,因此在研究育齡婦女二孩生育意愿時可以考慮隨機森林的方法進行建模,這種新方法和模型可為今后類似問題研究提供新的思路和嘗試。隨機森林對樣本量較大數據分類結果更好,而本研究的樣本量偏少,因此在實際研究工作中加大樣本量可提升預測的準確率。

[1] 賈志科. 20世紀50年代后我國居民生育意愿的變化[J]. 人口與經濟, 2009(4): 24-28.Jia Zhike. The Change of Chinese Inhabitants' Willing of Fertility in the 1950s[J]. Population and Economy, 2009;(4): 24-28.

[2] 孫奎立. 農村婦女生育意愿影響因素分析[J]. 人口學刊,2010, 2010(3): 20-24.Sun Kuili. An Analysis to the Factors Affecting the Fertility Desire of Rural Women. Journal of Population[J] , 2010;2010(3): 20-24.

[3] Breiman L, Friedman J H, Olshen R, et al. Classification and Regression Trees[J]. Biometrics, 2015, 40(3): 358.

[4] 李傅冬, 黃麗麗, 俞艷錦, 等. 決策樹結合Logistic回歸分析妊娠婦女選擇人工流產方式的影響因素[J]. 浙江預防醫學, 2015; (4): 328-333.Li Fudong, Huang Lili, Yu Yanjin, et al. Decision factors and logistic regression analysis of influencing factors of artificial abortion to pregnant women[J]. Zhejiang Preventive Medicine, 2015; (4): 328-333.

[5] 張琪, 周琳, 陳亮, 等. 決策樹模型用于結核病治療方案的分類和預判[J]. 中華疾病控制雜志, 2015; 19(5): 510- 513.Zhang Qi, Zhou Lin, Chen Liang, et al. The decision tree model used to classify and predict tuberculosis treatment programs[J]. Chinese Journal of Disease Control, 2015; 19(5):510-513.

[6] Cortes C, Vapnik V. Support-Vector Networks. Machine Learning, 1995; 20(3): 273-297.

[7] 李菲雅, 蔣若凡. 基于主成分和支持向量機模型在人口預測中的應用[J]. 西北人口, 2012; 33(1): 29-32.Li Feiya, Jiang Ruofan. Application of Principal Component and Support Vector Machine Model in Population Forecasting[J]. Northwest population, 2012; 33(1): 29-32.

[8] 袁勇, 王攀. 支持向量機在人口預測中的應用[J]. 計算機與數字工程, 2006; 34(5): 9-11.Application of Support Vector Machine in Population Forecasting[J]. Computer and Digital Engineering, 2006; 34(5):9-11.

[9] 傅文杰, 洪金益, 林明森. 基于光譜相似尺度的支持向量機遙感土地利用分類[J]. 遙感技術與應用, 2006; 21(1):25-30.Fu Wenjie, Hong Jinyi, Lin Mingsen. Remote sensing land use classification based on support vector machine[J]. Remote sensing technology and application, 2006; 21(1): 25-30.[10] Breiman L. Random Forests. Machine Learning, 2001, 45(1):5-32.

[11] 馬玥, 姜琦剛, 孟治國, 等. 基于隨機森林算法的農耕區土地利用分類研究[J]. 農業機械學報, 2016; 47(1):297-303.Ma Yue, Jiang Qi Gang, Meng Zhiguo, et al. Study on Land Use Classification of Farming Area Based on Random Forest Algorithm[J]. Journal of Agricultural Mechanics, 2016; 47(1):297-303.

[12] 李貞子, 張濤, 武曉巖, 等. 隨機森林回歸分析及在代謝調控關系研究中的應用[J]. 中國衛生統計, 2012; 29(2): 158-160.Li Zhenzi, Zhang Tao, Wu Xiaoyan, et al. Random Forest Regression Analysis and Its Application in the Study of Metabolic Regulation[J]. China Health Statistics, 2012; 29(2):158-160.

[13] Isabel S, Manuela G, Ana R, et al. Data mining methods in the prediction of Dementia[J]. Bmc Research Notes, 2011;4(1): 299-299.

[14] Hosmer D W J, Lemeshow S L. Applied Logistic Regression.Hoboken[J]. WILEY-INTERSCIENCE, 2000.

[15] Liaw A, Wiener M. Classification and Regression by randomForest[J]. R News, 2002, 23(23).

Prediction to the Second Childbearing Desire of Fertile Woman Based on Data Mining

LI Dong-ling
(Nanjing University of Posts and Telecommunications School of Economics, Nanjing 210046, P.R.China)

To discover the accuracy of the second childbearing desire of matured women based on the comparison between data mining methods and Logistic regression. Three classifiers derived from data mining methods (Support Vector Machines, Decision Tree and Random Forests) were compared to Logistic Regression in terms of overall classification accuracy, Precision, Recall, AUC and Press’Q. The results showed that the Press’ Q test showed that all classifiers performed better than chance alone(Press’Q >3.84). The Random Forests gained the best performance from the perspective of means, and the accuracy was 1.7% over Logistic regression, specificity 3.2%, sensitivity 0.2%, AUC 0.029 and Press’Q 1.7. The new methods and model this paper adapted would provide new perspectives for the following researches.

Data mining; Second childbearing desire; Modeling; Prediction

C924.24

A

10.3969/j.issn.1003-6970.2017.11.010

本文著錄格式:李冬領. 基于數據挖掘的育齡婦女二孩生育意愿預測[J]. 軟件,2017,38(11):55-59

江蘇省研究生培養創新工程項目“基于數據挖掘的江蘇省育齡婦女二孩生育意愿預測(SJLX16_0318)

李冬領(1988-),男,中級統計師,研究方向:信息統計與數據挖掘。

猜你喜歡
數據挖掘分類模型
一半模型
分類算一算
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产jizz| 亚洲视频黄| 免费人成又黄又爽的视频网站| 91青青视频| 天天躁狠狠躁| 日本一区二区不卡视频| 免费视频在线2021入口| 58av国产精品| 永久免费AⅤ无码网站在线观看| 真实国产乱子伦视频| 欧美激情视频二区三区| 18禁色诱爆乳网站| 国产激爽大片高清在线观看| 波多野结衣无码AV在线| 亚洲天堂在线免费| 19国产精品麻豆免费观看| 92午夜福利影院一区二区三区| 欧美亚洲中文精品三区| 青青国产视频| 国产办公室秘书无码精品| 亚洲国产精品日韩专区AV| 亚洲精品波多野结衣| 日韩黄色精品| 久久精品女人天堂aaa| 亚洲一本大道在线| 国产精品女同一区三区五区| 2021国产精品自产拍在线| www欧美在线观看| 狠狠做深爱婷婷综合一区| 福利小视频在线播放| 免费人成视网站在线不卡| 综合色在线| 一区二区欧美日韩高清免费| a级毛片视频免费观看| 国产主播福利在线观看| 亚洲天堂首页| 日本少妇又色又爽又高潮| 免费不卡在线观看av| 黄色污网站在线观看| 久久www视频| 国内精自视频品线一二区| 国内99精品激情视频精品| 国产一区二区三区在线精品专区| 成人亚洲天堂| 亚洲狼网站狼狼鲁亚洲下载| 国产麻豆精品久久一二三| 制服丝袜一区| 天天综合网色| 激情国产精品一区| 在线a网站| 国产亚洲精| 日本免费一级视频| 国产午夜福利亚洲第一| 久久青草精品一区二区三区 | 激情無極限的亚洲一区免费| 亚洲日韩精品伊甸| 99在线观看国产| 久久综合色天堂av| 国产极品嫩模在线观看91| 日韩久草视频| 国产精品无码一二三视频| 园内精品自拍视频在线播放| 国产亚洲一区二区三区在线| 国产丝袜无码精品| 日韩福利视频导航| 狠狠色丁婷婷综合久久| 丁香六月激情综合| 国产成人一区二区| 国产成人区在线观看视频| 亚洲AⅤ综合在线欧美一区 | 久久久噜噜噜| 久久天天躁狠狠躁夜夜2020一| 91丝袜乱伦| 国产真实乱人视频| 高清视频一区| 国产成人AV男人的天堂| av在线手机播放| 欧美三级日韩三级| 99ri精品视频在线观看播放| 国产精品久线在线观看| 亚洲精品国产成人7777| 国产精品香蕉在线|