陳磊



摘要:數據挖掘過程中的數據預處理是一項很重要的工作。分析了現有分類算法J48直接處理原始期貨數據時出現的分類準確率和預測準確率低等弊端。針對期貨數據的連續性和時序性特征,在Weka數據挖掘平臺下,提出一種面向期貨數據的連續屬性劃分策略,其主要思想是對連續屬性采用不同的分段標識方法,從中找出一種最適合期貨數據特征的劃分機制,進而在有效降低數據過度擬合的前提下,較大提高J48算法的分類準確率和預測準確率。
關鍵詞:Weka;期貨;J48 數據挖掘;數據預處理;連續屬性劃分
DOIDOI:10.11907/rjdk.161196
中圖分類號:TP391文獻標識碼:A文章編號:1672-7800(2016)006-0173-03
參考文獻:
[1]IAN H WITTEN,EIBE FRANK,MARK A HALL.Data mining practical machine learning tools and techniques[M].ELSEVIER,2010.
[2]IAN H WITTEN,EIBE FRANK,MARK A.數據挖掘:實用機器學習工具與技術[M].李川,譯.北京:機械工業出版社,2014.
[3]袁梅宇.數據挖掘與機器學習——Weka應用技術與實踐[M].北京:清華大學出版社,2014.
[4]JIAWEI HAN,KAMBER M.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2004.
[5]DAI W,JI W.A MspReduce implementattion of C4.5 decison tree algorithm[J].International Journal of Database Theory and Application,2014,7(1):49-60.
[6]QUINLAN J R.C4.5:programs for machine learning[M].Burlington:Morgan Kaufmann Publishers,1993:17-42.
[7]ABELLAN J,MORAL S.Building classification trees using the total uncertainly criterion[J].Journal of the Royal Statistical Society,Series B:Methodological,1996,58(1):3-57.
[8]HETTICH S,BAY S D.The UCI KDD archive[EB/OL].http://kdd.ics.uic.edu/.
[9]QUINLAN J R.Induction of decision tree[J].Machine learning,1986(1):81-106.
[10]楊學兵,張俊.決策樹算法及其核心技術[J].計算機技術與發展,2007,17(1):44-46.
[11]孫超利.基于決策樹的數據流挖掘算法的研究[J].太原科技大學學報,2006,27(4):269-270.
[12]Jsp中一些數據類型的轉換[EB/OL].http://blog.csdn.net/xuxurui007/article/details/18045943,2015,10.
[13]陳愛萍,范媛媛.一種連續屬性值域劃分的離散化方法[J].計算機應用研究,2012(5):154-158.
[14]TSAI C J,LEE C I,YANG WEI-PANG.A discretization algorithm based on class-attribute contingency coefficient[J].Information Sciences,2008,178(3):714-731.
[15]MEHMED KANTARDZIC.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社,2003.
[16]蔣帥.K-均值聚類算法研究[D].西安:陜西師范大學,2010.
[17]新浪財經——期貨[EB/OL].http://finance.sina.com.cn/futuremarket/,2015,10.