[沈金榕 周楊景]
基于決策樹和逐步回歸的大數據研究
[沈金榕 周楊景]
針對大數據中自變量極多而導致的計算復雜,獲取的自變量對因變量不顯著等問題,提出了基于決策樹的逐步回歸解決方法??偨Y了其優點和局限性。
逐步回歸 決策樹 F檢驗 ID3算法
沈金榕
就職于中國電信廣東研究院市場運營研究所,長期從事客戶研究、移動互聯網消費行為跟蹤研究等方面工作。
周楊景
廣東工業大學信息工程學院,碩士研究生,主要研究方向為數據庫技術研究。中國電信廣東研究院市場運營研究所專家,長期深耕客戶研究、市場研究領域。
我們生活在互聯網時代,各行各業每時每刻都會產生大量的數據,這些數據表面上看都是毫無關聯、雜亂無章的數據,但是數據的背后卻隱藏著我們想不到的有用信息,面對著大量的數據,如何有效利用和處理這些數據,讓數據為我們所用成為世界共同關系的問題。逐步回歸法和決策樹是目前在處理數據上用的比較多的方法。逐步回歸法的基本思想是剔除對因變量不起作用或作用很小的因子,挑選出顯著性因子,從而得到最優的回歸模型。決策樹的基本思想是利用樹的結構對數據進行分類,采用自頂向下的方式,從樹的根節點開始,對每一個葉節點進行屬性值的測試比較,然后按照給定實例的屬性值確定對應的分枝,最后在決策樹的葉子節點得到結論。其中這個過程在以新的節點為根的子樹上重復[2]?!?br>