999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ID3算法在證券投資中的應用研究

2012-11-17 14:59:38徐晉輝
淮北職業技術學院學報 2012年2期
關鍵詞:數據挖掘誠信分類

徐晉輝,馮 菁

(淮北職業技術學院基礎部,安徽淮北 235000)

ID3算法在證券投資中的應用研究

徐晉輝,馮 菁

(淮北職業技術學院基礎部,安徽淮北 235000)

決策樹是數據挖掘中簡單常用的分類算法,它是一種以實例為基礎的歸納學習算法,來發現數據模式和規則[1,2]。根據ID3算法,對股指期貨自然人投資者數據樣本進行分析,獲得不同屬性上的信息增益,最后生成決策樹,可將此樹轉換成一個if-then規則的集合,并找到數據建模的規律和模式,提取有價值的信息,為證券公司擴展業務,增加客戶,規避風險做出科學的決策支持。

數據挖掘;教學質量評價;ID3算法;決策樹

1 引言

我國證券業經過二十多年的發展,已經成企業融資的重要渠道。各證券公司為了擴展業務,吸引客戶,紛紛采取各種措施,加強對客戶的管理。利用ID3算法來分析個人投資者相關資料,不僅簡單、快捷,而且可以有效地規避來自個人投資者財務狀況、誠信狀況方面的風險。

2 數據挖掘

2.1 數據挖掘(Data Mining)的定義

隨著計算機數據庫管理應用的普及和MIS的廣泛應用,對數據庫中記錄進行簡單查詢存取,已遠不能滿足應用,人們要從大量記錄信息中找尋出隱藏在背后的重要信息,如關于這些數據的整體特征描述及預測其發展趨勢[3]。

數據挖掘,簡單地說就是從大量的數據中挖掘出人們所需,有用的知識。在龐大的沒有進行過處理的數據中,提取隱藏在內的、人們沒有發現的、但又是潛在有用的信息和知識的過程[3,4,5,6]。人工智能領域稱為知識發現,而數據庫領域則稱為數據挖掘[3]。

2.2 決策樹方法

決策樹是數據挖掘中的一種分類算法,它是一種以實例為基礎的歸納學習算法[2],針對一些看似無序列,無規則,無關聯的數據集合,從中分析,獲取有價值的分類規則,并由決策樹直觀表示,樹中路徑則代表了一定的規則和結果。算法生成的決策樹中每個分支或路徑表示決策規則集合,這些規則是通過先前的大量數據集分類發現的規則,樹分支上的每個節點代表數據記錄上的某個屬性的取值,葉子結點代表一個類別。樹的每一個分支或路徑則代表了測試的一個結果。在建樹的過程中,需要使用剪枝來剪去數據中的噪聲和孤立點[7],從而提高在未知數據上分類的準確性。常用的決策樹算法有ID3、C4.5、CART[1,4,8]等。

3 ID3算法

樹的生成算法(ID3)

設S是s個數據樣本的集合,假定決策屬性,具有m個不同的值,即表示有m個不同類別Ci,(i={1,…,m}),si是類Ci中的樣本數。對一個樣本分類的期望信息可由下面公式1給出:

如果以屬性A作為決策樹的根,屬性A具有v個不同值{a1,a2,a3,…av},它將S分成v個子集{S1,S2,…Sv},其中Sj包含S中這樣一些樣本,它們在A上具有值aj。則這些子集對應于由包含集合S的節點生長出來的分枝。對于給定的子集Sj,有公式2:

熵值越小,子集劃分的純度越高。在屬性A上分枝將獲得的信息增益公式4:

ID3選擇Gain(A)最大的屬性A作為分枝屬性,各分支集合遞歸使用ID3方法再建立決策樹結點和分支[2,10],直到某一分支子集中的例子屬于同一類。這種方法使生成的決策樹平均深度最小,能夠較快生成一棵決策樹。

4 股指期貨的概念

股指期貨在2010年1月8日獲得國務院的審批。是一種以股票價格指數作為標的物的金融期貨合約。股指期貨是一種把股票與期貨兩種產品屬性結合在一起的新型投資產品。在國際市場上已經有20年的發展歷史。投資者不妨把它理解成股票指數的一種新的交易方式。中國股市一向只能做多,不能做空[11]。也就是說,我們只能巴望著股票上漲,才能賺錢。于是,漲的時候大家瘋買,跌的時候大家狂賣。而股指期貨呢,既能買空,也能賣空。簡而言之,如果預期未來價格下跌,將手中借來的股票按目前價格賣出,待行情跌后再按照合約價格買進,歸還給股票借出方。反之如果看漲,亦可以按照目前價格借入股票,等漲價了再賣出去,兩種方法都能賺取差價。

4.1 股指期貨自然人投資者綜合評價表

股指期貨投資設置了一個準入門檻,股指期貨比股票的風險還大。問題是得考慮自己是否輸得起,并且不存在嚴重不良誠信記錄。中金所(中國金融期貨交易所)推出的首只期指將是滬深300股指期貨,即選取滬深,規模大,流動性強的最具代表性的300只成份股作為編制對象。

各個證券公司為擴展業務,增加客戶,也要進行必需的綜合評價。

表中大致要求如下:綜合評估滿分為100分。

評估專員應堅持“客觀全面、審慎嚴謹、明確責任”的原則對每位投資者進行評估。認真填寫《股指期貨自然人投資者適當性綜合評估表》,不得為綜合評估得分在70分以下的投資者申請開立股指期貨交易編碼。

4.2 數據收集及預處理

4.2.1 數據收集

我們收集了五十條記錄,并按要求打好分數,給出評價結果,存放Access數據庫中。

為了把問題簡單化,把年齡學歷作為一個字段,還有投資經歷字段,財務狀況字段,誠信狀況字段,評價結果。

4.2.2 數據預處理

建立決策樹時考慮表中年齡學歷,投資經歷,財務狀況,誠信狀況等屬性(字段)對總體結果的影響,提取的五十條數據。在分析表中發現,表中數據有些是連續數值,不便于直接分類,首先將這些連續值進行“離散化”,

如年齡與學歷屬性,劃分兩個等級,高(>=10),低(<10分)。

投資經歷劃分兩個等級低(<=10),高(>10分)。

財務狀況分為低(分值<20),中(分值在20與40之間),高(50分)。

誠信狀況為良好(>=10),低(<10分)。

4.3 ID3算法實現

對所有屬性進行信息增益計算,先計算該樣本對于評價結果類別屬性的期望信息。

分析表中數據,其中結果為“是”,“否”人數各為26,24。則有:

I(26,24)=(26/50)*log2(26/50)0.99885

計算每個屬性的條件信息熵與信息增益。

財務狀況得分<20的客戶,是否人數分別為0,12,

財務狀況得分在20~40之間,是否人數分別為23,11

財務狀況得分在50的,是否人數分別為3,1。

H(財務狀況)=12/50*I(12,0)+34/50*I(23,11)+4/50*I(3,1)=0.6824648

同樣求出:H(學歷年齡)=0.9263218;H(投資經歷)=0.92366

H(誠信狀況)=0.90867。

它們的信息增益分別為:Gain(財務狀況)=0.3163852;Gain(投資經歷)=0.07519;

Gain(學歷年齡)=0.07253;Gain(誠信狀況)=0.090175。

因為財務狀況的信息增益最大,先按財務狀況進行分類。

如圖1:根結點

圖1 根結點

財務狀況為“低”中的例子屬同類“否”,得出此子樹已是葉子結點,不用在劃分。

以財務狀況為“中”,“高”這兩個分枝繼續ID3算法,計算年齡學歷屬性值為”>=10”,“<10”中,類別屬性為“是”,“否”的條件熵的計算。

I(23,8)=0.82381

I(3,0)=0,H(學歷年齡)=0.75112Gain(學歷年齡)=0.07269

投資狀況為高,低,類別屬性為“是”,“否”的條件熵的計算。

I(18,3)=0.59167

I(5,8)=0.96124,H(投資)=0.73297Gain(投資狀況)=0.09084

相對于誠信狀況屬性,I(23,9)=0.85715,I(0,2)=0

H(誠信狀況)=0.80673Gain(誠信狀況)=0.01708

對于每一棵子樹,按照以上方法進行遞歸計算,最后得出的決策樹如圖2所示。

圖2 最終生成決策樹

為了增加決策樹的可讀性及可理解性,需要對決策樹進行修剪。我們設計一個允許最大誤差率,得到一棵經過剪枝后的決策樹。

根據決策樹提取分類規則。這五十個樣本生成的分類規則如下:

1.If財務狀況得分為低then評價結果為否

2.If(財務狀況得分為高and誠信為良好)then評價結果為是

3.If(財務狀況得分為高and誠信為低)then評價結果為否

4.If(財務狀況得分為中and投資經歷為高and誠信為高)then評價結果為是

5.If(財務狀況得分為中and投資經歷為高and誠信為低)then評價結果為否

6.If(財務狀況得分為中and投資經歷為低and學年為低)then評價結果為否

7.If(財務狀況得分為中and投資經歷為高and學年為高and誠信為高)then評價結果為是

8.If(財務狀況得分為中and投資經歷為高and學年為高and誠信為低)then評價結果為否

5 結束語

證券公司要在激烈市場競爭中獲勝,充分占有市場。就要增加現有客戶滿意度,吸引潛在客戶,提高客戶交易水平。本文主要講述了決策樹在實際中的應用,根據申請表提供的樣本記錄,利用ID3算法,做了一個簡單的決策樹,并提取分類規則。證券公司分析決策時對數據的依賴性和敏感度越來越高,數據挖掘技術作為分析與輔助決策工具已越來越得到國內券商的重視。

[1]郭亮山.淺淡數據挖掘技術在公安領域中的應用[J].福建警察學院學報,2008(4):32-36.

[2]楊靜,張楠男,李建,劉延明,梁美紅.決策樹算法的研究與應用[J].計算機技術與發展,2010,20(2):114-116.

[3]張友生,徐峰.系統分析師技術指南[M].清華大學出版社,2004.9.

[4]邵峰晶,于忠清.數據挖掘原理與算法[M].中國水利水電出版社,2003.8.

[5]肖志明.決策樹算法在高校教學評價中的應用研究[J].廣西輕工業,2008,(11):164-167.

[6]覃寶靈.決策樹技術在教學質量評價中的應用研究[J].電腦知識與技術,2007,3(13):191-192.

[7]Han Jiawei,Micheline Kamber.Data Mining:Concepts and Technique(數據挖掘——概念與技術)[M].北京:高等教育出版社,2001.

[8]袁燕.決策樹算法在高校教學評價系統中的應用[J].浙江海洋學院學報,2006,25(4):440-444.

[9]李霞.ID3分類算法在銀行客戶流失中的應用研究[J].計算機技術與發展,2009(3):158-160.

[10]Quinlan J R.Induction of decision tress[J].Machine learning,1986,81-106.

F833/837TP301.6

A

1671-8275(2012)02-0060-03

2012-01-30

徐晉輝(1973-),女,安徽淮北人,淮北職業技術學院基礎部實驗師。

何玉付

猜你喜歡
數據挖掘誠信分類
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
美好生活離不開誠信
中國鹽業(2018年20期)2019-01-14 01:18:44
我們和誠信在一起
少先隊活動(2018年5期)2018-12-01 05:24:37
數據分析中的分類討論
教你一招:數的分類
那一次,我把誠信丟了
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
Application of the Good Faith Principle to the SCS Arbitration Initiated by the Philippines Against China
主站蜘蛛池模板: 色天天综合久久久久综合片| 国产成人av一区二区三区| 亚洲欧美一区在线| 婷婷综合色| 五月天香蕉视频国产亚| 青青草欧美| 亚洲日韩精品综合在线一区二区| 免费观看精品视频999| 亚洲天堂自拍| 中文无码日韩精品| 制服丝袜在线视频香蕉| 免费一级α片在线观看| 国产一区二区三区在线无码| 久草青青在线视频| 久久精品欧美一区二区| 欧美中文字幕无线码视频| 日韩精品亚洲精品第一页| 人妻无码中文字幕一区二区三区| 国产精品成人AⅤ在线一二三四| 亚洲成A人V欧美综合天堂| 福利姬国产精品一区在线| 国产特级毛片| 色噜噜狠狠狠综合曰曰曰| 日本成人在线不卡视频| 国产精欧美一区二区三区| 精品剧情v国产在线观看| 欧美亚洲国产日韩电影在线| 孕妇高潮太爽了在线观看免费| 九色在线观看视频| 日本亚洲成高清一区二区三区| 国产福利免费视频| 亚洲Av激情网五月天| 一级毛片在线免费视频| 91一级片| 国产jizzjizz视频| 中文字幕久久波多野结衣| 亚洲精品国产精品乱码不卞 | 亚洲性影院| 四虎成人精品在永久免费| 精品久久国产综合精麻豆| 亚洲最黄视频| 亚洲浓毛av| 性69交片免费看| 91福利在线看| 国产裸舞福利在线视频合集| 国产成人亚洲毛片| 97久久精品人人| 超清无码一区二区三区| 国产迷奸在线看| 欧美午夜理伦三级在线观看| 97国产精品视频自在拍| 网友自拍视频精品区| www.99精品视频在线播放| 精品精品国产高清A毛片| 亚洲熟女中文字幕男人总站| 亚洲九九视频| 色九九视频| 19国产精品麻豆免费观看| 亚洲无码高清免费视频亚洲| 久久91精品牛牛| 99尹人香蕉国产免费天天拍| 国产日韩欧美中文| JIZZ亚洲国产| 国产亚洲精品自在线| 一本大道香蕉久中文在线播放 | 亚洲一区二区三区麻豆| 最新日韩AV网址在线观看| 国产在线精品99一区不卡| 婷婷色婷婷| 国产一在线观看| 日韩天堂视频| 亚洲不卡无码av中文字幕| 天天婬欲婬香婬色婬视频播放| 亚洲国产精品日韩av专区| 亚洲免费三区| 亚洲欧美不卡| 婷婷丁香在线观看| 无码在线激情片| 精品无码人妻一区二区| 亚洲欧美日韩中文字幕在线| 国产亚洲欧美在线专区| 无码国产偷倩在线播放老年人 |