999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在高職學生學業目標評價中的應用研究

2023-10-02 11:41:50周璇
電腦知識與技術 2023年24期
關鍵詞:學生

周璇

(天津商務職業學院,天津 300350)

0 引言

數據挖掘技術是一門在大數據背景下基于統計學、計算機科學和人工智能等多個領域生成的交叉學科,它從海量數據中篩選出有應用價值和研究價值的信息數據,深層次地分析多維度的信息數據的特點,揭示不同類別信息數據之間的內在關聯,從而為決策者提供決策支持。數據挖掘技術包括關聯規則挖掘、K-Means 聚類分析、貝葉斯分類分析、人工神經網絡分析、決策樹分類分析等[1]。決策樹算法作為當前應用最廣的數據挖掘算法之一,能夠對數據進行分類和預測,其中C4.5 算法理論清晰、方法簡單、學習能力強,是數據挖掘和機器學習領域中一個有效的數據處理工具[2]。

本文通過使用C4.5 決策樹算法對影響高職學生學業目標評價的各項因素及內在關聯進行數據挖掘與深入分析,提取分類規則并聯系教學管理工作實際提出建議,以期為開展高職學生的學業指導工作提供決策基礎和數據參考。

1 決策樹算法

決策樹算法是一種典型的分類方法,是一種類似于流程圖的樹狀結構,其中心思想是IF-THEN 的規則,用于數值型因變量的預測和離散型因變量的分類[3]。通過構造決策樹,可以發現數據當中蘊涵著的分類規則,它能夠表示人們為了做出某種決策而進行的一系列判斷過程,生成一套“在什么條件下會得到什么結果”的規則。

決策樹算法簡單直觀、易解釋,在實際應用中有著其他算法難以比肩的速度優勢。一般情況下,一棵決策樹包含一個根節點、若干個決策節點和若干個葉節點[4]:整棵決策樹最頂端的節點被稱為根節點,包含樣本全集;每個決策節點表示一種特征或屬性,包含數據集中滿足從根節點到該節點所有條件的數據的集合;每個葉節點代表一種可能的分類結果,如果數據被包含在該葉節點中,則屬于該類別。在沿著決策樹由上至下的遍歷過程中,每個節點都會遇到一個測試,每個節點對于問題的不同測試結果將導致不同的分支[5],最后到達一個葉節點,從根節點到每個葉結點的路徑對應一個判定測試序列,表現出的是一種映射關系。

2 決策樹的構造

構造一棵高精度、小規模、泛化性能好,能夠高效、有效處理未知數據的決策樹,通常有兩個過程:第一個過程是通過預處理劃分好的數據集構建決策樹,即生成決策樹;第二個過程是對構建的決策樹進行檢驗和校正,即決策樹剪枝。

2.1 生成決策樹

將原始數據作為訓練樣本數據集,根據決策的實際需要對樣本數據進行預處理,選擇最能夠體現樣本特殊性的屬性作為決策屬性,并確定每個樣本的決策屬性取值;對訓練樣本數據集進行處理,選擇影響決策屬性是何取值的最主要屬性作為根節點,根據根節點屬性的不同取值,將完整的訓練樣本數據集劃分為幾個不同的數據子集;分別對每一個數據子集進行處理,在當前數據子集中選擇對決策屬性是何取值影響最大的屬性作為一個決策節點,繼續對當前數據子集進行劃分,當某個數據子集中所有樣本的決策屬性取值都相同時則停止,并將該數據子集的決策屬性作為一個葉節點;重復上述步驟,形成若干個決策節點和若干個葉節點,從而生成一棵完整的決策樹。

2.2 決策樹剪枝

隨著決策樹深度的增加,模型的準確度將會得到顯著提升,但對于新的未知數據,決策樹會出現過分適應數據的情況。而且,由于數據中存在著噪聲和孤立點,許多分支反映的是訓練數據中的異常,將導致對新樣本數據的預測不準確的情況。為防止構建的決策樹出現過度擬合,需要對決策樹進行剪枝。

決策樹的剪枝方法一般有預剪枝和后剪枝。預剪枝(Pres-Pruning)是指對劃分前后的兩棵樹的泛化性能進行評估,根據評估結果決定該節點是否進行劃分,事先指定決策樹生長的最大深度,使很多節點沒有提前展開,降低了過擬合的風險,也減少了訓練決策樹花費的時間。后剪枝(Post-Pruning)是在構造完成一棵完整的決策樹后,從上至下計算每個節點的經驗熵,遞歸地從決策樹的葉節點進行回縮,通過計算與比較回縮前后的損失函數來判斷是否進行剪枝。后剪枝可進行局部剪枝,通常比預剪枝方法保留了更多的分支。在一般情況下,后剪枝決策樹欠擬合的風險很小,泛化性能優于預剪枝決策樹,但訓練時間會比預剪枝方法長。

3 決策樹算法C4.5

3.1 算法思想

20 世紀80 年代初期,機器學習研究人員昆蘭開發了決策樹迭代二叉樹3 代(Iterative Dichotomiser3,ID3)算法,使決策樹在機器學習領域得到極大發展,他后來又提出ID3 的改進——C4.5 算法,成為新的監督學習算法的性能比較基準。C4.5算法在沿用ID3算法的信息熵和信息增益兩種概念的基礎上,又加入分裂信息熵的概念,使用信息增益率作為屬性選擇度量,選取具有最高信息增益率的屬性作為每個節點的劃分標準,尋找最佳分組變量和分割點,然后重復這個過程,直到生成的決策樹能分類訓練樣本[6]。較ID3算法而言,C4.5算法能夠處理非離散數據或不完整數據,能夠應用于對新的未知類別的分類,提升了算法的有效性。

3.2 基本概念

1)信息熵

信息熵是對于數據集純度的描述指標,用來描述數據集信息量的大小,是所有樣本各種類別出現的不確定性之和。數據集的變量越不穩定,則信息量越大,信息熵值越高。數據集X={X1,X2,…,Xn}的信息熵Entropy(X)表示為:

其中,p(xi)表示數據為xi時的概率。

對于根據屬性A劃分的m個子集,各種類別出現的不確定性之和,即屬性A的信息熵Entropy(X,A)表示為:

其中,Xi表示根據屬性A劃分的數據集X的第i個子集;|X|和|Xi|分別表示數據集X和子集Xi中的樣本數目。

2)信息增益

信息增益是原本數據集的信息熵與劃分之后的新數據集的信息熵之間的差值,用來衡量信息熵的期望減小值,表示在使用某種屬性對樣本進行劃分之后,樣本各種類別出現的不確定性的減少程度。信息增益越大,則信息熵的期望減小值越大。使用屬性A對數據集X進行劃分獲得的信息增益Gain(A)表示為:

3)分裂信息

分裂信息用來將信息增益規范化[7],表示在使用某種屬性進行劃分時分支的數量信息和尺寸信息,通常將其稱為屬性的內在信息,類似于信息熵Entropy(X)。由數據集X劃分成的對應于屬性A輸出的m個子集產生的分裂信息熵SplitEntropy(X,A)表示為:

4)信息增益率

信息增益和分裂信息熵的比值就是信息增益率。C4.5 算法選擇具有最大信息增益率的屬性作為分裂屬性,將該屬性作為決策節點。屬性A的信息增益率GainRate(A)表示為:

4 C4.5在高職學生學業目標評價中的應用

4.1 確定研究對象與設計問卷

本文選定某高職院校大二年級學生作為研究對象,該年級的學生正面臨著升學或者就業的選擇,個體之間關于有無學業目標、是何學業目標等問題已經基本呈現出差異。

經過對學生的個人訪談可知,學生對自己學業目標的定位大致可分為參加升學考試、評選保送升學、專業就業、靈活就業、不升學不就業五種方向。本文將有升學和就業意愿的學業目標均評價為“明確”,將無升學和就業意愿的學業目標評價為“不明確”,選定自我效能水平、學業投入程度、時間管理傾向三個維度設計調查問卷(見表1),對學生的升學和就業意愿進行測量,以進行學生學業目標的評價。自我效能水平維度包含入學成績、現在班級排名、是否任學生干部、是否獲得獎學金、是否評得榮譽稱號五個方面,學業投入程度維度包含職業技能競賽獲獎情況、專業實踐活動參加情況、社團協會活動參加情況、專升本考試報名情況、職業資格考試報名情況五個方面,時間管理傾向維度則主要考量學生課余時間的分配情況。

表1 關于高職學生學業目標評價的調查問卷

4.2 數據采集與預處理

使用調查問卷共采集到80 份數據,從中篩選出73 份有效數據作為此次實驗的訓練數據集。在設計問卷時已對連續屬性字段進行了離散化處理,為了方便后續處理,對收集到的離散化數據進行重新定義。

在自我效能水平維度中:將入學成績400 分及以上定義為“高”,300 分至400 分定義為“中”,300 分及以下定義為“低”;將現在班級排名1~10 名定義為“優”,11~25名定義為“良”,26名及以后定義為“差”;在學業投入程度維度中:將職業技能競賽獲獎情況獲得市級及以上獎項定義為“優秀”,獲得校級獎項定義為“一般”,從不參加、未獲過獎定義為“無”;將專業實踐活動參加情況和社團協會活動參加情況兩個題目的三個選項均依次定義為“經常”“偶爾”“從不”;將專升本考試報名情況和職業資格考試報名情況兩個題目的兩個選項均分別定義為“是”和“否”;將時間管理傾向維度的課余時間分配情況題目的作答情況作為目標變量,使用“學業目標”標識,包含有備賽備考或是實踐實習任一選項的數據則表示有升學和就業意愿,定義為“明確”,否則定義為“不明確”。

為了簡化訓練數據表,將題目1~10 分別對應屬性1~10。經過預處理的訓練數據表(部分)和完整的訓練數據表中各屬性的數據量統計表分別見表2、表3。

表2 訓練數據表(部分)

表3 數據量統計表

4.3 創建決策樹

為了深入分析影響高職學生學業目標評價的各項因素及內在關聯,使用訓練數據集中的73條數據,生成一棵能夠預測高職學生學業目標是否明確的決策樹。

1)目標變量“學業目標”屬性有“明確”和“不明確”兩個取值,因此可將訓練數據集劃分為兩個類,類“明確”有56 個樣本,類“不明確”有17 個樣本。計算訓練數據集的信息熵:

2)計算各屬性的信息熵:

依次計算出屬性2 至屬性10 的信息熵分別為:0.749、0.753、0.761、0.774、0.711、0.759、0.639、0.669、0.745。

3)計算各屬性的信息增益:

依次計算出屬性2至屬性10的信息增益分別為:0.034、0.03、0.022、0.009、0.072、0.024、0.144、0.114、0.038。

4)計算各屬性的分裂信息熵:

依次計算出屬性2 至屬性10 的分裂信息熵分別為:1.474、0.847、0.806、0.914、1.355、1.387、1.461、0.939、0.914。

5)計算各屬性的信息增益率:

依次計算出屬性2 至屬性10 的信息增益率分別為:0.0231、0.0354、0.0272、0.0098、0.0531、0.0173、0.0985、0.1214、0.0416。

選取信息增益率最大的屬性作為分裂屬性,因此將屬性9“專升本考試報名情況”作為決策樹的根節點,用“升學考試”標識,并生成“是”和“否”兩個分支。使用同樣方法在每個分支上對其他屬性進行進一步的處理,最終選取屬性2、4、6、7、8、10作為決策樹的決策節點,依次用“班級排名”“獎學金”“競賽獲獎”“專業實踐”“社團協會”“職業證書”標識。根據各個屬性取值的不同生成若干個分支,當分支上目標變量取值完全相同時則生成葉節點。通過后剪枝的方法剪枝后,最終生成的決策樹如圖1所示。

圖1 高職學生學業目標評價決策樹

4.4 提取分類規則

從決策樹中可以提取出學業目標為“不明確”的分類規則如下:

IF“升學考試=是”AND“專業實踐=從不”AND“職業證書=是”AND“獎學金=否”AND“競賽獲獎=從不”THEN“學業目標=不明確”;

IF“升學考試=是”AND“專業實踐=從不”AND“職業證書=否”AND“班級排名=差”THEN“學業目標=不明確”;

IF“升學考試=否”AND“社團協會=偶爾”AND“專業實踐=偶爾”AND“競賽獲獎=無”AND“職業證書=否”THEN“學業目標=不明確”;

IF“升學考試=否”AND“社團協會=從不”THEN“學業目標=不明確”。

4.5 數據分析

從決策樹和上述分類規則可以看出:

1)影響高職學生學業目標評價是否明確的最主要因素是專升本考試報名情況,有意愿報名、參加專升本考試的學生普遍擁有著更明確的學業目標;

2)經常積極參與各項各類專業實踐活動、社團協會活動和職業技能競賽的學業投入意愿較強、程度較高的學生,普遍擁有著明確的學業目標;

3)不參加升學考試和職業證書考試,對各項各類專業實踐活動、社團協會活動和職業技能競賽均持中等意愿的學生,普遍擁有著不明確的學業目標;

4)參加升學考試或職業證書考試,但成績落后、未評得過獎學金、未獲得過競賽獎項等自我效能水平較低的學生,普遍擁有著不明確的學業目標。

因此,在高職學生的培養過程中,教育工作者應當首先注重加強學生對升學考試和專業相關職業資格證書的認識,可以開展學生間的學業經驗交流活動,同伴群體間的榜樣作用能夠幫助學生對學業目標產生更清晰的認知,其次要為學生創設更多參加專業實踐活動、社團協會活動和職業技能競賽的機會,讓學生在實際參與的過程中認識到個人興趣所在以及明確就業方向,提升學生學業投入程度的精度和深度,在經驗增長的過程中,促使學生的自我效能水平也得到相應提升。

5 結束語

本文以某高職院校大二年級學生作為研究對象,設計高職學生學業目標評價的調查問卷并進行數據收集,利用C4.5 決策樹算法進行數據挖掘,并對挖掘結果進行深入分析,認為影響高職學生學業目標評價是否明確的最主要因素是專升本考試報名情況,在進行高職學生的學業指導工作時,教育工作者應當注重為學生提供有關升學考試和職業資格證書的講解與經驗交流機會,積極組織開展更多專業實踐活動、社團協會活動和職業技能競賽,著眼于提升學生學業投入程度的精度和深度及其自我效能水平,引導學生在此過程中逐步明確其學業目標。

猜你喜歡
學生
快把我哥帶走
親愛的學生們,你們并沒有被奪走什么
英語文摘(2020年9期)2020-11-26 08:10:12
如何喚醒學生自信心
甘肅教育(2020年6期)2020-09-11 07:45:16
怎樣培養學生的自信
甘肅教育(2020年22期)2020-04-13 08:10:54
如何加強學生的養成教育
甘肅教育(2020年20期)2020-04-13 08:04:42
“學生提案”
當代陜西(2019年5期)2019-11-17 04:27:32
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
學生寫話
學生寫的話
主站蜘蛛池模板: 精品综合久久久久久97| 日本一区二区不卡视频| 亚洲第一成年网| 99精品视频九九精品| 精品欧美日韩国产日漫一区不卡| 国产欧美日韩18| 日韩a在线观看免费观看| 在线观看无码av免费不卡网站| 国产精品免费电影| 无码aⅴ精品一区二区三区| 91娇喘视频| 97一区二区在线播放| 亚洲欧美日韩天堂| 日本手机在线视频| 亚洲成网777777国产精品| 久操线在视频在线观看| 精品视频福利| 欧美日韩国产成人在线观看| 欧美亚洲中文精品三区| 国产喷水视频| 国产精品成人一区二区不卡 | 91小视频在线| 午夜高清国产拍精品| 91精品在线视频观看| 亚洲综合精品香蕉久久网| 久久亚洲中文字幕精品一区| 伊人色天堂| 国产sm重味一区二区三区| 一本二本三本不卡无码| 国产伦片中文免费观看| 欧美亚洲日韩不卡在线在线观看| 青青草综合网| 国产高清无码第一十页在线观看| 在线中文字幕日韩| 丰满人妻中出白浆| 视频一区视频二区日韩专区| 国产精彩视频在线观看| 一本久道热中字伊人| 国产精品自在在线午夜区app| 久久黄色一级视频| 国产在线小视频| 国产精品无码久久久久久| 爆乳熟妇一区二区三区| 亚洲成人播放| 老色鬼欧美精品| 一级在线毛片| 久久香蕉国产线看观看亚洲片| 国产人人干| 国产aaaaa一级毛片| 国产成人精品男人的天堂| 国产日韩欧美在线播放| 在线无码私拍| 夜夜操国产| 午夜精品久久久久久久2023| 精品无码专区亚洲| 亚洲国产精品日韩av专区| 亚洲成人精品在线| a亚洲天堂| 免费精品一区二区h| 欧美亚洲另类在线观看| 国产经典免费播放视频| 亚洲精品久综合蜜| 国产区精品高清在线观看| 欧美特黄一级大黄录像| 中文字幕不卡免费高清视频| 免费aa毛片| 亚洲天堂自拍| 亚洲日本一本dvd高清| 亚洲av色吊丝无码| a天堂视频在线| 國產尤物AV尤物在線觀看| 免费在线国产一区二区三区精品 | 日本欧美精品| 免费无码AV片在线观看国产| 一本大道香蕉中文日本不卡高清二区| 亚洲精品桃花岛av在线| 视频在线观看一区二区| 国产成人8x视频一区二区| 国产毛片高清一级国语 | 99热最新网址| 91精品免费高清在线| 国产白浆一区二区三区视频在线|