基于決策樹算法的文科類科研人員數學知識模型需求研究

2023-02-01 13:45:04吳俊杰

經濟師 2023年1期

●吳俊杰

一、引言

現代科學一體化的趨勢使得數學知識模型應用的領域更加廣泛，數學知識模型不僅是處理自然科學的重要手段，也成為了文科類科研人員學習、科研中普遍需要的方法，其在處理文科類問題中已經得到了充分的運用。如查志杰等[1]根據現有具備一定代表性的教學質量評價指標，運用“遺傳算法優化后的BP神經網絡”建立了考察教學質量的綜合評價模型對教學質量進行綜合評估和排名，這一研究有助于教育工作者的反思和總結；杜德斌等[2]在研究法學中“城市犯罪的空間分布和過程”這一問題時，用數學中動態規劃的方法建立了區位選擇的微觀模型來模擬罪犯在城市內選擇犯罪區位的規律，這一方法的應用將極大提升對“不同區域犯罪”的針對性打擊力度。續建宜等[3]在《歷史研究中的數學方法——數量史學評介》中提出數學知識模型與歷史學的結合越來越緊密，“數量史學”這門新學科的興起正是兩者結合的一個重要產物，該學科中一個重要部分就是制作各種數理模型來促進對歷史現象與過程的數量化研究。而作為人工智能算法之一的決策樹算法在文科類中的運用也愈加廣泛。CART決策樹算法是Breiman[4]于1984年提出的一種構建決策樹的方法，該算法采用基尼分割系數作為屬性選擇的判別度量。易俗等[5]運用CART決策樹算法構建了高校教師亞健康決策模型，有利于客觀高效地對教師亞健康程度進行評估。藍傳锜等[6]首次把CART決策樹算法應用在關鍵詞抽取工作中，對網絡新聞的數據信息進行了有效提取和開發。這些相關文獻中對文科類科研人員數學知識模型需求的探究較少，而本文主要通過CART決策樹算法探究了主修專業、科研所在城市、對數學量化方法普及性認可度等差異下的文科類科研人員對數學知識模型的個性化需求情況，并結合已有數據對文科類科研人員從“提供數學知識模型的科研輔助網站”中獲益程度的期望進行了分析，綜合上述結果為未來數學知識模型如何更好的輔助文科類科研人員提出了展望。

二、CART決策樹算法

（一）CART決策樹算法步驟

CART決策樹算法是一種常用的非參數分類和回歸方法，本文主要運用其中的分類方法，以下將介紹該方法中的選擇特征、遞歸、剪枝三個重要步驟[7]。

1.選擇特征。本文中所用的CART決策樹使用基尼分割系數作為劃分屬性的判據,基尼分割系數數值越低則不純度越低，特征越好，屬性劃分越有效。若整個訓練樣本集共包含n個屬性，則基尼系數可以定義如下[5]：

其中Pt為決策屬性值t在訓練樣本DX中的相對概率，如果集合DX中共有x條訓練數據，在給定條件下分成DX1和DX2兩部分，數據條數分別為x1和x2，則基尼分割系數可以表述如下[5]：

其中C為本文定義的擾動常量。一般地，我們可以寫出其通項表達式：

2.遞歸。在CART決策樹算法的遞歸過程中需要將輸入設置為訓練集、基尼分割系數的閾值和切分的最少樣本個數閾值；將輸出設置為分類樹。本文所進行的兩個板塊分析，算法分別從根節點“您在文科類科研、學習過程中對數學知識、模型需求量大嗎”、“如果有這樣一個能夠將數學知識、方法、模型按照文科類科研、學習需求板塊化分類的網站，您認為這樣的網站能多大程度提高您的科研、學習效率？”開始，用訓練集遞歸建立CART分類樹。

3.剪枝。在運用CART決策樹算法構建決策樹的過程中，容易出現由于節點劃分太細而產生過擬合的情況。當遇到此種情況時，可通過剪枝解決。本文在構建決策樹過程中主要采用了“后剪枝”的方法進行修剪使得“文科類科研人員對數學知識模型需求”與“從網站中獲益提高科研學習效率”相關參量能夠得到有效利用的同時又不至于信息冗雜。

（二）CART決策樹算法特點

決策樹(decision tree)算法是一種基于樹結構來進行決策的算法，典型決策樹算法有ID3、C4．5和CART算法，本文所使用的CART算法采用基尼系數替代熵模型作為劃分子樹的依據，使得整體運算量較低，極大地提高了運算效率。同時該算法將多叉樹改為二叉樹（如本文所構建第一個二叉樹的分類變量為“您所在的主修專業或科研方向”），因此，其對于子樹拆分的次數沒有限制。另外，值得提出的一點是，在CART算法之中所提取的特征可以重復使用，這一點使得該算法對于信息的利用率更高。CART決策樹算法包含分類決策樹和回歸決策樹，本文主要應用其中的分類決策樹進行文科類科研人員對數學知識模型的需求分析，并進一步對他們從“提供數學知識模型幫助的網站中獲益程度的期望”進行探究。

三、基于決策樹算法的分析

（一）不同類型文科類科研人員對數學知識模型的需求情況決策樹結果及解讀

基于對“文科類科研人員的數學知識模型需求”這一主題進行探究的目的，我們展開了抽樣調查。本次抽樣調查采用多階段抽樣方法、PPS抽樣、分層隨機抽樣和系統抽樣相結合的概率抽樣調查方式，對不同層次城市的文科類科研人員進行抽樣調查，調查為期16天，采用線上線下調研相結合的模式共發放問卷1164份，其中806份來自線下調研，其中358份來自網絡調查。通過對無效問卷的剔除，最終回收有效問卷1001份，總有效回收率為86.0%，問卷回收的具體情況如表1所示。

表1 問卷回收統計表

我們以有效問卷中的“文科類科研人員在文科類科研、學習過程中對數學相關知識、模型需求情況”內容為核心進行探究，可以直觀觀察到僅有13%的文科科研人員對數學知識模型的需求量較小或幾乎不需要；而13%的受調查者表示對數學模型的需求一般；74%的受調查者對數學模型的需求量較大或很大。這表明大部分文科科研工作者在學習科研中存在對數學知識模型的依賴，但他們自身又缺乏相關的知識結構和獲取途徑。因此，對數學知識、模型進行系統整理和分類，將簡化后實用易懂的數學知識模型提供給文科類科研人員這一嘗試很有必要，且能夠很大程度地提高文科類科研人員的工作效率。

我們對抽樣所得到的數據進行預處理剔除無效數據后，基于不同類型文科類科研人員的情況構建了CART決策樹探究了其對數學知識模型的需求。針對這一問題的決策樹共有四層，根節點共包含866個樣本，其中傾向類別1（幾乎不需要數學知識模型）的有110人，傾向類別2（需求量一般）的有317人，而傾向類別3～5（有較大或很大需求量的）有439人，分別占比12.7%、36.6%、50.7%，這一數據表明有很大一部分文科類科研人員在進行學術科研和工作的過程中都需要數學知識模型的輔助，因此，對數學知識模型進行整理、分類和簡化處理這一嘗試具有很大的發展前景。在選擇的變量里，決策樹的第一最佳分組變量為“您所在的主修專業或科研方向”，并以此形成二叉樹，最終得出結論和建議如下：

選擇主修專業或科研方向為文學、管理類、教育學、法學、哲學（編號為6.0、8.0、3.0、5.0、1.0）的占比97.0%，作為重點探究對象，下一級分組變量是從事學術科研所在的城市，選擇三線城市和其他（編號分別為4.0、5.0）的占總比重的70.2%，這可能是由于三線城市和其他層次城市科研壓力相對較小所導致的。而選擇二線城市、新一線城市、一線城市的占總比重的26.8%，這部分文科類科研人員在下一級分組變量——“您認為數學量化的方法已經是人文科研中普遍需要的方法了嗎”的選擇中差異化較明顯（選擇“不是”或“不清楚”的占總比重的20%，選擇“是”的占總比重的6.8%），而在選擇“是”的科研人員當中選擇“對數學知識模型需求量較大”的占比最高，可以看出這類人群在學術科研中所需要數學知識模型支撐較多，且對數學量化的方法在文科科研的廣泛應用持肯定態度。而選擇“不是”或“不清楚”的文科類科研人員多從事教育學或文學相關工作，且選擇對數學知識、模型需求量較少的占大多數。對于這類人群我們可以對他們進行數學知識模型成功輔助文科類科研案例的宣傳，并針對他們的理解能力提供相應的數學知識、模型支撐。

重新聚焦第二級分組變量，選擇三線城市和其他層次城市的文科類科研人員在“所在的專業或科研方向”上選擇差異較大，其中從事文學或管理類學術科研的人員占總比例的56.9%，值得重點關注。這部分文科類科研人員在下一級分組變量——“您認為數學量化的方法已經是人文科研中普遍需要的方法了嗎”的選擇中差異較明顯（選擇不清楚”的占總比重的24.7%），這類科研人員對數學量化方法的應用廣泛程度不太清晰，可能是由于他們在平時的學習科研中對數學量化方法的應用信息接觸較少所導致的。當然，從決策樹數據不難看出這類人群對數學知識模型的需求也相對較低。而從事哲學、教育學、法學的科研人員對數學量化的方法在文科類科研的廣泛應用持肯定態度，且其中從事哲學、法學的科研人員選擇對數學知識模型需求量為較高及以上的達到55.9%，對于這類人群我們應當在未來多提供相關數學知識模型的幫助，也可以為他們建立滿足個性化需求的數學知識模型簡化版輔助網站。

根據對決策樹數據中根節點和葉子節點信息的綜合分析，我們不難發現文科類科研人員對于數學知識模型是有一定需求量的，且他們也希望能夠有一些輔助類網站或者其它輔助方案為他們提供滿足個性化需求的數學知識模型。綜上所述，未來的文科類學術科研將進一步融合數學理論方法，進一步提升其工作的創新性。

（二）文科類科研人員對提供數學知識模型幫助網站的受益程度期望認知情況

我們以有效問卷中的“文科類科研人員對提供數學知識模型幫助的網站的受益認知期望情況”內容為核心進行探究，發現僅有8%的文科類科研人員認為從提供數學知識、模型的網站中獲益較小，而有超過60%的受調查者認為從此類網站受益較大或對此種輔助類網站對其非常有幫助。可見針對他們的個性化需求搭建和完善提供數學知識、模型的輔助類網站是一個有較廣闊前景的研究方向。

在此分析基礎上，本文進一步構建了CART決策樹探究了文科類科研人員對提供數學知識模型幫助的網站的獲益程度期望，此決策樹一共有四層，根節點共包含784個樣本，其中傾向類別1（受益程度較小）的有67人，傾向類別2（受益程度一般）的有242人，而傾向類別3和4（受益程度較大及以上）有475人，分別占比10.3%、30.2%、59.5%，表明有很大一部分文科類科研人員對提供數學知識模型幫助網站的受益程度較高，也說明對數學知識模型進行分類和簡化處理后并發布到網站上這一嘗試受到很大認可。在選擇的變量里，決策樹的第一最佳分組變量為“您認為數學量化的方法已經是人文科研中普遍需要的方法了嗎”，并以此形成二叉樹，最終得出結論和建議如下：

對第一級分組變量所對應的問題持“不清楚”態度的占比37.9%，在這類人群中以在“新一線城市”“二線城市”“三線城市”中從事學術科研的居多，占總比例的28.8%。而對于第一級分組變量所對應問題持清晰態度“是”或“不是”的占比62.1%，其所對應的第二級分組變量“您所在的主修專業或科研方向”選擇差異性較大，其中選擇“經濟學”“管理學”的具有較高的一致性，占總比例的12.2%，對于這類人群，其對應的下一級分類變量為“您從事文科類學術科研所在的城市”，在這一級分類下，在“三線城市”從事學術科研的科研人員較多，且這類人群對提供數學知識模型幫助網站的受益程度期望較高及以上達到50%，由此可見，我們可以針對該類主要位于三線城市人群進行“經濟學”“管理學”所涉及的數學知識模型運用引導，盡可能給他們提供一些去一線城市交流學習的機會，并針對他們的個性化需求不斷完善現有輔助網站或努力打造更加智能化的輔助網站。

進一步分析發現，選擇“哲學”“教育學”“法學”“文學”的科研人員具有較高的一致性，占總比例的49.9%，對于這類人群，在“一線城市”“二線城市”“三線城市”從事學術科研的人群后續信息具有較高的一致性，占總比例的27.8%，選擇“新一線城市”“其他層次城市”的人群后續信息具有較高的一致性，且這一分類下對應的下一級分類變量“您所在的主修專業或科研方向”特征上具有差異性，其中選擇“教育學”和“文學”的人員比例較高，這類人群中對提供數學知識模型幫助網站的受益程度期望較高及以上達到57.2%。由此可見，對于該類人群我們可以進行其所涉及的數學知識模型運用引導，同時基于在不同城市從事學術科研人群的需求進行數學知識模型的普及和輔助網站的更新。

大多數的文科類科研人員認可數學知識模型對于其所從事的科研發展具有重要意義，但他們自身對數學知識模型的需求存在差異，主要是由工作地為不同層次城市以及從事的文科科研方向不同所導致的差異。因此，根據不同類型科研人員的差異化需求整理出針對他們需求的簡化版本數學知識模型并在輔助類網站中進行展示是很有意義的一項工作。

（三）結論

首先，在學科融合、學科交叉的時代背景下，數學與文科實現進一步的交流融合是歷史發展的潮流，對于文科進一步的研究提供數學模型是推動兩者交融發展的重要一步。其次，文科科研需要注入新活力，在數字信息時代，大多數的文科科研人員以及相關學生對于數學知識具有需求。最后，面對社會文科發展的差異性，區別具體化信息服務尤為重要，搭建平臺提供數學模型，滿足各個層面各個階段文科研究具有現實意義。

四、結語

基于學科交叉應用逐漸加強，文科類科研人員存在對數學知識、模型需求的現狀，本文通過CART決策樹算法分析了不同類型、不同需求文科類科研人員對數學量化方法影響度及數學知識模型的需求，并結合調研數據進行了文科類科研人員對提供整理封裝好的數學知識模型的輔助類網站的獲益程度分析，綜合上述結果為未來數學知識模型如何更好地為文科類科研人員提供幫助提出了建議。