





摘" 要:信息化時代為人類提供十分豐富的數據信息,以供人們在生產和生活中加以選擇和使用。但是海量數據導致挖掘過程困難,耗費更多的時間、導致工作效率下降。為此,該文在傳統決策樹模型數據挖掘方法的基礎上,將信息熵判斷屬性差異改進為利用信息熵增減偏差來判斷屬性差異。這種處理只保留和目標屬性同向變化的屬性,減少無效屬性的參與。以客運飛機數據集合為對象展開挖掘實驗,同時使用飛行記錄情況、引擎情況和載客容量類別等屬性。實驗結果表明,與傳統決策樹模型數據挖掘算法相比,用該文提出的方法來構建的決策樹更加精簡,挖掘效率更高,執行速度更快。
關鍵詞:數據挖掘;決策樹;偏差控制;客運飛機;多屬性決策
中圖分類號:TP311" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2023)12-0063-04
Abstract: The information age provides human beings with a wealth of data and information for people to choose and use in production and life. However, the huge amount of data leads to the difficulty of the mining process, consumes more time and leads to the decline of work efficiency. Thus, based on the traditional data mining method of decision tree model, this paper improves the information entropy to judge the attribute difference using the increase and decrease of information entropy. This processing only retains attributes that change in the same direction as the target attribute, reducing the participation of invalid attributes. The data set of passenger aircraft is taken as the object to carry out mining experiments. At the same time, attributes such as flight records, engine conditions and passenger capacity categories are used. The experimental results show that, compared with the traditional decision tree model data mining algorithm, the decision tree constructed by the method proposed in this paper is more concise, more efficient and faster.
Keywords: data mining; decision tree; deviation control; passenger aircraft; multi-attribute decision-making
隨著信息化的不斷發展和延伸,人類社會進入了大數據時代。在大數據時代里,人們每天要面臨超大規模的信息。海量的信息一方面給人們的生產活動和生活方式帶來了更多可供選擇的機會,但另一方面也加大了人們整理信息、提取有用信息的難度,這就推動了大數據挖掘技術的出現和快速發展[1]。在大數據挖掘領域中,很多分類模型被應用于其中,如貝葉斯模型、支持向量機模型、神經網絡模型和決策樹模型等[2]。決策樹模型根據數據挖掘的目標設定決策目標,根據數據屬性集合進行分類篩選,從而構建出層層關聯、節節遞進的決策樹,直到挖掘出最符合要求的目標數據,從而完成數據挖掘任務[3]。基于決策樹模型的數據挖掘方法得到了廣泛的應用,但大數據集合中的無效屬性更多,給其進一步的應用帶來了困難。為此,本文在決策樹模型的數據挖掘方法的基礎上進行改進,提出一種基于屬性偏差控制的新方法,以期滿足大數據挖掘工作的需要。
1" 基于決策樹模型的數據挖掘
基于決策樹模型的數據挖掘方法,首先根據數據挖掘目標制定算法的決策目標,根據目標屬性制定挖掘過程中的關聯屬性集合。關聯屬性的選擇,在相當大的程度上影響著決策樹模型大數據挖掘方法的效果。如果關聯屬性選擇準確,就可以避免無效屬性的干擾,精簡關聯屬性集合的構成。這不僅有利于提升大數據挖掘過程的效率,也有利于提高大數據挖掘結果的準確性。
但是,在傳統決策樹模型理論體系之下,選擇最為合適、最為精簡的關聯屬性集合是一個NP(Non-deterministic Polynomial)難問題。因為 NP難問題難于求解,傳統決策樹模型只能依靠啟發式策略獲得關聯屬性的解集合。這樣的處理不僅導致了決策樹模型挖掘復雜度的增大,也導致了更多無效屬性納入關聯屬性集合。因此,只有對這一問題進行有效處理,才能提升決策樹模型大數據挖掘算法的性能。
傳統決策樹模型的數據過程依托了信息熵理論,信息熵理論的核心處理如公式(1)所示
F(d1,d2,…,dn)=- pilog2(pi)," " " "(1)
式中:與數據挖掘目標關聯的屬性為n個,這些關聯屬性分別用d1,d2,…,dn來表示;pi表示了第i種屬性在整個關聯屬性集合中發揮關鍵作用的概率。
基于信息熵理論的決策樹模型的整體運算量,與關聯屬性的個數密切相關。如果關聯屬性過多,那么整個挖掘過程的計算成本就會相當高,數據挖掘所花費的時間也會非常多。
2" 基于屬性偏差控制的大數據挖掘方法
在決策樹模型的發展過程中,第三代決策樹是依托信息熵來構建關聯屬性集合的,這種方法一般會將更多的屬性納入關聯屬性集合,從而導致關聯屬性集合變大、挖掘效率變差。到了第五代決策樹,采用信息熵增減的偏差來構建關聯屬性集合,這種方法會精簡掉一些不符合的無效屬性,使得關聯屬性集合得到一定程度的精簡。
本文在第五代決策樹模型的基礎上,除了通過信息熵增減的偏差來構建關聯屬性集合外,還充分考慮信息熵偏差的變化方向與挖掘目標的一致性,那些信息熵偏差變化方向與挖掘目標一致的屬性才會納入關聯屬性集合,從而可以保障關聯屬性集合得到進一步精簡。一方面,用信息熵增減偏差代替信息熵構建關聯屬性集合,本身就可以節約計算資源、提升算法的總體效率。另一方面,通過屬性偏差控制策略,可以選取出更為準確的關聯屬性集合,從而可以進一步提升數據挖掘效率。可見,本文這種處理策略,同時滿足了準確率和執行效率的需求。
在大數據挖掘關聯屬性集合構建的過程中,屬性的信息熵增減的計算如公式(2)所示
G(S)=F(P,N)-E(S)," " " " " " "(2)
式中:參數G表示數據屬性的信息熵增減程度;參數S表示數據屬性;參數E表示數據屬性關聯的信息熵;參數P表示數據挖掘過程中的正例集合;參數N表示數據挖掘過程中的反例集合。
數據屬性的信息熵的計算,如公式(3)所示
E(S) F(pi,ni)," " " (3)
式中:參數pi表示數據挖掘過程中的第i個正例;參數ni表示數據挖掘過程中的第i個反例。
上述公式中,F(pi,ni)的計算如公式(4)所示
。(4)
聯立上述2個公式,并通過進一步化簡處理,得到如公式(5)所示的表達
。 (5)
在數據挖掘的實際操作過程中,一般正例集合P和反例集合N都先根據挖掘目標設定,所以2個集合的界線是明確的。據此,可以得知 整體為常數。
在上述推導過程之下,進一步采用泰勒公式和麥克勞林公式,設定條件為參數x趨向于0,此時對數表達ln(1+x)的結果約為x。根據這樣的條件,就有了如下的2個結果
(6)
(7)
到這里,公式(5)得到了進一步簡化,其求解過程變成更為容易解算的形式,如公式(8)所示
(8)
經過前述的一系列處理,可以看到經過本文的屬性偏差控制,基于第五代決策樹模型的大數據挖掘過程中,最重要的信息熵的計算過程變得非常簡單,從原有的概率、乘法運算,變成了多級求和的加法運算。這對于計算機硬件而言,也大大減少了寄存器的使用。不僅如此,按照上述處理可以得到更加精簡的關聯屬性集合,數據挖掘的過程會變得更加高效,數據挖掘結果也會變得更加精準。
3" 大數據挖掘實驗結果與分析
本文在基于決策樹模型的數據挖掘算法基礎上,進行了屬性偏差的改進處理,構建了一種新的適用于大數據挖掘的新算法。為了驗證這種方法的有效性,接下來展開實驗研究。
實驗過程中,以計算機作為數據挖掘的算法執行設備,其CPU為AMD雙核處理器,單核主頻為3.0 GHz,內存大小為32 GB,用于數據存儲的硬盤大小為1 TB。從軟件情況來看,實驗中所用的計算機操作系統為Windows10系統。實驗數據采集、存儲、挖掘、算法執行,都通過MATLAB平臺完成。
實驗過程中,以客運飛機的整體運行情況相關的主要參數為數據集,目的是從中選取出符合要求的正例數據或者反例數據。對于客運飛機的屬性描述,包括了飛行記錄情況、引擎情況和載客容量類別等,給出一部分樣本數據情況,見表1。
從表1中可以看出,各樣本數據的屬性分別包括:飛行記錄情況的沒有飛行報警記錄、有過飛行報警記錄2種屬性;引擎情況的無高效引擎、1個高引擎配置、2個高引擎配置和3個高引擎配置4種屬性;載客容量類別的載客容量為大飛機、載客容量為小飛機2種屬性。根據這些屬性,其分別歸入了正例集合和反例集合。利用數據挖掘算法的意義,就是將這些數據根據多項屬性進行綜合判斷并進行正確的分類。
因為本文方法是建立在決策樹模型之上的,因此選擇決策樹模型數據挖掘方法作為本文方法的對比方法,并采用2種方法分別構建決策樹以完成數據挖掘。采用傳統的決策樹模型數據挖掘方法構建的決策樹,如圖1所示。
接下來,采用本文方法來進行決策樹構建,算法的執行過程如下。
因為用于客運飛機情況數據判斷的屬性有3個,分別是飛行記錄情況、引擎情況、載客容量類別,那么就按照這3個屬性進行屬性偏差的計算和控制。
這是因為,載客容量屬性下,載客容量為大飛機的數據有7條,歸入正例集合的有4條、歸入反例集合的有3條;載客容量為小飛機的數據有8條,歸入正例集合有2條、歸入反例集合的有6條。
最后,對參與挖掘的全部數據判斷其3個屬性偏差 ?犖(S),根據偏差計算結果得到大小關系為?犖2(S)amp;lt;?犖1(S)amp;lt;?犖3(S)。這樣,選擇引擎情況屬性為決策樹的最下層節點,選擇飛行記錄情況屬性為第二層節點,選擇載客容量類別屬性為第三層節點,由此得到本文方法構建的決策樹,如圖2所示。
對比傳統決策樹模型數據挖掘方法構建的決策樹(如圖1所示)和本文方法構建的決策樹(如圖2所示),可以清晰地看出:本文構建的方法效果更好,通過屬性偏差的計算增進了算法的合理性,并且不會產生屬性多值問題,最終形成的決策樹結構上也更為精簡。
進一步比較傳統決策樹模型數據挖掘方法和本文方法完成數據挖掘的時間,比較過程中將參與挖掘的數據樣本不斷擴大,2種方法的完成時間如圖3所示。
從圖3中可以看出,隨著參與挖掘的樣本數量不斷增加,傳統決策樹模型數據挖掘方法和本文方法的挖掘時間都有一定增加,但本文方法的增加幅度遠遠小于傳統決策樹模型數據挖掘方法挖掘時間的增加幅度,這充分表明本文方法的執行速度更快。
4" 結論
大數據挖掘是信息時代里從海量數據中提取出有用信息的有效手段,對于人們的生產活動和日常生活都有非常重要的作用。本文提出在傳統決策樹模型數據挖掘方法的基礎上,將信息熵判斷屬性差異改進為利用信息熵增減偏差來判斷屬性差異的方法。這種方法只保留和目標屬性同向變化的屬性,減少了無效屬性的參與。通過使用飛行記錄情況、引擎情況、載客容量類別等屬性,對客運飛機數據集合展開挖掘實驗。經過此方法的改進處理,使決策樹的構建更加精簡,也讓數據挖掘過程的執行速度得到了明顯提升。
參考文獻:
[1] 張春生,李艷,圖雅.基于屬性拓展的數據挖掘預處理技術研究[J].計算機技術與發展,2022,24(3):79-81,85.
[2] 周正國.基于屬性重要度約簡算法在數據挖掘中的應用研究[J].信息技術與信息化,2019,36(4):199-200.
[3] 郭亦東,邱衛東,劉伯仲.基于屬性拆分與數據挖掘的真實口令分析[J].計算機工程,2014,40(7):254-257.