曹西林
(西安鐵路職業(yè)技術(shù)學(xué)院陜西西安710026)
目前,數(shù)據(jù)庫(kù)已經(jīng)滲入到社會(huì)各行業(yè)數(shù)據(jù)處理中,并且數(shù)據(jù)技術(shù)的發(fā)展及數(shù)據(jù)量的增長(zhǎng)使現(xiàn)代人們進(jìn)入了信息及數(shù)據(jù)大爆炸的時(shí)代中。對(duì)于大量的信息及數(shù)據(jù),如何實(shí)現(xiàn)有效處理,從而找到其中蘊(yùn)含的知識(shí),是現(xiàn)代相關(guān)研究人員的主要研究方向[1]。只是根據(jù)數(shù)據(jù)庫(kù)查詢(xún)檢索技術(shù)已經(jīng)無(wú)法滿足人們對(duì)于數(shù)據(jù)信息處理的需求。數(shù)據(jù)挖掘技術(shù)屬于能夠自動(dòng)且智能的將未知數(shù)據(jù)及數(shù)據(jù)中的隱藏信息轉(zhuǎn)變成為有用知識(shí)及技術(shù),并且?guī)椭藛T從數(shù)據(jù)庫(kù)提取人們感興趣的知識(shí),對(duì)數(shù)據(jù)進(jìn)行分析,從而充分使用大量數(shù)據(jù)中的價(jià)值[2]。在對(duì)數(shù)據(jù)不斷挖掘的過(guò)程中不僅能夠掌握傳統(tǒng)數(shù)據(jù)發(fā)展的過(guò)程中,并且還能夠?qū)崿F(xiàn)未來(lái)數(shù)據(jù)發(fā)展趨勢(shì)的預(yù)測(cè)。數(shù)據(jù)挖掘?qū)儆谌碌膶W(xué)科,其融合多種技術(shù)。關(guān)聯(lián)規(guī)則屬于知識(shí)模式中較為活躍的分鐘,其在數(shù)據(jù)挖掘中具有重要的作用,屬于數(shù)據(jù)挖掘技術(shù)的研究方向,被廣泛應(yīng)用到行業(yè)中[3]。
數(shù)據(jù)的關(guān)聯(lián)挖掘目標(biāo)就是利用大量具有噪聲及不完全數(shù)據(jù)集合尋找具有用處的知識(shí)及信息處理過(guò)程,其主要包括準(zhǔn)備數(shù)據(jù)、挖掘數(shù)據(jù)及知識(shí)評(píng)估3個(gè)步驟[4]。圖1為關(guān)聯(lián)規(guī)則挖掘基本的模型。

圖1 關(guān)聯(lián)規(guī)則挖掘基本的模型
此過(guò)程主要包括準(zhǔn)備數(shù)據(jù)并且進(jìn)行整理的過(guò)程,比如就業(yè)數(shù)據(jù)具有大量屬性,在研究數(shù)據(jù)模型的過(guò)程中,學(xué)生的就業(yè)信息主要包括性別、民族、專(zhuān)業(yè)等,以描述數(shù)據(jù)庫(kù)模型,就能夠得到學(xué)生的就業(yè)信息[5],詳見(jiàn)表1。

表1 學(xué)生的就業(yè)信息數(shù)據(jù)
因?yàn)榇搜芯繉?duì)象源于某三本院校,其中女生較多,所以學(xué)生屬性主要包括性別及專(zhuān)業(yè),處理不相關(guān)的和數(shù)據(jù),表2為處理之后的就業(yè)數(shù)據(jù)。

表2 處理之后的就業(yè)數(shù)據(jù)
關(guān)聯(lián)規(guī)則算法屬于數(shù)據(jù)挖掘算法中主要的分析方式,其能夠?qū)崿F(xiàn)數(shù)據(jù)關(guān)聯(lián)的重點(diǎn)挖掘,尋找滿足條件的多個(gè)領(lǐng)域依賴(lài)關(guān)系,廣泛在行業(yè)領(lǐng)域中使用,尤其包括制造業(yè)、零售業(yè)及保險(xiǎn)業(yè)。關(guān)聯(lián)算法的思想就是尋找支持度比最小支持度要大的頻繁項(xiàng)集,從此項(xiàng)集中尋找期望規(guī)則,此規(guī)則要能夠滿足最小置信度及支持度[6]。在實(shí)現(xiàn)關(guān)聯(lián)挖掘的過(guò)程中,首先要對(duì)事務(wù)集記錄進(jìn)行掃描,尋找頻繁候選集,然后算出頻繁項(xiàng),以此產(chǎn)生與用戶(hù)感興趣的關(guān)聯(lián)規(guī)則,圖2為關(guān)聯(lián)規(guī)則的算法流程。
通過(guò)Bochner空間實(shí)現(xiàn)二階滯偏微分方程的創(chuàng)建:

圖2 關(guān)聯(lián)規(guī)則的算法流程

二階時(shí)滯偏微分方程的邊界穩(wěn)定平衡點(diǎn)特征向量為:

基于雙邊界條件平衡約束,將原點(diǎn)領(lǐng)域N(0)解向量作為初始條件[7],得出二階時(shí)滯微分方程穩(wěn)定解的參量:

全面考慮二階時(shí)滯微分項(xiàng)雙周期性孤立波解,通過(guò)穩(wěn)定解心涼屬于大數(shù)據(jù)分類(lèi)聚類(lèi)中心矢量,實(shí)現(xiàn)數(shù)據(jù)分類(lèi)數(shù)學(xué)模型的創(chuàng)建。
使用基于偏微分分類(lèi)數(shù)學(xué)模型實(shí)現(xiàn)關(guān)聯(lián)挖掘,創(chuàng)建關(guān)聯(lián)規(guī)則集數(shù)學(xué)模型,使用漸進(jìn)有理積分逼近的方法[8],得出偏微分分類(lèi)一階偏導(dǎo)函數(shù):

通過(guò)二項(xiàng)-泊松模型實(shí)現(xiàn)全局漸進(jìn)穩(wěn)定性泛涵,以支持向量機(jī)模型相互結(jié)合實(shí)現(xiàn)二階時(shí)滯偏微分?jǐn)?shù)學(xué)分類(lèi)。以凸優(yōu)化定理,使用隨機(jī)泛函函數(shù)實(shí)現(xiàn)一階導(dǎo)數(shù)的求解,從而得出自回歸線性的最優(yōu)解。
利用以上規(guī)則集約束能夠得出偏微分分類(lèi)數(shù)學(xué)模型規(guī)則集約束條件,從而降低在大數(shù)據(jù)分類(lèi)過(guò)程中出現(xiàn)漏分及錯(cuò)分的情況[9]。
遺傳算法屬于高效全局搜索的方法,其具有一定的魯棒性、隨機(jī)性及隱含并行性,能夠有效實(shí)現(xiàn)全局優(yōu)化搜索。在關(guān)聯(lián)挖掘優(yōu)化過(guò)程中使用遺傳算法及偏微分分類(lèi)數(shù)學(xué)模型,能夠縮短大項(xiàng)集尋找的時(shí)間[10],圖3為改進(jìn)關(guān)聯(lián)挖掘的模型結(jié)構(gòu)。

圖3 改進(jìn)關(guān)聯(lián)挖掘的模型結(jié)構(gòu)
關(guān)聯(lián)挖掘改進(jìn)的主要問(wèn)題就是編碼,基于實(shí)數(shù)的編碼較為簡(jiǎn)單,并且便于實(shí)現(xiàn),本文以事務(wù)數(shù)據(jù)庫(kù)實(shí)現(xiàn)數(shù)據(jù)編碼,表3為決策信息表。

表3 決策信息表
在改進(jìn)關(guān)聯(lián)規(guī)則挖掘的約簡(jiǎn)屬于創(chuàng)新點(diǎn),但是只是根據(jù)關(guān)聯(lián)規(guī)則有效性及重要性指標(biāo)無(wú)法實(shí)現(xiàn)精準(zhǔn)數(shù)據(jù)挖掘。所以就要提出改進(jìn)屬性約簡(jiǎn)方式實(shí)現(xiàn)屬性約簡(jiǎn),刪除對(duì)結(jié)論沒(méi)有效果的屬性,之后實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[11]。
適應(yīng)度函數(shù)屬于關(guān)聯(lián)挖掘改進(jìn)過(guò)程中的接口,其是面向應(yīng)用問(wèn)題進(jìn)行設(shè)計(jì),其根據(jù)不同的解決問(wèn)題實(shí)現(xiàn)不同適應(yīng)度函數(shù)的選擇。因?yàn)橹С侄葘儆陉P(guān)聯(lián)規(guī)則中的主要衡量指標(biāo),其表示了規(guī)則所有事物中的代表性意義,那么將關(guān)聯(lián)規(guī)則支持度實(shí)現(xiàn)其適應(yīng)度函數(shù)的定義[12]。
在確定適應(yīng)度函數(shù)之后就要計(jì)算個(gè)體適應(yīng)值,之后以適應(yīng)值為基礎(chǔ)從目前群體中對(duì)個(gè)體進(jìn)行選擇實(shí)現(xiàn)交配池的生成。為了避免因?yàn)檫x擇誤差導(dǎo)致群體最佳個(gè)體丟失,可以使用精英保留輪盤(pán)賭的方式進(jìn)行[13]。
表4為多種挖掘算法的結(jié)果,通過(guò)表4表示,本文所研究的關(guān)聯(lián)挖掘改進(jìn)技術(shù)能夠解決傳統(tǒng)算法效率較慢的問(wèn)題,并且在最小支持度閾值增加的過(guò)程中,規(guī)則數(shù)在不斷的降低。

表4 多種挖掘算法的結(jié)果
利用Quset實(shí)現(xiàn)大型綜合數(shù)據(jù)庫(kù)的生成,之后從中取樣實(shí)現(xiàn)區(qū)分?jǐn)?shù)據(jù)庫(kù)的取樣,為了能夠降低不同實(shí)驗(yàn)過(guò)程中的依賴(lài)性,取樣數(shù)據(jù)庫(kù)規(guī)模要比原始數(shù)據(jù)庫(kù)小。為了避免挖掘過(guò)程中出現(xiàn)危險(xiǎn),就要實(shí)現(xiàn)minFreq值的掃描,對(duì)通信負(fù)載進(jìn)行測(cè)量,假設(shè)支持?jǐn)?shù)編碼為4字節(jié),項(xiàng)項(xiàng)目集數(shù)編碼為2字節(jié)[14]。圖4~6為不同數(shù)據(jù)庫(kù)通信負(fù)載,以此表示,3個(gè)算法的對(duì)比,其中兩個(gè)使用通信比較少。對(duì)于負(fù)載數(shù)據(jù)庫(kù),DDM和PDDM行為相同,并且DDDM最好。

圖4 傳輸字節(jié)數(shù)、分區(qū)書(shū)、最小支持度和通信負(fù)載的聯(lián)系
首先對(duì)緩沖區(qū)大小變化進(jìn)行檢查,通過(guò)結(jié)果表示其和理想網(wǎng)絡(luò)環(huán)境和緩沖區(qū)中的網(wǎng)絡(luò)結(jié)果沒(méi)有太大的差別。結(jié)果表示,算法在字節(jié)數(shù)發(fā)送方面良好[15]。
圖6中表示了緩沖區(qū)發(fā)小和字節(jié)數(shù)發(fā)送的關(guān)系,對(duì)緩沖區(qū)來(lái)說(shuō),假如具有大量的候選基,那么算法發(fā)送字節(jié)及信息要低于FDM。假如候選基集小,那么發(fā)送信息為半空,F(xiàn)DM就會(huì)具有一定的競(jìng)爭(zhēng)力。

圖5 支持度、節(jié)點(diǎn)數(shù)、分區(qū)書(shū)和發(fā)送字節(jié)的關(guān)系

圖6 發(fā)送信息數(shù)、字節(jié)數(shù)和信息使用率與緩沖區(qū)的變化聯(lián)系
通過(guò)實(shí)驗(yàn)結(jié)果表示,本文提出的基于偏微分分類(lèi)數(shù)學(xué)模型的關(guān)聯(lián)挖掘改進(jìn)技術(shù)能夠解決通訊復(fù)雜性問(wèn)題,此算法和其他算法相比,能夠保證同一增長(zhǎng)率。
在現(xiàn)代信息不斷增加的過(guò)程中,網(wǎng)絡(luò)數(shù)據(jù)域數(shù)據(jù)庫(kù)創(chuàng)建的需求也在不斷的增加,以此擴(kuò)大了數(shù)據(jù)信息處理的規(guī)模。所以,如何實(shí)現(xiàn)高效其快速的數(shù)據(jù)挖掘,屬于現(xiàn)代領(lǐng)域中需要解決的問(wèn)題。本文所設(shè)計(jì)的關(guān)聯(lián)規(guī)則挖掘優(yōu)化,能夠提高算法的效率,降低對(duì)象掃描數(shù)據(jù)集的共工作量,能夠在企業(yè)刪選評(píng)估中使用。