張春麗



摘要:為積極對大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)處理效果不佳的問題,提出結(jié)合Boosted方法對網(wǎng)絡(luò)的樣本數(shù)據(jù)進行建模方法。結(jié)合抽樣調(diào)查以及Apriori算法對大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)進行采集和挖掘,獲取數(shù)據(jù)特征,并根據(jù)特征參數(shù)對模型的傾向得分進行估計,以便對網(wǎng)絡(luò)數(shù)據(jù)訪問群進行對比分析,從而實現(xiàn)對大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型的構(gòu)建。最后通過實驗證實,基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型有較高的有效性,充分滿足研究要求。
關(guān)鍵詞: Boosted; 大數(shù)據(jù); 網(wǎng)絡(luò)樣本; 數(shù)據(jù)建模
中圖分類號: TM897? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)27-0277-02
隨著大數(shù)據(jù)時代的到來,對社會各行各業(yè)的影響也呈現(xiàn)多樣復(fù)雜、高速大量等特點。在此環(huán)境背景下,結(jié)合Boosted方法對網(wǎng)絡(luò)數(shù)據(jù)庫概率樣本進行等級劃分和評估,判斷數(shù)據(jù)的有效答率,并隨著其答率數(shù)值的上升,有效解決覆蓋不全等的問題,從而實現(xiàn)對大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模[1]。通過在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境背景下對數(shù)據(jù)樣本進行隨機采集,基于Boosted方法和Apriori算法對樣本合理性概率、特征數(shù)值和模型的傾向得分進行計算。并根據(jù)計算結(jié)果推斷出目標(biāo)樣本變量,有針對性的構(gòu)建廣義Boosted樣本數(shù)據(jù)判斷模型,最終實現(xiàn)對網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模。
1大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)建模
1.1大數(shù)據(jù)網(wǎng)絡(luò)樣本采集
對大數(shù)據(jù)網(wǎng)絡(luò)樣本進行采集,記為V,在采集過程中由于數(shù)值相對較大,對網(wǎng)絡(luò)候選數(shù)據(jù)進行抽樣調(diào)查,并記錄隨機抽取到的數(shù)據(jù)樣本,為方便記錄,對數(shù)據(jù)樣本記為S-。將隨機選擇的抽樣調(diào)查數(shù)據(jù)視為一個近似于二階段原理的特征樣本[2]。在二階段處理過程中,其中的第一階設(shè)總體樣本數(shù)據(jù)U中的數(shù)據(jù)特征進行采集。第二階主要的處理是根據(jù)第一階段中采集到的數(shù)據(jù)特征值進一步進行抽樣調(diào)查,獲取其樣本有效性概率。考慮到樣本數(shù)據(jù)設(shè)在調(diào)查過程中,共得到了i個采集樣本,樣本的潛在協(xié)變量數(shù)值可記為Xi1,Xi2,...Xip,且i=1,2,....,n,另外,在樣本數(shù)據(jù)采集的過程中,P表示高位組成的向量,則則網(wǎng)絡(luò)銀行部數(shù)據(jù)找那個的單元特征算法為:
在上述算法中,[ι]克表示在采集過程中抽取的隨機樣本合理性概率,[ε]為在固定的網(wǎng)絡(luò)環(huán)境條件下的數(shù)據(jù)特征普遍性概率。結(jié)合Boosted模型對樣本參數(shù)進行評估,設(shè)W表示二值性變量,且在檢測單元L中W=Li,若網(wǎng)絡(luò)數(shù)據(jù)的參考樣本以w=0為標(biāo)準(zhǔn)基數(shù),則數(shù)據(jù)樣本的傾向分值可記為[P(W=0σi)=P(x)],令logP(x)/[1-P(x)]=g(x=1)。基于廣義的Boosted模型對網(wǎng)絡(luò)樣本數(shù)據(jù)進行估計可得:P(x)=1/[1+expg(x)+logP(x)]。利用Logistic回歸模型,對P(x)的回歸性曲線模型進行設(shè)計,為線性回歸模型,設(shè)定一個靈活的期望函數(shù)點,記為L(p),則:
基于上述算法對網(wǎng)絡(luò)數(shù)據(jù)的運行函數(shù)進行估計,并調(diào)整估算數(shù)值,以便保障估算數(shù)據(jù)的合理性,進一步進行改建,尋找一個節(jié)點H(x)并保證公式(2)的計算結(jié)果大于隨機節(jié)點H(x)的評估參數(shù)值,并對H(x)進行進行迭代處理,最終得到最優(yōu)值,并以其最優(yōu)值作為廣義Boosted模型設(shè)計的參考數(shù)值,從而保證對網(wǎng)絡(luò)樣本數(shù)據(jù)的穩(wěn)定和精準(zhǔn)評估。
1.2基于廣義Boosted模型的傾向得分估計算法
在上述步驟的基礎(chǔ)上,根據(jù)迭代函數(shù)數(shù)值建立回歸樹,并對回歸樹上的自變量和因變量之間的數(shù)值關(guān)系進行判斷,采集完整的網(wǎng)絡(luò)數(shù)據(jù)集,并根據(jù)前文中的算法對網(wǎng)絡(luò)數(shù)據(jù)樣本特征進行劃分和歸類,并實現(xiàn)對不同等級的數(shù)據(jù)的采集,并對數(shù)據(jù)進行最小誤差預(yù)測處理,從而更好地實現(xiàn)對網(wǎng)絡(luò)樣本數(shù)據(jù)的分析[3]。結(jié)合Apriori算法和Boosted模型對獲取到的網(wǎng)絡(luò)樣本數(shù)據(jù)邏輯信息關(guān)系進行合理的改善和有效的調(diào)整。結(jié)合上述方法進行Boosted模型的優(yōu)化,保證網(wǎng)絡(luò)結(jié)構(gòu)傾向數(shù)據(jù)具有相應(yīng)的獨立性,避免判斷誤差等問題,基于上述思路對廣義Boosted模型結(jié)構(gòu)進行優(yōu)化,具體如下:
在以上模型結(jié)構(gòu)中,通過對網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的傾向得分?jǐn)?shù)值進行評價有針對性的實現(xiàn)部署,并生成相應(yīng)的網(wǎng)絡(luò)節(jié)點關(guān)系邏輯代碼以及相應(yīng)數(shù)據(jù)評價及處理列隊排序。在對傾向得分進行預(yù)估評價過程中,要對網(wǎng)絡(luò)結(jié)構(gòu)的綜合數(shù)據(jù)向量數(shù)值進行計算,設(shè)在網(wǎng)絡(luò)結(jié)構(gòu)中,網(wǎng)絡(luò)數(shù)據(jù)等級可分別記為N=(Q、W、Y、T),基于上述原理對不同等級的數(shù)據(jù)特征權(quán)重算法進行優(yōu)化,可記為N=W*P(x)*(n1,n2,n3,...,nm),則通過計算得出網(wǎng)絡(luò)結(jié)構(gòu)中的量最小指標(biāo)數(shù)值,具體算法如下:
其中,Wn為可檢測到的數(shù)據(jù)樣本標(biāo)準(zhǔn)信息熵,Ha(W)表示數(shù)據(jù)樣本特征挖掘前后的信息差。
1.3大數(shù)據(jù)網(wǎng)絡(luò)樣本建模
結(jié)合Boosted方法對大數(shù)據(jù)網(wǎng)絡(luò)樣本進行建模。基于前文算法對模型進行優(yōu)化。在復(fù)雜的網(wǎng)絡(luò)環(huán)境下對樣本數(shù)據(jù)進行跟蹤調(diào)查和收集記錄,并根據(jù)采集記錄結(jié)果對樣本數(shù)據(jù)特征進行進一步的挖掘和存儲。為保障數(shù)據(jù)特征挖掘的有效性和合理性,對數(shù)據(jù)樣本采集和挖掘的有效性進行評價,結(jié)合廣義Boosted模型進行網(wǎng)絡(luò)樣本數(shù)據(jù)的分析和評估[4]。首先對網(wǎng)絡(luò)數(shù)值及傾向得分?jǐn)?shù)值的變化進行挖掘和分析,并調(diào)查網(wǎng)絡(luò)樣本運行的安全需求數(shù)據(jù),從而有針對性地對網(wǎng)絡(luò)運行質(zhì)量傾向數(shù)值進行合理的估計和調(diào)整,通過對網(wǎng)絡(luò)樣本數(shù)據(jù)的數(shù)據(jù)信息進行處理,獲取其邏輯特征并有針對性地提出特征支持?jǐn)?shù)據(jù)。并在不同的網(wǎng)絡(luò)結(jié)構(gòu)中,建立不同的數(shù)據(jù)等級評價體系,為方便對數(shù)據(jù)樣本進行分析研究,保證樣本數(shù)據(jù)采集的合理性。建立了數(shù)據(jù)采集挖掘優(yōu)化流程,具體如下圖所示。
基于以上步驟實現(xiàn)對大數(shù)據(jù)網(wǎng)絡(luò)樣本特征的采集和分析,改善其處理流程,在上述步驟中,若樣本數(shù)據(jù)建模變化數(shù)值為0,則說明該模型對網(wǎng)絡(luò)樣本數(shù)據(jù)的識別效果相對較為穩(wěn)定[5]。若數(shù)值大于0,則說明結(jié)果有效,且其數(shù)值越高,效果越佳。反之若數(shù)值小于0則,說明建模效果不佳,其數(shù)值越小效果越差。基于以上原理可有效實現(xiàn)基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)的合理建模。
2實驗結(jié)果分析
為了驗證基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型的有效性,進行了實驗檢測,為保障檢測結(jié)果精準(zhǔn)有效,在相同的實驗環(huán)境和實驗參數(shù)下,于傳統(tǒng)數(shù)據(jù)樣本模型使用效果進行了對比,具體檢測結(jié)果如下圖所示:
觀察以上實驗檢測結(jié)果,其中,A曲線表示本文設(shè)計的基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型有效性檢測結(jié)果,B曲線為傳統(tǒng)模型有效性檢測結(jié)果,觀察檢測結(jié)果可知,隨著數(shù)據(jù)量的增加,基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型運行的有效性呈現(xiàn)緩慢的上升趨勢,其有效性可達到50%-85%,反觀傳統(tǒng)模型有效性檢測出現(xiàn)明顯下降的情況其有效性處于30%-55%之間。因此這證實,基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型具有較高的有效性,充分滿足研究要求。
3結(jié)束語
為了更好地對復(fù)雜的網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)樣本進行合理的分析和建模,提出基于Boosted方法的大數(shù)據(jù)網(wǎng)絡(luò)樣本數(shù)據(jù)模型方法,以便對數(shù)據(jù)樣本進行更加準(zhǔn)確有效的分析和處理。通過對大數(shù)據(jù)網(wǎng)絡(luò)樣本特征進行采集和挖掘,結(jié)合廣義Boosted模型對采集參數(shù)進行傾向得分估計,從而實現(xiàn)對網(wǎng)絡(luò)樣本數(shù)據(jù)合理建模,有效保證網(wǎng)絡(luò)運行的安全穩(wěn)定。
參考文獻:
[1] 彭道剛, 梅蘭, 李生根,等. 基于大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)的鍋爐燃燒含氧量建模研究[J]. 熱能動力工程, 2018, 33(9):86-92.
[2] 董娜, 劉偉娜, 侯波濤. 基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法[J]. 電力信息與通信技術(shù), 2018(1):6-10.
[3] 孟祥鵬. 大數(shù)據(jù)網(wǎng)絡(luò)惡意入侵?jǐn)?shù)據(jù)準(zhǔn)確恢復(fù)仿真研究[J]. 計算機仿真, 2017, 34(12):279-282.
[4] 史金梅, 夏偉. 基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型的設(shè)計與實現(xiàn)[J]. 現(xiàn)代電子技術(shù), 2017, 40(14):30-32.
[5] 毛國君, 胡殿軍, 謝松燕. 基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法[J]. 計算機學(xué)報, 2017(1):161-175.
【通聯(lián)編輯:光文玲】