何迪
摘要??? 本文主要針對Hadoop的大數(shù)據(jù)網(wǎng)絡(luò)安全實體識別方法展開研究,希望能夠為相關(guān)工作者提供理論幫助。
【關(guān)鍵詞】Hadoop 大數(shù)據(jù) 網(wǎng)絡(luò)安全 實體識別
現(xiàn)階段,網(wǎng)絡(luò)在人們的生活中扮演著無法替代的重要角色。而隨著網(wǎng)絡(luò)用戶的增加以及數(shù)據(jù)信息的擴展,人們對于網(wǎng)絡(luò)安全的要求也越來越高。在網(wǎng)絡(luò)信息安全處理工作中,傳統(tǒng)的信息處理方式以及網(wǎng)絡(luò)安全實體識別方法已經(jīng)無法滿足當前海量數(shù)據(jù)處理的實際需求。因此在對網(wǎng)絡(luò)安全實體識別工作的研究中,許多學者發(fā)現(xiàn)應(yīng)用Hadoop能夠有效的保障網(wǎng)絡(luò)安全實體識別工作的質(zhì)量。當前,Hadoop在諸多行業(yè)中都有應(yīng)用,其中:通過Hadoop能夠支持雅虎廣告系統(tǒng)功能以及搜索功能;Hadoop在Facebook中的應(yīng)用能夠提供數(shù)據(jù)處理與分析功能......種種實例表明,Hadoop能夠?qū)A啃畔⑦M行處理。而且Hadoop能夠應(yīng)用與網(wǎng)絡(luò)實體安全的識別工作中,提升網(wǎng)絡(luò)數(shù)據(jù)信息的處理能力,保障網(wǎng)絡(luò)運行安全。
1 Hadoop概念闡述
1.1 Hadoop關(guān)鍵技術(shù)
HDFS以及MapReduce開源實現(xiàn)是Hadoop體系結(jié)構(gòu)的核心部分。其中,HDFS具有高伸縮性、高容錯性的應(yīng)用優(yōu)勢,并能夠適用于一些低廉、普通的硬件工作中,形成分布式系統(tǒng),便于對數(shù)據(jù)信息進行管理。借助MapReduce能夠為用戶提供開發(fā)并行應(yīng)用程序。MapReduce可以實現(xiàn)集群并行任務(wù)處理以及分布式計算。借助HDFS和MapReduce,能夠?qū)?shù)據(jù)信息進行監(jiān)管,支持基本的數(shù)據(jù)存儲以及操作等功能。在對HDFS展開研究并以此為基礎(chǔ),MapReduce,實現(xiàn)了任務(wù)跟蹤功能、分發(fā)功能以及執(zhí)行功能。此外,MapReduce還能夠?qū)ψ罱K處理結(jié)果進行收集,從而實現(xiàn)Hadoop的主要任務(wù)。
1.2 Hadoop網(wǎng)絡(luò)安全實體識別分析
數(shù)據(jù)采集系統(tǒng)對網(wǎng)絡(luò)安全設(shè)備的數(shù)據(jù)信息進行采集,并生成數(shù)據(jù)文件。將這些數(shù)據(jù)文件利用指令將其存儲在HDFS中。通過HDFS能夠?qū)⒍鄠€硬件資源節(jié)點進行分布式存儲。利用MapReduce對數(shù)據(jù)信息進行分析處理,并將最終分析結(jié)果進行展示。MapReduce輸入可支持多種格式,并將之HDFS中。借助用戶設(shè)定的InputDataFormat,利用Hadoop將不同數(shù)據(jù)文件進行分割,并將分割完成后的(key1,value1)集合作為map函數(shù)進行處理,并在分組完成后將數(shù)據(jù)傳遞給reduce函數(shù),通過reduce函數(shù)得到最終的輸出結(jié)果。將輸出結(jié)果載入文件中,并將結(jié)果進行文件格式配置。
2基于Hadoop網(wǎng)絡(luò)安全實體識別方法的實現(xiàn)
2.1 共享機制的輸入
由于條件函數(shù)依賴約束的構(gòu)成是tableau,因此,在執(zhí)行檢查條件函數(shù)依賴關(guān)系的約束過程中應(yīng)針對每一個tableau進行檢查。并對不同的Reduce任務(wù)以及Map任務(wù)進行合并,最終實現(xiàn)對多個MapReduce合并成一個單獨的任務(wù)進行處理。MapReduce任務(wù)的共享機制適用于多種情況下。本文中假設(shè)MapReduce任務(wù)數(shù)量兩個,并將之擴展到MapReduce任務(wù)組中。Reduce階段屬于多個原始輸入任務(wù)元組,需將之劃分到原始任務(wù)Reduce函數(shù)中注意,在輸入共享機制過程中,若Map任務(wù)與任務(wù)一般無二,則可以對其進行同時的輸入共享,將之成為一個全新的MapReduce任務(wù)進行輸入共享,無需進行重復(fù)掃描。
2.2 Map函數(shù)以及Reduce函數(shù)的實現(xiàn)
Hadoop框架中Map函數(shù)有公共類以及接口類的定義。可采用Mapper公共類方法來實現(xiàn)文中Hadoop網(wǎng)絡(luò)安全實體識別中map函數(shù)的設(shè)置。針對Java數(shù)據(jù)類型,Hadoop平臺采用了不同種類對其進行封裝。這些不同類型的封裝能夠更有利于對數(shù)字浮點進行歸類,便于節(jié)點之間的數(shù)據(jù)傳遞以及轉(zhuǎn)換。其中,VALUEIN代表數(shù)據(jù)本身,能夠?qū)?shù)據(jù)的屬性進行分析解讀,并讀取每一個數(shù)據(jù)中各個屬性相對應(yīng)的數(shù)值。利用條件函數(shù)依賴約束的基本原則,對數(shù)據(jù)屬性中的數(shù)值進行比較,將最終比較完成的結(jié)果利用屬性值代替。比較完成后的結(jié)果進行組合,形成一個全新的KEYOUT。
2.3 Combine函數(shù)實現(xiàn)
由于假設(shè)的網(wǎng)絡(luò)安全實體識別系統(tǒng)中將會重復(fù)出現(xiàn)大量的map函數(shù)中的key值。考慮到這一點,在對其進行combine合并函數(shù)處理map函數(shù)后,應(yīng)對大量的重復(fù)key值進行合并處理,否則這些無用的key值將會對系統(tǒng)造成一定影響。reduce函數(shù)的實現(xiàn)則需借助combine功能。當全部的類都處理完成后,此時將由Hadoop平臺為系統(tǒng)提供一個Job類。此時,Job類主要用于對與之對應(yīng)的reduce、map以及combine函數(shù)進行設(shè)置。除此之外,在Job類中還應(yīng)設(shè)置一些其他的相關(guān)類,從而實現(xiàn)與其他系統(tǒng)的關(guān)聯(lián),便于對數(shù)據(jù)文件的路徑進行參數(shù)設(shè)置、輸出/入以及存儲。
3 結(jié)論
綜上所述,通過對Hadoop展開研究,可知Hadoop應(yīng)用于網(wǎng)絡(luò)安全管理平臺具有極大的可靠性、可用性以及實用性。而且Hadoop的應(yīng)用能夠減輕數(shù)據(jù)讀取的實際時間,可以高效的完成網(wǎng)絡(luò)安全管理平臺的管理工作效率,而且在實際應(yīng)用中具有高效性、高擴展性、高容錯性等應(yīng)用優(yōu)勢。
參考文獻
[1]張春霞,王新猛,張曉熙.基于Hadoop的森林公安網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計與實現(xiàn)[J].信息網(wǎng)絡(luò)安全,2018(12):82-86.
[2]李優(yōu).基于Hadoop的分布式網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D].西北大學,2018.
[3]呂濤.基于Hadoop平臺的并行決策樹算法研究[D].西安科技大學,2018.
[4]金丹丹.Hadoop容錯機制中的推測執(zhí)行策略優(yōu)化與研究[D].南京信息工程大學,2018.