龔芳海 李文彪
摘 要:互聯(lián)網(wǎng)大數(shù)據(jù)處理技術已經(jīng)成為現(xiàn)代網(wǎng)絡社會的發(fā)展趨勢,大數(shù)據(jù)挖掘是數(shù)據(jù)處理的關鍵技術。因此,文章結合互聯(lián)網(wǎng),對大數(shù)據(jù)關鍵技術進行分析,在分析互聯(lián)網(wǎng)大數(shù)據(jù)時代發(fā)展現(xiàn)狀的基礎上,分析了大數(shù)據(jù)挖掘關鍵技術,包括數(shù)據(jù)采集、實時數(shù)據(jù)處理以及數(shù)據(jù)管理等基礎,以期推動互聯(lián)網(wǎng)企業(yè)的高速發(fā)展。
關鍵詞:互聯(lián)網(wǎng);大數(shù)據(jù)挖掘;關鍵技術
隨著網(wǎng)絡技術的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)逐漸影響人們的學習和生活,在互聯(lián)網(wǎng)大數(shù)據(jù)時代下,社交網(wǎng)絡產(chǎn)生的數(shù)據(jù)相對較大[1]。通過大數(shù)據(jù)分析技術,可以揭示數(shù)據(jù)與隱藏模式的相關性,繼而可以為企業(yè)的發(fā)展提供契機,使其根據(jù)客戶的需求來提供針對性的體驗服務,在此基礎上,可以不斷提升企業(yè)的綜合競爭能力[2]。而客戶通過大數(shù)據(jù)挖掘技術,可以享受更好的服務體系,便于增加體驗感。因此,在互聯(lián)網(wǎng)環(huán)境下,對大數(shù)據(jù)挖掘關鍵技術進行分析具有重要的意義。
1 大數(shù)據(jù)含義
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,大數(shù)據(jù)已經(jīng)逐漸影響人們的學習和生活,所謂大數(shù)據(jù),是指數(shù)據(jù)相對較為龐大,無法通過計算機軟件有效的獲取[3]。IBM曾經(jīng)提出大數(shù)據(jù)的4個特征:(1)數(shù)據(jù)量龐大,達到PB等級。(2)存在視頻、圖片以及日志等多樣化的文件形式。(3)具有較快的處理速度。(4)具有高質量的數(shù)據(jù)。在大數(shù)據(jù)處理過程中,通過數(shù)據(jù)分析挖掘技術,可以挖掘數(shù)據(jù)的價值。
2 互聯(lián)網(wǎng)大數(shù)據(jù)時代的發(fā)展現(xiàn)狀
互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶在使用終端的情況下產(chǎn)生的數(shù)據(jù)信息,其包括網(wǎng)絡協(xié)議以及流量等情況,網(wǎng)絡是由供應商提供,同時其可以通過數(shù)據(jù)信息來獲取用戶的相關數(shù)據(jù)[4]。隨著互聯(lián)網(wǎng)事業(yè)的不斷發(fā)展,企業(yè)同樣獲取了較大的發(fā)展機遇,互聯(lián)網(wǎng)大數(shù)據(jù)可以為其發(fā)展提供基礎信息以及使用信息,通過對數(shù)據(jù)的掌握,了解網(wǎng)絡的運行狀況,并且可以加強用戶的體驗。大數(shù)據(jù)分析是對網(wǎng)絡的服務管理,可以分析用戶體驗的相關信息。
3 大數(shù)據(jù)挖掘關鍵技術
3.1 大數(shù)據(jù)采集
大數(shù)據(jù)采集技術通常劃分為基礎支撐層以及大智能感知層。智能感知層主要負責對數(shù)據(jù)的識別、傳輸以及感知等基礎[5]。基礎支撐層則負責為數(shù)據(jù)平臺提供數(shù)據(jù)庫以及物聯(lián)網(wǎng)等相關處理技術。運營商通過對網(wǎng)絡大數(shù)據(jù)的處理,可以及時地對用戶的需求變化作出響應,從而提升企業(yè)的綜合運營能力。
互聯(lián)網(wǎng)每天會產(chǎn)生大量的視頻、日志以及互動等多樣化的數(shù)據(jù)信息,雖然可以為用戶帶來便利,但是其同樣會為運營商帶來巨大的挑戰(zhàn),其主要體現(xiàn)在以下幾個方面:(1)存在多源數(shù)據(jù)獲取問題。大數(shù)據(jù)時代具有多元異構以及動態(tài)性的特點,如單個用戶的位置信息價值相對較低,而將多個用戶的信息整合起來,則可以提升整體價值。然而在數(shù)據(jù)采集中,收集多元化的數(shù)據(jù)成為企業(yè)面臨的新問題。(2)海量異構管理問題。在互聯(lián)網(wǎng)上,存在大量的異構數(shù)據(jù)信息,部分數(shù)據(jù)缺乏注冊結構,因而其價值不一,企業(yè)需要對關鍵數(shù)據(jù)以及異構分析,以此來實現(xiàn)對數(shù)據(jù)質量的管理。(3)數(shù)據(jù)實時挖掘問題。對于現(xiàn)代網(wǎng)絡,聚類和關聯(lián)分析已經(jīng)逐漸應用于數(shù)據(jù)信息的處理,然而通過模擬分析,無法獲取實時的數(shù)據(jù),為互聯(lián)網(wǎng)企業(yè)的發(fā)展帶來了較大的沖擊。
3.2 大數(shù)據(jù)預處理技術
大數(shù)據(jù)預處理是指在大數(shù)據(jù)挖掘前期,通過相關技術,對大數(shù)據(jù)進行預處理,其主要包括數(shù)據(jù)的清理、集成以及歸約等幾種處理方式[6]。大數(shù)據(jù)的數(shù)據(jù)量相對較為龐大,但是并未存在較多的數(shù)據(jù)價值,相反,大數(shù)據(jù)數(shù)量的增加,在一定程度上增加了數(shù)據(jù)的噪音,部分數(shù)據(jù)缺乏使用,同時由于數(shù)據(jù)的不斷增加,導致媒體數(shù)據(jù)被碎片化處理,因此,需要采用大數(shù)據(jù)清洗技術以及降噪技術來處理大數(shù)據(jù)。對于數(shù)據(jù)的早期處理,主要通過數(shù)據(jù)挖掘技術來獲取時序知識以及分類知識等,同時在大數(shù)據(jù)時代,人們進入非結構化的時代,需要對大數(shù)據(jù)進行預處理,以此來滿足時代的發(fā)展需求。
3.3 大數(shù)據(jù)管理技術
大數(shù)據(jù)通過網(wǎng)絡時代的發(fā)展而產(chǎn)生,并且隨著網(wǎng)絡技術的不斷發(fā)展,呈現(xiàn)更為多樣化的發(fā)展趨勢,同時多樣化的物聯(lián)網(wǎng)感知設備,其具有多種格式,且大數(shù)據(jù)環(huán)境下,其具有多樣化和復雜性的特點。在此情況下,其要求物聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)需要通過特定技術來處理大數(shù)據(jù),以此來滿足多樣化的發(fā)展需求。因此,設計系統(tǒng)架構,以此來提升系統(tǒng)的擴展性成為研究的重要課題。
3.4 大數(shù)據(jù)處理和可視化技術
大數(shù)據(jù)信息具有速度快的特點,因而在處理過程中,如果處理不及時,將會不斷減弱數(shù)據(jù)信息的價值,因此,對于大數(shù)據(jù)的處理,需要從諸多領域進行實時挖掘。通過在線處理的方式來提升數(shù)據(jù)的處理效率,且對數(shù)據(jù)的算法以及模式進行改進。
大數(shù)據(jù)可視分析技術,是指將大數(shù)據(jù)挖掘以及對計算機的融合和認知能力結合起來,通過人機交互以及可視化技術對數(shù)據(jù)進行分析,其可以有效提升數(shù)據(jù)的分析能力和處理能力。
3.5 海量異構數(shù)據(jù)處理
隨著互聯(lián)網(wǎng)事業(yè)的不斷發(fā)展,其逐漸產(chǎn)生了海量的異構數(shù)據(jù),根據(jù)數(shù)據(jù)的特點分析發(fā)現(xiàn),其具有數(shù)量龐大、類型多、價值密度低以及處理速度快等特點,要求在秒級的時間內(nèi),對數(shù)據(jù)進行分析,并且產(chǎn)生相應的分析結果。如果處理時間相對較長,則會逐漸降低信息的價值,針對大數(shù)據(jù)的處理問題,需要對其模塊進行設計,其主要包括下列模塊:(1)處理模塊。(2)集成模塊。(3)文件系統(tǒng)模塊。(4)數(shù)據(jù)庫模塊。(5)易用性模塊。(6)接口數(shù)據(jù)訪問層。
針對互聯(lián)網(wǎng)數(shù)據(jù)的處理問題,需要在數(shù)據(jù)處理系統(tǒng)中安裝探測模塊。互聯(lián)網(wǎng)企業(yè)通常根據(jù)處理時間,將數(shù)據(jù)劃分為在線信息、近線信息以及離線信息。其主要是根據(jù)消耗的時間來進行劃分。對于秒級信息的處理,通常是采用流處理技術,通過適當?shù)奶幚砑夹g分析,可以強化對I/O系統(tǒng)的應用。
對于流式處理系統(tǒng),其主要采用Flume以及Storm等系統(tǒng)架構,在對數(shù)據(jù)處理后,將相關數(shù)據(jù)存儲到數(shù)據(jù)庫,以此來實現(xiàn)對數(shù)據(jù)的實時處理。對于批處理系統(tǒng)的設計,首先需要對數(shù)據(jù)進行存儲管理,之后對數(shù)據(jù)進行分析和計算,其存儲系統(tǒng)可以采用HBase,對于冷數(shù)據(jù)的處理,可以采用Gluster FS等技術,這樣可以有效降低管理成本。同時在數(shù)據(jù)的處理中,通常利用OLAP來進行建模,同時利用組件進行分析,可以較好地提升數(shù)據(jù)的處理效率。
在互聯(lián)網(wǎng)技術不斷發(fā)展的情況下,相關技術同樣呈現(xiàn)不斷發(fā)展的趨勢,如通過Spark技術,可以將中間數(shù)據(jù)進行存放,使其提升迭代的效率,另外,通過計算模型以及相關問題分析,可以繪制圖形數(shù)據(jù)庫。另外,在數(shù)據(jù)處理中,通過數(shù)據(jù)接口,可以為用戶提供應用以及服務。
3.6 實時數(shù)據(jù)挖掘
互聯(lián)網(wǎng)數(shù)據(jù)具有復雜性的特征,其不利于實現(xiàn)故障的診斷以及用戶的體驗,數(shù)據(jù)挖掘模塊是通過對無線網(wǎng)絡的理解,采用數(shù)據(jù)分析和挖掘的方式獲取報表,以此來開放應用程序編程接口(Application Programming Interface,API),其可以獲取以下幾種類型的數(shù)據(jù)信息:(1)網(wǎng)絡分析信息,通過對流量以及會話等模塊的分析,可以實現(xiàn)對網(wǎng)絡性能的關鍵績效指標(Key Performance Indicator,KPI)分析。(2)網(wǎng)元分析。通過網(wǎng)元對比以及網(wǎng)元組對比等趨勢分析,可以獲取RNC性能負載。(3)終端分析。通過終端設備的使用情況分析,可以獲取小時的數(shù)據(jù)變化,繼而可以獲取相關的性能指標。(4)用戶分析。通過對用戶數(shù)據(jù)的比較,可以獲取用戶資源的使用情況。(5)應用分析。通過對用戶應用業(yè)務的分析,可以獲取用戶的累計分布情況以及單個用戶的時間變化。(6)通過QoS以及QoE等指標的分析,可以獲取用戶網(wǎng)絡狀況以及負荷等相關信息。
在實時數(shù)據(jù)分析中,多媒體數(shù)據(jù)挖掘同樣是重要的技術手段。通過畫像建立以及視頻推廣等模式進行分析。用戶畫像的挖掘技術通過視頻播放以及注冊搜索等行為,采用大數(shù)據(jù)分類方式構建模型,包括性別或者年齡模型等,通過對模型的預測,可以對用戶進行判斷,以此來為企業(yè)的發(fā)展提供數(shù)據(jù)信息支持。視頻推薦模式是根據(jù)用戶的行為,對視頻的相關熱度等情況進行分析,可以獲取用戶的興趣反饋數(shù)據(jù),其便于識別用戶的ID,經(jīng)過信息整理,企業(yè)可以采用針對性的推薦來滿足客戶的基本需求。另外,通過用戶畫像以及視頻推薦,可以為廣告企業(yè)進行定位,其將符合用戶需求的廣告投放到定向的人群,以此來提升媒體的運營質量。
4 結語
隨著互聯(lián)網(wǎng)事業(yè)的發(fā)展,大數(shù)據(jù)挖掘已經(jīng)成為企業(yè)關注的重要問題,本文對大數(shù)據(jù)挖掘技術進行分析,體現(xiàn)了對海量數(shù)據(jù)的整合,企業(yè)可以通過大數(shù)據(jù)挖掘技術,實現(xiàn)對客戶信息的整理,并且為客戶提供個性化的服務模式。
[參考文獻]
[1]裴瑩,付世秋,吳鋒.我國教育大數(shù)據(jù)研究熱點及存在問題的可視化分析[J].中國遠程教育,2017(22):1-8.
[2]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時代的數(shù)據(jù)挖掘—從應用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015(4):57-80.
[3]程陳.大數(shù)據(jù)挖掘分析[J].軟件,2014(4):130-131.
[4]李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用[J].重慶三峽學院學報,2014(3):45-47.
[5]郭遲,劉經(jīng)南,方媛,等.位置大數(shù)據(jù)的價值提取與協(xié)同挖掘方法[J].軟件學報,2014(4):713-730.
[6]王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學研究院學報,2013(1):8-17.