999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

2016-08-09 02:12:08王亮
大科技 2016年33期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶分析

王亮

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

王亮

(貴州江南航天信息網(wǎng)絡(luò)通信有限公司 貴州遵義 563000)

在互聯(lián)網(wǎng)時代進(jìn)一步發(fā)展普及的過程中,大數(shù)據(jù)時代隨之到來,主要體現(xiàn)為大數(shù)據(jù)計(jì)算。常見的大數(shù)據(jù)計(jì)算主要有兩種形態(tài),即有批量計(jì)算與流式計(jì)算,這些新技術(shù)的發(fā)展為現(xiàn)代化的互聯(lián)網(wǎng)數(shù)據(jù)采集與處理奠定了基礎(chǔ)。本文即探討了互聯(lián)網(wǎng)大數(shù)據(jù)的采集與處理技術(shù)要點(diǎn),以供參考。

互聯(lián)網(wǎng);大數(shù)據(jù);采集;處理

1 引言

當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)正迅速走入人們的日常生產(chǎn)生活,以及社會的各行各業(yè)中,影響著大眾的學(xué)習(xí)、工作與生活,深刻影響并改變了常規(guī)的、傳統(tǒng)的生活方式。為了嗯嗯鞏固將網(wǎng)絡(luò)大數(shù)據(jù)的作用發(fā)揮到極致,必須掌握網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理技術(shù),從而使其服務(wù)于現(xiàn)代化發(fā)展的社會生產(chǎn)與生活。

2 互聯(lián)網(wǎng)大數(shù)據(jù)概述

2.1 互聯(lián)網(wǎng)大數(shù)據(jù)

在互聯(lián)網(wǎng)新興技術(shù)的逐漸普及過程中,產(chǎn)生了越來越多的用戶數(shù)據(jù),以及大體量、多樣化、高速度和低價值的大數(shù)據(jù)概念(big data),并逐漸滲透入每一個行業(yè)、業(yè)務(wù)的職能領(lǐng)域中,進(jìn)而能夠?yàn)樯虡I(yè)、金融服務(wù)創(chuàng)新浪潮,奠定相應(yīng)的數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)等,用以獲取用戶消費(fèi)、交易、產(chǎn)品評價信息和其他社交信息等的重要途徑,因此,互聯(lián)網(wǎng)網(wǎng)頁的大數(shù)據(jù)采集與處理技術(shù)的探討,具有重要的意義。

2.2 大數(shù)據(jù)采集和處理的基本流程

互聯(lián)網(wǎng)大數(shù)據(jù)的采集,就是在互聯(lián)網(wǎng)中獲取并抽取用戶所需要的屬性內(nèi)容,針對其內(nèi)容、格式等進(jìn)行轉(zhuǎn)換和加工處理,使之能夠適應(yīng)用戶需求,并存儲起來以供后用。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)采集、處理整體過程如圖1所示,其中包含了四個主要模塊:①爬蟲(Spider):從Internet上選擇網(wǎng)頁內(nèi)容,并從中抽取相應(yīng)的屬性內(nèi)容;②數(shù)據(jù)處理(Dp-data Process):對爬蟲所采集的內(nèi)容信息進(jìn)行加工處理;③URL隊(duì)列(Url Queue):為爬蟲提供所要求采集數(shù)據(jù)網(wǎng)站的url;④數(shù)據(jù)(Data):a.Site Url,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;b.Spider Data,爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);c.Dp Data,經(jīng)過dp處理之后的數(shù)據(jù)。

圖1 web數(shù)據(jù)采集和處理

3 網(wǎng)絡(luò)大數(shù)據(jù)的采集技術(shù)分析

3.1 采集技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)技術(shù)的提高,數(shù)據(jù)類型呈現(xiàn)多樣化。從原始的數(shù)據(jù)、圖片形式,到如今的文本、媒體、影像技術(shù)都成為了信息傳播的新形式。為了能夠快速且有效的采集網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)當(dāng)重視以下要點(diǎn):

(1)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有一致性。不同工作人員所采集的數(shù)據(jù)必須具有一致性,用以防止數(shù)據(jù)的混雜。那么對于采集大數(shù)據(jù)的程序而言,對它的性能要求更是不可馬虎。

(2)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有正確性。數(shù)據(jù)的正確性是一切工作的核心,也是工作能否繼續(xù)的前提更是保障工作正確運(yùn)行的關(guān)鍵。數(shù)據(jù)來源必須明確,數(shù)據(jù)采集過程必須準(zhǔn)確無誤。

(3)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有完整性。對于采集數(shù)據(jù)者來說理應(yīng)擁有實(shí)事求是的態(tài)度,不應(yīng)該抱有個人觀點(diǎn),更不應(yīng)該隨意篡改數(shù)據(jù)或不完整的采集大數(shù)據(jù),但是對于機(jī)器采集數(shù)據(jù)達(dá)到此要求而言,則要求采集工作高精度運(yùn)行。面對網(wǎng)絡(luò)大數(shù)據(jù)的多元性,人工錯誤很難免除。工作程序的高精度運(yùn)行更是不可忽視的問題。

3.2 互聯(lián)網(wǎng)大數(shù)據(jù)采集關(guān)鍵技術(shù)

3.2.1 實(shí)時數(shù)據(jù)挖掘技術(shù)

互聯(lián)網(wǎng)的大數(shù)據(jù)環(huán)境本身較為復(fù)雜,且針對不同的使用目的,會存在不同的實(shí)時數(shù)據(jù)挖掘技術(shù)。關(guān)注運(yùn)營商對網(wǎng)絡(luò)的維護(hù)和業(yè)務(wù)推廣兩個重要功能,對無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析。

3.2.2 無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)

網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,主要體現(xiàn)在網(wǎng)元多、多種無線技術(shù)共存、網(wǎng)絡(luò)故障診斷、干擾用戶體驗(yàn)因素等方面。無線網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊能夠針對網(wǎng)絡(luò)中產(chǎn)生的各類日志文件、信令采集系統(tǒng)、計(jì)費(fèi)信息、用戶簽約信息等,進(jìn)行綜合大數(shù)據(jù)分析,并通過統(tǒng)計(jì)和數(shù)據(jù)挖掘,生成報(bào)表。

具體可以提供的信息包括:①網(wǎng)絡(luò)分析:分析內(nèi)容有全網(wǎng)的使用流量、會話與告警、漫游、網(wǎng)絡(luò)使用變化以及網(wǎng)絡(luò)性能的KPI分析等。②網(wǎng)元分析:包括網(wǎng)元對比分析、網(wǎng)元組對比分析、網(wǎng)元時間變化趨勢分析、全網(wǎng)Cell累計(jì)分布分析和RNC性能負(fù)載分析。③終端分析:終端設(shè)備使用趨勢分析、終端設(shè)備每天小時時段變化趨勢的分析、終端設(shè)備的性能指標(biāo)分析等。④用戶分析:用戶比較分析、無線共享路由用戶對比分析、無線共享路由用戶的資源使用、無線共享路由用戶的設(shè)備型號/操作系統(tǒng)構(gòu)成分析、用戶組的比較分析、全網(wǎng)用戶累積分布分析、單用戶時間變化趨勢分析等。⑤應(yīng)用分析:應(yīng)用的業(yè)務(wù)主要包括整體、小時段中變化趨勢的分析、指定終端設(shè)備類型上TopN應(yīng)用業(yè)務(wù)分析、應(yīng)用業(yè)務(wù)性能分析、應(yīng)用業(yè)務(wù)系統(tǒng)分組的性能KPI分析、應(yīng)用業(yè)務(wù)組使用趨勢分析、應(yīng)用業(yè)務(wù)組每天小時時段趨勢變化分析。

4 處理網(wǎng)絡(luò)大數(shù)據(jù)的處理技術(shù)分析

4.1 處理技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)時代的到來,電腦、智能手機(jī)等電子設(shè)備在實(shí)際生活中得到應(yīng)用,并成為日常生活的重要組成部分,人們所接受到的信息越來越豐富,圖像、文本、視頻活躍在生活與交流之中。

4.1.1 數(shù)據(jù)處理整體框架

數(shù)據(jù)處理主要包括以下模塊:①分詞:對在互聯(lián)網(wǎng)中獲取的網(wǎng)頁內(nèi)容,采取切詞處理;②排重:對眾多網(wǎng)頁內(nèi)容實(shí)施排重措施;③整合:針對不同來源數(shù)據(jù)的格式進(jìn)行整合;④數(shù)據(jù):有兩方面數(shù)據(jù),即Spider Data(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和Dp Data(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。

4.1.2 數(shù)據(jù)處理的基本流程

數(shù)據(jù)的處理過程如下:①將抓取來的網(wǎng)頁內(nèi)容進(jìn)行分詞處理;②將分詞處理成果寫入數(shù)據(jù)庫中;③將所抓取來的網(wǎng)頁內(nèi)容排重;④將排重處理的成果寫入數(shù)據(jù)庫中;⑤依據(jù)前面的處理結(jié)果,對數(shù)據(jù)進(jìn)行二次整合;⑥將整合成果寫入數(shù)據(jù)庫中。

4.2 數(shù)據(jù)處理的關(guān)鍵技術(shù)

4.2.1 排重

所謂排重處理,就是將與主題相重復(fù)的項(xiàng)排除掉的過程,而網(wǎng)頁排重即是指通過兩個網(wǎng)頁間相似度因素為依據(jù),進(jìn)行重復(fù)項(xiàng)的排除。Simhash算法屬于一種高效海量文本排重算法,相較于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash能夠有效避免進(jìn)行文本兩兩的相似度比較復(fù)雜過程,從而得以大大提高計(jì)算效率。因此,運(yùn)用Simhash算法實(shí)施網(wǎng)頁內(nèi)容的排重工作,可容納更大數(shù)據(jù)量,提供更快數(shù)據(jù)處理速度,最終實(shí)現(xiàn)大數(shù)據(jù)的迅速處理。

4.2.2 整合

所謂整合,即是指將抓取的網(wǎng)頁內(nèi)容,與各公司之間構(gòu)建彼此對應(yīng)的關(guān)系。對于公司而言,可使用一組關(guān)鍵詞對自身進(jìn)行描述,同樣,經(jīng)過dp處理后的網(wǎng)頁內(nèi)容也可使用一組關(guān)鍵詞進(jìn)行描述。通過整合,即可形成兩組關(guān)鍵詞的匹配。

網(wǎng)頁內(nèi)容分詞結(jié)果有以下問題:①分詞結(jié)果數(shù)量較大;②大多數(shù)分詞對于描述該網(wǎng)頁的內(nèi)容而言沒有貢獻(xiàn)。所以,必要的情況下可對網(wǎng)頁分詞結(jié)果實(shí)施簡化,采用詞頻最高的若干詞匯進(jìn)行描述即可。經(jīng)簡化后,兩組關(guān)鍵詞不僅可以大大提高彼此的匹配效率,還可以保證其采集的準(zhǔn)確度,而在經(jīng)過整合后,所抓取的網(wǎng)頁內(nèi)容和公司之間,也會建立其一個對應(yīng)關(guān)系,便于知道某個具體的公司包含怎樣的數(shù)據(jù)信息。

5 結(jié)語

在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,客戶處理業(yè)務(wù)也日益復(fù)雜起來,與其相關(guān)的大數(shù)據(jù)更是呈現(xiàn)逐漸增長的趨勢,對于大數(shù)據(jù)的分析處理技術(shù),成為重點(diǎn)關(guān)注內(nèi)容之一。如果能夠合理發(fā)揮大數(shù)據(jù)作用,使其服務(wù)于光蛋用戶,能夠?yàn)槠髽I(yè)的發(fā)展,提供更為完整清晰的指引。

[1]齊 志.4G網(wǎng)絡(luò)時代大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].商,2015(48):206.

[2]吳純青,任沛閣,王小峰.基于語義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1~17.

[3]康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014(1):108~110.

TP274.2

A

1004-7344(2016)33-0254-02

2016-11-8

猜你喜歡
數(shù)據(jù)挖掘用戶分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何獲取一億海外用戶
主站蜘蛛池模板: 国产美女人喷水在线观看| 亚洲久悠悠色悠在线播放| 国产精品免费露脸视频| 国产在线观看第二页| 欧美日韩国产成人高清视频 | 成人一区在线| 天堂岛国av无码免费无禁网站| 永久免费无码日韩视频| 大乳丰满人妻中文字幕日本| 99re在线视频观看| 久久性视频| 欧美国产综合色视频| 国产地址二永久伊甸园| 日本免费新一区视频| 伊人中文网| 欧美另类图片视频无弹跳第一页| 丁香婷婷激情网| 亚洲手机在线| 国产十八禁在线观看免费| 欧美成人A视频| 国产在线第二页| 无码精油按摩潮喷在线播放| 欧美精品在线看| 欧美精品一二三区| 精品无码人妻一区二区| 日韩a级片视频| 欧美日韩一区二区在线播放| 国产成人精品午夜视频'| 99热国产在线精品99| 久久国产精品国产自线拍| 久久伊人色| 国产乱码精品一区二区三区中文 | 日韩毛片免费观看| 日韩精品免费一线在线观看| 国产一国产一有一级毛片视频| 亚洲a免费| 美女被躁出白浆视频播放| 久久久91人妻无码精品蜜桃HD| 色婷婷狠狠干| 久久国产精品波多野结衣| 激情六月丁香婷婷四房播| 亚洲av成人无码网站在线观看| 91精品人妻一区二区| 欧美激情视频一区| 亚洲高清在线天堂精品| 尤物国产在线| 尤物特级无码毛片免费| AV无码无在线观看免费| 亚洲人妖在线| 国产欧美精品专区一区二区| 四虎影视库国产精品一区| 国产精品xxx| 国产极品美女在线| 国产男人的天堂| 亚洲男人的天堂在线观看| 久久这里只有精品国产99| 在线亚洲精品自拍| 欧美亚洲国产日韩电影在线| aa级毛片毛片免费观看久| 亚洲一级毛片在线观播放| 国产清纯在线一区二区WWW| 欧美精品三级在线| 97人人做人人爽香蕉精品| 日本成人不卡视频| 亚洲欧美另类日本| 午夜一级做a爰片久久毛片| 国产精品制服| 亚洲精品无码AV电影在线播放| 成人在线不卡视频| 中文字幕伦视频| 国产精品久久国产精麻豆99网站| 激情亚洲天堂| 看你懂的巨臀中文字幕一区二区 | 91久久国产综合精品女同我| 青青热久麻豆精品视频在线观看| 欧美亚洲日韩中文| 一级成人欧美一区在线观看 | 亚洲色图欧美视频| 国产超碰一区二区三区| 国产人妖视频一区在线观看| 欧美午夜在线观看| 亚洲精品福利视频|