999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據分析關鍵技術與挑戰*

2018-05-23 01:17:04韓偉紅
網絡安全與數據管理 2018年4期
關鍵詞:信息

韓偉紅,賈 焰,周 斌

(1. 廣州大學 網絡空間先進技術研究院,廣東 廣州 510006;2. 國防科技大學 計算機學院,湖南 長沙 410073; 3. 電子科技大學 廣東電子信息工程研究院, 廣東 東莞 523808)

1 大數據基本概念及特點

當前,人類社會已經進入了大數據時代,“大數據”已經無處不在。互聯網領域的公司非常重視數據資產的價值,從中挖掘有價值的信息,利用大數據分析技術提升公司服務質量。亞馬遜早在2013年就推出了“未下單,先調貨”計劃,利用大數據分析技術,基于對網購數據的關聯挖掘分析,在用戶尚未下單前預測其購物內容,提前將包裹發至轉運中心,縮短配送時間。阿里巴巴通過智能圖像識別、智能追蹤、大數據分析建模等技術,從10億量級的在線商品中發現假冒偽劣商品。美國大數據企業帕蘭提爾(Palantir)公司通過對電話、網絡郵件、衛星影像等進行大數據分析,協助美國中央情報局(CIA)獲取基地組織的準確位置信息,幫助美軍捕殺本·拉登。

盡管大數據現在如此炙手可熱,但無論是在學術界還是在工業界,都沒有給出一個關于大數據的公認的定義。一般認為:“大數據”是指在一定時間內難以依靠已有數據處理技術進行有效采集、管理和分析的數據集合,它通常滿足以下“5V”特點:(1)Volume:數據量大,包括采集、存儲和計算的量都非常大;(2)Variety:種類和來源多樣化;(3)Value:數據價值密度相對較低;(4)Velocity:數據增長速度快,處理速度也快,時效性要求高;(5)Veracity:數據的準確性和可信賴度低,即數據的質量低。

大數據分析是指基于大數據,面向特定的模型,通過分類、聚類、關聯、預測、眾包、深度學習等處理,從而揭示隱藏在數據集合中的規律,發現出有價值的知識的過程。數據分析以發現有用知識為目的,主要包括清洗、集成、轉換、建模以及模型評估等過程,最終得到決策知識。這一過程通常會根據分析目標進行反復迭代,逐步求精。

2 大數據產生的時代背景

2.1 大數據是新技術協同發展的結果

云計算、物聯網、移動互聯網等新技術與大數據息息相關。

圖1 大數據分析的關鍵技術

云計算是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。作為一種互聯網新型計算方式,為大數據提供了計算資源和存儲空間。

物聯網是大數據的重要來源之一。物聯網是指通過信息傳感設備,按照約定的協議,把任何物品與互聯網連接起來,進行信息交換和通信,以實現智能化識別、定位、跟蹤、監控和管理的一種網絡,是在互聯網基礎上延伸和擴展的網絡,是大數據的重要來源。

移動互聯網也推動了大數據技術。移動互聯網是傳統互聯網與移動通信技術結合并實踐的活動的總稱。作為傳統互聯網與移動通信技術結合的產物,移動互聯網技術豐富了大數據的類型,特別是大量用戶生成內容和非結構化數據。

綜上所述,物聯網以及移動互聯網持續不斷地產生大量數據,并且數據類型豐富、內容鮮活,這是大數據的重要來源;大數據則代表了互聯網的信息層,是互聯網智慧和意識產生的基礎;而云計算是大數據處理的基礎資源。這四項技術相互推動,協同發展。

2.2 大數據已成為戰略資源

當前,大數據已經廣泛存在于各行各業,形式豐富多樣,規模不斷增大。大數據所主要存在的行業包括能源、制造業、政府、金融、銷售業、文化娛樂業、IT互聯網、電信業以及交通旅游業等。IDC出版的《數字宇宙》指出,當前人類存儲的數字信息已達到6 992 EB, 2020年預計將達到40萬億GB(40 ZB),人均5 200 GB以上。

美國物理學家約翰·惠勒(John Wheeler)提出“物質源自比特(It from bit)”,信息就是物質。實際上,物質在消耗,而數據卻在不斷增加。數據已成為寶貴的戰略資源。在農耕文明時代,鐵器是最重要的生產和勞動工具;在工業文明時代,蒸汽機、內燃機是世界上最重要的“原動機”;在現代經濟時代,石油成為現代經濟的命脈;在大數據時代,數據已經成為最重要的戰略資源之一。

3 大數據分析的關鍵技術

大數據分析的流程分為以下五個部分[1-2]:大數據清洗與融合、大數據處理框架、大數據建模與分析、大數據可視化以及大數據隱私保護,其中涉及的技術如圖1所示。本文只對大數據分析中的數據清洗與融合、大數據處理框架和大數據建模與分析等關鍵技術進行介紹。

3.1 大數據清洗與融合技術

大數據清洗融合技術旨在將各種不同形態、來源、格式、特點的數據在邏輯上或物理上有機地集中,為后續的數據處理提供支持。該部分技術主要包括數據清洗、數據融合和一致性保護三個部分。

數據清洗指對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。例如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配時,需要進行數據清洗。

模式對齊是指將多種數據源的不同數據模式,通過格式轉換、合并、分解、泛化等手段,整合成統一的、便于處理的統一數據模式。

記錄關聯是指將不同形式表示的數據鏈接在一起,形成一個完整的表示。例如某品牌相機,通過數據關聯方式將網頁上存在的多種不同信息進行處理,形成描述該相機的完整信息表示。

數據融合指通過統計、插值等方式,消除不同數據源中的不確定性。例如,張藝謀的生日有多個說法,真假難辨,通過統計方式,得出各種說法的置信度,為后續的挖掘應用提供支持。

3.2 大數據的處理框架

大數據處理框架主要是為大數據解決方案中涉及的各層和高級組件提供一個高可用性以及可擴展的邏輯架構,可以滿足各種數據量的數據業務的需求。該部分技術主要包括數據存儲、索引、流數據處理等技術。

數據存儲是數據流在加工過程中產生的臨時文件或加工過程中需要查找的信息。數據以某種格式記錄在計算機內部或外部存儲介質上。Google文件系統GFS是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。它運行于廉價的普通硬件上,由主節點和分散部署的多個數據節點組成,提供具有容錯功能的高性能數據存儲服務。

索引是一種特定的數據結構,將數據塊中的關鍵信息按某種高效結構進行組織,使得用戶可以快速查找到符合查詢條件的數據塊。常用的索引包括倒排索引、鍵值索引和空間數據索引。基于倒排索引的查詢技術是基于詞建立索引的,記錄了各個單詞在不同文檔中的位置,支持基于單詞的高效查詢,是文檔檢索系統中最常用的方法。鍵值索引是一種樹狀的數據結構,用于存儲排序后的數據,可顯著減少定位記錄的中間過程,從而加快存取速度。空間數據索引是根據空間數據的地理位置、形狀或空間對象之間的關系,按一定順序排列的一種數據結構,其優劣直接影響空間數據庫的整體性能。

數據處理技術包括MapReduce和流處理等技術。MapReduce批量處理框架將待處理任務劃分為若干子任務,將其分配到不同節點上,實現了利用多個網絡節點對任務的協同計算。流數據并行處理框架是一種針對前后關聯性不強、無須先存儲再計算、實時性要求高的流式數據,通過多個并行執行的流水線在內存中對數據進行分步處理的數據結構。主要步驟為:(1)用戶注冊連續查詢,指定查詢類型、窗口寬度等(如計數查詢);(2)初始化當前滑動窗口內的數據集,得到初始概要結構;(3)新數據到達;(4)更新概要數據結構;(5)任何時候,處理器都可以根據概要結構得到當前的查詢結果。

3.3 大數據建模與分析

大數據建模與分析是用數據挖掘和機器學習方法對雜亂無章的大規模數據進行建模與分析,萃取和提煉有用信息并形成結論,以找出所研究對象的內在規律。大數據建模與分析主要包括數據挖掘、機器學習、人工智能、眾包等技術。

(1)數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程,一般通過統計、在線分析處理、情報檢索、專家系統和模式識別等諸多方法來實現上述目標。數據挖掘的算法包括分類、聚類、關聯規則等。分類是指根據訓練數據集和類標號屬性,構建模型來分類新的數據。聚類是指將數據聚到不同的簇,同一簇中彼此相近,不同簇中彼此相離。關聯規則是指隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。

(2)機器學習所關注的是計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。其中最具有代表性的是深度學習。深度學習是神經網絡的擴展。神經網絡是由大量的節點(或稱神經元)相互連接構成的。每個節點代表一種特定的輸出函數,每兩個節點間的連接代表一個通過該連接信號的加權值,網絡的輸出則依網絡的連接方式、權重值和激勵函數的不同而不同。深度學習是機器學習領域中一系列試圖使用多重非線性變換對數據進行多層抽象的算法,通過組合低層特征,形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。其目標是將輸入的信息通過編碼器生成高層的特征以后,使得高層的特征能夠通過解碼器盡可能地還原成原輸入信息(即使得特征編碼過程中損失的信息盡量少),通過代入訓練數據求解最優參數值。

(3)人工智能是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的技術。大數據分析處理中代表性的人工智能技術是知識圖譜。知識圖譜本質上是一種語義網絡,其節點代表實體(entity)或者概念(concept),邊代表實體與概念之間的各種語義關系。

(4)眾包是一種分布式的問題解決和生產模式,問題以公開招標的方式傳播給未知的解決方案提供者群體。例如,Made.com負責搭建一個虛擬平臺,吸引設計師提交設計作品,并貼在網上由顧客投票,票數最高的產品才會進入生產行列。

4 大數據帶來的變革

大數據時代的到來,給世界帶來了深刻的變革,包括人們的思維方式、管理方式等。隨著數據產生、收集、存儲等技術的不斷發展,目前已經同時存在著兩個“平行世界”,即數據世界和物理世界,其中,數據世界是物理世界的客觀映射和反映,實際上,數據不僅可以描述客觀物理世界,還被用于刻畫人類精神世界和人類社會,大數據通過“量化一切”而實現世界的數據化,可能改變人類認知和理解世界的方式,帶來全新的大數據世界觀[3-4]。

4.1 大數據改變認識方式

大數據改變了人們的科學觀。首先,15世紀起,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論。“科學始于觀察”成為科學研究和認識論的主流,例如:牛頓通過觀察蘋果落地,提出了萬有引力定律。20世紀30年代,德國哲學家波普爾提出了被后人稱為“證偽主義”的認識論觀點。他認為科學理論不能用歸納法證實,只能被試驗發現的反例“證偽”,因而他否定科學始于觀察,提出“科學始于問題”的著名觀點,例如:弗萊明通過對培養葡萄球菌的器皿長出的綠霉提出質疑,發明了青霉素。今天,大數據興起引發了新的科學研究模式:“科學始于數據”,例如:谷歌成功利用大數據提前一兩周預測流感爆發;美國Flatiron Health公司正在研究大數據戰勝癌癥的方法。因此,大數據已經改變了人們認識世界的方式等。

4.2 大數據改變管理方式

大數據時代人的行為甚至思維習慣都變得可以分析。亞馬遜、淘寶等購物網站記錄人們的購物習慣,谷歌等搜索引擎分析人們的搜索內容,微博、社交網絡、微信等對個人隱私幾乎無所不知,基于Web2.0的社交網絡應用甚至可分析人們的行為和思想。就像借助于顯微鏡人們可以看清細胞的結構、互動關系一樣,借助于面向在線社交網絡的大數據分析技術,可以分析人的行為、思維和情感,從而對人性和人的行為進行分析。

正因為大數據分析的這一能力,社會的管理模式將發生深刻的變化。例如:2013年 “單獨二胎”政策的制定與出臺,充分利用了大數據分析技術,通過社交媒體發布擬制定的政策和規劃,然后引導討論,從而搜集民意,廣泛開展民意調查,為政策和規劃的最終制定奠定了基礎;輿情分析應用,可以通過分析互聯網大數據,發現熱門話題、話題的來源、話題的推手、話題的傳播面和人們對話題持有的立場等;美國的數據監聽計劃,美國國家安全局全面監控Google、Facebook、微軟等網絡媒介的數據以及個人智能手機的隱私信息,以掌控民意和獲取情報,為政府和軍方決策提供支持。因此,大數據已經深刻的改變了人們的管理方式。

5 結論

面對大數據時代的來臨,必須認清特點,把握走向,積極應對,高度重視大數據及其應用的潛在價值,時刻關注其前沿技術,加快推進其實際應用,確保在新一輪信息化浪潮中贏得主動,占得先機。

參考文獻

[1] HU H, WEN Y, CHUA T S, et al. Toward scalable systems for big data analytics: a technology tutorial[J]. IEEE Access, 2017, 2(1):652-687.

[2] SOWMYA R, SUNEETHA K R. Data Mining with Big Data[C]// International Conference on Intelligent Systems and Control. IEEE, 2017:246-250.

[3] MANYIKA J, CHUI M, BROWN B, et al. Big data: the next frontier for innovation, competition, and productivity[J]. Analytics, 2011.

[4] AGARWAL R, DHAR V. Editorial —big data, data science, and analytics: the opportunity and challenge for IS research[J]. Information Systems Research, 2017, 25(3):443-448.

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产成人综合在线观看| 青青草原国产免费av观看| 福利在线不卡| 精品1区2区3区| 国产91精品久久| 日韩毛片免费| 精品成人一区二区| 国产精品自拍露脸视频| 综合亚洲色图| 日韩欧美高清视频| 农村乱人伦一区二区| 亚洲AⅤ无码国产精品| 中文字幕av无码不卡免费| 亚洲一区二区三区麻豆| 亚洲AⅤ无码日韩AV无码网站| 色爽网免费视频| 久久99国产综合精品1| 欧美亚洲国产精品第一页| 少妇精品网站| 欧美成人精品在线| 亚洲精品日产精品乱码不卡| 精品视频91| 亚洲大尺度在线| 亚洲一区毛片| 欧美成人手机在线视频| www中文字幕在线观看| 亚洲不卡网| 亚洲最新地址| 欧美在线观看不卡| 久久久精品国产SM调教网站| 国产网站在线看| 国产尤物jk自慰制服喷水| 国产成人高清亚洲一区久久| 国产一级精品毛片基地| 亚洲—日韩aV在线| 国产亚洲精品91| 国产成人高清亚洲一区久久| 国产精品自在自线免费观看| 青青青草国产| 亚洲嫩模喷白浆| 久久夜色精品国产嚕嚕亚洲av| 国产精品久久久久久久久| 99无码熟妇丰满人妻啪啪| 91综合色区亚洲熟妇p| 亚洲男人的天堂久久香蕉| 亚洲国产精品成人久久综合影院| 国产精品久久久久久影院| 依依成人精品无v国产| 亚洲精品色AV无码看| 国产人在线成免费视频| 天天摸夜夜操| 国产免费高清无需播放器| 热伊人99re久久精品最新地| 色妞www精品视频一级下载| 成人亚洲天堂| 五月激情婷婷综合| 18禁色诱爆乳网站| 香蕉色综合| 老司机久久精品视频| 国产日本欧美亚洲精品视| JIZZ亚洲国产| 伊人久久婷婷| 日本欧美午夜| 免费99精品国产自在现线| 一级毛片基地| 国产高清又黄又嫩的免费视频网站| 国产小视频在线高清播放 | 伊人色在线视频| 呦女精品网站| 97影院午夜在线观看视频| 色综合狠狠操| 成人夜夜嗨| 日韩精品无码免费专网站| 国产91无码福利在线 | 国产亚洲一区二区三区在线| 丁香五月激情图片| 亚洲天天更新| 日韩免费毛片| 欧美日韩午夜视频在线观看| 国产另类乱子伦精品免费女| 69av在线| 亚洲人人视频|