999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據信息系統關鍵技術的問題與對策

2021-04-15 15:57:14
中國新技術新產品 2021年3期
關鍵詞:數據庫

王 虎

(蘇州市體育信息中心,江蘇 蘇州 215000)

計算機網絡技術的發展以及無線網絡技術的快速普及為大數據技術的發展帶來了機遇,我國逐步進入信息化時代,人們工作和生活中產生的數據信息也在急速增長。傳統的數據管理方式無法承擔如此巨大的計算量和負荷量,如果無法處理與日俱增的數據,互聯網及其衍生行業就將面臨崩潰。大數據關鍵技術主要包括采集技術和預處理技術等,但是現階段在對各關鍵技術的研究和發展中仍然存在一些問題,這阻礙了大數據技術的進一步發展。該文將針對大數據技術中信息系統的關鍵技術問題進行分析并探討相關的解決方案。

1 大數據技術

大數據是指超過使用者本身能夠處理和分析并且通過常規軟件和工具無法處理的數據合集。大數據具有量大、快速、多樣、低價值密度以及真實性強等特點。通過對大數據的含義及特點進行分析就可以發現,僅依靠人力和常規軟件是無法對其進行收集和處理的;并且大數據的意義不僅在于單純地收集和記錄所有數據,關鍵是在收集后對其進行專業處理,以更加直觀的方式呈現在使用者面前。云時代的到來為大數據的發展提供了更加堅實的技術基礎,大數據也逐漸成為國家和社會關注的重點技術,隨著研究的不斷深入,大數據也不斷地進入到社會的多個領域和行業,進一步促進了人類社會的發展。在信息化時代,數據已經成為信息產業實現持續發展并帶動經濟增長的新引擎。

現階段,大數據的關鍵技術主要集中在以下5個方面:1) 數據采集技術。大數據采集技術主要是通過數據庫來接受射頻數據以及收集App等用戶端發出的海量數據,同時,它也是大數據知識服務模式的根本技術[1]。2) 大數據預處理技術。大數據預處理技術對數據庫接受的信息進行批量處理,從而實現對已收集數據進行篩選和抽取的功能。3) 大數據存儲及管理技術。大數據存儲技術對已收集和已處理的數據進行批量整理,并建立相應的數據庫用來存儲數據;除此之外,大數據存儲技術還能對數據庫的數據進行有效地管理,從而達到去冗余優化存儲的目的。4) 大數據分析及挖掘技術。大數據分析以及挖掘技術能夠憑借先進、高效的算法對用戶網絡行為以及情感語義等進行分析;另外,數據挖掘能夠在海量的數據庫中提取潛在的具有價值的信息,且數據挖掘的方法也是多樣的。5) 大數據展現及應用技術。大數據展現及應用技術能夠通過各種形式將大數據挖掘技術提取出來的各種有價值的信息呈現出來,同時應用到社會生產以及經濟活動中,從而進行商業決策以及政治決策等活動。除此之外,大數據關鍵技術還可以細分為數據傳輸、數據存儲、數據處理、數據交換以及數據交換等,它們分別在不同的技術領域內發揮具體的作用,見表1。

表1 大數據關鍵技術

2 大數據采集技術

數據采集技術是推動大數據技術不斷發展的根本性技術,數據采集技術中的數據采集也是數字被測單元自動采集數據的一個過程。根據數據的來源進行分類可以分為內部數據和外部數據,例如互聯網企業往往會使用企業數據庫的日志數據,這就是最為常見的內部數據的來源之一;例如央行的征信系統就是屬于外部數據。

2.1 技術問題

現階段我國的大數據采集技術在發展過程中遇到的最主要的問題在于隨著社會的不斷發展,互聯網中的數據量呈幾何級的速度在增長,海量數據給大數據的采集帶來了前所未有的挑戰。現階段大數據采集技術在研究和使用過程中主要面臨以下3個問題:1) 大數據采集復雜數據的能力有待提升,與傳統的數據采集模式不同,信息化時代下的數據不僅包括文本內容、圖片、視頻以及音頻,而且非結構化數據的大量出現在一定程度上也增加了采集的難度;因此,大數據采集技術需要提升對非結構化數據的采集能力[2]。2) 并發數據的數據源多種多樣,并且短時間內產生的數據量也較大,不僅需要保證大數據采集的可靠性,而且還需要保證大數據采集的高效性,從而滿足對大規模數據的采集需求。3) 大數據采集技術的識別能力還有待提升,提升大數據采集技術的識別能力可以避免在海量數據庫中產生重復數據。

2.2 研究對策

在針對數據量大以及數據產生速度快等問題的研究中,如果要保證數據采集的可靠性與高效性,就需要根據數據來源的不同進行有針對性的數據采集活動。首先是Web數據采集,常用的數據采集方式主要是通過網絡爬蟲或者通過網站公開的API進行采集。以網絡爬蟲為例,在數據采集的過程中,會從初始網頁開始篩選,在篩選的過程中會不斷地將新的網頁加入到篩選行列中,直到其采集到合適的信息才會停止;例如交通管理部門在軌跡數據采集中用到的軌跡數據約簡算法,其操作步驟如下:假設1個初始軌跡有n個采樣點,就可以將其視為有n-1個分段,A、B、C是3個連續的時空位置點,根據其前一個位置點A和后一個位置點C來計算B的時間同步歐式距離。這就是基于大數據技術的交通管理部門數據采集與處理技術的基本原理,如公式(1)所示。

式中:sed為指令;x和y為變量和常量。

通過Web數據采集,不僅是文本信息,各種圖文內容的非結構化數據同樣能夠在短時間內被采集并存儲到數據庫中。除此之外,部分互聯網企業還有專門的系統日志,通過采集系統日志就能實現對企業內部業務等大數據的采集;同時,在離線的情況下也可以完成采集工作,并且該技術采用的分布式架構能夠實現每秒近百兆的采集速度,極大地滿足了對內部數據的采集需求。

3 大數據預處理技術

大數據技術預處理的總體框架主要是在采集和交換得到初始數據后,通過在線或者離線的方式進行傳輸,其中的結構化數據可以通過電子表格或者傳統的關系型數據庫進行處理,而半結構化或者非結構化數據可以采用華為公司的FusionInsight大數據平臺或者易安信公司研發的Pivotal平臺進行預處理,從而得到統一的數據視圖。大數據預處理框架如圖1所示。

并不是所有數據在經過采集后就可以馬上投入使用,由于數據采集的來源不同,并且不同的數據在種類以及質量方面都存在差異,部分數據大體上都是不完整的,該數據統稱為“臟數據”。因此,如果不加處理就對該數據進行挖掘,那么挖掘的質量也會大打折扣[3]。在收據處理的整個流程中,首先要對數據的準確性進行審核;其次是對數據的適用性進行審核,目的在于避免出現數據有誤差以及與項目不匹配等現象;再次是對數據的及時性和一致性進行審核。

3.1 技術問題

一方面,首次采集到的信息一般都是不完整的“臟數據”,未加處理就對其進行分析往往也只能得到質量較低的結果;另外,不完整的數據也沒有進一步挖掘的價值,一般來說,該數據缺乏一定的屬性值或者僅包括聚集數據。另一方面,某些含噪聲的數據不經過處理就會給使用者帶來錯誤的信息,該數據往往包括與實際期望不符的離群值,從而導致對決策的誤判等。

3.2 研究對策

想要得到高質量的數據就需要對數據進行預處理,數據的預處理主要包括數據的清洗、集成、交換以及規約。數據清洗是處理“臟數據”最為有效的方法,也是保證數據質量的重要保證。數據清洗包括遺漏值的處理、噪聲數據的處理以及不一致數據的處理[4]。在處理遺漏值的過程中,可以使用全局常量的方式對這類缺乏一定屬性的數據進行處理,如果該方式不能處理,就只能選擇略過該數據。現階段,在噪聲數據的處理中,使用較多的方式是分箱,即對采集的原始數據進行分組,再通過特殊的算法對組內的數據進行平滑處理,從而達到清洗數據的目的;例如以分布式為設計方向的數據處理系統Hadoop,它是Apache基金會下的1個開源項目(可以免費獲取),基于強大的資金和技術的支持,Hadoop不僅擁有高效的大數據預處理能力,而且還擁有海量的存儲能力。現階段,Hadoop發展迅速,其下各個項目(例如Hive、Pig等)具有不同的數據處理能力,使其能夠實現對“臟數據”的處理,深入挖掘數據的屬性值。Hadoop的各種項目及其功能描述見表2。

表2 Hadoop項目的功能描述

4 大數據存儲及管理技術

數據的存儲及對數據進行有效地管理也是大數據的核心技術,一般來說,計算機的數據存儲模式與人腦有一定的聯系,計算機與人腦都能通過不同部位對短期數據以及長期數據進行存儲和管理。在短期數據的存儲中,計算機依靠RAM進行處理。在傳統的數據處理模式中,計算機的數據存儲容量、存儲速度往往會受到計算機性能的制約[5];而且在現階段數據產生速度快且產生量如此大的情況下,大數據的存儲以及管理對提升數據的處理效率起到了至關重要的作用。

4.1 技術問題

大數據的1個顯著特征就是數據的產生量大、產生速度也較快,因此大數據存儲及管理技術面臨的第一個問題就在于數據量過大,如何對規模如此大的數據進行集中管理是技術層面面臨的主要問題。在對大數據進行處理的過程中,數據量單位基本上都是從PB起步,并且根據研究項目的不同,數據量單位甚至能夠達到ZB。另外一個問題在于數據采集的來源較多且數據的種類較為復雜,存儲和管理工作需要依靠先進的算法且存在巨大的運算量。

圖1 大數據預處理總體框架

4.2 研究對策

近年來,隨著相關方面的扶持力度不斷加大,大數據存儲及管理技術的水平也在逐步提升。現階段,在解決數據存儲和管理的問題時,一般會采用不斷加密、倉庫存儲以及云端備份的方式。一方面為了保證數據存儲的安全性,越來越多的企事業單位會選擇采用不斷加密的方式對數據進行管理。對于企業來說,企業數據是其重要的資產,不斷加密已經成為了打擊數據威脅的重要手段。另一方面,云存儲服務逐漸向數字化轉型,這也就意味著在云端能夠實現對數據的快速遷移,數據安全面臨的風險就會大大降低,同時,云端數據庫能夠在短時間內接收并管理數量龐大的各類數據,在一定程度上有利于減輕服務器的負荷量。

5 大數據分析和挖掘技術

大數據的挖掘就是在數量龐大、缺乏完整性且有噪聲的數據中,對有潛在價值的數據進行提取。大數據分析及挖據技術被廣泛應用于商業及政治等領域,能夠對決策起到重要的輔助作用。

5.1 技術問題

大數據的飛速發展以及其自身極高的應用價值使它不斷發展成為技術領域的主流,在社會生產和發展過程中往往會產生海量的數據,在該基礎上需要找到1種高效的算法去解決數據挖掘所面臨的復雜的問題。同時,由于不同數據的來源以及命名方式存在差異,因此想要在該基礎上深入數據的內部,同樣也是當前待解決的問題。

5.2 研究對策

要對大數據進行挖掘和分析,就需要在雜亂無章的龐大數據庫中提取有效的數據信息,從而找到研究對象的內在規律。在數據挖掘和分析的過程中,可以采取分類、回歸分析以及聚類等方式從不同角度對數據進行挖掘。分類就是對采集到的數據進行分組,在不同的數據組中尋找數據的共同特點。而聚類同樣是采用分組的方式,但是與常規分組有區別的是,聚類會以數據的相似性以及差異性特征對數據進行分類,從而使同一類別中數據的相似性盡可能大,而不同類別中數據的差異性盡可能大。

6 結語

隨著社會的不斷發展,大數據技術的應用層面會更加廣闊,但是隨著數據量的不斷增大,數據的來源也將更加復雜;對數據的采集、處理以及分析也會面臨巨大的考驗。大數據技術研究過程中的關鍵技術主要包括數據的采集、預處理、存儲和管理、挖掘和分析以及展示和應用這5個方面。現階段,最主要的技術問題在于數據的量大且時效性強,需要在保證高效安全的情況下,實現對于數據的快速采集和處理,同時保證對大批數據的存儲。目前,我國針對大數據的研究已經初見成效并處于世界領先的水平,相信在不遠的將來我國的大數據技術將為世界網絡上信息技術的發展帶來全面的革新。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 波多野结衣无码中文字幕在线观看一区二区 | 国产簧片免费在线播放| 美女无遮挡拍拍拍免费视频| 成年看免费观看视频拍拍| 免费A级毛片无码免费视频| 国产人成网线在线播放va| 天堂亚洲网| 91小视频版在线观看www| 亚洲日韩第九十九页| 免费亚洲成人| 国产国产人成免费视频77777 | 欧美精品另类| 日韩无码黄色| 成人毛片在线播放| 99精品福利视频| 国产白浆在线观看| 亚洲人成日本在线观看| 国产靠逼视频| 久青草网站| 国产小视频a在线观看| 99在线视频免费| 免费va国产在线观看| 99精品久久精品| 性激烈欧美三级在线播放| 国产无套粉嫩白浆| 欧美第一页在线| 伊人精品视频免费在线| 日韩天堂视频| 欧美日韩久久综合| 中国一级毛片免费观看| 久久午夜夜伦鲁鲁片无码免费| 久996视频精品免费观看| AV老司机AV天堂| 嫩草国产在线| 国产精品香蕉在线观看不卡| 日韩精品高清自在线| 亚洲日韩精品综合在线一区二区| 亚洲成人在线网| 永久在线播放| 九九热这里只有国产精品| 久精品色妇丰满人妻| 日韩中文精品亚洲第三区| 天天色天天操综合网| 麻豆国产在线不卡一区二区| 亚洲精品无码专区在线观看| 国产97视频在线| 欧美一区二区三区不卡免费| 免费看久久精品99| 欧美精品高清| 亚洲男人在线| 成人国产小视频| 成年人国产视频| 欧美成人一级| 中文字幕无码电影| 国产成人精品视频一区视频二区| 日韩精品成人在线| www亚洲精品| 曰韩免费无码AV一区二区| 亚洲三级影院| 日韩在线视频网站| 国产91视频观看| 在线观看亚洲人成网站| 国产三级成人| 九色在线观看视频| 亚洲精品在线影院| 欧美天堂在线| 秋霞一区二区三区| 日韩精品无码免费专网站| 免费国产一级 片内射老| 日韩精品毛片人妻AV不卡| 成人夜夜嗨| 毛片免费在线| 久久久久久高潮白浆| 免费人成又黄又爽的视频网站| 久久99国产乱子伦精品免| 日本a∨在线观看| 国内老司机精品视频在线播出| 色综合久久88色综合天天提莫 | 91丝袜乱伦| 台湾AV国片精品女同性| 亚洲动漫h| 在线观看免费黄色网址|