李國忠
摘要:大數據已經滲透到商業、生活、通訊、金融等各個方面。由互聯網+衍生出的新型電子商務產業對于大數據的處理機制和算法有著極高的要求,對數據庫系統的高并發和承載提出了更高的要求。文章對互聯網+時代的大數據進行了分析。
關鍵詞:大數據;電子商務;系統承載;高并發
1大數據概述
大數據,在IT行業的專業解釋是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。簡單地理解,即很難用工具實時統計或者計算的數據,特別是隨著信息技術的發展,尋常意義的數據量已經不能完全記錄龐大的網絡行為。在這種條件下,大數據就應運而生了。大數據甚至不能用G或者T來衡量,始計量起碼是P(1000個T),E(100萬個T)或者Z(100億個T),如此龐大的數據量不可能在短時間內捕捉,而只能進行有效的數據挖掘。
有了大數據的發展,才可能造就一個新的時代——大數據時代。最早提出這個概念的是全球知名咨詢公司麥肯錫。他提到:“數據,已經滲透到當今的每一個行業和業務職能領域,成為重要的生產因素。人們對于海量的數據挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
2大數據的來源
其實準確地說大數據一直都存在,只是在這個概念提出之前,人們沒有過多地關注它,才會覺得大數據是在突然之間出現的新事物。其實不然,以前人們關注的都是交易系統和業務系統產生的最終數據,因此呈現的數據比較少。而其中的各種流水操作,例如購買物品清單、上網瀏覽歷史、照片,同這些數據同樣存在,但是不關注,也沒有特意去存儲,因為那些數據既是繁雜的,也是大量的,在那時看來,也是無價值的。
而在大數據時代,更多的則是關注這些大量的看似并不重要的數據。當然,這些數據來源是不同的,包括用戶、本地數據、社交數據、網站分析等,通過整合并且分析這些數據可以挖掘出用戶的消費習慣以及個人偏好,從而在一定意義上知曉用戶需要什么體驗,喜歡怎樣的產品。對這些大數據加以利用,相比以前能更容易地理解業務,也能更準確地獲取用戶信息,從而創造出更大的價值。
迄今為止,大數據已經滲透到商業、生活、通訊、金融等各個方面。由互聯網衍生出的新型產業,例如像新浪這樣的門戶網站,以及微信、qq這樣的社交軟件,都對大數據的處理機制和算法有著極高的要求。新浪的數據挖掘要實時地從數千萬條用戶關注的詞條中篩選出最熱門的詞條,每一秒產生的數據量便是數千萬,甚至更多。為了應對這樣的難題,自然會研發出相應的大數據核心搜索算法,而兩者是相輔相成的,大數據的產生促進了大數據處理機制的完善,而愈加完善的處理機制使大數據創造出更多的價值。
當然,與大數據緊密相關的還有2個詞:高并發和系統承載。高并發指的是使用多個線程或者多個進程,同時處理不同的操作,像淘寶這樣的電商平臺,在雙十一的購物節同時訪問網站的活躍用戶可達數千萬,系統必須有應對高并發量的處理能力,即系統承載能力要強,否則整個系統會因陷入紊亂而癱瘓。
3大數據的應用領域
在未來的發展中,大數據的應用領域又是什么。本文將從5個方面來闡述。
第一大領域是市場營銷。一個企業的發展前景與它在這個領域所占據的市場份額是密切相關的,因此市場營銷就顯得尤為重要。具體來說,通過大數據提升消費者與企業之間的關系,使得企業的產品能夠賣得更多,更快,更有效率。
過去的營銷方式主要是通過電話和電子郵件進行推廣與營銷,但現在不同了,有網頁、社交媒體賬戶、博客、新浪微博等。正是因為渠道的多樣性,跟蹤客戶的腳步就變得更加困難,他們的每一次點擊、收藏、點贊、分享、加好友、轉發等行為都將納入企業的銷售漏斗中,如此龐大的數據量無疑是一個巨大的挑戰,但也是一個有潛力的挑戰,這就是一種全方面的客戶視角,能夠實現個性化和精準定位,將企業與客戶之間的接觸點變得更細。
第二大領域是公共服務。將大數據應用于社會和政府,通過數據挖掘來預測疾病暴發,理解交通模型并改善教育。如今,就中國而言,隨著大量的農村和郊區人口涌入城市,城市正面臨著預算超支、基礎設施難題這些緊迫的問題。而城市也將變為大數據計劃的絕佳實驗室,政府公共數據公開化以及市民生活的高度數字化(購物、交通、醫療等)等都是大數據分析的理想對象,也可以通過數據挖掘和調整政策來緩解公共問題。
第三大領域是人工智能。人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考,也可能超過人的智能。這門技術目前還不成熟,卻也為未來之路奠定了方向。大數據的采集和分析將會為人工智能的發展提供可靠的數據。比如,人類思考的過程中腦部神經細胞的相關活動,要完整地記錄這些活動,需要的數據是龐大的,大數據的分析就顯得至關重要。
第四大領域是機器和設備性能優化。大數據分析還可以讓機器和設備在應用上更加智能化和自主化。現在涌出的智能手機便是如此,智能手機的發展,由當初諾基亞的塞班系統,到谷歌公司的安卓系統再到后來蘋果公司的lOS系統,無不體現大數據的重要性,只有通過大數據的分析來掌握手機用戶的全方面的需求,從而更深一步開發和優化手機系統,才能贏得更多的市場,而當年風靡全球的塞班系統正是由于過于守舊,沒有借助大數據的浪潮,才會逐漸被取代。
不僅在手機系統方面,大數據工具還曾經被谷歌公司利用于研發谷歌自駕汽車。豐田的普瑞就配有相機、GPS以及傳感器,在交通上能夠安全駕駛,不需要人類的干預。
第五大領域是安全改善。大數據現在已經廣泛應用到安全防衛中,隨著科技的發展,不法分子的作案技巧也越來越高,而攝像設備的利用則讓他們無法順利地逃脫,收集、存儲視頻數據,一旦有需要,警察應用大數據工具,通過數據分析就能為破案提供重要的線索。比如,美國安全局利用大數據打擊恐怖主義,甚至監控人們的日常生活,企業則應用大數據技術防御網絡攻擊。信用卡公司應用大數據工具防止欺詐性交易,信用卡公司可以收集用戶的消費信息,從而推斷其消費能力,進行風險評估,最大程度地防止詐騙借貸。
4大數據的風險
一種事物的產生,往往都有兩面性,大數據存在優勢,為時代帶來新的發展,但其存在的風險也依舊不容忽視。
維克托·邁爾·舍恩伯格在其著作《大數據時代》中提到:“數據量的大幅增加會造成結果的準確,一些錯誤的數據會混進數據庫,而來源不同的各種信息混雜在一起會增大數據的混亂性。”
還有統計學者和計算機科學家指出,巨量數據集和細顆粒度的測量會增加“錯誤發現”的風險。斯坦福大學的統計學教授特Trevor Hastie說“在大規模的數據干草堆中尋找一根有意義的針,其麻煩在于‘許多稻草看起來也像針”。這句話的意思很明顯,當數據量太多的時候,要從其中尋找需要的數據,無疑是大海撈針,給數據的準確分析和統計增加了難度,也為惡搞統計和帶偏見的實情調查研究提供了更多的原材料,從中推導出的結論也會變得更加的多樣性,會對人們造成更多的誤導。
在利用計算機及數學模型的情況下,我們已經馴服和理解了數據。這些模型,正如文學之隱喻,是一種解釋的簡化。它們對于理解是很有用的,不過也存在局限性,沒有一個數學模型能確保它永遠是正確的,而在進行大數據分析的時候,也極有可能得出不正確的結論。
不僅如此,大數據的風險還在于它太注重細節,將信息無限細化,這樣的后果是將不該暴露的隱私全部暴露出來,甚至會被有不良企圖的人加以利用,從而達到他們的目的。
例如現在的軟件系統中都存在著位置定位的權限,別人甚至可以通過手機獲取你的位置,正是因為大數據的存在,自己的蹤跡都仿佛時時刻刻被他人掌握,自己的個人信息同樣能夠被別人知曉。
蘋果公司的云存儲系統曾經發生過泄露事件,部分用戶手機中的私人照片流失,甚至被公布到網絡上,這一行為已經對用戶造成了巨大的傷害,但是究其根底,不得不承認,是大數據導致了這一事件的發生。
大數據將用戶所有的信息加以細化,但隨著產生、存儲、分析的數據量越來越大,用戶的隱私問題在未來的幾年也將愈加凸顯,這些大數據存在著安全隱患,這種風險是大家都不愿意發生在自己身上的,所以新的數據保護要求以及立法機構和監管部門的完善應當提上日程。
5結語
總的來說,大數據無疑已成為避不開的一個因素,也為企業發展的帶來了契機,只有從實時更新的大數據中獲取有效的商業信息,恰當地挑戰發展戰略,才能讓企業獲得更長遠的發展。大數據時代的到來已是大勢所趨,也同樣會對那些守舊的實體企業帶來沖擊,快速崛起的電商占據了越來越多的市場,新的經營模式煥發出璀璨的光彩。