黃曉斌 鐘輝新
摘要:文章概述了大數據的主要特征,分析了大數據對企業競爭情報研究的影響,包括企業競爭力的提升需要大數據的支持,現有企業競爭情報數據處理面臨的一些新問題,企業競爭情報分析方法亟待創新,提出在大數據時代企業競爭情報研究的發展方向,應重視數據和信息的集成、注意對數據的清洗與過濾、關注新的數據類型的挖掘分析方法、促進數據分析的可視化、探索大數據新的分析技術和工具的應用等。
關鍵詞:大數據企業競爭情報數據挖掘
中圖分類號:G250.2文獻標識碼:A文章編號:1003-6938(2012)06-0009-06
1引言
隨著信息技術的不斷發展,互聯網的普及利用,各種終端設備記錄了人類社會復雜頻繁的信息行為從而產生了驚人的數據量。據國際數據公司(IDC)的研究報告稱,2011年全球被創建和被復制的數據總量為1.8ZB,并預測到2020年,全球將擁有35ZB(1ZB=10億TB)的數據量[1]。大數據已經滲透到每一個行業和領域,被視為“未來的新石油”,逐漸成為重要的生產因素。隨著消費者、企業、各個經濟領域不斷挖掘大數據的潛力,我們正處在一個巨大浪潮的尖峰,這個浪潮就是大數據驅動的技術創新、生產率提高、經濟增長以及新的競爭形勢和新價值的產生[2]。近年來,大數據技術研究和應用迅速發展,許多國家已經意識到了大數據的重要性,并作為戰略性技術大力推動其發展,大數據時代已悄然而至。
2大數據的含義與特征
目前對大數據還沒有標準的定義,通常認為它是一種數據量很大、數據形式多樣化的非結構化數據。亞馬遜網絡服務、數據科學家JohnRauser曾提到一個簡單的定義:大數據是任何超過了一臺計算機處理能力的龐大數據量[3]。維基百科定義為:大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合[4]。百度百科定義為:大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。從各種各樣類型的數據中快速獲得有價值信息的能力,就是大數據技術[5]。IBM從三個基本特性角度來定義大數據,即:“3V”:體量(Volume),速度(Velocity)和多樣性(Variety)。也有人為大數據包括三個要素,即:大分析(BigAnalytic)、大帶寬(BigBandwidth)和大內容(BigContent)[6]。
概括起來,大數據的特征主要體現在如下幾個方面:
(1)數據總量規模增長巨大。同一類型的數據在快速增長,目前在傳感器網絡、地理信息導航系統、社會網絡(如微博)、即時通訊(如QQ)、電子商務(如淘寶)、數字圖書館、網絡日志等領域都產生了龐大的數據,規模在不斷擴大。如淘寶目前每天活躍數據量已經超過50TB,共有4億條產品信息和2億多名注冊用戶在上面活動。零售巨頭沃爾瑪每小時都要處理100多萬筆客戶交易,數據庫估計超過2500萬億字節——相當于美國國會圖書館書籍數的167倍,而移動互聯網用戶發送和上傳的數據量達到1.3EB[7]。
(2)數據增長的速度呈指數級持續增長。目前很多領域的數據都以驚人的速度增長,根據WinterCorp的調查顯示,最大的數據倉庫中的數據量每兩年增加3倍(年均增長率為173%),其增長速度遠超摩爾定律增長速度。照此計算,2015年最大數據倉庫中的數據量將逼近100PB[8]。大數據的動態性強,要求分析處理應快速響應,在動態變化的環境中快速完成分析過程,有些甚至必須實時分析,否則這些結果可能就是過時、無效的。如導航定位系統、股票分析系統等對數據實時處理有著較高的要求,大數據分析和處理的方法必須能快速地適應相關業務更新頻率加快的需求。
(3)新的數據來源和數據類型在不斷增加。目前產生大數據的領域在不斷增加,數據類型不僅包括普通文本、照片、動畫、音頻與視頻等,還有像位置信息、鏈接信息等新類型的數據。伴隨著社交網絡、移動計算和傳感器等新技術不斷的應用,大數據中有許多是非結構化數據或半結構化數據,沒有特定的描述模型,數據結構是不固定、不完全或不規則的。
(4)數據的價值日益突現。大數據猶如一座富礦,通過海量數據的處理、整合分析,可以發現新的知識,從而創造新的更大的價值。大數據為許多行業帶來新的商機和發展機遇,充分利用大數據可為企業帶來強大的競爭力。大數據分析能從龐大的數據中發現稀疏而有高價值的知識和規律,為預測和決策提供相關支持。如視頻監控的數據量通常十分大,雖然絕大部分可能沒有實際利用價值,但幾秒鏡頭捕捉到某罪犯體貌特征,可能對公安部門而言就是十分珍貴的。大數據分析就是要進行披沙揀金,發現這些珍貴的信息。
綜上所述,對于大數據中“大”的理解,主要有兩個方面,第一是指大量的、快速增長的數據,第二則是數據中所蘊含的價值量較大。可見,大數據之“大”,并不光是指數據的數量之大,它的意義還在于數據的價值之大。
3大數據對企業競爭情報的影響
情報研究是利用數據和信息提煉出有價值的情報,為決策提供有關方案,也就是對數據進行處理、組織和解釋,以揭示其潛在的知識,轉化為可執行利用的情報。企業競爭情報分析就是從原始的數據中發現關于競爭環境、競爭對手和競爭策略情報的過程,從而形成高附加價值的產品。因此,大數據分析在對象、運用的方法和目標等方面都與企業競爭情報研究有許多交集,大數據的興起必然對企業競爭情報產生深刻的影響。
3.1企業提升競爭力需要大數據的支持
數據競爭已經成為企業提升核心競爭力的利器。來自各個方面零碎的龐大數據融合在一起,可以構建出企業競爭的全景圖,洞察到競爭環境和競爭對手的細微變化,從而快速響應,制定有效競爭策略。龐大的數據更具有統計意義,能為各種預測模型提供支持,從而能預測未來的發展趨勢,幫助企業獲得先機。相關的數據整合在一起,能不斷產生新的信息和知識,有助于提高生產率、降低經營成本。如2008年初,阿里巴巴平臺上整個買家的詢盤數急劇下滑,自然導致買盤的下降,說明歐美對中國采購量在下滑。海關是賣了貨出去以后再獲得數據,而阿里巴巴提前半年時間就從詢盤上推斷出世界貿易發生變化了[9]。企業的競爭不再只是勞動生產率的競爭,而是知識生產率的競爭。數據是信息的載體,是知識的源泉,是企業創造價值和利潤的原材料,因此,基于知識的競爭將集中體現在基于數據的競爭上。正如馬云所說,未來是數據競爭的時代,誰擁有數據,誰就擁有未來。如今各行各業都出現了以數據分析為競爭力的企業,它們都是在數據分析的基礎上與其他企業展開競爭,以提升核心競爭能力,保持或獲得行業領先地位,如谷歌、寶潔、沃爾瑪等世界知名公司。沃爾瑪就建立了一個超大的數據中心,其存儲能力高達4PB以上,通過大數據分析,沃爾瑪掌握了顧客的購買習慣,不同商品一起購買的概率,購買者在商店所穿行的路線、購買時間和地點,從而確定商品的上架布局以及對分類進行優化;決定對各個商店的不同商品進行增減,以保持最優的庫存,降低成本;洞察銷售全局,瞬間捕獲到各種細微的變化,從而快速響應,制定營銷策略;利用大數據工具對供應鏈進行分析以選擇供應商、優化物流配送方案和進行價格談判等;利用大數據分析工具對熱銷商品品種和庫存的趨勢進行分析,以選定需要補充的商品,分析顧客購買趨勢和季節性購買模式,以確定降價商品,并對其數量和運作做出反應[10]。可見,大數據已經成為企業的核心資產,對數據的掌控可以形成對市場的支配,并且獲取巨大的回報。大數據是企業用于提升核心能力的重要手段,而為提升企業競爭優勢的大數據分析是企業競爭情報研究的重要范疇。
3.2企業競爭情報數據處理面臨的新問題
如何確保規模龐大、異構和動態的數據實用可靠,為企業競爭情報研究不斷地提供高質量的“原材料”,是大數據時代企業競爭情報面臨的挑戰。大數據為企業競爭情報工作提出了一些新的問題:(1)管理的數據量龐大。在大數據時代,企業的競爭情報研究需要大量異構的數據支持,而收集、存儲和維護這樣龐大的數據對于一般的企業來說是一種很大的負擔。(2)收集范圍廣泛。為了使企業競爭情報分析更加精準、可靠,支持企業全方位決策,企業不但要持續不斷地收集內部業務流程中各個環節的數據,還要收集顧客行為、競爭對手、供應鏈、宏觀經濟等數據,這種數據收集需要投入大量的人力、物力。面對不斷產生的龐大數據,企業需要持續增加存儲空間,這也是一筆不菲的投入。(3)數據安全風險增大。有關企業大量的數據趨向集中,一旦泄密或者被競爭對手利用,后果不堪設想;大數據量使企業可能采用云服務的模式,委托第三方進行數據存儲和管理,這樣接觸企業數據的人員就會增加,風險無形增大。(4)數據質量難于控制。在大數據時代,數據經過層層的萃取轉化為決策的情報,數據的質量也變得愈加重要。高質量的數據必須保證數據的客觀、可用和完整。數據的質量問題涉及數據收集、使用、傳遞等所有過程,而數據在發布階段經常會被扭曲。在大數據時代,數據的質量是情報價值體現的生命線,不管分析的方法如何先進,但如果輸入時是垃圾數據,最終獲得的還是垃圾結果,對企業不但無益反而有害。(5)數據難于動態集成。目前競爭情報收集子系統對整個企業范圍內的數據集成大多采用靜態整合策略,當數據源中的數據發生變化時,這些變化就不能立即反映給決策者,導致決策使用的是過時的數據,而大數據對實時響應要求很高,因此,競爭情報系統對分布式的數據如何進行動態集成也是一個很大挑戰。
3.3企業競爭情報的分析方法亟待創新
大數據里隱含了許多“金子”,然而“金子”卻不是現成的,需要通過一定方法和工具從中才能“淘”出來。誰掌握最先進的“淘金”方法和工具,誰就能把握先機,從而獲得競爭優勢,而落后者就可能面臨被淘汰的危險。然而,目前從大數據中提煉情報的分析方法面臨諸多問題:(1)難于處理龐大的數據量。在大數據時代,企業競爭情報的分析方法和工具需要處理龐大的數據,通常是PB級的,但是傳統的企業情報分析技術無法處理這么大量的數據,在分析上TB級的數據量時,都會花費幾十個小時的時間才能得到結果,如果分析PB級的數據量時,分析軟件可能根本無法運行,或者運行很久才能獲得結果。(2)難于處理分布式的數據。目前企業競爭情報的分析工具一般都是對數據進行集中式處理,然而在大數據時代,數據是分布式存儲的,如果沒有良好的訪問數據模式,必然導致服務器之間的通訊增加,計算開銷加大,時間延長,成本提高。(3)分析數據結構比較單一。傳統企業競爭情報分析工具的數據通常是結構化數據,而大數據時代,企業有各種不同類型的數據集,其中有可能包含來自企業資源計劃系統和客戶關系管理系統的交易數據、網絡評論和電子商務數據,還有內部文檔和其它格式信息等,絕大部分的數據是非結構化的,超出了現有的企業競爭情報分析能力。(4)無法處理流數據。動態數據流是大數據的主要特征之一,有了分布式的文件系統支撐之后,也必須有進行數據流處理功能才能發揮其效用,但是目前企業情報分析工具基本不具備分布式流處理的功能,對許多實時數據的處理無能為力。(5)數據抽樣受限。由于分析手段的限制,取樣時的樣本數不夠大,不能充分反映和代表所有的數據;同時受限于分析能力而無法獲取復雜問題的答案,受限于時間而不得不采用某項簡單的建模技術。另外,由于沒有足夠的時間來執行多次迭代,模型精度在一定程度上大打折扣。(6)反應速度滯后。在一個開放和競爭的大數據時代,速度是企業的生命線,企業所需的競爭情報是變化的、實時的,這要求企業快速從數據中捕捉情報后用于決策,那么企業競爭情報分析中要對數據存儲、計算、建立模型的過程、提交結果的方式等進行快速應變,但目前的企業競爭情報分析應變性還要達不到這樣的要求。大數據分析處理的基本要求就是速度要快。沒有速度,價值再大的數據也只能是一堆無法流通的廢紙。大數據研究就是對高速增長、規模龐大、多樣性的數據進行快速的挖掘分析,以發現其中隱含的規律知識,并以持續應變的方式提供有效的服務。因此,企業競爭情報研究方法要適應大數據時代的要求,必須在數據的處理量、數據類型、處理速度和方式方法上進行創新。
4大數據時代企業競爭情報分析的發展方向
在大數據時代,數據分析日益成為企業提高利潤來源的支撐點,企業已經不滿足于對現有數據的分析和監測,而是更期望能對未來趨勢有更多的分析和預測,能洞察細微的變化,以增強企業競爭力。因此,需要對數據進行深度分析,而這正是企業競爭情報工作職責所在。從上述看到,目前的競爭情報研究方法和技術處理還存在不少的問題,因此,必須與大數據的分析方法和技術結合,并探索新的方法和技術,形成新的分析方法體系。在大數據時代,定量分析將會得到更廣泛的運用,提供更精確情報信息。大數據技術主要實現對動態、異構、龐大數據的存儲和管理,并從中提取出簡約的數據集。大數據為數據挖掘技術提供了更廣的“舞臺”,數據挖掘主要是在數據中發現有潛在價值知識和模式,而競爭情報分析主要是將挖掘的知識激活,轉化為產生行動的情報。大數據時代企業競爭情報分析主線仍是數據—信息—知識—情報逐層萃取的路線。
4.1加強數據和信息的集成
數據集成是通過各種手段和工具將已有的數據集合起來,按照一定的邏輯關系對這些數據進行統一的規劃和組織,如建立各種數據倉庫或虛擬數據庫,實現數據資源的有效共享。隨著分布式系統和網絡環境日益普及,大量的異構數據源被分散在各個網絡節點中,而它們之間往往是相互獨立的。為了使這些孤立的數據能夠更好地聯系起來,迫切地需要建立一個公共的集成環境,提供一個統一的、透明的訪問界面。因此,數據集成所要解決的問題是把位于不同的異構信息源上的數據合并起來,以便提供這些數據的統一查詢、檢索和利用。數據集成屏蔽了各種異構數據間的差異,通過集成系統進行統一操作。數據分析通常需要大量的數據作為支撐,而這些數據通常又是分散和異構的,通過集成可以更好地保證所分析的數據質量問題[11]。互聯網是一個大而復雜的異構數據環境,每一個站點都可以看作是數據源,各站點間的信息和組織都不一樣,每個數據源都是異構的,要利用這些數據進行數據挖掘分析,必須研究站點之間異構數據的集成問題。網絡數據集成就是從大量的數據中將有用的數據按照不同的應用進行整合、封裝、處理的過程,以解決數據挖掘的應用質量和數量問題。由于大數據的量比較大,采取集中式的挖掘方法總體上看比較困難,而采用分布式協作策略是較為可行的方式,按照某種標準如學科領域或地理區域對數據資源空間進行劃分,得到若干子空間,再對每一個子空間分別建立相應的系統進行數據挖掘分析,構成網絡上的分布式協作數據挖掘群體系統,然后對挖掘的結果和數據進行整合,形成總體方面的知識。目前很多企業設有許多分支機構,有些大型的企業甚至還有海外分支機構,其業務數據一般也要通過集成才能進行總體的競爭情報分析,更好地為企業的戰略決策服務。
4.2注重數據的清洗與過濾
大數據時代企業所要處理的數據比較多,但數據的質量往往參差不齊,如有些數據不一致或不準確、數據陳舊以及人為造成的錯誤等,通常被稱之為“臟數據”。由于數據挖掘是數據驅動,因而數據質量顯得十分重要。“臟數據”往往導致分析結果的不正確,進而影響到決策的準確性。由于大部分的數據庫是動態的,許多數據是不完整的、冗余的、稀疏甚至是錯誤的,這將會給數據的知識發現帶來困難。由于人為因素的影響,如數據的加工處理以及主觀選取數據等,從而使得數據具有某些噪聲,會影響數據分析模式抽取的準確性。大量冗余數據也會影響到分析的準確性和效率。因此,在數據挖掘分析時,首先需要進行數據預處理,也就是要對數據進行凈化和過濾,刪除一些無關的數據。數據清洗是一個減少錯誤和不一致性、解決對象識別的過程[12]。一般通過概率統計等原理查找數值異常的記錄。如在網站的日志文件數據處理中,可以通過檢查URL的后綴刪除認為不相關的數據,可使用一個缺省的后綴名列表幫助刪除文件,去掉一些不能反映用戶行為的記錄,過濾一些請求錯誤和失敗的記錄等。
在大數據時代,不能不計成本盲目的收集各種海量的數據,否則將成為一種嚴重的負擔。數據的體量只是大數據的一個特征,而數據的價值、傳遞速度和持續性才是關鍵。為了達到這些目標,企業競爭情報收集可以采用最小數據集的方法,指通過收集具有代表性的最少的數據,更好地掌握一個觀察對象所有的特點或者一個事件所處狀態,其核心是針對被觀察的對象建立一套精簡實用的數據指標,采用一定取樣標準選擇和過濾相關數據。總之,通過對數據質量的控制和管理,可以提高數據分析的準確性,進一步提高競爭情報工作的效益。
4.3關注新數據類型的分析方法
在大數據時代,企業無論是日常運營,還是重大戰略決策,都會在各種各樣的信息系統中留下各種數據記錄,這些數據通過技術整合起來,可以再現一個企業的運行軌跡和發展全景。競爭情報研究就是發現有價值的知識和模式,洞察企業競爭環境,預測未來,從而獲得競爭優勢。隨著信息技術的普及應用,新的數據類型不斷產生,下面一些新的數據類型和分析方法值得關注。
(1)實時數據。如微博、短信等大量的動態數據流,是一種十分重要的競爭情報源。數據流挖掘是對數據進行單遍現行掃描,快速處理數據,提供實時近似結果的技術。如窗口技術采用分而治之的策略,將流數據按照特定的需求分配到不同的窗口,進入窗口內的數據才會被處理,以減少分析處理的數據量;而概要數據結構技術將數據流進行概括統計的數據結構代表原始數據,而不是保留數據流中的全部數據,從而減少處理的數據量[13]。在大數據時代,競爭情報分析的數據許多是連續、快速、隨時間變化的,對如此巨大的數據流,企圖存儲或者掃描所有的數據都是不實際的,只有采用動態的數據流挖掘分析技術才能有效解決數據的沖擊,獲得實時近似的結果。數據流挖掘技術能為競爭情報提供實時查詢服務和處理,從而促使企業的“觸角”保持足夠的敏捷性。
(2)動態數據。從時間的維度發現有關變化規律。時間序列分析是指從大量不同時間重復測得的數據中發現前后數據相似或者有規律的模式、趨勢和突變的方法,主要的技術主要是相似模式發現,包括相似模式聚類和相似模式搜索時間序列,采用的主要挖掘方法主要有小波變換法和經驗模態分解法[14]等。在大數據時代,各種數據源源不斷的產生,比如交易數據、網站訪問日志等,從中必然會呈現出時間上的規律,企業希望從積累了大量的歷史數據中分析出一些模式,以便從中發現商業機會,通過趨勢分析,甚至預先發現一些正在新涌現出來的機會,比如企業可以通過數據時間序列分析了解產品銷售的旺季和淡季,制定針對性的營銷策略,減少生產和銷售的波動性,從而獲得利潤和競爭優勢。
(3)關聯數據。關聯數據發現技術是分析數據之間的聯系,將孤立、離散的數據點結合產生數據鏈或者數據圖,隨后從多個數據源中查出匹配給定關聯模式的實例、最后再對匹配的實例評估。目前已應用的主要方法有:圖論的稀有度監測法、圖熵法和基于謂詞的邏輯歸納推理法等[15]。關聯發現技術特別適合于動態的數據發現未知的模式,而大數據中隱含了大量未知、潛在的關系,新模式的發現有利于企業采取“藍海”戰略,搶占先機,從而獲得競爭優勢。
(4)社會網絡數據。社會網絡分析也叫鏈接挖掘,是通過網絡中的關系分析探討網絡的結構及屬性特征,其挖掘重要任務的是基于鏈接的節點排序、基于鏈接節點的分類、節點聚類、鏈接預測、子圖發現等[16]。在大數據時代,大量相關的數據聚合在一起,相互支撐解釋和印證,形成了復雜的數據網絡,數據之間的關系具有非常重要的價值,如通過消費者行為的鏈接數據挖掘能發現傳銷顧客網絡,從而制定找出利潤最大化的顧客群,又如從人際關系的網絡節點的中心度來分析競爭對手,從而制定相關的競爭策略等。
4.4促進數據分析的可視化
數據可視化技術指的是運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像顯示出來,并進行交互處理的方法和技術,其本質是從抽象數據到可視化結構的映射。在大數據時代,數據只是原材料,其真正的價值需要通過知識和情報來實現。企業競爭情報分析的結果必須是可理解的,才能較為容易地轉化為生產力。可視化可以反映數據的語義關系,加快數據的處理速度,使龐大的數據得到充分有效利用;可以在人與數據間實現交互,幫助人們觀察到數據中隱含的問題,為發現和理解有關規律提供有力工具。可視化使競爭情報更加易于理解和運用。采用一定的分析模型將相關的數據組織在一起,直觀地表達競爭情報和競爭情報之間的邏輯關系,如進行一些關聯分析,以生動形象的方式顯示描繪人物、公司和事件之間的聯系,探索事件、人、地點、產品和組織間潛在關系并預測可能產生的結果,輔助決策過程。可視化可作為一種基礎技術嵌入到企業競爭情報分析工具中,人們總是希望看到研究報告中的生動圖像,而不是一大堆枯燥的數據,企業競爭情報研究結果通過可視化方式,采用不同數據維度提供給不同層次的決策者使用,便于理解,支持企業高效運營。因此,可視化技術是大數據時代企業競爭情報研究的有效工具。
4.5探索大數據新的分析技術和工具的應用
大數據時代企業競爭情報面臨的數據量是無法比擬的,對一些實時性要求較高的決策,分析方法的速度和效率顯得十分重要。傳統的競爭情報分析方法顯然難于處理不斷增長的、龐大的、異構的數據,只有借助新的處理技術才能實現數據提取和清洗、分析和利用。目前大數據相關技術研究已取得一定的進展。如“MapReduce”是一種簡潔的并行計算模型,它在系統層面解決了擴展性、容錯性等問題,通過接受用戶編寫的函數,自動地在可伸縮的大規模集群上并行執行,從而可以處理和分析大規模的數據。“MapReduce”具有簡潔的模型、良好的擴展性、容錯性和并行性,可以進行復雜深入的數據分析,隨著其性能的不斷改進和分析能力的不斷增強,能夠幫助人們從大數據中分析和發現有用的知識[17]。如何提高數據挖掘算法的效率和適應性,使挖掘方法具有一定規模的伸縮性,是數據分析較為突出的問題。應用實時性技術和分布并行算法技術是提高數據挖掘方法效率和實用化的有效途徑。此外,統計分析語言標準化也有助于提高數據分析效果。如R語言是主要用于統計分析、繪圖的語言和操作環境,其功能包括數據存儲和處理系統、數組運算工具、完整連貫的統計分析工具。R語言針對大數據將廣泛使用的統計算法進行了優化,能夠在短暫的時間內從大量的數據中發現有意義的信息[18]。目前業界對大數據的處理分析方法已開始進行了一些探索,并且開發了一些相關的工具。企業競爭情報研究應該針對大數據的特點,吸收和融合數據挖掘分析新的技術方法,不斷創新和發展。
5結語
企業競爭情報可以幫助企業洞察競爭環境,發現新的競爭對手、判斷競爭的發展性動向,及時做出相關的反應,從而獲得較大的競爭優勢。大數據提供了一個全新的信息生態環境,給企業競爭情報研究帶來了深刻的影響,促使其不斷地創新和變革,以適應企業在大數據時代獲取核心競爭力的需求。大數據時代的企業競爭情報研究將走傳統情報分析方法與大數據技術相結合的發展道路。目前基于大數據的企業競爭情報研究剛剛起步,許多問題仍然需要進一步探討。
參考文獻:
[1]F.GantzandD.Reinsel.The2011DigitalUniverseStudy:ExtractingValuefromChaos[EB/OL].[2012-08-18].ww
w.emc.com/collateral/demos/microsites/emc-digitaluniver
se-2011/index.htm.
[2]Bigdata:thenextfrontierforinnovation,competitionandproductivity[R].McKinseyGlobalInstitute,2011.
[3]PhilipRussom.bigdataanalytics[EB/OL].[2012-08-01].
http://www.docin.com/p-340502098.html.
[4]Bigdata[EB/OL].[2012-08-18]http://en.wikipedia.org/wiki/Big_data.
[5]大數據[EB/OL].[2012-08-18].http://baike.baidu.com/view/6954399.html.
[6]涂蘭敬.專家觀點:“大數據”與“龐大數據”的區別[J].網絡與信息,2011,(12):37-38.
[7]國金證券.“大數據”行業專題分析報告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130
b4e767f5acfce3f.html.
[8]王珊等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):15-16.
[9]國金證券.“大數據”行業專題分析報告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130b
4e767f5acfce3f.html.
[10]涂子沛.大數據[M].廣西師范大學出版社,2012:161,
304-306.
[11]畢強.網絡信息集成服務研究綜述[J].情報理論與實踐,2004,(1):21-25.
[12]郭志懋.數據質量和數據清洗研究綜述[J].軟件學報.2012,12(11):22-28.
[13]JiaweiHanMichelineKamber.范明,孟小峰譯.數據挖掘概念與技術[M].北京:機械出版社,2007:306-320.
[14]倪志偉等.動態數據挖掘[M].北京:科學出版社,2010:31,232.
[15]張公讓.商務智能與數據挖掘[M].北京:北京大學出版社,2010:151-159.
[16]約翰·斯科特.劉軍譯.社會網絡分析法[M].重慶:重慶大學出版社,2007:1-6.
[17]覃雄派等.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,2(1):33-42.
[18]AlainF.Zuur.R.語言初學者指南[M].西安:西安交通大學出版社,2011:3-10.
作者簡介:黃曉斌(1961-),男,中山大學資訊管理學院教授,博士生導師,研究方向:競爭情報、網絡信息開發利用;鐘輝新(1979-),男,中山大學資訊管理學院博士生,電子科技大學中山學院圖書館館員,研究方向:商情分析與競爭情報。