“大數據”發展趨勢中所增加的大部分數據都是在自然環境下產生的,比如說網絡言論、圖片和視頻等不受控制的東西,以及來自于傳感器的數據等。這些以每年50%的速度增長的所謂“非結構化數據”,通常不能為傳統的數據庫所用。大數據提供了更多的原材料,要讓數據為企業競爭服務,我們作好了管理和處理大數據的準備了嗎?
我們思考的數據量不管目前是TB級,還是不久會在PB級、甚至將來的EB級,搜索和處理量在萬億記錄的“超數據”(Exadata)規模上運行,數據必須要成為信息情報才能為我們所用。
因此,迎接大數據的挑戰,不僅僅是硬件的準備,處理和分析軟件尤為重要情報分析系統要BI定量分析與競爭情報專題分析相結合,體現人機協作的關系。
從本質上來說,“數據”、“信息”、“情報”這三者是有本質的區別的。數據是指未經信息加工處理統計數字、消息、傳言、觀察到的現象,等等。數據具有原始性、不成熟性、不完整性、非結構等特點。信息是指經過提煉、加工和集成的數據,是經過一定處理流程后的產物,是大腦思維活動把客觀事物運動和主觀思維活動的狀態描繪出來的結果。而情報是信息和智慧融合在一起并成為一項決策的依據。
數據與情報分析的關系是將大量原始、初級、雜亂無章的“數據”,轉化為清晰地表達出一定含義的“信息”,繼而從中按照企業競爭需要提取出有價值的“情報”并應用于企業競爭實踐的過程。否則,不僅難以搭乘大數據這輛車,還會在情報分析的“稻草堆里撈針”時,“將稻草也看成是針”。
迎接大數據的挑戰,不僅僅是硬件的準備,處理和分析軟件尤為重要。具體來講:
一是情報分析系統要將BI定量分析與競爭情報專題分析相結合,體現人機協作的關系;二是從互聯網采集數據信息,或將其他數據系統中數據轉化為比較分析結果、趨勢預測、因素分析和關聯規則等;三是構建由不同分析模板組成的通用、特定分析模板;四是建立分布式的多媒體數據庫、模型庫、情報知識庫,具有先進的知識表達能力,擁有智能化的人機交互環境,能集成眾多領域專家的知識、經驗;五是有數據關系抽取和敏感信息預警功能,能夠通過文本挖掘技術自動抽取數據之間的關系,并提供有多種可視化模板以支持數據之間關系的可視化顯示。