文/楊劉保
警惕大數據的真實性風險
文/楊劉保
大數據是一種數據集成,也是一項IT技術。大數據在給經濟社會發展帶來巨大便利和商機的同時,也蘊藏著各種潛在的風險。大數據的真實性風險實質上就是指大數據的質量究竟是高還是低。大數據在現實中面臨著三種風險,即數據出處來源的可靠性風險、數據傳遞過程的失真性風險、數據分析結果的可信度風險。
大數據;數據質量
大數據是一種數據集成。大數據是指無法在可容忍的時間內用傳統 IT 技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。大數據也是一項IT技術。大數據是繼云計算、物聯網之后IT產業又一次顛覆性、革命性的技術變革。“大數據時代”的來臨已成不可阻擋之勢。現代社會大數據正在改變著世界,改變著人們的生活,已經成為影響一個國家及其全體國民的重要事物。對現有的各種大數據進行系統集成和有效利用是現階段信息化建設的核心任務。但同時大數據在給經濟社會發展帶來巨大便利和商機的同時,也蘊藏著各種潛在的風險。
大數據時代,隨著網絡存儲技術和手段的發展,各種移動設備、智能終端通過有線和無線網絡彼此交互相連,每個在線用戶都在交互網絡中制造、輸送和傳播信息,成為各種信息數據的制造者和提供者。交互網絡中的數據呈海量式增長,數據種類也日益繁多。這種海量式、多樣化的數據不僅以傳統文本形式的數據存在,也有以非傳統的網絡日志、音頻、視頻、圖片等形式的數據存在。在數據規模的日益擴大和拓展過程中,因數據信息來源的多樣化,數據信息本身也存在著混雜甚至混亂的特征,許多不科學、不真實、不可靠、未經驗證的數據進入了數據庫,這就很難保證每一條數據信息都是真實可信的。所以,那種以為數據越多越精確的想法是萬萬不可取的。大數據的價值之一就在于可以通過對其進行分析挖掘出有價值的信息,進而作出科學的預測和決策。通過對這些海量數據的正確甄別、有效分析和深入研究,以期對某一領域、某一部門或整個經濟社會發展作出科學的預判和規劃,這才是大數據分析和研究的真正目的,是大數據的真正用武之地。因此,數據出處來源的真實可靠是對大數據進行科學分析、挖掘和研究的前提條件,如果數據的出處來源環節就出了問題,待分析的數據本身就不具有可信度,那么得出的結論、做出的決策不僅毫無價值,往往還會產生不小的危害,甚至帶來方向性的誤導。在進行數據的初始收集和整理的時候,應該對所收集整理數據的真實性和可信度進行嚴格的監測和細致的過濾,通過嚴格鑒別數據的出處和來源,正確識別并剔除掉虛假數據信息甚至惡意數據信息,真正收集整理出真實有用的數據信息。
數據傳遞過程的失真性風險主要是指大數據信息在網絡傳播的過程中有可能失真。失真的原因大致包括三個方面。一是人為選擇性失真,即人為干預了數據的采集、收集、存儲過程,有選擇性地、有指向性地、有側重地選取數據,或是采集、收集、存儲了大量無用的數據信息,或是采集、收集、存儲了大量不科學、不真實的數據信息,或是雖沒有采集、收集、存儲無用的、不科學、不真實的數據信息,但只是采集、收集、存儲了部分真實的數據信息,甚或在采集、收集、存儲數據信息的過程中完全剔除了有用信息、真實信息從而導致數據的誤差與失真。這種人為選擇性失真既包括采集者、收集者、存儲者自身的主動選擇,即主體自身有傾向性的選擇,也包括采集者、收集者、存儲者自身的被動選擇,即被上級授意對數據信息進行了有針對性的選擇。二是人為操作性失真。無論是普通的數據上傳者,還是經驗豐富的數據管理人員,都有可能因操作不當導致數據出現誤差與失真的情況。在海量數據的具體操作過程中,或是沒有嚴格按照規定要求操作,或是誤改影響系統正常運行的有關參數,或是誤刪系統中的重要文件,致使數據在傳遞的過程中與原始數據存在一定程度的出入,甚至相去甚遠。特別是在數據操作人員的操作技術不熟練而又操作十分復雜的系統時,數據誤差與失真的概率將大大增加,數據的完整性將大打折扣。三是非人為性失真,主要是指由于數據版本的變更而導致數據出現誤差和失真。任何數據的形成都不是一勞永逸的,隨著時空的轉換、政策的調整、技術的革新、人力和物力的投入,數據總會在原始版的基礎上出現各種升級版,出現數據的1.0版、2.0版、3.0版、4.0版……選擇什么樣的數據版本,就意味著失真的可能性將會有多大,版本的級別越高,失真的可能性就會越小,數據的真實性和可信度就會大大增強。只有最大限度地降低人為影響和干預,提高數據操作人員的技術熟練度,區分不同的數據版本,方可降低數據在傳遞過程中失真的可能性。
海量的大數據只有通過總結、分析和研究,才能對實際工作和生活、對經濟社會發展起指導作用,而當前大數據處理技術的快速發展又對提升數據計算的精確性和結論分析的正確性提供了強有力的技術支撐,于是,大數據分析成為一種炙手可熱的研究范式,大數據分析技術成為一種新興的技術類型。大數據分析技術是一種從復雜、混亂、海量、多樣的數據中挖掘有用信息、得出相關規律、預測變化趨勢的技術,通過發現并保留相互有關聯的數據加以收集、總結、分析和研究,使其變成可資利用的有價值的數據信息。而在大數據分析過程中,有一個問題值得我們追問:究竟需要多少數據量才能支撐數據分析結果的有效性和可信度呢?一些研究者往往認為自己分析和研究的數據是全數據,力圖實現從傳統的調查統計學中的抽樣調查思維向大數據時代的全數據調查思維轉變。一種技術的變遷和躍進無疑值得人們去學習和跟進,但蘇珊·朗格在《哲學新視野》中曾表達過這樣的憂慮:“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進入某種新實證科學的法寶,作為可用來建構一個綜合分析體系的概念軸心。這種‘宏大概念’突然流行起來,一時間把所有東西都擠到了一邊。”實際上,在大數據時代背景下,盡管有大數據分析技術的支撐,任何研究者所接觸和所獲得的數據也很難包括全部數據,那種追求全數據調查和分析的努力是徒勞的,因為全數據這一概念本身就沒有定量性的規定,全數據到底包括多少數據量是全數據概念界定與鑒定中需要注意、需要考慮的重要問題。如果熱衷于全數據調查與分析這種數據處理方式而放棄傳統抽樣調查方法的分析和運用,往往在規律的掌握、趨勢的預測、政策的制定等方面衍生出許多問題。在實際運用中,所謂的全數據分析可能會帶來許多似是而非的“規律”,反而不如傳統抽樣調查的分析更為可信。所謂的全數據分析往往也只是某些“專家”以及大數據的相關處理者按照自己的需要對超大的數據規模隨心所欲地進行搭配、組合和篩選,經過這種處理和篩選后再進行分析與研究就可能形成真真假假的許多“規律”,使得數據分析和處理的結果具有很大的欺騙性。而普通大眾又很難判別分析結果及結論的真假性,在現實以及網絡傳播的過程中容易導致虛假信息的泛濫。比如在股票數據的分析與預測中,有些所謂的分析家會編造出一系列的股票分析預測法,并篩選出有利的數據來支持其分析預測模型,識別這種欺騙性需要具備深厚的理論功底和專業的業務知識,而這是一般的數據使用者很難做到的。因此,大數據分析結果的真假性、正確性和有效性期待依靠使用者的經驗與智慧去判斷那就犯了本末倒置的錯誤。只有數據分析者自身本著求真求實的態度以及對數據分析技術、方法和手段的精準掌握與運用才能避免虛假信息和結論的泛濫,增強數據分析結果的可信度。

楊劉保,中共長春市委黨校哲學與文化教研部副教授,研究方向:哲學與社會發展。
責任編輯 解梅娟
TP393
10.13784/j.cnki.22-1299/d.2016.05.010