傅凱群
數據是無處不在的,只要人類的活動依舊,且觀測行為始終存在,那么數據就會不斷產生。一旦數據被記錄下來,它就會成為歷史的一個投影,被保存在各種各樣的信息媒介中。不過在互聯網時代,數據早已掙脫了簡單的數字束縛,它不僅可以是符號、文字、語音,更可以是圖像或視頻。
數據之豐

美景極致之時,我們會拿起手中的相機,將這種美永久定格。風景以照片的形式記錄下來。此時,照片的底片,或者數碼相機的存儲卡就是一個存儲數據的媒介。沒有相機的時代,古人會以文字的形式記錄,馬致遠的“枯藤老樹昏鴉,小橋流水人家”、李白的“飛流直下三千尺,疑是銀河落九天”……此時的媒介就是紙上的這一段文字。
如今,我們的數據記錄媒介更加多樣。比如,我們在超市購物的數據,會以文字的形式,被保留在超市的臨時數據庫中。而健身達人的夜跑經歷,則會被手機或是周圍的監控記錄。試想一下,全球70億人口每分每秒都會產生多少數據,而這些數據將會被如何記錄或是開發呢?
在互聯網技術、社交網絡媒體,以及硬盤存儲能力高速發展的今天,“記錄”這一行為正在變得越來越簡單和頻繁。人們在網絡上的任何行為,如在微博上發的消息、微信朋友圈中的好友、在京東購買的商品等等,都有可能被實時保存下來。很顯然,當用戶的數量達到一個非常巨大的數值時,這些用戶每秒鐘產生的數據都是一個天文數字。
數據之惑

面對如此巨大的數據量,對于針對用戶的服務提供方來說,其價值是不可估量的。但如果數據的所有方缺乏一種有效的應用策略,那么他們手中的數據將變得一文不值——數據和信息是不可分離的,數據是信息的表達,而信息是數據的內涵。數據本身沒有意義,數據只有對實體行為產生影響時才會成為信息。
其實從信息索引的角度看,我們在面對信息量爆炸和信息量極度匱乏這兩種情況時,如果沒有較好的方法,其結果幾乎是一樣的。如果今天沒有類似百度、谷歌這樣的搜索引擎,那我們應該怎樣在互聯網上找到所需的信息或是想要的答案呢?即便我們非常確定,想要尋找的內容一定存在于網絡之中。最后的結果想必是確定的,面對如繁星般眾多的網頁,我們束手無策,找不到自己真正想要的答案。
在互聯網時代中,如何針對如此龐大的用戶數據,構建一個合適的、有價值的信息提取方案,就成了一個亟待解決的問題,而這個概念就是大家耳熟能詳的“大數據”中的一部分——數據挖掘。
數據之力

“大數據”是一個近年來才被提出的概念,它是指在不對已有數據進行抽樣提取的情況下,將原有數據作為整體進行處理的方案(當然這只是一個比較寬泛的定義,有興趣的讀者,可以關注由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶編寫的《大數據時代》)。而這樣的方案,不僅能讓我們擁有更強的決策力和洞察力,而且還能大大提升流程優化能力。
因此,大數據技術的戰略意義不在于掌握多么龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
為了達到處理整體數據的目的,近年來,不少科學家在不同層面上提出了許多非常有趣的新興技術。比如從數據處理角度出發,有分布式處理方法MapReduce。這是一種編程模型,用于大規模數據集(大于1TB)的并行運算。我們可以將它簡單地表述為,將非常大的輸入數據分成多份,然后并行處理,最后將并行處理的所有結果整合成最終結果。這項技術比較著名的應用工具有Hadoop和DISCO等。再從數據庫角度看,NoSQL數據庫以其在信息索引、流媒體存儲等方面的高性能,如今已被廣泛應用。隨著互聯網Web2.0網站的興起,傳統的關系數據庫在應付Web2.0網站,特別是超大規模和高并發的SNS類型的Web2.0純動態網站時,已顯得力不從心,暴露了很多難以克服的問題,而非關系型的數據庫則由于其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合多重數據種類帶來的挑戰,尤其是大數據應用難題,比較著名的NoSQL數據庫有MongoDB和CouchDB等。
數據之術

在現今互聯網大環境下,如何應用“大數據”概念,提取有價值用戶信息,從而實現利潤最大化呢?除了上述底層結構化的技術支持外,有效的數據挖掘(Data mining),甚至是機器學習(Machine learning)算法都是必不可少的。這類算法大多和數理統計學密切相關,其理論基礎也多建立在數理統計學之上。這些行之有效的算法,都有一個相通的基本理念:以史為鑒,即通過歷史數據去推斷當前甚至未來。
2000年,來自美國伊利諾伊大學香檳分校(University of Illinois Urbana Champaign)的韓家煒教授等人,提出了關聯式規則(Association Rules, AR)這一算法,它可從大量數據中挖掘出有價值數據項之間的相關關系。以網絡購物平臺為例,它擁有著巨量的用戶網絡購物信息,比如用戶購物歷史數據:購買時間、商品名稱、種類等等。那我們該如何根據一個用戶的購物歷史向他推薦有可能感興趣的商品,從而提升用戶體驗,甚至是提高平臺收益呢?這就是關聯式規則算法的用武之地了。
首先,我們可以從所有用戶購物信息中提取他們的歷史購物信息,找到用戶先后購買的商品,比如統計在購買手機之后又購買手機套和充電器的訂單數目,從而推斷出用戶在購買手機后,購買手機套或充電器的置信度(可將其簡單理解為概率)。那么根據這些信息,我們就可以在今后,有計劃地向已購買手機的用戶,推薦手機套或者充電器。
當然,這只是一個最簡單、直觀的例子,在現實應用中,我們還要考慮許多更為復雜的因素。比如考慮某用戶的個人信息,并將其納入參照范圍,從而使推薦的商品更貼近用戶本人的偏好。
此外,貝葉斯網絡(Bayesian Network)算法也是目前較為主流的技術之一。它是一種基于概率推理的圖形化網絡,是為了解決不定性和不完整性問題而提出的,而貝葉斯公式則是這個概率網絡的基礎。
貝葉斯網絡是從數理統計中借鑒而來的,正如前文所述,數理統計是當今數據挖掘、機器學習乃至人工智能的基石。沒有數理統計的基礎,當今應用在各個領域中的數據模型將缺少理論支撐。簡單地說,貝葉斯網絡算法能夠告知我們如何利用新證據修改已有的看法。換言之,我們可以通過已知的信息,借助貝葉斯網絡算法,對未知信息進行更新。
我們還是以在網絡購物平臺購買手機為例,下圖中三個圓形代表三個事件,而它們之間的箭頭則代表事件間的因果關系。比如箭頭A表示已知一個用戶購買了手機,以及他同時購買充電器的概率。通過公式計算,我們便能得知這三個事件之間的聯合分布,從而更好地做到概率推理。由此可見,貝葉斯網絡對于解決復雜問題的不確定性和關聯性有很大的幫助,而它也在多個領域中獲得廣泛應用。
當然,以上兩種算法僅僅只是現有算法的冰山一角。在當代數據挖掘、機器學習領域中,人工神經網絡、線性回歸算法等作為數據分析的解決方案,也占有一席之地。尤其是目前最熱門的深度學習技術框架,不僅能解決傳統數據分析中所不能解決的問題,而且還能在人工智能領域有新的突破。

如今,大數據已在經濟、政治、文化等各個方面產生了深遠的影響,并深刻改變著你和我的未來。如何讓大數據真正詮釋4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),也許正是我們在今后應當考慮和解決的重要問題。