呂理哲
媒體的功能是為大眾整理并提供信息,絕大部分媒體不針對這樣的服務向閱聽人收費,而是利用聚集的閱聽人數目(發行量)吸引廣告主來付錢刊登廣告。報紙、電視、地鐵站的墻壁、網絡上的文章、音樂和視頻都有聚集閱聽人的能力,都是媒體。
如今的媒體和以往不同,主要是因為互聯網不但可以用來提供信息,還能與閱聽人雙向溝通,和傳統媒體單方向提供信息的效益相比,有了明顯的差異。其中搜索引擎這種不生產內容的媒體,倒是把天下所有媒體當成自己的材料,成就了谷歌一家搜索引擎在2012年內做到的營收,居然比美國1382家報紙的總體營收還要多。
報紙為讀者報道新聞,除了讀者買報紙為報社增加一份發行量以外,報社無法從讀者這一端得到任何反饋。但是谷歌(Google)除了幫助大家去找她們要的信息以外,同時利用他們的搜索,收集到了珍貴的海量數據(big data)。
什么是“海量數據”?
2009年,谷歌旗下幾位工程師在著名的《自然》(Nature)雜志上發表了一篇論文,解釋了谷歌如何儲存民眾每天超過30億個搜索信息的關鍵詞,再加以運用,精確預測出美國哪幾個州即將在接下來的冬天爆發流感。
幾個星期后,一種結合禽流感和豬流感菌株的新病毒H1N1跳上了所有媒體的新聞頭條,美國疾病管制局(CDC-Center of Decease Control & Prevention)為了應付這種蔓延迅速的流感,要求全國的醫生一碰到新流感病例,就必須立刻通報,以避免類似1918年西班牙流感的危機,那是一場有5億人受到感染、千萬人送命的大災難。
人們從身體覺得不舒服到自己認為可能感冒了,然后過了幾天之后才會去看醫生,最后經過層層通報的關卡才會到達疾病管制局。但病毒的面對面傳染不會有層層關卡,何況疾病管制局一個禮拜才匯總一次,可以想象疾病管制局只能記錄,根本就無法掌控病毒蔓延的真實情況。
谷歌先挑出美國人最常使用的前5000萬個搜索關鍵詞,再與疾病管理局2003~2008年的流感傳播數據比對;總共用了4.5億個不同的數學模型去測試分析,最后這套軟件系統找出45個關鍵詞,用前幾年的數據放進數學模型里面去運算,結果竟然和2007年、2008年疾病管制局統計的全美國流感真實數據十分符合。
不需要動用任何醫療資源,不用訪問醫院,更不用采集流感檢體,谷歌這套系統就可以掌握美國流感疫情和疾病管理局一樣,差別在于實效性,谷歌系統幾乎可以實時跟蹤疫情的發展情況,管制局的記錄卻得等一兩個禮拜,也就是匯總全國醫生的匯報以后。
谷歌不是只整理出民眾得流感后身體不適時,用哪些關鍵詞到網絡上去搜索,就能預知流感傳播的時間和地區,而是從幾千億筆的海量數據找出和流感的相關性和在各地區出現的頻率,從而通過建立數學模型去預測。
其實,重點在于數據量的龐大,沒有海量數據,即使你有谷歌工程師的才華,也無法在疾病管制局發布流感數據以前,知道你住的城市在什么時候會發生流感疫情。
這就是在傳統報紙媒體的基礎建設中找不到的機會,報社有訂戶的個人資料,卻只能用于送報或是催繳報費,而無法像谷歌這種網絡媒體,即使沒有用戶的個人資料,也能在龐大的數據量中找出各種社會現象的變化。如果海量數據應用得當,看來要改變許多領域的面貌,像流感預測這樣的公共領域只是其中一個例子。
1990年左右,IBM開始開發了Candide英法語翻譯系統,可惜因為收集大量數據的成本太高而作罷。如今我們可以看到谷歌利用海量數據創造了超過60國語言的翻譯系統,其中有14種語言可以用語音輸入,可以想象IBM當時收集數據的難度。現在谷歌有不斷增加的海量數據可以預測流感,當然也可能將這種能量應用到各種商業領域。此外,傳統報紙得派業務員去拉廣告,而谷歌可以先找到客戶以后才去做廣告宣傳。
但是傳統報紙不會消失,只是賺錢無法和新媒體相比,這是基礎建設的根本差異,非戰之罪。