文|方可成

走在新聞業創新前沿的《紐約時報》研發實驗室最近又推出了新玩意:一款叫“蜂巢(hive)”的眾包開發平臺。
要解釋2014年12月問世的這款“蜂巢”,就得先回到該報此前在10月推出的另一款產品“Madison”。簡單來說,Madison就是邀請千千萬萬的普通讀者一起來幫《紐約時報》把老報紙里面的廣告識別出來、分類妥帖,并錄入信息至數據庫。
1851年9月18日創刊的《紐約時報》,至今已經以每天一期的頻率出版了一百六十多年,積累了極其龐大的過刊數據。都說新聞是歷史的初稿,《紐約時報》的這些過刊數據不僅是報社自身的財富,也是供全世界回顧、研究歷史的重要資料庫。報社投入了巨大的人力物力將這些過刊進行電子化,展現在網站的“時光機(Time Machine)”欄目中,供大家“穿越”回到一個半世紀中的任何一個時間節點。
不過,“時光機”里的內容都是新聞報道,并沒有包括廣告。原因很容易理解:廣告往往是圖文結合,而且大小不一、形狀各異,沒有固定格式,機器難以自動從中提取信息,更難將其進行自動歸類——將新聞報道歸類是很容易的,一般只需要看它出現在哪個版面就可以了,但是廣告的類型和位置之間并沒有明確的對應關系,一款電視機的信息既可能出現在國際新聞旁邊,也可能被放在體育賽事的信息下面。
此外,廣告畢竟不是報社自行生產的內容,不被收入數據庫也是再正常不過。但偏偏在對過刊進行電子化的過程中,《紐約時報》的研發實驗室對廣告產生了愈發濃厚的興趣。他們認為,廣告中實際上也是一個數據寶庫,因為它們同樣蘊含了相當豐富的信息,且能為它們環繞的新聞報道提供很有意思的時代背景作為參照。曾經到圖書館翻閱過老報刊的人相信都有同感:最有意思的往往不是報刊的文字內容,而是透出濃郁時代氣息的廣告:某款當時是“爆款”、現在土掉渣的眼鏡,某臺當時高科技、現在老掉牙的電子設備……還有那設計風格、廣告語用詞、零售價格,都是可供感知的歷史細節,也是具有研究價值的數據。
于是研發實驗室決定對廣告也電子化,但是由于上面提到的種種困難,這項工作很難交給機器完成。他們決定借助人力,進行眾包(crowdsourcing)。打開Madison的頁面,任何人都可以立即參與這項歷史資料的整理工作。從易到難有三種任務可供選擇:判斷某塊內容是不是廣告;給一則廣告加上分類標簽;錄入一則廣告的信息。
這些工作完全是無償的,所以工作本身的社會價值及其趣味性就至關重要。幸運的是,這兩點得到了許多普通網友的認可,他們既覺得這件事有價值,又發現翻看老報紙上的廣告很有意思。首批上線供網友識別的廣告都來自1960年代的報紙,這些數據有望于2015年初整理完畢,到時候《紐約時報》會將數據公開分享,同時1970年代的報紙廣告會上線,繼續眾包給網友整理。
說回“蜂巢”——Madison是基于蜂巢平臺開發的第一款眾包產品。形象的說,蜂巢就好像一臺3D打印機,Madison是它打出來的第一件產品。有了這臺打印機,其他人也可以很方便地根據自己的需求生產出其他眾包項目,邀請人們參與。你可以根據自己的需要選擇項目特性:是需要注冊才能參與呢,還是可以匿名參與。它還可以詳細記錄每個人的參與數據:完成了多少,合格了多少,跳過了多少。
實際上,西方新聞界的眾包實踐已經有若干年頭了——它們往往是將工程量巨大、參與門檻相對較低的任務分包給網友。例如,2012年總統大選前,曾獲普利策獎的網站ProPublica就推出過“Free the files”項目,請大家一起整理聯邦通訊委員會(FCC)發布的大量且復雜的電視競選廣告數據,從中提取出廣告的購買者等關鍵信息——在美國政治中,購買競選廣告是一種隱蔽的通過金錢支持某個政黨、影響選舉結果的方式,這個眾包項目的宗旨就是要讓這些暗處的錢現身在陽光下,而這依靠一個新聞機構的人力是無法完成的。此外,鼎鼎大名的維基解密,也是將巨量的加密文件眾包給網友進行整理再發布的。
如今,《紐約時報》推出這款眾包開發平臺,無疑會進一步促進這種新型生產模式的普及。更重要的是,該報研發實驗室已經將蜂巢的源代碼上傳到Github網站進行免費、開源的分享,這就讓其他新聞機構和個人利用這個平臺的門檻大大降低。推出這樣一款蜂巢,既顯示出《紐約時報》當仁不讓的業界老大氣派,也是互聯網開放、共享精神的體現。從這一點上說,這家一百六十多歲的傳統媒體,比很多乳臭未干的新媒體都更有互聯網思維。