□文│禹衛華
(作者單位:上海交通大學媒體與設計學院)
近年來,大數據成為推動出版行業轉型發展的主要變量,在數據驅動下,出版機構正在探索更大規模、更深層次、更廣范圍的融合,從業者也在思考如何構建個人的大數據素養,以便更好地適應時代要求。無論是機構的融合還是個人的探索都指向一個基本問題,將大數據應用到本專業的基本框架是什么,本文擬從這個入口切入,探討編輯的大數據素養與實現路徑。
大數據的說法出現后,業界與學界從各自領域進行了相關探討,各類概念與說法不一而足,但對大數據的基本內涵與特點基本形成共識,對大數據觸發的一些觀念轉變的說法上還存在爭論,本文結合各方研究的最新成果闡述大數據的基本概念與判斷。
大數據又稱海量數據,包含兩層含義,第一層含義是指不再依托抽樣調查的方法,而是獲取所有數據進行分析處理,第二層含義是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,必須開發新工具以適應巨量數據運算的要求。量大并不是大數據的根本特征。[1]大數據具備4種典型特征,數據量大并不是其唯一特征,大數據還有4個特點:首先,更大規模的數據。主要特點是從抽樣到相對全體樣本,從這個意義上講,大數據不但量很大,而且很全。其次,更多樣化的數據。多樣化主要體現在數據類型多,數據來源豐富,與各類問卷調查相比,大數據幾乎涵蓋方方面面。再次,更實時的數據。這個特征是一個比較根本的特征,以往的數據往往是切片式的數據,只能表明數據在某個時間點上的狀態。而大數據則從根本上改變了這種切片式研究,通過數據流呈現數據的整體變化形態。最后,密度低價值高。海量數據的開發價值很大。
有關大數據還有兩種典型的說法,第一種是要全體代替抽樣,即大數據因為有了全樣本所以不需要再進行抽樣了,全樣本內部容許有誤差,這種說法雖有探討之處,但爭議較小;第二種說法是要相關不要因果。這樣說法爭議比較大,筆者認為,盡管大數據能夠做到對全部樣本進行分析,但并不能代替因果關系的探究,在一些領域發現相關關系就已足夠,在一些領域則必須探究因果,比如醫療領域就不能僅僅依托相關關系判斷病情。
首先,大數據是時代的主要表征,是各種社會要素數字化之后的呈現形態。大數據改變了人們看待世界的方式,以往無法看到的社會運行狀況、網絡關系、內容分布、情感傾向在工具和算法的輔助下變得可觀察、可測量、可預測,這些動態變化的社會表征對于及時掌握各行各業的發展情況至關重要,也有利于實現對其規律和特點的探究。大數據目前尚處在早期發展階段,雖然數據量在不斷積累,但是相關的算法與挖掘能力還在不斷優化過程之中。隨著技術的發展,基于大數據構建的宏大社會環境會最終形成,成為人們認知世界、理解世界的主要方法。
其次,大數據不是絕對概念,而是相對概念。
目前尚無一家機構能夠完全掌握社會全部數據,還存在各式各樣的“信息孤島”。電商、社交網絡、搜索引擎等公司雖然匯聚海量數據,但也并非全社會的大數據;政府、醫院、銀行等機構擁有各類大數據,但相關的深入挖掘還不夠,利用率低。這種分割狀況也使研究者清晰地認識到大數據目前主要是解決或預測某一個領域的問題,推動某個行業轉型與創新,綜合式的研究還不多見,就編輯出版行業來說,大數據在內容生產、圖書選題、讀者社群經營、精準營銷等領域大有作為。有一種觀念認為,媒體行業就應該關注媒體行業的大數據,電商行業就應該關注電商大數據,這樣才更專業,實際上,如果具備較強的采集存儲與計算能力,媒體行業也可以跨界到其他行業的大數據領域。
最后,大數據的應用有規律、有框架、可復制。
大數據的出現給各個行業帶來了巨大的沖擊,相關行業的業者皆在思考應對之策,然而,掌握大數據資源的實體機構更傾向于神化他們的數據量級與能力,并刻意在人們心理建立一道思維壁壘,讓公眾感到大數據、云計算等概念遙不可及,高不可攀,這種高高在上的姿態給所有非數據行業出身的業者造成一種嚴重的認知偏差,以為大數據就是某一小部分人的事情。實際上,大數據并不是不可捉摸的,它有規律可循,其運作框架簡單清晰并可復制,其挖掘邏輯與分析工具已成為通用的基本工具,其可視化代碼也在不斷更新與迭代,熟練掌握這方面知識的業者也越來越多。
本文主要希望將大數據的基本邏輯框架與編輯出版行業結合,形成編輯的大數據素養框架并找到實現路徑。
目前整個行業處在大數據的沖擊余波中,無論報刊編輯還是圖書編輯均意識到大數據正在快速改變整個行業的運轉邏輯,轉型是必然選擇,但轉型的方向是什么,轉型實現的路徑在哪里尚未明確。雖然數據挖掘的方法已在讀者社群經營、圖書營銷、社會評價等領域有較多的應用,也有一些較為成功的模式,但就編輯的大數據素養而言,目前還存在一些問題。這些問題主要表現為幾種認識誤區。
認識誤區之一:大數據的技術屬性強,編輯行業難以適應。由于電商、社交網絡、搜索引擎等機構的底層架構是非常技術化的,有關大數據的內容往往具有極強的技術話語特點,多數長期從事編輯工作的人員短期內難以適應這種話語結構的顛覆式轉變,而且相關大數據報告動輒億級的話語描述方式,也讓編輯行業的從業者對大數據的邊界難以把握,再加上相關公司或企業在媒體上掀起的大數據輿論“螺旋”,也造成了一種大數據迷思,人人都在談論大數據,仿佛整個社會離開大數據便無法前進,不討論大數據就落伍一樣,這給整個編輯行業造成了隱形壓力。
認識誤區之二:編輯專業技能價值歸零。突如其來的大數據形成的行業壓力也傳導至編輯個人,許多編輯對自己的專業能力也產生了懷疑,一些編輯悲觀地認為長期以來形成的新聞傳播或者編輯出版的基本能力已無用武之地,專業價值歸零,未來將由人工智能(AI)或者寫作機器人代替,要么放棄專業,要么重新開始學習相關的知識,然而面對各類代碼與邏輯算法,大量人文社科專業出身的編輯對能否在短期內掌握相關知識也產生了懷疑。大多數的編輯難以適應技術突變帶來的行業變革,擔心未來發展的方向。當然,還有一批編輯出版的從業者試圖通過學習成為大數據方面的全才,掌握大數據全面的知識與技能,實現完全自主的技術能力。
認識誤區之三:與計算機和數學相關的都是大數據人才。在轉型的道路上,對于什么是編輯出版行業需要的大數據人才也存在認識誤區。引進人才作為應對行業變革的一種策略具有重要意義,然而,負責專業發展把關的相關領導多是人文社科專業出身,對引進什么人才缺乏決策依據,出現了只要是學習計算機或數學的都可以按人才引進的情況。實際上,計算機專業學科分野極其細致,凡計算機專業皆可引進是一種模糊的做法,對于專業發展未必有利,跟大數據有關的專業人才其實并不多。數學專業亦如此。
上述3種誤區反映了大數據給編輯行業造成的各種不適應,既有變革帶來的焦慮也有對專業知識并不了解而形成的誤判,不一而足。如前所述,當整個社會的表征都已經數據化的時候,各個行業必然要對這種數據化的基本特點與發展邏輯有所應對。就編輯出版行業來說,大數據首先是一種新的思考邏輯。編輯應能夠熟知大數據能做什么,選擇何種大數據技術解決哪一種問題。其次,計算機專業并非高深專業,如果尋找理工科與文科最容易結合的部分,非計算機學科莫屬,因為計算機使用的語言與人文社會科學的邏輯在很多方面是相通的。大數據的人才主要與文本、算法、可視化相關,跟信號傳輸、硬件修護等專業之間無太大關聯。
大數據對編輯出版行業不僅是挑戰也是機遇,短期內它給出版行業造成了一定的壓力,但長期來看,如果能夠很好地利用大數據,它將是整個編輯行業專業化創新的基本出發點。從歷史發展來看,編輯行業一直隨著技術進步在不斷創新,只不過這次的創新由大數據推動。那么,如何通過大數據推動編輯出版行業轉型呢,關鍵的鑰匙是大數據應用的邏輯框架。
大數據的應用框架一言以蔽之就是“采存算取”4個字,即采集(Crawl)—存儲(Data)—計算(Mining)—獲取(Visualization),這是所有大數據架構的內在邏輯。數據是一切的基礎,沒有數據也根本不存在所謂的算法與可視化,否則,大數據就是無源之水無本之木。數據采集完成后就要存儲在一定的地方,采集數據與存儲數據的最終目的是對數據進行分析與挖掘,并通過一定的形式展現出來。無論工業大數據還是社會大數據,都遵循這樣的邏輯。
首先是數據采集(采)。在工業領域,數據傳感器被植入機器內部,自動采集機器運行信息并通過信息渠道傳輸,進入大數據庫,成為后續分析的基本材料。[2]互聯網也是如此,用戶的手持終端本質上是數據采集器或傳感器,每時每刻都在采集用戶的文本、地理位置信息、社交網絡等內容,這些數據通過互聯網或者局域網向存儲設備中的數據庫匯聚,形成動態數據流,最終累計成大數據形態。[3]其次是數據存儲(存):數據采集之后會以某種形式存儲在數據庫,便于后面進行數據的分析處理。數據存儲是數據采集和數據分析的交互橋梁,為這兩個模塊提供了高效傳輸手段,同時降低二者的耦合度。網絡社交媒體產生的數據流具有非結構化特點,數據存儲結構的優化為海量數據的處理規模和速度奠定了基礎。再次是數據分析(算):數據分析模塊是構建數據監測系統最重要的一步。根據采集的原始數據通過進行分類、統計、建模等手段,進行時空數據、社會關系網絡、文本、輿情等分析,得到相應的量化監測數據。[4]最后達成數據信息可視化(取):利用計算機圖形圖像顯示以及交互能力,將抽象的數據信息轉化為直觀的視覺形式,實現與用戶的交互,滿足用戶需求。[5]
采集—存儲—計算—獲取是理解大數據,分析大數據的基本流程,是思考大數據各類問題的基本框架。比如在工業大數據領域,車輛輪胎內置傳感器將輪胎的實時數據經過車聯網傳送至企業數據庫,形成動態數據流,經過一定的算法,并可視化呈現出來,生產者便可較為輕松地判斷輪胎的壽命并優化生產工藝。再如在輿情領域,研究者采集網上信息,存入數據庫,通過一定算法分析輿情走向、核心節點、情感分布等內容,并通過可視化手段呈現,能夠有效地對各類輿情進行監測。就編輯出版來說,“采存算取”也是構建編輯大數據能力的基本框架。
采集—存儲—計算—獲取是編輯廓清專業轉型方向的一個參考框架,具體而言,編輯的大數據素養包括4種能力與3種思維方式,具體如下。
編輯的數據采集能力。大多數情況下,機構內部用于數據采集的工具可由專人開發,編輯重點是了解不同數據結構的差異,能夠應用采集工具獲取所需數據,具體可分為兩個層面:第一,數據采集的基本能力。編輯對各類社交網絡上的數據類型和功能有基本的判斷和認知,比如結構化數據與非結構化數據、各類字段的功用、地理位置信息、對網絡節點各類關系的描述、各類采集接口(API)的使用現實、采集與反采集的主要思路等,這些屬于數據采集的基本知識,所有試圖進入大數據領域的人都需要掌握這些知識,這個層面的知識較易掌握,并且在后續的應用中能夠發揮基礎作用。第二,能夠執行基本的數據采集代碼。網絡數據采集由網路爬蟲(Crawler)完成,所謂爬蟲其實就是一段代碼,目前網絡數據采集比較常用采集代碼都是Python或者Java開發的,相比其他工具,Python因其簡單、高效、適應性強,目前應用最為廣泛,普通人上手較快,被廣泛接受。編輯在這個階段能夠執行采集代碼即可,至于更高級別的代碼寫作與代碼修改則因人而異,負責內容生產的編輯沒有必要去專門學習開發代碼。第三,形成綜合的數據采集能力。編輯具備數據類別的判斷能力,能夠執行數據采集代碼,了解采集與反采集規則主要是為了穩定有效地獲取數據,最終形成能夠綜合運用某種數據采集工具綜合運用數據獲得觀點資訊的能力。
編輯對數據存儲類別的判斷能力。就實際功能來講,存儲屬于基礎系統,與編輯出版人員的能力關系不大,但不同的存儲框架與邏輯對編輯的影響很大。編輯主要是了解不同數據庫的特點,能夠掌握數據庫的整體發展趨勢并作出選擇。目前,常用的數據庫有兩種,MySQL和NoSQ數據庫。前者是目前最受歡迎的開源關系型數據庫,但對非結構化數據支持并不理想,后者作為非關系型數據庫NoSQL家族的代表產品之一,相比關系型數據庫在存儲海量非結構化數據方面有明顯優勢。[6]
了解并掌握多種算法的能力。大數據的核心在算法,算法能力的高低決定了編輯對數據的掌控能力,如果說采集與存儲是編輯的基本能力,那么,算法能力是編輯掌握大數據的核心能力。比如“今日頭條”通過對采集到的用戶的各類數據進行分析,從而實現根據用戶的使用行為推送內容,在“今日頭條”內部通過算法優化的信息推送,實現了更加有效的信息推送。編輯了解大數據、掌握大數據算法的目的是希望通過大數據的分析與研判能夠提早發現受眾關注的焦點、讀者對某類內容的整體意見、閱讀者的地理位置分布、內容的傳播路線圖、社會影響力分布圖等。
編輯應該了解或掌握的分析能力包括:①時空分析的能力。時空分析的對象是空間數據和時序數據。空間數據指的是用于描述有關空間實體的位置、形狀和相互關系的數據,以坐標和拓撲關系的形式存儲具有定位、定性、時間和空間關系等特性。②社會網絡分析能力。社會網絡分析“社會網絡”指的是社會行動者間關系的集合。用點和線來描述關系網,是社會網絡量化的基礎。③文本分析的能力。通過分詞、聚類等方法,挖掘用戶文本信息中隱含的興趣、觀點、情感等特征,并根據詞頻等特性進行文本的綜合分析。時空、社會網絡、文本三種算法能夠有效地覆蓋編輯的主要工作領域,比如對圖書營銷的策劃方向,可以從網絡評論入手,搜集網絡評論的相關意見,并通過時空分析了解相關討論的地理信息分布,還可以通過社交影響力的可視化效果還原圖書推廣過程中影響力最大的網絡節點。
數據可視化的能力。大數據的關系復雜,數量巨大,必須通過一定的可視化的形式才能完整展示。數據可視化本質上是將巨量數據的運算結果以一種社會大眾普遍能接受的形式呈現出來。編輯對數據可視化并不陌生,編輯出版過程中,圖畫是必不可少的內容,新聞圖表或者示意圖也是常用的方式,但隨著技術的進步,可視化更多地呈現交互可視化的特色,應用工具也有了新的發展,表現形式也越來越豐富,對使用代碼的能力要求也有了提升,一些出色的大數據可視化作品都是技術組合而成的。在新聞傳播領域,基于大數據的數據新聞也發展起來了,很多機構按照《紐約時報》的模式建立了數據新聞編輯部門,比如網易的“數讀”、搜狐的“數字之道”、新浪的“圖解新聞”、財新的“財新數據新聞與可視化實驗室”等。
以上是編輯應該具備的數據能力,實際上,編輯的主要任務是內容生產,了解大數據運作的框架主要為了更精準地適應行業轉型的趨勢,對于以應用大數據為主要導向的編輯來說,還需要具備3種思維方式。
協同的思維方式。大數據強調協同是因為大數據所需要的資源與學科異常復雜,僅憑個人的力量難以完成,必須依靠團隊的力量。在團隊組建或運行的過程中,要形成內部團隊與協同團隊結合的模式,以最小的成本匯聚最優秀的資源。大數據的很多技術人才分散在社會各個角落,組織者要有能力將這些散落的技術聚合起來為我所用。
融合的思維方式。這里談的融合是指學科的接納與融合,長久以來文科背景與理科背景的業者很難走到一起,在一些基本看法上甚至沖突嚴重,這導致人文社科專業研究一直缺少量化支持,而量化研究又缺乏人文反思,二者的矛盾可以通過大數據達到統一,比如人文社科背景的從業者提出數據和算法的要求,理工科背景的從業者根據要求實現并不斷優化,共同解決編輯出版過程中的各類問題,大數據本質上要求打破所有的專業壁壘,編輯也要適應這種趨勢。
核心數據的思維方式。一些媒體機構充分認識到大數據的重要性,選擇積極與電商、搜索引擎、社交網絡公司合作,以期獲得大數據方面的支持,事實上,完全沒有數據產出的合作無法長久,從實際來看,誰擁有數據誰就掌握了數據決策的話語權,也掌握了主導權,編輯如果能夠在數據采集存儲層面形成獨特的數據資源,并充分開發利用,最終實現由購買數據轉向提供數據,并形成產業規模,其影響力與經濟效益則會大增。
編輯大數據素養的培養不能完全技術指向,也不能又回到文本導向,而應從二者融合的角度,結合具體的崗位要求,有重點分步驟,既要提升全員的數據素養,也要形成大數據的核心力量,既要著眼于當下的職業培養,也要從長遠角度考慮從高等教育入手。具體路徑如下。
探討編輯的大數據素養并非催促所有編輯都去鉆研計算機技術與代碼,那樣便偏離了編輯出版是內容產業的方向。培養編輯的大數據素養主要目的是希望編輯能夠掌握大數據的基本邏輯,具備研判大數據的基本能力,至于能否成為大數據技術專家則因人而異,實際上,大多數編輯并不會成為大數據的全才,一小部分編輯可以深入了解大數據的專業知識,大部分編輯則應該在充分了解大數據的基礎上聚焦實際問題。就解決大數據的問題來說,具備大數據的思維方式,匯聚各種資源解決問題的實際價值大于將編輯變為程序員的價值。
長期的知識更新是提高編輯大數據素養的積極措施,如前所述,要分層分類,有技術型培訓,有業務與思維方式的培訓。第一,可以組織與大數據有關的業務人員參與大數據采集、存儲、算法、可視化等專題培訓或者全部培訓,使編輯對大數據有基本的了解。第二,對大數據思維方式的訓練。并不是所有的編輯都要掌握“采存算取”這四種技術能力,大多數的編輯只需了解相關知識并能夠運用大數據的思維方式,聚合資源也是一種較好的培訓方式。第三,與高校聯合培養相關人才。
編輯出版機構可以成立獨立的大數據運營中心,這個獨立的數據運營中心不是技術支持部門,而是一個獨立的機構,它匯聚某一出版單位的大數據團隊,具有獨立的“采存算取”能力,具有獨立開展業務的能力,掌握核心技術和核心數據,對內提供各類大數據技術支持,對外能夠將大數據作為業務增長點,形成數據產品。
長期以來,編輯出版教育重視文字的駕馭能力,強調文字的表達,在課程中很少見到專門的數據挖掘與可視化課程。提高大數據業務水準需要從本科教育入手,從基本代碼開始持續培養,才能從根本上解決人才缺口的問題。目前大數據所依托的代碼大都是開源的,資源豐富,相關教育機構只要開設基礎課程,便可為學生打下堅實的知識基礎。
大數據并非遙不可及,任何一個大數據系統的底層邏輯結構都是相通的。就出版行業來講,“采存算取”的邏輯結構可以作為編輯大數據素養提升的基本框架,推動編輯形成四種能力并具備三種大數據的思維方式。當然,出版編輯主要是內容生產,在大數據人才的實際應用上也有所區分,強調全員具備基本的大數據素養,但在具體崗位安排上則要分類,讓不同層次的大數據素養發揮最大功用。