向安玲 沈陽



[摘要]數據驅動的選題策劃、讀者主導的內容生產、機器智能的編排制作、精準定位的營銷推廣、“人”“文”交互式讀者服務,大數據對出版流程可實現全方位、多角度、深層次的滲透。但在大數據的滲透過程中出版人必須把握主導權,在數據開放和隱私保護、作品質量和讀者需求、內容生產和數據服務、海量數據和信息篩選之間權衡利弊。隨著出版流程的數據化變革,未來出版行業的內容生產將從批量到個性,閱讀模式將從私密到共享,銷售模式將從固化到碎片,知識關聯也將從平面到立體。
[關鍵詞]大數據;數據類型;出版流程;流程變革
[作者簡介]向安玲,武漢大學信息管理學院;沈陽,清華大學新聞傳播學院。
大數據掀起的變革浪潮從學界、商界席卷到社會生活,部分出版企業已開始挖掘數據價值,探索多元化的業務變革。美國學樂(Scholastic)出版社通過在線游戲追蹤人氣線索和角色,由此創作了暢銷全球的《The 39 Clues》系列小說[1];Coliloquy 出版社讓讀者參與情節和角色設計,通過數據分析調整內容,迎合大眾口味[2];亞馬遜的Kindle閱讀器可以記錄讀者反復標注和強調的內容,對出版企業來說價值巨大[3];谷歌的圖書數據庫將1500-2008年間出版的各類圖書數字化,通過文本分析揭示文化發展趨勢[4]。國外出版傳媒企業在數據創新中不斷拓展出版價值,逐漸勾勒出大數據背景下圖書出版的全新業態。相比之下,國內的出版企業則多處于駐足觀望階段,對大數據的設想遠多于實踐。在此背景下,本文對基于大數據的出版流程變革進行了分析,以求推動出版企業在大數據時代的創新和發展。
一、綜述
關于大數據對出版行業帶來的變革,業界的探索多于學界的研究。國外學者多從相關案例出發,總結出版企業利用大數據創造商業價值的實踐經驗。英國學者維克托·邁爾一舍恩伯格(2013)在《大數據時代》中對亞馬遜和谷歌的圖書數據化進行了評價。他認為亞馬遜擁有大量數據化內容卻沒有通過文本分析發掘更大的價值,這對于出版企業而言是一個很大的損失[4];亞歷山大·奧爾特(Alexandra Alter,2012)在文章《當心,電子書也在“讀”你》中提到,包括Nook、Kobo、kindle在內的電子閱讀器都開始記錄讀者的閱讀行為,這些電子閱讀數據已對出版流程帶來多方面的變革[5]。
國內相關研究則主要集中在大數據時代下的出版企業轉型和產業重構、商業模式構建、大數據技術應用等方面。張宏偉在國內首次明確提出“大數據出版”的概念,他認為大數據出版是構建在云出版之上的一種出版形態[6];吳赟對大數據時代出版產業重構所面臨的問題做出思考,指出大數據將革新出版業對信息的搜集、儲存和傳播方式[7];劉鯤翔等人對大數據技術在出版行業中的應用前景做出展望,認為大數據在圖書精準營銷、生產過程優化、用戶體驗評估、數字教育等方面有很大價值[8];劉燦姣等人對云架構下出版企業大數據服務的動因進行了分析,并提出了搜集-分析-挖掘三個層次的大數據服務模式[9];張博等人對出版行業大數據的來源、分類和價值特點進行了分析,在此基礎上對出版大數據的應用方式進行了探索[10]。
二、數據基礎分析
傳統出版企業所掌握的數據資源通常是系統的、結構化的,數字出版和媒介融合使得出版數據不斷拓展,大量非結構化數據被提取出來,出版企業需要通過過濾整理和關聯分析去探索更深層次的價值。讀者群體、專業團隊和機器設備是出版過程中不可或缺的幾大主體,他們參與到出版的各個環節并形成大量的出版數據。按數據來源本文將出版大數據分為用戶生成內容(User Generated Content)、專家生成內容(Professional Generated Content)和設備生成內容(Device Generated Content)三大類,具體來源、分類和內容組成如表1所示。
對出版過程來說,用戶生成內容(UGC)是一種驅動因子,可拓展出版內容廣度,形成精細化市場;專家生成內容(PGC)是一種引導因子,可維持出版內容深度,形成品牌價值;設備生成內容(DGC)作為輔助因子對于發掘潛在讀者群體和出版熱點方向有預測導向作用。三種類型的數據對于出版企業都具有巨大的價值,本文將其價值挖掘和使用方式總結如圖1所示。
三、流程變革分析
大數據以不同形式根植在圖書出版的各環節中,逐步實現對出版流程全方位、多角度、深層次的滲透。本文從選題策劃、內容生產、編排制作、營銷推廣和讀者服務五個基本環節出發,分別闡述了大數據對出版流程的滲透方式和特點,得出以下流程圖(見圖2)。
1. 數據驅動選題策劃
大數據作用于圖書選題策劃的過程,但并未改變選題的基本目的,需求驅動、價值導向、熱點預判仍是其出發點。一方面,出版社從大數據分析中挖掘用戶需求、進行趨勢預判,利用專業經驗獲得更加精準的策劃方案;另一方面,通過大數據的開放共享,讓用戶也參與到選題過程中,逐步形成具備自組織性、開源性的圖書選題策劃模式。這種讀者參與度的變化也體現了選題策劃從web1.0到web2.0、web3.0時代的轉變,大數據的催化劑作用也將日益明顯。
2. 讀者深入內容生產
大數據時代“作者”的概念將被不斷拓展,圖書內容生產將更多地以讀者為中心,讓讀者從出版產業鏈的終端參與到出版的各個重要環節中。通過量化分析讀者的閱讀題材、場所、時常、強度、情緒起伏等主觀感受可以形成內容生產的“模范結構”。通過這些數據分析可以對作品篇幅長度、角色設定、文字風格、情節發展等方面做出人氣評價,形成人氣素材庫、情節發展范式等儲備資源,從而實現半自動化的流水線生產。
3. 機器智能編排制作
利用協同編纂平臺進行編纂和交互的過程中會產生大量非結構化數據,比如文稿修改記錄、易錯文本記錄、專家評審記錄、編輯交流記錄、時間進程記錄等等。出版企業需要對這些“廢棄數據”進行二次開發利用,從中發掘編纂過程中的問題環節、各環節的效率控制、需要注意的文本、編輯能力欠缺、專業經驗和技巧等等,從而有針對性地進行編排過程優化和時間進度管理。此外,通過大數據技術探索圖書編排設計的美學規律,從標簽化的作品內容和設計風格的關聯性分析中形成自動匹配機制,簡化設計流程。
4. 精準定位的營銷推廣
出版企業根據用戶消費數據(如價格接受區間、優先選擇因素、常用支付方式等)可選擇合適價位和類型的圖書以合適的渠道進行推送;根據用戶閱讀偏好、職業信息和專業領域等數據,實現分類圖書的按需推送;根據用戶閱讀行為數據(如閱讀時間、場所、強度、終端選擇等)也可確定推送圖書的載體、篇幅、類別以及推送時間等要素;此外,通過對閱讀同好圈內的活躍分子進行贈閱,還可實現口碑營銷。除了靜態數據,根據地理位置、時間、情緒等動態數據了解用戶所處環境因素和心理需求,還可突破圖書銷售的時空限制。
5.“人”“文”交互式讀者服務
出版大數據的深度開發、二次利用和開放共享讓讀者的消費形式發生變革,消費產品不再局限于圖書內容,知識要素、關聯數據、交互式信息等都被納入出版企業服務范圍。對出版大數據最直接的利用方式就是提供交互式信息服務,例如,谷歌的圖書數據庫提供了詞頻查詢功能,用戶可通過輸入特定詞組獲取其歷年(1500-2008)來的使用頻率。雖然出版企業掌握的圖書內容數據量有一定局限,但谷歌的數據服務模式是可以借鑒的,讀者可通過I/O(輸入/輸出)方式實現對出版大數據的重組和利用,這也為出版企業開辟了新的收費空間。
6. 出版流程變革“5P模型”
結合上文的分析,本文構建了基于大數據的出版流程變革“5P模型”。歸納總結了大數據對出版各環節的變革方式和優化方向,如圖3所示。
大數據滲透到圖書出版各環節。概括來說,數據驅動的選題策劃將更具預判性(Perspective),更能把握讀者潛在需求和社會發展趨勢;眾包模式的內容生產讓讀者的意愿能直接地反映在圖書內容中,讀者不再僅僅是知識信息的接收者,也是作品創作的參與者(Participation);從大數據中挖掘圖書編排制作的經驗模式和美學規律,打造機器主導、人工輔助的模式化(Pattern)編排流程;基于大數據分析實現讀者市場定位、推廣平臺定位、時間空間定位、關聯圈子定位,在精準定位(Positioning)的基礎上提升圖書營銷推廣的效率和準確性;出版內容作為一種高質量的大數據可為讀者提供多元化(Pluralism)的信息服務,通過交互式服務進一步實現用戶與文本的深層次對話。
四、數據使用之博弈
大數據威脅論令很多出版人惶然,但大數據給出版帶來的不利影響并非大數據本身的缺陷,而在于出版人對大數據的利用是否合理。面臨數據使用上存在的多面利弊博弈,出版人必須做好權衡選擇。
1. 數據開放VS隱私保護
電子閱讀器在不知不覺中窺視著讀者的閱讀過程,將閱讀行為逐漸轉變成一種可測量、半公開的數據化信息。很多情況下用戶只能被動地成為數據源,對于企業而言這可能是價值衍生過程,但對于用戶來說這很可能是隱私的二次利用。并不是每個讀者都愿意公開自己的閱讀行為和消費行為的,網絡安全專家布魯斯·施奈爾就表示“我們讀的東西有許多是不想讓別人知道的”。除了相關法律保障,出版企業也必須尊重讀者私人閱讀空間。
2. 需求驅動VS創意風格
大數據中蘊藏的商業價值在一定程度上扼殺了文化從業者的創造力和藝術追求。諸如Coliloquy、Scholastic的流水線生產模式雖然取得了不錯成果,但這種程序化內容生產對作者的構思、創作、個人風格都帶來了很大的干擾,不僅使得作品質量難以突破現有水準,也可能讓讀者產生一種審美疲勞和倦怠感。當然,讀者需求和創意風格之間并不存在絕對的對抗性,出版人在利用大數據的同時,維持好內容把關者的角色,在兩者間尋求最佳平衡點。
3. 內容生產VS數據服務
是專注于內容生產還是拓展數據業務,是選擇合作共享還是把握數據所有權,大數據背景下出版企業的角色定位也面臨著新的選擇。無論是內容、數據、技術三足鼎立的旗艦式出版集團,還是精細化作業、分眾化生產、專注于內容的小型工作室,都有自己的獨特優勢和發展空間。盡管大數據給出版業務帶來了各種可能性,但選擇最適合企業的發展方向才是最重要的。
4. 海量數據VS信息篩選
大數據強調的是混雜性而非精準性,但對于出版來說,知識信息的精準性至關重要。數據樣本質量良莠不齊,分析過程也可能出現偏差,這使得大數據分析結果并不可靠。例如,讀者的消費和閱讀行為往往摻雜著很多非理性因素和偶然因素,根據數據分析結果進行定向推送很可能成為一種騷擾廣告,使用戶產生厭煩心理。尤其是在讀者市場不成熟的情況下,出版企業更應慎重地利用大數據,加強數據分析團隊的建設,從海量數據中挖掘真正有價值的信息。
五、 展望
大數據的運用是創意思維驅動的,出版企業在數據利用上存在很大的想象空間,本文對出版內容、閱讀模式、銷售模式、知識關聯數據化發展做出了展望。
1. 出版內容:從批量到個性
大數據提供了一種新的按需出版模式。一方面,通過交互式選項獲取讀者偏好自動形成“私人定制”內容;另一方面,基于數據關聯進行內容集成,為讀者提供專屬的“知識套餐”。從市場整體到垂直領域,再到特定群體和個體用戶,精細化的數據分析讓小眾需求甚至是個體需求得以發掘,批量化的出版內容在分眾市場不再具有競爭力,個性化定制將成趨勢。而就短期發展來看,面向精英群體和專業領域的數據挖掘和內容定制將成為出版業務的一個新方向。
2. 閱讀模式:從私密到共享
出版企業對用戶數據的需求日益膨脹,個體、私密的閱讀行為已無法滿足企業的數據需求,在開放共享的閱讀平臺上去測量讀者群體的行為數據和心理數據已成趨勢。社交媒體和專業網站為我們提供了一種共享閱讀模式,出版企業要做的則是將閱讀與社交融合起來,打造開放性、社交化、分眾化的閱讀平臺,實現媒介融合之上的平臺特性融合。與此同時,針對敏感性讀物或特定用戶的私密化閱讀空間也將獨立出來,滿足讀者對隱私保護的需求。
3. 銷售模式:從固化到碎片
大數據時代,出版企業面向的不再是“受眾”,而將是“用戶”,他們有權選擇自己真正所需的內容片段,實現知識信息的高效率、低成本利用。出版物的售賣單位也不再局限于“一套”“一本”“一章”“一篇”或者“一段”,而將突破文本章節限制,根據用戶需求實現信息內容的智能篩選和自動集成,甚至可提煉出主題思想、結論觀點、寫作模式、故事線索、人物特征、經典語錄等內容單獨出售,在人與文深層次交流的基礎上實現具有針對性的碎片化銷售。
4. 知識關聯:從平面到立體
海量數據的關聯將不再局限于表象,信息知識網絡也將更加錯綜復雜。出版人要突破常規,形成思維的聯動,為讀者打造立體化、深度化、動態化的知識圖譜,從而實現知識要素的關聯推薦和打包出售。知識網絡的節點將不再局限于圖書、網頁、多媒體等內容載體,一句話、一個人、一則新聞、一件歷史事件、一個游戲產品……世間萬物均可被提煉成相互關聯的知識要素,共同構成以特定出版物為核心的知識網絡。立體化的知識關聯加強了出版企業與其他產品提供商的合作交流,也為用戶提供了更深入的閱讀體驗和更全面的解決方案。
[1] 劉志偉. 云計算大數據升溫中探模式[N]. 中國出版傳媒商報,2013-11-08.
[2] Coliloquy:讀者和作者互動,換個方式講故事[EB/OL]. 騰訊網, http://tech.qq.com/a/20120119/000286.htm.
[3] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶. 大數據時代[M].杭州:浙江人民出版社,2013 .
[4] 楊鑫倢. 終有一天 大數據會“顛覆”出版業[N]. IT時報,2013-08-19.
[5] Alexandra Alter. Your E-Book Is Reading You [N]. The Wall Street Journal,2012.
[6] 張宏偉:出版業迎來“大數據出版”的新模式[EB/OL]. 中國經濟網,
http://www.ce.cn/culture/gd/201307/09/t20130709_24555744.shtml.
[7] 吳赟. 產業重構時代的出版與閱讀——大數據背景下出版業應深度思考的五個關鍵命題[J]. 出版廣角,2013(12):32-36.
[8] 劉鯤翔,杜麗娟,丁雪. 大數據技術在數字出版中的應用前景展望[J]. 出版發行研究,2013(4):9-11.
[9] 劉燦姣,葉翠. 基于云計算的出版企業大數據服務研究[J]. 出版發行研究,2013(11):59-62.
[10] 張博,喬歡,李武. 基于大數據的出版內容價值發現與應用[J]. 出版發行研究,2014(3):5-8.