江小珍
(北京航空航天大學出版社有限公司,北京 海淀 100191)
隨著互聯網的蓬勃發展,用戶在PC網頁或手機APP中留下了包括定位、消息記錄、消費記錄、閱讀記錄、評價等不同類別的龐大信息數據集,而如何從這些信息數據集所包含的海量數據中挖掘需求、發現機會,是包括出版行業在內的各行業需要面對的機遇和挑戰。隨著云計算等技術的普及,大數據技術的應用門檻和成本不斷降低,非互聯網企業也可以通過大數據技術對目標數據進行提取、存儲、分析和可視化展現,以此發掘商業價值。出版社可以結合自身實際,由淺入深地逐步推進大數據在圖書選題策劃、圖書營銷發行等不同工作環節中的應用。
大數據 (big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。
1.數據體量巨大
據統計,人類有史以來的所有印刷品承載的數據量的大小是百PB(1PB=1024TB)量級。當前個人電腦硬盤的主流容量為TB(1TB=1024GB)量級,一些大企業的數據量達到了EB(1EB=1024PB)量級,公共互聯網上的數據量則更加的龐大。
2.數據類型繁多
早期PC互聯網上的主要數據是便于存儲的、以文本或數字類型數據為主的結構化數據。當前,移動互聯網上的非結構化數據占比越來越大,主要包括圖片、音頻、視頻等類型的數據。數據種類的多樣化對數據處理能力提出了更高的要求。
3.價值密度低和處理速度快
大數據價值密度的高低和數據總量的大小成反比,例如,在實際工作中,連續不斷數小時的安防監控視頻,有用的部分可能只有幾秒。在類似的需求場景下,如何通過大數據挖掘技術來完成數據的“提純”就至關重要。
數據源的開放、公開、易獲得是大數據的基本特征之一。一些商業機構會定期向社會提供數據源,如百度數據開放平臺 (http://open.baidu.com);部分政府機構也會提供一些權威的開放數據源,如國家統計局網站 (http://www.stats.gov.cn);公共互聯網每天產生的大數據可以通過應用程序接口 (API)和爬蟲技術,在一定的開放性規則下獲取或采集到,如阿里云的 API市場平臺 (https://market.aliyun.com/)。而傳統數據主要在機構內部流動,跨機構獲取數據的壁壘和成本非常高。
大數據關注的是全部數據,而不是抽樣數據。隨著云計算成本的降低、數據挖掘算法的不斷改進和豐富,以及機器學習和人工智能技術的發展,大數據對全部數據進行的分析應用法取代了傳統的數據抽樣分析法,使得數據分析的全面性和準確性得到了提升。
傳統的數據分析重實證研究,強調在理論的前提下先建立假設,再收集數據來驗證假設,是一種自上而下的決策和思維過程。而大數據重預測,這種預測是一種自下而上的知識發現過程,是在沒有理論假設的前提下,去洞察社會現象、趨勢和規律。例如,通過采集、分析社交網絡上帶有時間標簽的海量信息,可以預測事件的發展走向、電影票房的變化趨勢等。
與傳統數據分析關注的因果關系不同,大數據關注的重點是“是什么”,而不是“為什么”。大數據分析更關注發現數據間的相關性,通過對海量數據進行相關性分析,可以發現那些不能靠直覺發現的信息和知識。
圖書出版工作的主要生產環節包括:選題策劃、組稿、編輯加工、排版制作、印制、營銷發行等。其中,在選題策劃的指向性、營銷發行的精準性上,大數據技術能夠發揮其作用。
1.傳統選題策劃過程中存在的不足
廣義來說,選題是指經過分析、考量,選中主題后擬實施的項目。出版社的傳統圖書選題策劃過程主要依靠編輯在工作中所積累的經驗,以及其所使用的市場調研手段,比如,問卷調查、書店探訪等。這種傳統的選題策劃方式存在著調研數據樣本較小、數據時效性滯后、人為主觀性較強的缺點,并且,受編輯自身知識結構、工作經驗、審美與價值觀念的影響較大。
2.大數據技術對選題策劃過程的優化作用
使用大數據技術可以有效優化傳統的選題策劃流程,提高選題的質量,從而提升出版社的整體選題策劃水平。
首先,使用大數據技術圍繞選題進行廣泛的信息采集。信息采集的內容包括市場環境信息,比如,學術信息、行業信息、出版信息、競爭對手的產品信息等;讀者的閱讀需求信息,比如,用戶閱讀行為、購買記錄、連載書訪問量等。信息采集的來源包括:互聯網上能夠滿足讀者個性化閱讀需求的平臺,比如,博客、微博、論壇、貼吧、書評網站、各大門戶網站的讀書頻道、文學網站、社交網站等;讀者進行網上購書的主要電商平臺,比如,當當、京東、亞馬遜等;行業數據平臺,比如,開卷數據、出版物數據中心服務平臺 (PDC平臺)等。
其次,使用數據挖掘與處理技術對收集到的各種信息進行梳理、篩選、挖掘和分析,并得出一些指向性的數據預測結果。這些預測結果的類型可能是近期熱門的內容題材、某類書籍在市場中受歡迎程度、已出版的同類書籍的銷售情況等,這些信息可以為選題策劃的決策提供更準確的參考,降低選題失敗的風險。
出版行業對大數據的應用還體現在營銷和發行工作中。在互聯網公司個性化的內容推送環境下,個性化、定制化、主動化已成為當代讀者的需求和特點。人們對圖書的需求開始變得更多元且細化,小眾市場的浮現也創造了強大的市場價值,因此,圖書的營銷和發行也需要向更加個性化、精準化,更具及時性的方向發展和轉變。為此,圖書出版方可以通過使用大數據技術,從以下幾個方面來提高圖書的發行量:
1.時效性
研究發現,讀者在電商平臺的購買習慣和行為正在發生較明顯的變化:讀者購買的決策時間更短了。出版社在電商平臺進行廣告投放時,選擇的時間段對交易轉化來說非常重要。大數據營銷可以基于對海量數據的處理,分析出讀者最容易實施購買行為的黃金時段,從而指導其進行廣告推送,這樣更有利于提升產品的銷量。
2.個性化
傳統的圖書營銷以媒介為導向,出版社推送什么內容,讀者就被動地接受什么內容。而大數據技術指導下的圖書營銷能夠以讀者為導向,根據讀者的偏好和關注點,安排相關的內容并及時推送給讀者。
3.關聯性
大數據營銷可以將廣告與消費者的行為習慣進行結合,在每個時間段內上下關聯,給讀者營造一個完整的購買情境,從而激發讀者的購買欲望。
4.性價比
大數據營銷可以更加精準化地推送相關廣告,做到有的放矢。相比之下,在達到相同的銷售目標的前提下,大數據營銷比傳統營銷所需要的廣告量更少,性價比也更高。
隨著云計算及相關軟、硬件技術的進步,大數據應用的技術門檻和使用成本在不斷降低,但是,出版社在工作中嘗試應用大數據時也存在觀念難以扭轉、技術人才不足等問題。出版社在應用大數據時要結合自身實際,由簡單到復雜分步驟進行,以此減少阻力,實現平滑過渡。
對編輯來說,掌握專業的大數據技術具有一定困難,而利用現有的大數據工具和平臺來做數據采集和分析,既不需要編輯具備專業的IT技術能力,也無需出版社投入資金成本。從廣義上的大數據應用來說,在編輯日常工作中,就已經在使用出版行業內的基礎大數據工具和平臺了,比如,開卷數據、出版物數據中心服務平臺 (PDC平臺)等。在出版行業以外,各大互聯網公司和專業的大數據軟件應用公司也提供了大數據分析工具,比如,字節跳動的巨量算數、騰訊的微信指數、百度的百度指數等。本文對上線較久的百度指數工具的趨勢研究、需求圖譜、人群畫像三個主要模塊,進行分析說明。
1.趨勢研究
趨勢研究通過對設定關鍵詞的搜索量的數據進行比對,來分析某個方面的發展趨勢,可以是不同關鍵詞的搜索量之間的對比,也可以是對同一個關鍵詞在不同時間段的搜索量之間的對比。比如,針對同一個領域的不同名家作者,可以借助趨勢研究工具,對過去一兩年內這些作者的搜索量進行分析對比,預測未來誰的合作價值更大;再比如,分析在一個出版大方向上的不同子方向,哪一個子方向的熱度可能會更高;又如,分析、預測某類圖書產品在未來不同的時間出版發行對銷售的影響,等等。借助趨勢研究工具,可以通過對不同關鍵詞的搜索趨勢進行對比、分析,并做出科學預判。
2.需求圖譜
需求圖譜可揭示用戶在搜索關鍵詞之前或之后經常搜索的詞。圖譜中的圓點越大,說明該詞被搜索的次數越多;而離中心的圓圈越近,說明該詞與設定的關鍵詞的相關度越高。這一功能可以用來發現之前未發現的信息,也可以用來修正對市場的判斷。比如,用選題名稱或書籍擬用的名字作為關鍵詞來做需求圖譜時,可以看到用戶搜索的其他相關關鍵詞,這些相關關鍵詞可能有助于發現競爭對手和相關線索,也可能有助于發現更易被用戶接受的圖書名稱,甚至有助于發現這一領域較受歡迎的作者。總而言之,借助需求圖譜可以發現更多的相關可能性和機會。
3.人群畫像
人群畫像是對互聯網上搜索關鍵詞的用戶進行畫像分析,包括地域分布和人群屬性等。在利用人群畫像提取了關鍵詞訪問人群在各省市的分布情況、年齡分布以及性別后,編輯可以據此修正圖書產品的策劃和工作思路,營銷發行人員可以根據特定地域的用戶偏好進行針對性地運營和推廣,以實現圖書社會效益和經濟效益的雙豐收。
現有的大數據分析工具和平臺的優點是使用成本低,缺點是不能很好地滿足個性化和深入的大數據應用需求。有條件的出版社在現有大數據分析工具和平臺不能滿足需求時,可以投入一定的人力、物力資源去自建大數據分析工具。
自建大數據分析工具,首先要厘清需求。確定需要采集哪些類別的數據、從哪里采集、對所采集的數據如何進行數據項和維度分析、分析后的數據結果通過何種方式進行展現等。在厘清需求之后,可以建立自己的技術團隊來進行研發,也可以外包給大數據軟件公司進行研發。
出版社在應用大數據會遇到各業務板塊、各自分散的大數據應用滿足不了出版社整體需求的情況。比如,在數據管理方面,存在數據集分散、維護困難、人力耗費過多,部分數據休眠、應用弱,以及基礎數據標準不統一的問題;在數據應用方面,存在信息獲取不全面、決策信息支持不夠的問題。解決這些問題需要基于出版社的實際情況,整合各業務板塊中分散的大數據應用,建立出版社統一的大數據運營中臺。通過打通社內數據、行業數據、公共互聯網平臺的數據和整合各項應用工具,無需來回切換不同的工具和平臺,只需運用大數據運營中臺就能實現各項大數據的應用需求。
1.選題策劃
編輯可以使用選題策劃工具,發現最有潛力的市場,提煉出不同讀者群體的不同需求,挑選出社會公眾關注度高的題材,并在社交媒體上發起市場調查,從而實現精準的選題策劃。
2.營銷發行
營銷發行人員無需使用外部工具和平臺即可對公共互聯網平臺的數據進行采集和分析,實現精準營銷,提升讀者的購買率。
3.運營管理
在數據處理方面,運營人員可以在數據平臺中實現一次制作、全平臺流轉、自動更新;在經營分析方面,管理人員可以通過可視化的大數據進行結果展現,對出版社的經營狀況有更直觀的了解,從而做出更加科學的決策;在績效分析方面,管理人員可以通過透視分析工具清晰看出圖書的盈利情況,并通過關聯分析對編輯的績效了然于胸;在指標監控方面,管理人員可以在移動端隨時查看各項經營指標,并且在經營出現異常時,數據平臺會觸發預設的指標閾值設定并主動推送異常報警消息,管理人員可以據此及時發現問題、修正問題。
以上是對大數據在圖書選題策劃、圖書營銷發行工作中的應用的初步思考和實踐。
2021年,最火的互聯網熱詞是“元宇宙”,先行的探索者們已經在嘗試研究構建一個與現實世界平行的數字世界,這是大數據發展的一個令人激動的方向。目前,“元宇宙”還處于早期研究階段,但大數據已經滲透到了各行各業,成為了影響社會生產和發展的重要因素之一。展望未來,針對大數據的挖掘及運用會帶來生產方式的變革。出版社應順應時代的發展趨勢,積極利用大數據技術提升工作質量和效率,實現更好的社會效益和經濟效益。