康寶中 林海
近年來,隨著圖書銷售數據管理的規范化、信息化,圖書選題策劃人員面對書城近期銷售排行榜、銷售月報以及《開卷圖書調查報告》等眾多報表,對其進行深度研究與定量分析,獲得的結果無疑極有價值,也是未來圖書市場調查研究的趨勢。圖書選題作為圖書出版的最初環節,歷來被出版單位所重視。圖書選題策劃的基本流程包括信息篩選、選題設計、選題論證、選題優化等,圖書銷售數據能夠直觀反應市場規律與用戶消費傾向,對選題策劃有著重要的影響。但出版單位對于確定圖書選題類別以及確定印刷量顯得力不從心。
鑒于圖書市場具有短期的波動性與中長期的周期性、銷售數量巨大與銷售品種繁多并存等特點,給出版單位選題策劃帶來很大困難。根據圖書市場短期波動性特點,提出了使用改進神經網絡模型預測圖書印刷量,可為出版單位確定各地域的指定圖書選題印刷量提供參考。
一、基于神經網絡模型的銷售預測分析
人工神經網絡的思想源自仿效生物學神經網絡,當今地球上所有生命體的大腦均由神經網絡組成。現代神經網絡項目通常有幾千個到幾百萬個神經單位和上百萬個連接,這幾個數量級雖然遠不如人腦復雜,但已經接近蠕蟲的計算能力。
(一)神經網絡算法簡介
反向傳播BP(Back Propagation)學習算法的前饋型神經網絡簡稱BP神經網絡(BPNN)。BP神經網絡主要特點是信號從輸入層通過隱含層直至輸出層整個過程保持前向傳遞,依次經過隱含層,其中隱含層可能有多層,通過逐層神經元后,最后從輸出層輸出神經網絡處理結果。其中,上一層神經元的結果只影響下一層神經元的操作。如果輸出層的輸出值達不到預期目標,則神經網絡轉入誤差的反向傳播過程,根據預測誤差不斷調整神經網絡的權值,再進行信號的前向傳遞,反復迭代,使神經網絡的輸出值不斷逼近目標輸出值。神經網絡的拓撲結構如圖1-1所示:

由圖1-2可知,整個神經網絡預測流程分為三個主要部分:第一部分為數據的清洗準備階段;第二部分為訓練集訓練階段,通過驗證增加作者與內容熱度模型較普通模型獲得更好的熱點事件預測效果,當RMSE基本不變時,最終確定預測模型;第三部分為測試集預測階段,將測試集數據裝載入預測模型進行預測。
1. 數據準備階段
首先,將圖書銷售數據與書號實名申領系統數據通過ISBN碼進行關聯,解決圖書銷售數據、作者信息殘缺等問題,然后按地域進行分組。其中對分類項采用獨熱編碼處理,將離散特征取值按一定的映射規則,擴展至歐式空間,在歐式空間中離散特征的某個取值就對應一個點。在機器學習算法中,會比較頻繁的計算特征之間距離或相似度,在具體的過程中常用的距離或相似度計算正是基于歐式空間。完成以上步驟即完成數據準備階段。
2. 確定預測模型
通過預測模型反復的訓練,直至RMSE趨于穩定值。通過比對預測值與實際值,提出了采用微博熱搜數據對作者加權的改進方案,通過網絡爬取熱搜信息,引入作者熱度因子,進而改進預測模型。通過對改進模型進行反復迭代,經對比分析后,改進后的模型對熱門事件預測能力顯著提高,進而最終確定基于神經網絡的圖書選題預測模型。
3. 預測短期內圖書銷量
通過改進的預測模型,按地域劃分對選題印刷量進行預測,利于出版單位工作人員合理確定各地域印刷量,最終將預測結果持久化至數據庫。
(三)數據清洗
以《開卷圖書銷售報告》(2013-2016)為例,該數據覆蓋全國2000余家實體書店門市,20余家獨立網店及天貓書城,具有良好的連續性、代表性和完整性。采用2012-2013連續2年的圖書零售市場逐月觀測數據作為訓練集,2014-2015年為測試集。同時,分數據采用書號實名申領數據,書號實名申領系統作為中國圖書出版的基礎性建設,涵蓋全國范圍內發行的圖書選題所有數據,具有權威性。
首先,將圖書銷售數據與書號實名申領系統數據通過ISBN碼進行關聯,采用書號系統數據填補等措施,解決如銷售數據、作者信息殘缺等數據問題;手動清洗部分出版方式、地域等填寫不規范或數據殘缺問題;保留規范和有效的數據,如書名、作者、售價、時間、銷量、中圖分類1級、中圖分類2級、中圖分類3級、選題類型、語言類別、裝訂類型(平裝、精裝等)、頁數、字數、內容簡介、內容類型(新書、重印、再版)、版次、印次、讀者對象、地區、出版方式(常規出版、合作出版、引進出版等)、作者產量頻度、出版單位產量頻度等字段;然后按地域分組,采用獨熱編碼來處理離散型特征。
(四)確定預測模型及改進
模型通過8000次訓練,RMSE基本趨于穩定值,測試集預測結果均已輸出,如圖1-3所示:
預測樣例的預測值與實際值如圖1-4所示,可以看出預測誤差范圍基本在可接受范圍之內。
通過分析可知上述模型對于類似“諾獎事件”的熱門、熱點事件無法做到準確預測,原因在于圖書銷售數據與書號實名申領系統數據無法關聯熱點時事,同時不存在反應作者的熱門指標。綜上所述,模型改進上需增加對于作者熱度的權值信息與選題內容的權值信息,通過比對是否含有熱搜、作者信息加權,而對于選題內容加權來說,通過對選題內容分詞后,判斷否包含熱搜詞語來對選題內容加權。
對于新浪微博熱搜詞與熱搜名人信息的搜集,通過采用網絡爬取的形式,通過Jsoup框架將兩部分數據中的排名、關鍵詞、搜索指數等信息按一定頻率進行爬取,解析處理后保存至數據庫中,為銷售數據的作者加權及選題內容加權作為數據支撐。
增加作者熱度與內容熱度兩個維度,模擬熱搜數據通過將一條數據修改為熱搜作者或將圖書選題內容簡介中增加微博熱搜詞信息。
對模型進行改進后,以固定頻率爬取新浪微博熱搜數據,采用模擬方式以及對比歷史數據的方式可以明顯提高預測準確度。如圖1-5所示:
隨著“諾貝爾獎頒獎”揭曉時刻的遠去,虛構類榜單的“莫言熱”也逐漸降溫,不過在2013年1月的榜單中莫言依然是入榜品種數最多的作者,《蛙》再次蟬聯榜單首位;同樣隨著網絡連續劇《盜墓筆記》的熱播和同名電影《盜墓筆記》的上映,南派三叔的《盜墓筆記》和《藏海花》等均表現出強勢的銷售熱潮,本次選取莫言的代表作品《蛙》以及南派三叔代表作品《盜墓筆記》作為預測樣例。
首先,我們以前三個月的數據為基礎,預測下一個月的銷售數量,并與實際銷售數量進行比較。從上圖看出,預測偏差基本在可控范圍之內,表明增加了作者熱度與選題熱度的神經網絡預測方法,對熱點事件帶來的圖書印刷量激增的情形具有較好的預測擬合效果。
二、實驗結果及應用
根據預測數據,用戶可通過在選題預測公眾號中輸入“map”,將各選題的預測結果以各省、自治區、直轄市、特別行政區的形式展示。本次預測選題選定中圖分類法兒童類,包含二級分類卡通/漫畫/繪本、少兒英語、少兒國學經典、少兒藝術、少兒文學、少兒科普百科、低幼啟蒙、幼兒園教材、卡片掛圖、游戲益智、青少年心理自助11個子類,三級分類少兒卡通、少兒英語、少兒國學經典、少兒美術、少兒藝術綜合、少兒游戲、少兒繪本、幼兒園教師用書、少兒卡片、少兒小說、少兒漫畫、少兒科普百科、少兒掛圖、連環畫、少兒文學名著、低幼啟蒙、青春漫畫、少兒文學其他、少兒手工、少兒音樂、少兒故事、幼兒教材、青少年心理自助共23個子類。
預測的圖書銷量按各省、自治區、直轄市、特別行政區以顏色深淺區分,顏色越深表示銷售量越大;通過左下角標尺可以調節印量單位值,給出更為直觀的展示,合理安排不同地域的圖書印刷量,可以減少不必要的人、財、物的消耗,同樣在減少運輸成本與庫存積壓及銷售供給方面具有巨大優勢。
通過雙擊地圖中的省、自治區、直轄市、特別行政區,可以進入選題預測詳情頁面,展示該地域下一個月的印量預測信息,為出版單位工作人員指定下一個月的銷售計劃提供決策參考。
通過以上分析,從數據層面保障了選題預測的可靠性,對印刷數量給出直觀展示,并在地域上給予出版單位較為準確的印刷量預測,為出版單位印刷量確定與地域投放提供了科學依據。由此,使用以上方法可以建立一整套以圖書銷售數據整合當前熱門、熱點信息為基礎的圖書選題預測應用系統,為圖書出版行業進行更大規模的數據分析應用奠定基礎。
以上運用神經網絡的方法,基于圖書銷售數據、書號實名申領系統數據及新浪微博熱搜數據,采用數據挖掘的分析方法,預測出各地域下圖書的印刷量信息,進而為出版單位提供各地域的選題銷售分派等工作奠定了良好的基礎,為實現出版單位收益最大化提供了良好的保障。