摘要:大數據時代的到來,給傳統行業帶來了巨大的沖擊和影響。以出版業為例,為了更好的滿足讀者的需求,必須與時俱進的引進大數據技術,從而為編輯流程中信息采集工作的優化提供必要的技術支持,提高出版單位的市場競爭力。文章首先對信息采集的現狀進行了分析,隨后在概述大數據對信息采集帶來影響的基礎上,就如何利用大數據技術實現編輯流程中信息采集工作的優化提出了幾點建議。
關鍵詞:大數據;編輯流程;信息采集;策略分析
引言:信息采集作為編輯流程中的第一個環節,在很大程度上決定了出版物的質量。以往出版單位的信息采集渠道以參加圖書展、調研圖書銷售機構為主,獲取的圖書信息十分有限。隨著大數據時代的到來,一方面是人們的閱讀習慣發生了改變,電子圖書逐漸取代傳統紙質圖書;另一方面則是信息技術得到廣泛應用,信息采集工作方式亟待進行改革。因此,探究大數據背景下信息采集工作的新方式,成為出版單位當前工作的重要內容。
一、信息采集發展現狀分析
1.專業人才數量不足。
通過對現階段出版行業編輯人員的年齡結構調查發現,其中30-45歲間的中青年編輯人員占到了60%的比例。這些編輯人員雖然具備較為豐富的信息采集經驗,但是受以往傳統出版工作模式的影響,形成了相對固化的工作習慣。即便是在大數據背景下,也不能與時俱進的掌握信息化技術,甚至對專業的計算機編輯軟件不能做到熟練運用。除此之外,大數據背景下讀者的閱讀需求、閱讀興趣也發生了較大的改變,而缺乏“互聯網思維”的編輯人員,由于無法及時、準確的捕捉讀者的閱讀訴求,出版物也就難以受到讀者的青睞和市場的需求,最終也會造成經濟上的損失。
2.軟件支持體系有待完善。
信息設備和軟件系統的廣泛應用,是推動信息采集工作實現數字化發展的必要支持。近年來,隨著大數據技術的不斷發展,市場上也出現了一些實用性較強的信息采集軟件,對輔助編輯人員工作起到了一定作用。但是我們也應當看到,科技的發展日新月異,尤其是依托于信息技術的編輯軟件,更新換代速度極快。部分出版社所用的編輯軟件雖然能夠滿足信息采集的基本需求,但是無論是從工作效率上還是信息采集質量上,都并不具備競爭力。因此,建立完善的軟件支持體系,緊跟市場前沿發展動向,成為大數據背景下不斷提高信息采集工作質量的一種可行性措施。
二、大數據對信息采集工作帶來的影響
在大數據技術的支持下,形成采集工作逐漸呈現出智能化和自動化發展趨勢,無論是在采集效率還是信息質量上,都有了較大程度的提升。本文根據采集信息內容的不同,就大數據帶來的影響展開了具體分析。
1.對一般信息的影響。
在以往的工作模式中,一般信息主要來源于文字材料或編輯人員自身的知識儲備,因此采集到的信息十分有限。而借助于大數據技術,編輯人員信息采集的途徑變得十分廣闊,例如各類網站、微博以及微信公眾號等,都可以成為信息獲取的場所。以微博為例,用戶可以隨時隨地的發送一則簡短的消息或短視頻。這些微博在引起較大的反響后,還會被推送至“熱門話題”,以便于更多用戶參與討論。這些熱點話題可以作為編輯人員信息采集的對象。
2.對出版業市場信息的影響。
掌握最新的出版業市場信息,對于出版單位及時調整經營管理策略和把握行業發展方向起到了積極作用。就編輯人員來說,應當首先分清出版業市場信息的具體內容,諸如出版物的評論、競爭對手信息等。大數據背景下,獲取市場信息的便利性也大大提升。例如,編輯人員可以登錄熱門的電商平臺(例如當當、亞馬遜等),這些電商平臺出售多種類型的圖書,并且圖書商品保留買家評論,編輯人員可以從買家的評論內容中獲取相關信息。此外,部分網站或平臺還專門開通了圖書評價渠道(例如豆瓣、網易云讀書等),也可以成為編輯人員了解圖書內容、獲取圖書信息的一種途徑。
三、大數據背景下優化信息采集的具體策略
1.培養符合時代要求的編輯人才隊伍。
熟練掌握和應用信息技術,具備“互聯網思維”,是大數據背景下對編輯工作人員提出的新要求。對于出版單位來說,只有與時俱進的培養符合時代要求的信息技術人才,才能為信息采集工作的高效率開展提供必要的智力支持。創建編輯人才隊伍的方式有兩種:其一是針對在職的編輯人員,根據他們對互聯網以及信息技術的掌握情況,開展針對性的培養,例如學會對現階段各種新型編輯軟件的操作應用,以“網絡爬蟲”等技術手段來搜索和獲取信息等,為進一步提升編輯流程中的信息采集效率提供保證。其二是針對應聘人員,要求應聘人員必須具備一定的互聯網常識,且對信息化編輯有一定的工作經驗,以確保在入職之后可以盡快投入到信息采集工作中。
2.綜合利用多種渠道進行信息采集。
編輯人員要想獲取更加豐富的信息,決不能僅僅局限于同一種信息采集渠道,而是應當以發散的眼觀和靈活的思路,利用一切可能的手段來完成信息采集工作。(1)微博信息的采集。微博與一般的新聞及論壇不同,必須通過某個身份(即賬號)進入微博系統,才能夠查看相應的內容。目前主要采用利用cookie和API的方式來破解微博安全認證中的加密和校驗過程,實現賬號的快速驗證登錄。由于微博的有效的安全認證和反采集策略,采集策略必須模擬正常使用者的使用模式,才能有效的解決微博的安全認證和海量采集問題。(2)微信公共帳號信息的采集。對微信公眾號信息的采集主要包括兩種方式:一是模擬登錄采集,二是獲得其后臺權限,以API接口的方式去采集相關信息。然后對獲取公共賬號的歷史推送信息,解析獲取正文標題、正文、時間、閱讀量信息。通過協議或其他方式獲得微信公眾號的后臺權限,讀取關注此微信公共帳號的用戶信息,推送的消息,關注度、閱讀量、點贊情況等。
參考文獻:
[1]陳莎.國內網絡數據新聞發展中存在的不足——以網易、新浪、搜狐數據新聞為例[J].聲屏世界,2016(9):164-166.
[2]董文麗.數據新聞:大數據時代新聞的變遷——以網易、搜狐、騰訊、新浪的數據新聞為例[J].新聞世界,2014(12):85-87.
[3]甘馨月,馬凱,張韻秋.中外數據新聞實踐比較研究——以英國衛報“數據博客”與中國網易“數讀”為例[J].新媒體研究,2016,2(24):11-14.
作者簡介:
張瑞,女(1982—),黑龍江省綏濱縣人,學士,哈爾濱工業大學出版社編輯,主要從事理工科學術專著、大學教材的編輯出版工作。endprint