金鳳
摘要:為了永久保存泰州市應對新冠肺炎疫情這一重大突發公共衛生事件的珍貴記憶,泰州市檔案館收集新冠肺炎疫情防控工作檔案資料并編制成冊。文章從工作實踐中深入進行對新媒體檔案的研究,介紹新媒體檔案傳遞實時、海量存儲、傳播面廣三大特點,闡述了新媒體檔案收集的重要性,從確定收集內容、收集對象、收集流程和收集方法四個方面詳細介紹本次收集的過程,總結了新媒體檔案收集的注意事項。
關鍵詞:新媒體;檔案;收集
檔案是國家、社會、個人一切活動的真實記錄。在新型冠狀病毒肺炎疫情防控工作中,泰州市檔案館在抓疫情防控的同時,立足本職,主動作為,積極做好疫情檔案資料收集和指導。在編輯《泰州防控新冠肺炎疫情實錄》(以下簡稱防控實錄)的過程中,明確專職團隊、統籌計劃安排、建立保障制度,全方位抓好新媒體時代新冠肺炎疫情防控檔案資料收集處置工作。
新媒體檔案是迎合人們碎片化閱讀的習慣,依托信息技術和互聯網技術,實現不受時空限制、互動性強、及時性高的電子檔案。常見的新媒體主要有網站、博客、微信、微博,也包括今日頭條、抖音APP等。載體形式包括文字、圖片、音視頻等。在當前云計算、大數據、物聯網技術的互聯網時代下,新媒體檔案具有以下幾個特點:
1.傳遞實時。新媒體信息從發布到用戶反饋,時間可能是分秒間,極大地縮短了信息傳播的時間,檔案可以實時收集。
2.海量存儲。傳統媒體在信息傳播中受制于時間、版面,而新媒體檔案的數量則相當可觀,通過云計算和大數據技術,可根據需要彈性擴容,海量信息得以呈現和儲存。
3.傳播面廣。因為操作容易,門檻較低,新媒體的發布者和受眾范圍很廣,每個人都可能成為新媒體,每個人又可以從海量的新媒體中獲取資訊。
1.有利于豐富檔案館館藏
新媒體檔案內容翔實,圖文并茂,其中音視頻呈現形式是傳統媒體無法比擬的,是珍貴的檔案資料。通過新媒體檔案的收集,可以彌補檔案館館藏形式單一的缺陷。
2.有利于探索檔案館收集新渠道
新媒體檔案傳遞實時,海量存儲,傳播面廣,為檔案收集提供了廣闊的渠道。檔案館可根據新媒體檔案的特點,制訂切實可行的收集規則,擴大收集范圍。新媒體檔案以其獨特的形式,為檔案征集開辟了新天地。
3.有利于共同記錄社會發展歷史
新媒體檔案是對社會發展歷程的實時記錄。由于類型多樣,分布廣泛,檔案館可通過同一專題檔案的收集,實現檔案的相對集中管理。特別是針對某一重大活動、重要事件的收集,可以真實記錄歷史原貌,發揮檔案資料存史資政的作用。
泰州市檔案館展現責任擔當,搜集泰州地區新冠肺炎疫情期間防控實錄,整理成冊,不僅豐富了館藏內容,而且為以后提供了歷史參考和經驗借鑒。
1.收集內容
為更好地記錄全市廣大干群積極投身戰疫一線的奉獻精神和英雄壯舉,定格全市上下團結一心、共克時艱的生動場景,永久保存泰州市應對這一重大突發公共衛生事件的珍貴記憶,泰州市檔案館向公眾發布了疫情防控檔案征集公告,收集內容包括反映泰州市范圍疫情防控感人事件、作出貢獻的人物事跡的相關資料、社會各界捐贈款物記錄、紀實資料和宣傳報道材料等,載體形式有文字、照片、音視頻、實物等。同時,館內成立防控實錄編輯小組,主動深入政府部門網站、微信公眾號等新媒體系統,全方面收集檔案資料。
2.收集對象
(1)政府網站
政府網站通過政府信息公開向公眾提供信息服務,以保障公眾的知情權和監督權。政府網站是各級政府信息化建設的起點,公民、企業與政府工作人員通過這類綜合的跨部門的業務應用系統,能快速便捷地接入所有相關政府部門的政務信息與業務應用。
(2)政務微博
政務微博具有即時性、分享性、互動性的獨特傳播優勢,可推送信息動態、鮮為人知的小故事等,還可進行交流互動,征求群眾意見、接受網上申辦等,是公共服務的新渠道。
(3)微信公眾號
政府通過微信公眾號可廣泛地傳播圖文、音視頻等各種形式的信息,實現無時限、無人工的政府信息服務,人民群眾利用一部手機通過服務號,輕輕一點或者對準二維碼輕輕一掃,就可以了解政策、行業動態等線下傳統服務內容,還能根據個人喜好訂閱或接受精準推薦等智能化的服務。
防控實錄檔案資料收集工作實踐過程中,工作人員關注的新媒體主要為泰州范圍內政府部門及相關機構單位官方媒體。(見表1)
3.收集流程
防控實錄收集流程主要如下:首先館內成立編輯小組,制訂收集規則,確定收集對象,分別確定收集對象的網站、微博、公眾號等新媒體的網址和名稱,明確責任分工,同步向社會發布征集公告,全方位收集新媒體檔案。再根據收集的檔案,建立類目,同步到總庫。最后在總庫上進行去重、清洗過濾、主題詞確定等細致化工作,校對無誤后歸檔到檔案庫,形成防控實錄最終版。

防控實錄確定三級類目,一級類目為各部門單位名稱,二級類目為媒體類型名稱加圖片和視頻兩個文件類型,三級類目為檔案的日期。(見圖1)
類目中的日期為檔案內容的時間,區別于檔案發布時間、檔案采集時間、檔案過濾時間和檔案收集時間,它們的關系可以用圖2來展示。
4.收集方法
(1)頁面內容復制
工作人員一般所用的方法為頁面內容復制。打開疫情期間需要收集的政府部門媒體頁面,復制所選內容,粘貼保存到本地文檔中。這種方法的優點是簡單直接,門檻較低,會操作電腦的人都可以采用此方法;缺點是有些網站設置了不可復制,有些只能復制文字,圖片則要另外復制保存后插入,因此需要大規模批量收集新媒體信息時,效率較低。
(2)利用工具轉化
在防控實錄收集微信公眾號文章過程中,主要嘗試了三種工具:
①使用騰訊公司自有產品。微信公眾號和QQ空間都是騰訊公司的產品,他們具有共享性,通過QQ空間可以將微信公眾號的文章導出。其步驟如下:在目標公眾號中把文章打開,然后分享到QQ空間,再到QQ空間里打開這篇文章,點擊導出為文檔,然后導出為word,發送到我的電腦。
②使用微信公眾號編輯網站。以135網站為例,步驟如下:先復制每個文章的鏈接,然后打開135網站,導入文章,粘貼地址,在135網站編輯器中就能看到公眾號完整的文章,然后再復制到word。
③使用成品抓取工具文檔導出助手,該工具能批量下載指定公眾號所有文章,也可以根據文章鏈接下載單個文章,缺點是視頻不能下載保存。
(3)網絡爬取
防控實錄編輯過程中,充分使用新技術,采取新手段,采用八爪魚和Python爬取等方法來抓取內容。主要方法為模擬真實用戶或者解析HTML,步驟為:確定爬取網址、模擬登陸、獲取爬取頁及內容、將內容導出。此方法優勢明顯,能快速爬取大量信息,其間有的網站對于同一IP短時間內多次訪問要求輸入驗證,驗證的形式多樣,有的是圖片匹配,導致爬蟲無法長時間運行,需要采取網絡代理的方式,模擬多個IP,繞過網站驗證。
1.內容真實性問題
網絡信息魚龍混雜,良莠不齊,這就要求工作人員在新媒體檔案收集時務必對內容真實性進行嚴格把關,盡可能地選擇官方媒體,以確保檔案信息的真實性。
2.日期確定問題
新媒體檔案中,常常會出現日期是“近日”或無法確定日期的情況。防控實錄是根據日期制定三級類目的,如果不能準確確定檔案日期,會造成檔案歸類錯誤。對于這種情況,應多途徑核對,盡可能找準檔案形成時間。
3.檔案去重問題
征集來的檔案可能與從網站、微信、微博收集來的檔案存在重復,同一部門網站、微信、微博中的信息也存在重復可能,因此需要在臨時庫上進行去重,以確保檔案內容的唯一性。
4.保管期限問題
新媒體檔案收集的是檔案的電子形式,不存在傳統檔案的實體存儲,信息永久保存不難實現,建議將保管期限確定為永久。