丁曉蕓 丁琦
上海空間推進研究所
隨著經濟與社會事業在新時代的高質量發展,各行業、各領域、各學科都將高質量發展作為目標和導向,迎來更高的改革和創新要求。對于科研檔案管理工作而言,在大數據時代背景下,科研單位檔案的歸檔對象和范圍、數量遠遠超出傳統模式,同時可以利用大數據技術進行加工處理,將科研檔案轉化成語義知識豐富的大檔案數據,為科研管理、科技創新等提供支撐,在科研檔案管理中加強大數據運用顯得至關重要。
大數據又被稱作海量資料、海量數據、巨量資料、巨量數據,通常是由數量巨大、類型眾多、結構復雜的數據構成的集合,涉及的數據量規模巨大到不能利用當下的主流軟件工具在合理時間達到獲取、管理、處理、整理更有價值信息的目的。科研檔案是科研單位在科學研究實踐活動中形成的記錄活動全過程的原始記錄材料,結合大數據分析,科研單位檔案與大數據的特征是相符的[1]。首先,科研檔案數據量大,現如今很多科研單位的檔案資料總量幾乎都達到TB級,是龐大的數據資源庫;其次,科研檔案資源類型多,當前比較先進的科研單位的檔案資源主要是電子資源,同時包含一些紙質檔案和照片、音頻、視頻等檔案,均屬于非結構化數據,資源類型繁多,呈現出多樣性特征;再次,科研檔案價值密度不高,因為科研檔案記錄著科研單位開展科研實踐活動的過程,價值較大,但在利用科研檔案方面,數量龐大的檔案引發價值密度低、利用率不高等問題,例如科研單位的館藏科研檔案數量可以達到百萬級,實際利用率卻偏低;最后,處理速度要求很高,現在比較先進的一些科研檔案要依靠信息技術進行管理,處理科研檔案達到實時或者近乎實時的速度。
人們對于科研單位檔案的認識經歷持續深化的過程,界定科研檔案的概念和內涵時伴隨時代的進步越來越明晰、深化。特別是把科研數據視作重要檔案性資料直接納入科研單位檔案管理的范疇,有助于全面保管科研活動中形成的資料,為開發利用科研數據奠定基礎[2]。但是隨著科技的不斷進步,科研單位的科研手段出現巨大變革,跨機構、跨地區、大規模的科研實踐活動越來越多,各種智能傳感終端被廣泛應用于各個領域,促使科研數據可以被快速精準地獲取,科研檔案數據來源愈加廣泛,類型也愈加多樣。在數據驅動的影響下,科研檔案作為科研單位重要的戰略資源,蘊含著組織和個人在科研活動中的智慧,檔案管理技術要求不斷提高,使得科研單位傳統檔案管理中的思維局限、歸檔粗糙、數據庫功能不全、人員專業水平不高等問題日益突出,有效運用大數據優化科研檔案管理勢在必行。
科技創新是增強競爭力的重要手段,是科研單位形成、保持和提升核心競爭力的必然選擇,檔案部門改善科研檔案管理,更好地規范科研項目管理、服務科技創新責無旁貸,在實際工作中需要結合科研檔案大數據特征加強對大數據的運用。
為了進一步推動科研檔案的數字化、信息化建設,檔案部門要重視大數據精益管理,通過融入精益思維建立大數據檔案管理思路,實現對科研檔案資源的自動采集和資源共享,為科研單位的運作與發展提供更好的服務[3]。大數據精益管理思維主要涉及到信息化思維和檔案服務思維、檔案資源共享思維,基于精益管理理念推進科研檔案管理的革新、升級,意識到科研檔案資源利用價值;要想自動采集科研檔案資源,就要利用先進大數據技術自動抓取科研檔案信息,從而結合網絡數字資源實時動態把控科研檔案的利用,實現個性化、精準化的數字化管理;共享科研檔案資源也要關注大數據,由此整合檔案資源,把科研檔案歸類為數字資源、基礎資源、管理資源,通過結合大數據精益思維劃分科研檔案資源類型,建設大數據檔案精益化管理體系,服務科研檔案數字化升級管理。
《科學技術研究檔案管理暫行規定》15號令豐富了科研文件材料歸檔范圍,科研單位檔案部門要按照規定增補相關材料,細化歸檔。例如科研立項階段的論證指南、評審材料,研究實施階段的科學數據和進展情況報告,項目結題驗收申請書、項目績效評價自評報告、科研成果報告等文件,進一步提升科研單位檔案的完整性。尤其是根據大數據精益思維強調科學數據歸檔,不僅要把科研實踐活動和項目過程中形成的科研數據歸檔,還要細化歸檔科研數據的規則[4]。例如針對冗雜的、數量多的科研數據要有序地、科學地歸檔和保存,提升使用科研數據的效率即科研項目的對應投資回報率。具體可立足科研數據生命周期管理細化歸檔,包括:在數據采集環節要求科研項目的負責人在項目開始之前制定好科研數據的管理計劃,在項目過程中安排科研人員利用相關設備記錄科研過程,并根據管理計劃做好科研數據加工整理工作;在數據匯交環節由科研管理部門統一匯總科研項目形成的科研數據,上交檔案部門,同時建立科研檔案數據匯交制度,規范利益各方的匯交工作;在數據保存環節要科學配置科研數據的存儲和保管、服務、安全等必要設施,完善科研數據保存制度,滿足科研檔案存儲要求。
與此同時,在科研檔案歸檔中要利用科研單位的信息系統進行前端控制,集成電子文件管理系統、檔案信息管理系統,真正做到實時歸檔。科研材料形成與管理部門將辦理好的文件材料利用各信息系統接口進行歸檔處理,完成邏輯歸檔;歸檔檔案數據時督促、指導文件材料形成部門保證建立紙質文件和電子文件的正確對應關系,同步移交檔案;文件材料形成部門根據科研檔案整理要求把待歸檔電子文件分類上傳檔案服務器,存放在系統文件中心,集中歸檔,使科研檔案更完整。
檔案數據庫是系統化的、有組織的數字大集合,目前科研單位的檔案數據庫信息主要來自既有檔案、收集的電子文件,在細化歸檔的同時就需要完善數據庫的功能,強化檔案運用。針對既有檔案要利用數字化技術將其他載體形式的檔案信息轉化成數字檔案,例如掃描、著錄等;針對收集的電子文件,要依托數字化管理和大數據做好歸檔整理工作,如上所述,構建檔案數據庫。接下來就是運用大數據技術深度挖掘科研檔案數據,精準洞察、精準服務,提升使用者對科研檔案的認同感,強化檔案資源共享,發揮好科研單位檔案的價值。例如進行用戶信息數據挖掘,提取他們的科研檔案信息需求,也就是通過查看他們訪問檔案服務器的日志跟蹤行為,推測個性化需求,提供優質檔案服務;挖掘用戶瀏覽記錄、統計檢索記錄,分析他們點擊科研檔案目錄的幾率,實行點擊率高的科研檔案的數字化處理;分析用戶檢索檔案的關鍵詞,充實并完善檔案數據庫檢索關鍵詞,有效提升查準率。
除此以外,加強科研檔案數據信息的碎片化加工處理。科研單位傳統檔案管理主要基于卷和件進行,只能解決邏輯結構和物理的異構,存在語義異構問題。為了提升科研檔案信息的關聯度,滿足大數據驅動下的檔案系統精確檢索、精確分類和統計需求,要利用知識圖譜對科研檔案數據進行碎片化的細粒度加工,提供深層次科研檔案服務[5]。即利用大量人工標引的科研檔案分類號實例組成實例庫,進行相似度計算,按照計算結果自動分類科研檔案;利用人工智能和自然語言處理等技術手段,以科研檔案知識為基礎,利用分類號、保管期限、題名、責任者、頁碼范圍等著錄信息條目進行元數據智能提取,然后對科研系統、辦公自動化系統等業務系統里面的異構元數據需求開展映射、轉換、互操作;利用智能識別分析科研檔案正文信息的句法、章節層次等,自動抽取時間、地點和事件等關鍵性數據、圖表信息,實現科研檔案細粒度加工。抽取科研檔案數據涉及到抽取檔案實體、抽取關系、抽取屬性,得到實驗數據,將其和單位人事信息、科研項目等進行知識整合,通過智能校對、人工審核降低錯誤率。例如在科研單位的某項課題申報和組織換屆,檔案部門從知識層面匯集相關科研項目檔案,對相關領域的科研專家進行智能搜索,按照呈現出來的科研成果和研究報告等綜合分析知識層面的研究路徑、關鍵技術等,為展開課題研究、明確研究方向以及論證課題的可行性等提供可靠的檔案數據參考。
科研單位檔案管理的大數據運用需要科學配置檔案人才資源,打造專業隊伍,提供大數據檔案管理保障[6]。為此,科研單位要加強檔案人員管理培訓,增強他們的服務意識,結合科研檔案使用需求簡化檔案使用流程、創新服務手段,挖掘檔案潛在價值,為不同科研項目提供針對性的服務;定期進行檔案人員的信息化專項培訓,使檔案人員充實專業知識,掌握信息化操作技能和網絡安全防護等;積極參加上級部門組織的專業技能培訓,進行系統的、針對性的學習,增強檔案大數據意識;把檔案人員的服務意識、履職情況、培訓情況等納入績效考核范疇,結合績效獎懲機制提高檔案隊伍的綜合素質。例如在檔案人員專業培訓中要考慮大數據的要求,督促檔案人員嚴格遵守安全保密規定,承擔科研檔案保密責任,加強安全建設。因為科研單位檔案中有很多需要保密的數據、信息,要組織檔案人員學習《保密法》等,完善科研檔案數據安全和保密管理,圍繞數據信息、保密責任的落實、責任追究等實施重點控制;強化網絡安全防護,認真檢查科研檔案數據庫和信息系統的防病毒、防攻擊、防癱瘓等安全維護情況,及時修復安全漏洞,筑牢單位內網和互聯網之間的物理隔離;加大保密力度,檢查科研檔案數據庫的保密管理狀況,包括科研檔案數據的存儲與使用等,檢查移交檔案數據的臺賬,避免發生泄密事件。
基于大數據和人工智能等先進科技的技術革命不斷影響著檔案管理工作,為挖掘檔案數據、開發利用檔案信息資源提供可能。如今大數據是科研單位檔案管理不可擺脫、不可選擇的新環境,更是深化科研檔案管理改革的新機遇,科研單位檔案部門通過把握時代機遇,積極迎接挑戰,在科研檔案管理中順大數據之勢而為,不僅依托科研檔案大數據特征建立了大數據檔案管理思路,還利用大數據技術提升了大數據檔案的完整性,強化檔案資源運用,同時打造專業檔案管理工作隊伍,立足新的大數據環境高效管理科研檔案,扎實推進科研單位檔案管理的信息化建設進程。