田 偉 韓海濤(天津工業大學檔案館,天津,300387)
?
大數據時代檔案館服務創新研究*
——基于天津高校檔案數據變化
田偉韓海濤
(天津工業大學檔案館,天津,300387)
[摘要]大數據時代為檔案館帶來了新的機遇與挑戰。文章通過對2011至2014年天津市高校檔案館館藏資源及其利用情況的實際統計調研,分析了當前大學檔案館用戶需求的變化趨勢,進而提出了大數據時代檔案館服務創新策略:構建用戶需求感知引擎、拓展深化檔案數據服務內涵、推進檔案個性化服務實施。
[關鍵詞]大數據檔案用戶協同過濾高校檔案個性化服務[分類號]G271
大數據時代已經來臨,未來檔案館的核心競爭力很大程度上取決于將檔案數據轉化為信息和知識的速度與能力。檔案館作為社會上存儲信息、提供信息服務的信息中心,必須主動利用這些變化來進行戰略性創新以滿足需求、創造未來[1]。
在這樣的時代背景下,檔案館要積極研究如何將現有的檔案館建設成為依靠歸集存儲大數據的“數據倉庫”和實現大數據增值的“數據銀行”,并使檔案工作者由“一把鎖”提升為數據科學家。只有實現這樣的歷史性進步,才能真正實現檔案館的可持續發展。
為此,本文從分析當前檔案用戶現實需求入手,以天津高校檔案工作統計數據為切入點,分析當前檔案工作為迎接大數據時代而應采取的策略。提出檔案館目前應當立即著手在感知用戶需求、拓展檔案數據服務內涵、實施個性化檔案數據服務三個方面開展相關研究與實踐工作。
為了調查天津普通高校檔案館館藏資源及其利用情況,我們專門設計了相關的調查問卷,問卷中包含館藏資源、利用情況統計等內容,從各個維度體現了當前天津高校檔案館資源及運行總體狀況。
此次調查的范圍涵蓋天津的20所普通高校,調查所覆蓋的時間跨度為2011年度至2014年度。
文章分別從利用檔案類別、利用目的、利用者身份等維度進行分析,并以卷次及人次為單位進行統計。
首先,根據利用檔案的類別,對2011年度至2014年度的天津高校檔案利用情況進行統計并生成2011 至2014年度天津高校檔案分類別利用趨勢圖(圖1)。
從圖1可以看出,2011至2014年度內,對檔案利用的總量(卷次)呈現比較快的增長勢頭。其中教學檔案一直保持高位增長狀態,而財會檔案在2014年度有一個較快增長,行政檔案與黨群檔案在利用數量上比較接近,均呈現平穩增長的勢頭,其他類別的檔案利用數量相對較少,處于低位增長狀態。
再根據利用檔案的人次,對2011年度至2014年度天津高校檔案利用情況進行統計,生成2011至2014年度天津高校檔案分類別利用趨勢圖(圖2)。

圖1 天津市普通高校檔案分類別利用趨勢圖(卷次)

圖2 天津市普通高校檔案分類別利用趨勢圖(人次)
如圖2所示,2011至2014年度內,來館利用檔案的人次數量不斷增長。其中,對教學檔案利用的人次最多、增長最快,遠高于其他類型的檔案利用人次。對高校其他類別檔案利用的人數處于低速增長狀態。
對于上述的檔案利用,我們以下從檔案利用目的角度進行分析。基于利用目的的高校檔案利用卷次趨勢變化圖如圖3所示。
以人次為單位統計的不同檔案利用目的情況變化趨勢圖如圖4。
最后,2011至2014年度天津高校檔案利用主體變化趨勢圖如圖5所示。
其中,我們對2014年度天津高校檔案利用主體構成情況生成比例圖如圖6所示。
(1)從2011年至2014年天津高校館藏資源增長較快。截止2011年初,20所普通高校檔案館共擁有檔案584685卷,與2014年底檔案數量相比,同比增長約15﹪。根據我們所統計的數據,其中具體的檔案種類相應也分別有較大增長,篇幅所限在此不詳細列出。其中館藏電子文件的數量增長幅度最快,這反映了大數據時代的來臨。
(2)從利用檔案類別看,天津高校教學檔案利用卷次及人次數量均居首位,且逐年增長。黨群檔案、行政檔案以及財會檔案的利用卷次也比較多。而從利用人次角度考察,這四類檔案中,對教學檔案利用的人次最多,遠高于對其他三類檔案的利用人次。這表明了對于教學檔案的利用呈現頻繁、分散的特點。而對黨群檔案、行政檔案及財會檔案的利用,則呈現利用集中、每次利用數量大的特點。這反映了當前高校檔案館承擔校務管理決策和師生辦理事務信息支持的重要職能,表明檔案館業務與本單位主要職能聯系最為緊密,應圍繞這個原則拓展大數據的檔案服務。
(3)從利用檔案目的角度分析,以行政管理為目的的利用卷次最多,而以學籍證明為目的的利用人次最多,這進一步說明了兩類利用的不同特點,表明了高校檔案館應同時具備與完善頻繁分散和突發集中兩種信息服務模式,并緊密圍繞檔案用戶需求和利用目的,推進數字化以及智慧檔案館建設工作。
(4)對于檔案利用主體的變化與構成,我們可以看到4年間天津高校檔案館用戶構成基本穩定,檔案利用需求最大的是畢業生和在校生,這也符合我們上述關于教學檔案利用頻繁分散特點的分析。因此高校檔案館面對大數據時代進行服務創新時,應立足于自身主要的服務對象,推進高校檔案服務用戶滿意度提升,努力消除當前“信息孤島”和“煙囪工程”現象,全面考慮各類服務對象的特點,構成大數據時代服務體系。
根據上述調查與分析,在目前檔案工作的基礎上,面對大數據時代背景,高校檔案館應著重在以下幾個方面實施創新策略:
(1)構建檔案用戶信息需求感知引擎
讓用戶根據自身的信息需求、獲得所需的檔案數據資源,這是大數據時代檔案服務由“供給導向”向“需求導向”發展[2]的歷史要求。而目前我們通過調查發現,對檔案用戶利用需求情況的感知,往往采用事后統計分析的方式,缺乏自動的、智能的系統與機制。這造成檔案館無法對用戶的需求進行即時獲取并快速作出反應。而且,當前各檔案館對用戶的檔案需求記錄與分析也很不詳細。因此,檔案館應當立即著手建立對檔案用戶信息需求進行即時感知、適時反應的信息系統及其配套機制,即用戶信息需求感知引擎。

圖3 天津市普通高校檔案利用需求目的變化趨勢圖(卷次)

圖4 天津市普通高校檔案利用需求目的統計分布圖(人次)

圖5 天津市普通高校檔案利用主體趨勢圖

圖6 2014年度天津普通高校檔案利用主體構成圖
以高校檔案館為例,應在實現數字化工程的基礎上,建立記錄用戶特征、檔案利用行為、用戶對檔案評價等數據的信息系統,并建立與完善相應的配套制度和應用場景,從而形成高校檔案用戶需求感知引擎。對于檔案用戶需求,變事后統計為實時感知,獲知用戶視角下當前檔案服務的優點與不足。同時感知引擎所收集的數據,可使檔案館獲得對用戶未來需求的預測能力,并據此采取相應的策略與行動,這是大數據時代智慧檔案館的重要特征之一。
(2)拓展與深化檔案數據服務的內涵
大數據時代要求檔案館重新審視所面對數據的價值,應肩負起數據倉庫與數據銀行的歷史使命。為此,檔案館首先應當拓展大數據時代檔案數據收集的范圍與內容。很顯然,只有將大數據資源切實納入檔案范疇之內,才談得上實現真正的“大數據檔案”。
相關研究表明[3],感知式系統數據是大數據資源的主要來源,體現了大數據的內在價值。然而,當前檔案館藏制度與實踐還基本沒有囊括該類型的數據。例如高校檔案的收集與服務主要集中于運營式系統,即發生校務活動進而記錄產生數據,如上述的教學檔案、黨群檔案、行政檔案等等。而對于大數據時代的高校檔案館,應當面向大數據時代的師生活動及用戶需求,根據用戶信息需求感知引擎等方面的數據,適時拓展現有檔案分類體系下檔案的收集范圍與內容。特別是應在傳統檔案收集的基礎上,加強對用戶原創內容和感知式系統數據的收集。例如:反映學生思想活動的校內論壇數據、校園運行情況監測數據、校內無線終端運動定位信息、師生教學行為數據等。這需要高校檔案館從檔案收集制度、存儲方式、服務內容等方面進行全面地推進。而這樣做的目的,是為了使檔案館的館藏切實囊括大數據時代所產生的信息,不使大數據面臨因無處長期保存而滅失的局面。特別是一些大數據只有經過一段時間的連續存儲或是集中分析后,才能從中抽取有價值的信息。因此檔案館應成為保存大數據資源可靠、安全的數據倉庫。
在此基礎上,檔案館應努力使自己具備一定的數據挖掘處理能力,以滿足各部門對大數據抽取知識、支持決策等方面的需要。只有大數據能夠轉化成為高校的決策依據或事務支持信息的時候,才是大數據真正顯示其魅力的時候。這就如同銀行中保有的貨幣資金流轉起來方才會產生效益一樣。因此,檔案館應努力從資源整合、人員配備、技術進步等方面提升自身大數據分析處理能力,將自身建設成為能夠實現館藏數據增值的數據銀行,從而深化檔案數據服務的內涵。由此可見,對大數據的妥善長期存儲及其知識抽取是檔案館面臨的新的重要任務,是大數據時代校務活動對檔案館藏數據服務的必然要求。
(3)推進個性化檔案數據服務
實現個性化服務是大數據時代智慧檔案館的一項重要特征。而檔案服務的個性化關鍵核心應當是用戶所獲信息的個性化。當前一些相關研究中[4]已經對檔案用戶個性化信息利用模型等問題進行了一定的研究。因此,我們進一步提出在劃分檔案用戶信息需求類型的基礎上,采取相應具體的個性化實現技術與服務策略。
根據上文統計,高校檔案利用活動從總體上可以分為兩大類:
一、文研利用。用戶出于文化研究或汲取知識目的,查詢某一主題的檔案資料。如上述的學術研究、編修史志、宣傳教育等均屬于這一類別。其特點是用戶的需求主要基于自身活動的興趣,檢索檔案結果往往范圍分布較大、目標不特定,且一般直接尋求檔案數據文件。該場景用戶對獲取檔案信息的個性化程度、新穎性要求較高。
二、事務利用。用戶因辦理某事務在檔案系統中檢索所需的檔案資料。上述行政管理、經濟建設、學籍證明等屬于這一類別。與上述文研利用特點不同,事務利用的特點是檔案檢索主要基于用戶因某事務辦理而對檔案產生的剛性需求,用戶所需檔案文件集合內容比較確定,且需求往往是先映射到類再尋求具體數據文件。即用戶的檔案需求在類別上有共性、在具體文件上有個性。該場景對獲取檔案信息的貼切性、配套性要求較高。
因此,高校檔案館提供個性化服務時,可采取不同的個性化信息推薦策略。例如,可基于協同過濾技術[5],對文研利用用戶采用與新聞、電影、圖書等相似的推薦策略[6]。而對于事務利用用戶,可對傳統的協同過濾技術進行變形,采用先將用戶需求映射到檔案類,再根據用戶屬性檢索所需文件的推薦策略。而這無疑要求高校檔案館建設檔案數據個性化推薦系統,將檔案信息的獲取從當前單一檢索方式推進到智能信息推薦時代。同時圍繞該系統建設配套制度體系,從而形成和部署檔案館個性化服務體系。
*本文系2014年度國家檔案局科技項目“大數據時代檔案館服務創新與發展趨勢研究”(課題編號:2014-X-16)的階段性研究成果之一。
參考文獻
[1]周楓.大數據時代檔案館的特征及發展策略[J].檔案與建設.2013(08):6-9.
[2]周楓.資源.技術.思維——大數據時代檔案館的三維詮釋[J].檔案學研究.2013(06):61-64.
[3]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50 (1):146-169.
[4]萬絢,方黑虎.Web2.0時代高校檔案館個性化信息利用模式及策略[J].檔案與建設.2012(08):14-18.
[5]馬宏偉,張光衛,李鵬.協同過濾推薦算法綜述[J].小型微型計算機系統,2009,30(7):1282-1288.
[6]田偉,韓海濤.構建個性化檔案數據服務引擎研究[J].檔案,2014(12):10-15.
田偉,南開大學計算機專業博士,講師,主要研究方向為數據庫、信息安全、檔案管理。
韓海濤,天津工業大學教授,天津工業大學檔案館館長,主要研究方向為檔案學、圖書情報學。
Research on the Big Data Era Archives Service Innovation Based on the University Archives Statistics Changes in Tianjin
Tian Wei,Han Haitao
(Archives of Tianjin Polytechnic University,Tianjin,300387)
Abstract:The Big Data era brings new opportunities and challenges for archives. This paper analyzes the archives users’demand characteristics according to the statistics of university archives in Tianjin from 2011 to 2014. Accordingly,it proposes archives service innovation strategy for the Big Data era,constructing archives user demands perception engine,broadening and deepening the archival data service content,promoting the implementation of personalized archives service.
Keywords:Big Data;Archives User;Collaborative Filtering;University Archives;Personalized Service
[作者簡介]