譚美琴, 鄭 川
(1.衡東縣住房和城鄉建設局,湖南 衡陽 421400; 2.中南大學 檔案技術研究所,湖南 長沙 410083)
20世紀半導體技術的穩定進步使計算機硬件水平飛速提升,隨之產生的數據以指數級增長,把社會帶入信息爆炸時代。為從信息海洋中去粗取精,把散亂的數據轉換成有用的知識,數據挖掘的概念應運而生。數據挖掘是指從數據倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息, 提取的知識一般可表示為概念、規則、規律、模式等形式。數據挖掘的常用方法有模糊方法、粗糙集理論、云理論、證據理論、人工神經網絡、遺傳算法、歸納學習。數據挖掘技術最早在商業方面開始應用,用于輔助制定經營計劃和銷售策略,并逐步在醫療、電信、制造業和保險等行業得到應用。近年來,檔案行業的信息化建設快速發展,數字檔案資源極大豐富,檔案數據挖掘成為了學界和業界研究的新方向。本文通過文獻計量與內容分析的方式了解數據挖掘技術在檔案行業的研究現狀。
以CNKI中國知網為論文樣本來源,檢索資源包括中國學術期刊網絡出版總庫、中國優秀碩士論文全文數據庫、中國優秀碩士學位論文全文數據庫(增刊)和中國博士論文全文數據庫等。檢索條件為:主題=檔案and數據挖掘(精確匹配);發表時間=1999~2018年。檢索共得到431篇文獻。
將檢索結果導入文獻管理軟件Noteexpress 3.2.0進行處理,統計論文數量、發文年度、作者分布、研究機構、期刊分布,分析文獻研究內容后進行分類并歸納各類代表性觀點。
1999~2018年的20年間共有檔案數據挖掘論文431篇,其發文年度分布如圖1所示。從圖1統計情況可知,2002年以前檔案數據挖掘相關研究很少,2002年起該主題的年文獻量呈現明顯的上升趨勢,到2018年發文數量達到61篇。年文獻數量反映了近20年來檔案行業對數據挖掘的關注不斷增多,從事這方面研究的人員和機構數量在增長,研究成果也在增加。檔案數據挖掘相關研究處于逐年發展的態勢。

圖1 1999~2018年檔案數據挖掘發文年度分布圖
在所統計的文獻中,作者總數為627人。其中74.48%的論文為個人獨立完成,25.52%為合作完成,作者合作情況如表1所示,作者數最多的為9人合作。

表1 作者合作情況統計表
對所有作者按發文數量降序排列統計高產作者,生成詞頻云圖如圖2所示。南京政治學院的王蘭成共發文4篇,遼寧省檔案局的張偉和山東萬杰醫學院的張俊杰分別發文3篇,詞頻云圖上其余作者各發文2篇,未顯示在圖2中的作者發文數量均為1篇。由此可見,檔案數據挖掘領域的研究隊伍雖有一定的規模,但高產作者偏少,有待形成核心骨干力量。

圖2 高產作者可視化詞頻云圖
統計作者所屬單位共328個,其中中國人民大學信息資源管理學院、南京政治學院上海校區軍事信息管理系、沈陽軍區檔案館和華南農業大學檔案館4個單位的作者分別發文3篇,另有21個單位的作者發文數量為2篇,其余單位作者發文均為1篇。檔案館和高校檔案學專業處于該領域的研究前沿。
431篇文獻發表所屬的期刊共有178種。選取載文量4篇及以上的期刊進行統計得圖3所示餅狀圖,這17個期刊基本都是檔案學方面的期刊,其載文量占總統計文獻的28.31%,載文量最高的蘭臺世界共發布29篇。其余161個期刊平均載文量1.92篇,總的來說,檔案數據挖掘文獻的期刊分布比較分散。
本文所統計的文獻,從內容上看主要可分為檔案數據挖掘相關理論研究和檔案數據挖掘技術在某方面的具體應用研究。
理論研究為主的文獻主要探討檔案數據挖掘的發展方向、方法、算法和保密等跨學科理論問題。黃小忠和史江分析了基于知識管理的數字檔案館進行數據挖掘的對象是固化資源、智力資源和用戶利用行為信息,在數據挖掘方法的選擇上采用適合跨館跨庫的模式和算法,并注意用戶隱私的保護。陶水龍分析了檔案數據區別于大數據的特點,展望檔案數據挖掘技術在檔案管理精細化和提升檔案應用價值等新方向上的應用,指出傳統檔案存儲管理無法支持海量數據挖掘分析,提出基于語義網技術的海量檔案數字資源挖掘方法,以提升檔案管理和公眾服務水平,并剖析了數據挖掘對檔案管理系統建設的影響。張偉認為檔案信息挖掘過程包括定義主題、準備數據、瀏覽數據、生成模型、瀏覽和驗證模型、部署和更新模型六個基本步驟,重點對檔案數據挖掘的前期規劃、資源收集與存儲整理、挖掘算法和分析模型、結果評價等關鍵技術環節進行了研究。王蘭成針對檔案數據庫中的敏感信息保護問題,分析檔案數據的特征及保護需求,引入敏感元組及其密度的概念,用于解除檔案數據庫中敏感數據挖掘存在的威脅,詳細論述其思路和實現方法的同時進行了實證案例分析。王蘭成和黃永勤基于國內外檔案社會化媒體信息現狀分析,借鑒文件管理體系國際標準和開放檔案信息系統參考模型,頂層設計檔案社會化媒體整合系統總體框架,并闡述了其實施方法和特色。王蘭成和劉曉亮分析了網上數字檔案的大數據特征,以及進行數據挖掘的需求與挑戰,并研究了其中的關鍵技術。
應用實踐為主的文獻主要描述數據挖掘技術在檔案行業某個方面的具體應用和實踐。鄭向陽結合廣州市城市建設檔案館的實踐工作,介紹了城建檔案數據挖掘對提高檔案服務能力的應用價值。陳玉亮和張代華對江蘇科技大學的科研項目檔案數據通過聚類分析和關聯規則分析后進行課題組科研績效評估,為學校學科發展提供決策依據。黃華坤提出基于Autonomy知識與服務的構架,闡述該構架的數據采集平臺、本體構建與分析平臺和數據處理平臺,通過Autonomy模式識別提取結構化和非結構化國土資源檔案數據中的語義信息實現智能搜索與聚類分析等功能,并介紹了廣東省國土資源檔案館的具體應用實踐。楊茜雅介紹了中國聯通的“兩庫兩平臺”檔案智能利用方案:在企業檔案數據利用中引入語義本體概念實現檔案數據語義分析的流程,在此基礎上構建聯通電子檔案知識圖譜系統,通過數據挖掘平臺把中國聯通公司的檔案資源庫建設成檔案知識庫進行多維展示,實現知識圖譜驅動的電子檔案智能利用。覃艷在區域衛生信息平臺上構建電子健康檔案數據倉庫,建模后分析對糖尿病患者進行分類的規則和糖尿病與其他疾病的關聯規則,總結得到一些影響糖尿病病發的相關因素以預測潛在高風險人群。
檔案是原始記錄,檔案數據也因其特性而成為一種重要而特殊的信息資源,蘊藏著巨大的價值。檔案數據挖掘也成為了檔案學術界和實踐部門的思考熱點和研究方向。研究成果總體呈上升趨勢;文獻發表的期刊分布比較分散;高產作者偏少,未形成核心骨干力量;理論研究主要集中在檔案數據挖掘的發展方向、方法、算法和保密等跨學科理論問題,檔案信息倫理、檔案數據處理等方面成果不多;實踐應用方面主要描述數據挖掘技術在檔案行業某個方面的具體應用和實踐。