丁玲 葉佳鑫 曾婷
(1.武漢市國土資源和規劃信息中心,武漢 430014;2.華中師范大學信息管理學院,武漢 430079)
隨著信息技術的不斷發展與大數據時代的來臨,信息資源的數字化轉型已成為目前的重要任務之一,而數字檔案資源的建設無疑是數字化轉型中重要的一環[1]。針對檔案信息資源建設,全國檔案事業發展“十三五”規劃提出了相應措施,規劃要求提升檔案資源利用的便捷性以及加快檔案管理信息化進程[2]。目前檔案信息資源存在碎片化、用戶對檔案信息價值認識較低、檔案資源間相關性難以發現、檔案信息資源整合不足等問題[3]。因此,很有必要對檔案信息資源進行挖掘與建設。LDA主題模型是一種針對文檔資源的主題抽取模型,本文嘗試將其與聚類、層次空間構建等數據挖掘技術結合并應用于檔案信息資源建設,以提高檔案資源利用的便利性,幫助用戶及檔案工作者更好地使用檔案信息資源;同時,也為LDA主題模型在信息資源建設中的應用方向提供參考。
本文主要通過主題提取、聚類、層次空間構建3種技術方法對文檔類檔案信息資源進行建設,信息資源建設模型框架見圖1。

圖1 信息資源建設模型框架
檔案信息資源的碎片化使得用戶對相關資源的利用變得困難,而為解決資源的碎片化就需要對零散的信息資源間關系進行挖掘。為了解決檔案資源建設中存在的相關問題,本文首先利用主題模型對資源進行主題提取,挖掘文檔類資源蘊含的主題信息,以便從主題的角度進行資源的整合,將碎片化的信息資源轉為主題表示;……