劉丹+程全英+李凡+趙揚+張卓立

(中國林業科學研究院資源信息研究所,北京 100091)
摘 要:對林業科研檔案實行信息化的管理及深度的數據挖掘,不僅能夠及時、準確地反映林業科研活動的動態、發展方向、最新成果,還能夠為林業科研項目的正確、合理實施提供參考依據。整合多種格式的數據來源,包含電子表格數據、文本數據、音視頻數據,通過神經元網絡、聚類分析等技術,實現了對林業科研檔案數據的深度發掘和分析,為林業科研檔案的充分利用提供了方法。
關鍵詞:林業;科研檔案;數據挖掘;挖掘算法
中圖分類號:TP311.13 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.22.019
一個單位的檔案就是一部歷史,里面記載著這個單位的發展歷程,凝聚著幾代人的心血和智慧,是前人留給后人的寶貴遺產,是歷史交給未來的無價資源。無論是各級領導,還是檔案的生產、管理、使用等業務和智能部門,都應重視挖掘檔案材料中蘊藏著的豐富的信息資源,為科研創新能力的形成、生長提供有力的服務。
檔案資料是重大活動、重要事件經驗的積累,規律的揭示,是信息和知識的重要資源,是維護科研單位合法知識產品的有利憑證,也是科研傳統教育的生動教材。林業科研檔案主要記錄科研項目執行的全部軌跡,包含項目申請、項目中驗、項目驗收等過程中產生的一切文檔資料。中國林業科學研究院資源信息研究所成立于1985年,承擔了多項科研任務,積累了大量的科研檔案,檔案的管理經歷了從傳統的館藏檔案模式到數字化、信息化管理方式的轉變,已經建立起具有管理標準化、服務網絡化、安全可靠的數字化檔案館,制定了符合檔案信息化發展和林業科研特點的標準規范和管理體系。但是這些檔案只停留在簡單的檢索、查詢這樣的數據管理和共享層面,沒有對檔案本身的內容進行挖掘,提煉出有價值的數據。科研檔案用好了,有助于開闊思路、啟迪智慧,全面、系統、深入地了解學科建設的階段性特色,不斷深化對新時期、新階段學科建設規律的認識,使科研工作更加符合科學發展觀的要求。
1 林業科研檔案的數據挖掘需求
“數據挖掘”是一門廣義的交叉學科,脫胎于計算機,雖然已被應用到諸多領域,圖書、情報界的實踐也已經充分驗證其價值,但在檔案界,數據挖掘仍然被當成深奧的技術和理論。如何從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識呢?這個過程的目的就是發現隱藏在大量數據泥沙中的“知識金礦”。數據挖掘不是簡單的面向特定數據庫的檢索、查詢、調用,而是要對這些數據進行全方位的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互聯系,甚至利用已有的數據對未來的活動進行預測。
資源信息研究所檔案分類的實際情況具有以下幾個特點:①資源信息研究所檔案管理系統儲存管理的是研究所日常工作的科研檔案,具有專業特點,其劃分的類別和特征詞匯都具有專業性。②資源信息研究所的檔案數量級不會很大,不會有大量的訓練樣本供機器學習。而通常分類算法都是需要手工對一定數量的訓練樣本分類作為訓練集。如果訓練集的數量過小,
———————————————————————————
則會影響分類的精確度。③檔案類型豐富,包含圖片、視頻、文本等。④需要在著錄入系統時對檔案分類。這就需要分類算法在性能上必須有很好的保證,不能讓著錄的系統用戶長時間等待。而上述分類算法都需要計算當前文本與其他所有分類個體的相似度,無法在時間花費上滿足實際需要,必須優化。
2 林業科研檔案的數據挖掘算法設計
在檔案管理系統中,分類算法的選取需要結合資源信息研究所檔案的專業性特點、檔案數量以及考慮檔案分類需求在系統功能中對效率等方面的實際要求。
貝葉斯、KNN、SVM、TF-IDF等常用分類算法的主要思想都是要計算一篇文本與其他類別文本的相似度(距離),或者依照詞頻等指標計算文本屬于某個類別的概率,從而判斷此文本屬于某個類別。這些算法雖然各有特點,但都無法被直接應用于檔案管理系統。
綜合以上各種因素,最終選取TF-IDF算法并優化調整:考慮到科研檔案分類的專業性,同時也為了保證算法的執行速度,選取資源信息研究所提供的專業詞匯作為特征詞集,以此作為分類計算用的關鍵詞。其他非專業詞匯,與分類相關性不大,作為“應刪除詞”排除在分類算法之外。
在檔案著錄時,業務人員會將檔案的題目以及摘要錄入,主題及特征詞在錄入信息中體現。因此,沒有必要對整篇檔案進行掃描、分詞并計算,只需對題目和摘要進行分詞,對比特征詞集挑選關鍵詞計算即可。
檔案管理系統的檔案數量級決定了不會有大量的手工分類樣本作為訓練集,同時為了提高算法的執行效率,改由有經驗的專業人員通過系統的專業詞管理功能,配置特征詞集中的特征詞的所屬類別及權重,以作為分類算法的計算依據,并可隨時依據算法對實際運行情況進行調整。
優化后的算法如下。
從檔案的題目及摘要中的單詞中,對照特征詞集挑選出此檔案S包括的所有特征詞tk(1≤k≤n,n為此檔案所含特征詞總數)。tk在此檔案中出現的次數為dk,tk在分類時的權重為wk。tk中屬于檔案分類cj(cj∈C,C為所有分類集合)的特征詞可以tj表示,對應的出現次數以djp表示,權重以wjp表示。則檔
案S中屬于分類cj的特征詞加權求和為 (1≤m≤n,m為
檔案S中屬于分類cj的特征詞總數,n為此檔案所含特征詞總數),檔案S與分類cj相關性為:
例如,檔案《東北常見樹木生長周期研究》的題目及摘要中包含5個特征詞,即“松木”“核桃楸”“白樺”“黑土”“冬季”。其中,松木(出現1次)、核桃楸(出現2次)、白樺(出現3次)屬于分類“樹木類”,權重分別為0.4,0.3,0.1;黑土(出現2次)屬于“地質類”,權重為0.2;冬季(出現1次)屬于“氣象類”,權重為0.3.則檔案《東北常見樹木生長周期研究》分類為:
3 總結
通過對中國林業科學研究院資源信息研究所現有的紙質、聲像、實物等各種形式的科技檔案進行深入的調查與篩選,確定符合林業科技檔案需求的數據挖掘算法。通過該算法,可以充分將現有檔案中的知識更好地利用起來,更好地服務全體科研人員,為研究所領導提供科研決策支持,將大大提高研究所科研檔案管理工作的信息化水平。
參考文獻
[1]馮惠玲.檔案管理學[M].北京:中國人民大學出版社,1999.
[2]王傳宇.科技檔案管理學[M].北京:中國人民大學出版社,2009.
[3]樓淑君,鐘小安.檔案管理事務[M].重慶:重慶大學出版社,2010.
[4]黃秀芬.關于科技檔案信息資源開發利用的思考[J].廣東水利水電,2009(12).
[5]李海燕,吳志華,王可煒.充分發揮科技檔案在科研管理中的作用[J].中華醫院管理雜志,2002(2).
[6]吳育芝.農業科技檔案的范圍、特點和作用[J].檔案學通訊,1999(2).
[7]黃曉霞.數據挖掘集成技術研究[J].計算機應用研究,2003(4).
[8]于海英.整理檔案應注意挖掘檔案信息[J].蘭臺內外,2000(3).
〔編輯:劉曉芳〕