楊 杰
(朝陽縣住房和城鄉(xiāng)規(guī)劃建設局,遼寧 朝陽 122000)
?
【文化遺產(chǎn)】
數(shù)據(jù)挖掘技術在工業(yè)遺產(chǎn)檔案資源整合中的應用
楊 杰
(朝陽縣住房和城鄉(xiāng)規(guī)劃建設局,遼寧 朝陽 122000)
工業(yè)遺產(chǎn)檔案資源分布較為分散,在用戶進行查詢與利用時,找到全部相關聯(lián)的檔案資料首先需要奔波于多個存檔部門,這一過程持續(xù)時間長,耗費精力,得到一份有價值的資料也是需要經(jīng)過幾分周折的,所以,構建一個系統(tǒng)統(tǒng)一的工業(yè)遺產(chǎn)檔案數(shù)據(jù)庫,為利用者在短時間內迅速地查詢到有價值的結果尤為必要。
數(shù)據(jù)挖掘技術;工業(yè)遺產(chǎn)檔案;資源整合
隨著計算機及網(wǎng)絡技術的迅猛發(fā)展,各個領域已被深深地標注上了信息化的符號,不斷膨脹的信息量讓人們應接不暇。那么如何采用科技的技術手段,將檔案資源中龐大的數(shù)據(jù)進行處理并提取出可供利用的規(guī)則和知識呢,數(shù)據(jù)挖掘技術不失為最佳選擇。
數(shù)據(jù)挖掘即是從海量的數(shù)據(jù)中提取需要的知識和數(shù)據(jù)。學術界給出的定義為:“從大量的、有噪聲、不完全的、模糊的、隨機的數(shù)據(jù)庫中,提取隱含在其中的、人們預先不知道的、但又是潛在有用的信息和知識的過程”[1]。
此項技術手段已被應用于多個領域,且成果的實際的應用價值很高,對社會生產(chǎn)生活產(chǎn)生的影響很大。例如,零售業(yè)中沃爾瑪?shù)馁徫锘@分析;公安部門的“金盾工程”;醫(yī)案處方分析的大承氣湯經(jīng)方等等,另外,在銀行業(yè)也經(jīng)常運用這項技術,分析銀行客戶、研究需求,用以提高銀行業(yè)的服務水平。
數(shù)據(jù)挖掘技術在數(shù)字檔案建設方面也有相關應用。有學者“利用數(shù)據(jù)挖掘技術將檔案與利用者之間、檔案與各種實踐活動之間以及檔案之間的關系揭示出來,從而在更深層次上發(fā)揮這些檔案數(shù)據(jù)的信息作用,從數(shù)據(jù)清洗方法、數(shù)據(jù)挖掘算法、數(shù)據(jù)倉庫的建立等方面論述了如何將數(shù)據(jù)挖掘技術與檔案工作相結合的具體思路,并提出了一個數(shù)據(jù)挖掘系統(tǒng)的設計思想”[2]。廣州市城建檔案館通過數(shù)據(jù)挖掘技術實現(xiàn)了規(guī)劃管理業(yè)務檔案按項目分專業(yè)的關聯(lián),利用者檢索到的規(guī)劃管理檔案可以是成套的、整合的、統(tǒng)一的,而對于決策者來說也是掌握了更全面更有價值的檔案信息[3]。
工業(yè)遺產(chǎn)檔案即是為每件工業(yè)遺產(chǎn)建立的檔案。工業(yè)遺產(chǎn),是指1840年中國近代工業(yè)產(chǎn)生以來,具有歷史、科技、藝術、社會價值的近現(xiàn)代工業(yè)文化遺存,包括物質遺產(chǎn)和非物質遺產(chǎn)[4]。工業(yè)遺產(chǎn)檔案涵蓋:(1)申報單位收錄的關于該工業(yè)遺產(chǎn)的所有檔案及資料。即不可移動舊址,建筑遺存物;涉及企業(yè)歷史記錄的實體紙質檔案,有工業(yè)企業(yè)正常運轉時產(chǎn)生的文書檔案、科技檔案以及專門檔案;包括生產(chǎn)工藝流程、手工技能、原料配方、商號、經(jīng)營管理、企業(yè)文化等的非物質的東西。(2)申報過程中形成的檔案。相關企業(yè)的申報材料,包括文字資料、聲像資料等。如填制的《工業(yè)遺產(chǎn)資源調查表》《工業(yè)遺產(chǎn)價值評價指標體系》等表格,包括對物質、非物質遺產(chǎn)的描述、繪圖等。(3)可確定公布為工業(yè)遺產(chǎn)后相關的利用與保護資料。對工業(yè)遺產(chǎn)按照“誰使用、誰負責、誰保護、誰受益”的管理原則,采取措施將其管理和保護的東西建檔。專項規(guī)劃存檔,可移動實物可由檔案館等文物收藏單位予以征集收藏、陳列展示。
工業(yè)遺產(chǎn)檔案兼具憑證價值、文化價值以及現(xiàn)實價值,所記錄的信息對于人類了解工業(yè)文明的發(fā)展、工業(yè)文化等具有無法替代的作用。這類資源主要分布在綜合檔案館、城建檔案館以及企業(yè)內部檔案館室,另外,史志辦、文化遺產(chǎn)中心以及經(jīng)濟與信息化委員會等也會保存有相關資料。
構建工業(yè)遺產(chǎn)檔案資源整合模型的目的就是要及時地解決用戶的查詢困難,避免獲取資源的拖沓繁復問題,及時解決利用者的利用需求,需要對數(shù)據(jù)挖掘流程進行科學化處理。對于海量的數(shù)據(jù)資源來說,有一個靈活、高效的網(wǎng)絡環(huán)境是十分重要的,科學地分析數(shù)據(jù)可以有效地解決用戶與資源間的矛盾。科學合理的處理流程可以提高利用效率。效率一直是檔案工作所追求的,注重征求群眾意見建議,不斷改進工作方法,完善窗口運行機制。數(shù)據(jù)挖掘的處理需要進行認真梳理,在研究分析的基礎上和在法律法規(guī)框架內,對相關程序和流程做進一步地精簡和優(yōu)化,提高工作效率。科學合理的處理流程,還可以有效地節(jié)約時間,避免用戶的周折,做到迅速查詢,減少不必要的麻煩。
用數(shù)據(jù)挖掘技術構建檔案資源的整合模式,需要注意以下幾點:
1.開發(fā)環(huán)境。利用SQL Server數(shù)據(jù)庫進行開發(fā)。SQL Server可以對數(shù)據(jù)進行查詢,實現(xiàn)搜索功能,并且同步于各類工作,作出報告并完善分析數(shù)據(jù)。多用于中小型企業(yè)數(shù)據(jù)庫的構建。同理可應于工業(yè)遺產(chǎn)檔案資源數(shù)據(jù)庫的構建。
2.模型構建。模型構建具體的方案圖如下所示:
綜合檔案館+城建檔案館+企業(yè)檔案室+史志辦+文化遺產(chǎn)中心+經(jīng)濟與信息化委員會→數(shù)據(jù)倉庫→模式評估→可視化用戶界面
3.數(shù)據(jù)預處理。對于原始數(shù)據(jù)的處理是進行科學挖掘的前提,處理的過程會花費大量的時間成本,而且經(jīng)過很多過程。數(shù)據(jù)預處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等,它們是將不完整、不一致的數(shù)據(jù)進行技術處理,以提高數(shù)據(jù)挖掘的質量和效率。
工業(yè)遺產(chǎn)檔案是記錄老工業(yè)區(qū)發(fā)展變遷的歷史資料,它們具有著潛在無限的再生價值,通過科學技術手段整合工業(yè)遺產(chǎn)檔案資源,讓工業(yè)遺產(chǎn)檔案煥發(fā)出前所未有的容光,這對于當?shù)毓I(yè)遺產(chǎn)的文化重建,對于檔案資源的綜合開發(fā),甚至對于本地區(qū)軟實力的增強是極具幫助性的。
[1]JiaweiHan, MiehelineKamber.數(shù)據(jù)挖掘概念與技術[M].范明. 孟小峰等譯. 機械工業(yè)出版社, 2001.
[2]宇然.數(shù)據(jù)挖掘技術研究以及在檔案計算機管理系統(tǒng)中的應用[D].沈陽工業(yè)大學碩士論文,2002.11
[3]鄭向陽.數(shù)據(jù)挖掘技術及其在城建檔案信息服務中的應用[J].檔案學通訊,2005,(03).
[4]國家文物局.工業(yè)遺產(chǎn)保護和利用導則(征求意見稿)[R].辦保函(2014)758號.
【責任編輯:周 丹】
G272
A
1673-7725(2016)10-0127-02
2016-09-20
楊杰(1985-),女,遼寧朝陽人,檔案館員,主要從事建設工程檔案管理研究。