999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下的檔案數據挖掘

2018-03-10 08:47:10徐濤李京林藍傳锜
山東工業技術 2018年5期
關鍵詞:數據挖掘利用文本

徐濤+李京林+藍傳锜

摘 要:在信息化高度發展的今天,隨著紙質檔案數字化轉變,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用、挖掘用戶使用檔案行為并進行分析以及關注焦點等信息,對研究檔案的利用具有很大的價值。作為查檔用戶,通過需求調研發現,單純的電子檔案信息的調閱已經不能滿足如今諸多時間緊任務重的工作環境,如何在盡可能少的時間內獲取盡可能多的有用信息是用戶關注的焦點。

關鍵詞:數據挖掘;檔案;大數據

DOI:10.16640/j.cnki.37-1222/t.2018.05.116

1 檔案數據挖掘的基本認識

1.1 檔案數據挖掘的定義與特性

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。對數據化的檔案資源進行數據挖掘,從而找到蘊藏在檔案中的價值,獲取檔案中的知識和規律,這一過程可以說是從數據到新知識的蛻變。

如,檔案人員想要做好檔案編研選題,不僅要對用戶利用檔案數據,包括檔案調卷數量、檔案利用次數、復制檔案數量、制發檔案證明數量等進行深度挖掘,而且還需要對用戶訪問記錄,包括網頁采用的關鍵字、下載記錄、檢索詞、用戶利用網頁時間和頻度等信息進行深度挖掘,然后利用分類功能及數據分析,建立檔案編研選題的用戶模型,一是按需確定不同類型的編研選題,提供個性化的服務;二是根據檔案用戶需求特點,預測其未來趨向,結合社會熱點選定檔案編研題目,從而使檔案編研部門推出用戶滿意的編研成果[1]。在檔案利用方面,對檔案利用登記數據庫進行深度挖掘,分別選取不同方面數據進行建模,可以得出不同檔案利用形式的變化趨勢,從而對檔案利用趨勢進行分析和預測,對利用頻率高的檔案進行全文數字化,既可以提高檔案利用效率,又可以起到保護檔案原件的作用。

因此,檔案數據的挖掘是大數據時代的主要特點,檔案學的發展歷程告訴我們,每一次重大的技術變革都必然影響著檔案學的發展,如計算機和網絡技術的引人,引起了檔案管理理念與實踐的變革,改變了文件與檔案的處理流程。大數據技術對檔案數據的深度挖掘為檔案管理流程由粗放走向精細化提供了可能。

1.2 從數字化檔案轉變為數據化檔案

“數據化”是近兩年隨著大數據的發展才逐漸被人們從“數字化”概念中逐漸分離并提出來。最初“數字化”和“數據化”是混為一談的,數據化的提出不是對數字化的否定,而是在對數字世界認識逐步深化的基礎上,對數字化理論的拓展與推進。可以說數字化帶來了數據化,但是無法取代數據化。

我國檔案界探討最多的是檔案的數字化,在理論和實踐方面都取得很多成果。國家在檔案數字化方面出臺了《電子文件歸檔與管理規范》和《紙質檔案數字化技術規范》兩個重要的標準規范。在實踐中,我國檔案數字化主要做了兩方面工作:一是檔案目錄信息的數字化,即建立檔案目錄數據庫,嚴格規范檔案信息的著錄標引,科學選定檔案目錄的數據庫結構;二是檔案全文信息的數字化,即采用掃描錄入的方式將檔案全文按照原貌逐頁存儲為圖像文件并為其編制目錄索引,或是經OCR(光學字符技術)識別后采用文本格式存儲檔案內容,輔之以全文檢索數據庫[2]。可見,我國在檔案數字化過程里已經無意識地進行了部分檔案的數據化,盡管所占的比例很小。

2 數據挖掘技術在檔案信息管理中的應用

檔案數據挖掘過程中,會用到包括文本信息抽取、文本分類、文本聚類、文本數據處理等技術進行文本的數據挖掘工作[3]。比如以檔案文本數據為基礎資源知識庫,根據檔案發布的時間信息,分析檔案產生的節點趨勢以及政府部門針對某一政策的關聯度;對檔案類目信息或文本信息進行分詞,運用文本分類和文本聚類技術,結合檔案數據的基本屬性(時間、所屬部門等),對檔案進行歸類(如按照關鍵詞、檔案發布部門、主題等);采用主題識別技術對檔案數據進行抽取,以檔案主題為中心,結合檔案類別歸屬,找出與之關聯的檔案。基于上述資源,結合多策略的內容抽取,進行文檔數據內容的對比,分析相關政策的影響力、執行力以及變化趨勢,從而給政府部門提供相應的決策資源[4]。同時也可以通過知識管理技術,主要包括信息積累、知識挖掘、知識運用等,結合信息檢索、分析及挖掘技術,將信息進行適當的分類及抽取或形成一組問答序列,并將這些信息進行提取,形成解決某一問題域的數據集,挖掘出一定的專門知識,作為決策的依據,進一步提升檔案信息資源的再利用與檔案編研工作者的工作效率[5]。

3 結語

在信息爆炸的“互聯網+”時代,檔案工作仍面臨三大矛盾:一是檔案本質屬性與管理理念的矛盾,智慧時代產生的檔案信息以原生電子檔案、多媒體檔案為主,而檔案部門仍按傳統實體檔案思維進行管理;二是檔案數據規模與管理能力的矛盾,當前數字檔案爆發性增長,檔案館已經成為一個龐大的數字化倉庫,憑檔案部門現有的技術、設備和人員難以支撐海量數據的管理;三是檔案服務能力與社會發展需求的矛盾,在轉型升級的時代背景下,倘若檔案部門不能及時融入和順應時代潮流,就不能在智慧城市建設中提供更好的公共服務。

因此,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用成為了我們工作的重中之重。由此就需要相關人員在檔案信息管理的過程中,做好檔案數據挖掘的基礎研究工作使我們能夠準確、有效的進行檔案管理,在確保檔案信息管理質量的同時,創新檔案信息的管理模式。

參考文獻:

[1]張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016

(02).

[2]王學平.淺議我國檔案數字化建設實踐與發展策略[J].檔案學通訊,2011(06).

[3]許桂清.對智慧檔案館的認識與探析[J].中國檔案,2014(06).

[4]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考[J].北京檔案,2014(09).

[5]曹莉.芻議大數據時代的數據挖掘與精細管理[J].經營管理者,

2013(18).

本文受甘肅省檔案局科技項目《甘肅省檔案局檔案信息資源挖掘平臺建設與研究》(甘檔2016-1)支持

猜你喜歡
數據挖掘利用文本
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
探討人工智能與數據挖掘發展趨勢
利用一半進行移多補少
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
利用數的分解來思考
Roommate is necessary when far away from home
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欲色天天综合网| 国产精品理论片| 免费A∨中文乱码专区| 99热精品久久| 国产你懂得| 热伊人99re久久精品最新地| 亚洲伊人天堂| 在线观看国产网址你懂的| 91麻豆精品国产91久久久久| 精品无码国产自产野外拍在线| 久久永久精品免费视频| 国产精品主播| 伊人久久婷婷| 高清色本在线www| 国产1区2区在线观看| 国产精品无码翘臀在线看纯欲 | 99国产精品免费观看视频| 日韩高清无码免费| 成人免费一区二区三区| 国产午夜福利片在线观看| 精品自窥自偷在线看| 中国特黄美女一级视频| 一本二本三本不卡无码| 国产欧美视频综合二区| 久久综合AV免费观看| 免费jjzz在在线播放国产| 国产精品视频999| 久久精品国产免费观看频道| 国产三级毛片| 99这里只有精品6| www.av男人.com| 天堂亚洲网| 国产精品丝袜视频| 免费高清毛片| 怡红院美国分院一区二区| 国产成人资源| 中文字幕乱妇无码AV在线 | 黄片一区二区三区| 国产成人AV男人的天堂| 风韵丰满熟妇啪啪区老熟熟女| 亚洲精品无码av中文字幕| 久久精品最新免费国产成人| 精品久久久无码专区中文字幕| 真人免费一级毛片一区二区| 天天综合网色| 91成人在线观看| 欧美日韩另类在线| 日本成人在线不卡视频| 日日拍夜夜操| 久久久久久国产精品mv| 亚洲国产精品一区二区第一页免| 美女裸体18禁网站| 精品伊人久久久久7777人| 欧美伊人色综合久久天天| av手机版在线播放| 国产青榴视频| 国产精品成人免费视频99| 亚洲一区二区约美女探花| 九色综合伊人久久富二代| 国产精品嫩草影院视频| 日本成人精品视频| 波多野结衣久久精品| 国产精品伦视频观看免费| 国产xx在线观看| 国产精品嫩草影院视频| 2022国产无码在线| 天天综合色网| 国产天天色| 91在线一9|永久视频在线| 国模粉嫩小泬视频在线观看| 国产成人h在线观看网站站| 二级毛片免费观看全程| 91小视频在线观看| 啪啪国产视频| 日韩精品亚洲人旧成在线| 欧美a级在线| 19国产精品麻豆免费观看| 色一情一乱一伦一区二区三区小说 | 91成人免费观看| 4虎影视国产在线观看精品| 女人18毛片久久| 在线网站18禁|