999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可信的電子文件自動分類關鍵技術研究*

2018-08-20 08:13:44李娟張慎武夏敏捷
檔案管理 2018年4期
關鍵詞:特征提取分類文本

李娟 張慎武 夏敏捷

摘? 要:如今以虛擬聯結為依托的信任對電子文件的可信性帶來巨大的挑戰。本文以InterPARES提出的“可信”理念為前提,在機器學習和自然語言處理等技術和方法論的支撐下,針對電子文件分類的特點,分析研究分類器、特征提取等關鍵技術,以期滿足各個領域在電子文件捕獲、存儲、處置等階段的需要,為探索電子文件自動分類帶來指導意義。

關鍵詞:電子文件;可信;InterPARES;自動分類

1 引言

信息技術的快速發展使得各個領域的數據文件急劇膨脹,給檔案工作者帶來了前所未有的挑戰。文件的易改性、軟件的升級、硬件的更新等都會對電子文件的真實性、可讀性和長期保存造成威脅。在這種前提下InterPARES[1]提出“可信”概念,是對電子文件“四性”的進一步拓展。

傳統的人工分類費時費力,而采用機器學習的方法對電子文件進行自動分類可以有效地查詢到數據信息,也方便了數據存儲。因此,在保證“可信”的前提下,本文通過結合機器學習、自然語言處理等相關算法,研究如何對電子文件的內容實現自動化分類管理。除傳統的電子文件(文書文件等)之外,各種社交媒體和在線資源應用(微信和微博等)的內容,都將成為有效證據的電子文件,這也將成為信息的分類和提取中一個新興的探索領域。

2 InterPARES 項目概述

“電子系統中文件真實性永久保障國際合作項目”(InterPARES)始終圍繞著數字文件管理與保存的問題展開研究與探索。截至目前InterPARES已經完成了第四個階段(2013-2018)計劃的一半,即研究“網絡化社會中數字文件的可信性”。“可信(trustworthiness)”理念的提出,為我們進一步探尋電子文件的管理提供了新的視角。

國外研究中,Ronald Jantz[2]認為真實性和可靠性是確保電子文件“可信”的關鍵因素,可信的過程、傳統角色的重新定義以及支持真實性技術的實現都需要滿足數字學術的需要,并提出了可信的概念框架。國內劉家真指出,“可信賴的文件是指文件內容可信賴,真實準確地反映了它所描述的事實與事件” [3];李澤鋒在國內第一個全面探索電子文件可信管理的問題,并梳理了電子文件可信管理的關鍵問題等[4]。

InterPARES明確指出“可信”是“文件的準確性、可靠性和真實性”。由此,InterPARES實際是對電子文件“四性”做了更細致更深入的拓展,同時在探索電子文件質量的基礎上,第四階段更關注網絡數字文件和數據問題、關注用戶的主觀認知,以確保公眾信任建立在良好治理、強勁數字經濟和持續數字記憶的證據之上。

3 電子文件自動分類及其關鍵技術

電子文件的分類,就是根據電子文件內容的屬性或特征,將其按一定原則和方法進行區分和歸類,并建立起一定的分類體系和排列順序[5]。它能夠揭示文件與文件之間的有機聯系,更重要的是可以方便進行查詢與檢索。

在大數據時代,電子文件數目的海量增長,使得傳統的人工分類顯得力不從心,利用計算機進行自動文檔分類顯得尤為重要。近年來,文本挖掘、機器學習、自然語言處理、深度學習等進行文檔自動分類成為一個多學科交叉研究的熱點,并非常具有應用價值。要實現電子文件自動分類,如何對文件進行預處理、特征提取、分類器設計以及良好的算法等都關系到分類的準確性和效率。本文以文書文件為例,需要著重解決的關鍵問題如下:

3.1 電子文件預處理。由于電子文件的來源異構、格式各異,不但不利于長期保存和有效利用,也不便于對電子文件進行自動分類操作,因此待分類的文件必須經過預處理。

①格式轉換。為保證文件始終如一的顯示效果,擺脫軟硬件支持和長期的有效利用,依據國家檔案局發布的DA/T 47-2009《版式電子文件長期保存格式需求》行業標準,需要將不同格式的文件進行統一類型的轉換。

②分詞。分詞是預處理過程中最重要的一步,西文文本單詞與單詞之間有空格,可以自然地分隔、切詞,而中文文本不能簡單地使用空格進行分詞,且同一個詞語在不同的語境下能夠表達不同的意思,這樣也就加大了中文文本的處理難度和詞語切分的精度。分詞技術的好處直接影響到自動分類的效果。本文使用開源的IKAnalyzer分詞器。

③降噪處理。分詞后的文本信息,可能會包含標點符號、停用詞、亂碼等,這些標記的一個顯著的共同特點是與文本的內容無關,對文本的分類沒有作用,屬于噪聲數據,應在自動分類之前將其去除掉。

④文本表示。目前的計算機無法智能到讀懂人類的文字,所以必須把文本轉換成計算機能夠理解的形式,即進行文本表示。本文主要采用向量空間模型(VSM),即是把文檔簡化為特征項的權重為分量的向量表示:(w1,w2,...,wn),其中wi 為第i 個特征項的權重,一般選取詞作為特征項,權重用詞頻表示。

3.2 電子文件的特征提取。當使用特征向量對文件進行表示時,特征向量通常會達到幾萬維甚至幾十萬維,隨著維數的增大,分類算法的實現復雜度也必然增大。所以必須進行特征提取,特征提取的基本思想是通過對原始向量空間的處理,得到一個空間維數更小,維與維之間關聯更少的向量空間,盡可能多地識別和刪除不相關特征和冗余特征,同時保留一些類別區分度較高的文本特征,從而有效提升分類的效率和準確性[6]。

3.3 分類器模型選擇。對于電子文件的自動分類,屬于有監督的學習過程,也就是必須有大量的訓練樣本(文件)進行預先訓練,而對于不同類型、不同職能的電子文件還需要建立不同的分類器模型。確定分類器模型以后,才可以將未分類的電子文件傳入該分類器,劃分到概率最大的類別得到分類結果。目前常見的分類算法很多,如貝葉斯算法、決策樹、K近鄰(KNN)算法、支持向量機、神經網絡、回歸模型、最大熵模型等。

4 電子文件自動分類流程

電子文件自動分類流程可概括為兩個階段:第一個階段是分類器的訓練學習階段,第二個階段為分類階段,利用第一個階段得到的分類器對分類文件進行分類處理。

在訓練階段,首先需要對訓練電子文件數據集進行統一的格式轉換,如轉換為PDF/A格式,然后利用IKAnalyzer分詞器進行文本分詞、降噪等一系列預處理操作。為了能使計算機表示為計算機可識別形式,按照向量模型空間的基本思想,將分詞后的內容進行特征向量描述,通過特征降維得到一個特征項集合,最后利用較簡單的機器學習算法——KNN算法,獲得分類器模型。

分類器模型確定之后,便可對未知文本進行分類處理,同樣需要進行文件的預處理、文本表示、特征提取等一系列操作,最后將特征項的集合傳輸給分類器模型,從而得到文件的分類結果。

5 基于“可信”的電子文件自動分類系統框架設計

本文嘗試建立一種“可信”的電子文件自動分類系統。該框架最終將與ERMS(電子文件管理系統)或者移交接收平臺相結合,因此必須考慮所采用的數據庫系統,且需要對電子文件的元數據元素進行采集。

整個框架都基于“可信”理念設計,對各個步驟進行安全管控,如:為了保證電子文件的長期有效利用,根據相關行業標準,將原生文件進行統一的文件格式轉換(PDF/A格式);在進行元數據采集之前需要進行“四性”檢測,有效地保證了數據的完整性、安全性、真實性及可用性;利用非結構化數據庫設置“權限管理”“分發管理”“數字簽名”“數據備份”等安全控制技術。

6 結束語

電子文件的自動分類是對電子信息進行自動化處理的重要研究方向,它可以通過給定的分類標準,由電子文件的內容自動判別其文本類別,在學術上具有重要的研究價值和意義。該研究涉及多種技術,如,信息安全技術、元數據技術、機器學習算法、自然語言處理等。下一步將繼續考慮圖像、社交媒體信息等各個類型的電子文件的自動分類問題,及如何與電子文件的移交與接收、ERMS等相結合的問題,并為后續的長期保存與利用提供有力的支持。

參考文獻:

[1]InterPARES 2 Project. Glossary,Dictionary&Ontologies[EB/OL].(2014- 1-1)[2014-1-2].http://www.interpares.org/ip2/ip2_terminology_db.cfm.

[2]Jantz R. An institutional framework for creating authentic digital objects[J]. International Journal of Digital Curation, 2009, 4(1): 71-83.

[3]劉家真.在傳統環境與電子環境中文件的可信度與真實性比較[J].四川檔案,1998(6):13.

[4]李澤鋒.電子文件可信管理關鍵問題分析[J].檔案學研究,2012 (6):52-55.

[5]王芳.基于J2EE的信息分類編碼標準管理系統的研究[D].大連:大連海事大學,2006.

[6]毛嘉莉.文本聚類中的特征降維方法研究[J].西華師范大學學報(自然科學版),2009(4):365-368.

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产粉嫩粉嫩的18在线播放91| 538国产视频| 97免费在线观看视频| 午夜不卡视频| 色婷婷天天综合在线| 在线播放国产99re| 91无码视频在线观看| 欧美成人a∨视频免费观看| 久久免费精品琪琪| 欧美中文字幕一区| 日韩欧美中文字幕在线韩免费 | 激情国产精品一区| 福利在线不卡| 免费在线成人网| 国产男人天堂| 久久婷婷国产综合尤物精品| 日本一区二区三区精品视频| 99视频国产精品| 亚洲国产精品一区二区第一页免| 狠狠色噜噜狠狠狠狠色综合久| 国产办公室秘书无码精品| 国产成人高清亚洲一区久久| 中文字幕 日韩 欧美| 一本一道波多野结衣一区二区| 青草视频网站在线观看| 美臀人妻中出中文字幕在线| 亚洲伊人电影| 免费 国产 无码久久久| 国产特级毛片aaaaaa| 97精品久久久大香线焦| 国产色网站| 日韩福利视频导航| 免费不卡在线观看av| 日日噜噜夜夜狠狠视频| 国产精品一线天| 日韩在线影院| 91 九色视频丝袜| 国产精品网址你懂的| 情侣午夜国产在线一区无码| 国产亚洲高清在线精品99| 国产成人综合在线视频| 91小视频在线观看| 亚洲欧美在线综合图区| 尤物精品视频一区二区三区| 国产色伊人| 最新国产你懂的在线网址| 久久99国产精品成人欧美| 成人福利免费在线观看| 国产欧美日韩免费| 免费精品一区二区h| 国产精品成人一区二区不卡 | 国产一级在线观看www色| 久久久久久久97| 国产导航在线| 亚洲久悠悠色悠在线播放| 久久精品午夜视频| 国产拍在线| 99re精彩视频| 成人午夜在线播放| 特级精品毛片免费观看| 国产在线视频欧美亚综合| 亚洲人成色77777在线观看| 中文字幕人妻无码系列第三区| 国内精品自在欧美一区| 国产特级毛片aaaaaaa高清| 国产三级精品三级在线观看| 在线观看国产网址你懂的| 国产97视频在线| 亚洲av色吊丝无码| 久久精品最新免费国产成人| 日韩小视频在线观看| 亚洲色精品国产一区二区三区| 日韩小视频在线观看| 伊人久久大香线蕉综合影视| 伊人久久久大香线蕉综合直播| 国产H片无码不卡在线视频| 91亚洲免费视频| 国产成熟女人性满足视频| 国产精品微拍| 亚洲国产精品日韩av专区| 国产喷水视频| 精品国产Ⅴ无码大片在线观看81|