999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)的公文輔助定密方法研究

2021-02-28 07:27:06池少寧張均成
電子世界 2021年23期
關(guān)鍵詞:規(guī)則分類文本

劉 星 謝 磊 劉 迅 池少寧 張均成

(1.國網(wǎng)湖南省電力有限公司信息通信分公司;2.國家電網(wǎng)有限公司信息通信分公司;3.福建億榕信息技術(shù)有限公司)

眾所周知,傳統(tǒng)公文存檔方法大多以紙質(zhì)原件居多,經(jīng)整理與裝訂之后,通常會保存于檔案局等特殊機(jī)關(guān)中,以提高公文的穩(wěn)定性與可查性。不過,在歸還的公文量逐步增多時,公文搜索的效果會大幅度降低,特別是在對于所要求檢索的公文的具體年份、標(biāo)題等內(nèi)容并不清晰時,查找起來困難重重,不僅浪費(fèi)了大量的時間,也浪費(fèi)了大量的人力資源,所以,紙質(zhì)歸檔公文并不能實現(xiàn)基于內(nèi)容的模糊查詢。因此,越來越多的政府相關(guān)部門開始選用公文管理系統(tǒng)。所謂公文管理系統(tǒng)是指公文的創(chuàng)建、處理和管理。

1 公文應(yīng)用現(xiàn)狀

據(jù)相關(guān)調(diào)查,現(xiàn)階段,對于公文的應(yīng)用一般會有兩方面問題。一方面規(guī)范化程度較低。系統(tǒng)處理公文信息內(nèi)容和范圍,與公文管理的有關(guān)規(guī)定和準(zhǔn)則有著相當(dāng)距離,且系統(tǒng)共享性和通用性還不夠。由于管理的電子文檔格式可以有純文字(txt)、超文本(HTML)、word、Excel、PDF、WPS等,已成為政府辦公自動化管理系統(tǒng)中的主要內(nèi)容,但怎樣管理和共享電子數(shù)據(jù)檔案尚有待進(jìn)一步研究與完善。這也是辦公自動化向知識管理方向發(fā)展的最大阻礙所在。另一方面則主要局限于公文的傳遞、受理、記錄和簡單的檢索功能,不支持公文運(yùn)行的全過程。另外,系統(tǒng)穩(wěn)定性也不好。如不能提供一種較為完善的安全管理機(jī)制,將無法從保護(hù)文件流轉(zhuǎn)簽名、文件信息存取權(quán)限、對抗網(wǎng)絡(luò)黑客和計算機(jī)病毒攻擊等方面,給文件管理信息系統(tǒng)提供更高效的安全保證。

2 機(jī)器學(xué)習(xí)的公文輔助定密需求

(1)擬稿和核稿環(huán)節(jié)。系統(tǒng)需要依據(jù)預(yù)設(shè)的公文詞庫與規(guī)則庫,實現(xiàn)公文內(nèi)容關(guān)鍵字、敏感內(nèi)容智能校核,提示進(jìn)行公文密級標(biāo)識。

(2)文字處理環(huán)節(jié)。實現(xiàn)與WPS文字處理軟件集成,以方便用戶日常工作中的使用。因此,對于公文輔助定密的方法需要涉及到控件及WPS相關(guān)API修改。

(3)公文內(nèi)容識別。公文內(nèi)容的校對是不可或缺的功能,在校對的過程中,需要發(fā)現(xiàn)公文內(nèi)的問題,因此,需要利用先進(jìn)的校對計算技術(shù),對公文正文內(nèi)容進(jìn)行文本轉(zhuǎn)換及分詞處理。使公文的表達(dá)變得更加通順流暢。

(4)詞庫管理。在公文的寫作中,輔助定密的核心在于建立強(qiáng)大的基礎(chǔ)詞庫,包括設(shè)置通用詞庫(地名、公司領(lǐng)導(dǎo)排序、領(lǐng)導(dǎo)職務(wù)、單位名稱及排序)、電力行業(yè)專業(yè)詞庫等維護(hù)管理功能。并且這個詞庫需要在應(yīng)用過程中需不斷豐富并積累成為新的詞匯庫,以適應(yīng)工作人員不斷更新的寫作需求。

3 訓(xùn)練工具Word2Vec及訓(xùn)練模式

3.1 Word2Vec含義

Word2vec,是一種用于數(shù)字向量運(yùn)算的開源工具。Word2vec不但能夠在成百上千萬字典和數(shù)億個數(shù)據(jù)集上開展有效的練習(xí),還能夠獲得重要訓(xùn)練成果——詞向量,并能夠很好地度量大量詞間的相似性。

3.2 Word2Vec的優(yōu)缺點分析

(1)Word2Vec的優(yōu)勢

Word2Vec是一種比較常用的訓(xùn)練工具,常被用于語義分析引擎當(dāng)中,其具備的優(yōu)勢是相當(dāng)明顯的,其中,最受歡迎的是以下兩個優(yōu)勢:首先,word2vec解決了分類器難以處理離散數(shù)據(jù)的問題。其次,word2vec也在一定程度上起到了擴(kuò)展功能的作用,使語義分析能夠更加準(zhǔn)確,無論是開發(fā)者還是使用者,都大大提高了效率。

(2)Word2Vec的缺點

雖然Word2Vec在語義分析當(dāng)中發(fā)揮著重要的作用,然而,文本特征表示存在著明顯的問題。首先,這是一種不考慮詞匯之間次序信息的詞袋模式(文本中單詞的順序信息也是非常重要的);第二,它假設(shè)了詞匯的相互獨立(在大多數(shù)情況下,詞語相互影響);第三,它得到的特征是離散稀疏的。

3.3 Word2Vec的訓(xùn)練模式

目前,在Word2Vec中包括了多種訓(xùn)練模式,但是常用的一般分為兩種,CBOW和Skip-gram。所謂Skip-gram訓(xùn)練模式,簡單來說就是通過當(dāng)前的詞組來進(jìn)行上下文的預(yù)測,從而進(jìn)行語義的分析,而CBOW訓(xùn)練模式則恰恰相反,會通過分析上下文來預(yù)測當(dāng)前的詞組,而兩種模型的選擇和運(yùn)用需要結(jié)合不同的環(huán)境來進(jìn)行。而本次使用的公文輔助定密的模型,則選用CBOW模型,運(yùn)行過程如下:首先,需要收集原始語料庫,即已定密的公文歷史數(shù)據(jù),通過文本抽取技術(shù)抽取出正文中的文本數(shù)據(jù)。其次,通過自然語言處理技術(shù),對每一條正文文本進(jìn)行分析處理,經(jīng)過去停用詞、濾重、中文分詞、詞性標(biāo)注等處理后,抽取出關(guān)鍵詞,形成一個個分詞文本,并按密級行分類。最后,通過Word2Vec工具并采用CBOW模型對所有的分詞文本進(jìn)行訓(xùn)練,得到用于定密的模型文件,如圖1所示。

圖1 Word2Vec的訓(xùn)練模式

4 自動定密處理過程

4.1 文本分類的定義和方式

文本分類技術(shù)主要涉及詞匹配、認(rèn)知工程,以及機(jī)器學(xué)習(xí)。目前,最常見的文本分類主要為機(jī)器學(xué)習(xí)。

(1)詞匯匹配文章分類,僅通過文章中是否出現(xiàn)了帶有同類名的單詞,或者同義詞來確定文章是不是歸屬于某個類型。顯然,這些過于簡化的方式?jīng)]有產(chǎn)生很好的分類效果。

(2)知識工程文本分類方法雖然增加了人工確定因素,也明顯增加了劃分的準(zhǔn)確度,但同時也面臨著許多缺點,例如:主觀因素較多、建立規(guī)范的人力物力多和成本高等。

(3)機(jī)器學(xué)習(xí)的文本分類方法也屬于自監(jiān)督學(xué)習(xí),它是目前最常用的文本分類方法。其中訓(xùn)練階段,主要取決于一些標(biāo)記的文本,或確定類別的文本。運(yùn)用了文本結(jié)構(gòu)和類型之間的關(guān)聯(lián)模型,提出了文本類型規(guī)則集,即分類器。在分類階段,通過分類器對待測試文本并進(jìn)行分類。事實上,通過機(jī)器學(xué)習(xí)的文本分析就相當(dāng)于數(shù)學(xué)中的映射原理。

4.2 自動定密處理過程

在本系統(tǒng)中,對于公文進(jìn)行自動定密處理是非常重要的,其過程如圖2所示,簡單來說,會分為以下幾步驟:首先,通過文本抽取服務(wù)抽取出當(dāng)前文件的正文內(nèi)容,生成普通文本,并提交至HANLP自然語言處理服務(wù)。其次,通過自然語言服務(wù)對正文文本進(jìn)行處理,經(jīng)過去停用詞、濾重、中文分詞、詞性標(biāo)注等處理后,抽取出關(guān)鍵詞形成分詞文本。最后,分詞文本與定密規(guī)則庫進(jìn)行匹配,如果符合具體的規(guī)則,則直接返回對應(yīng)的密級。此外,如果不符合規(guī)則庫的規(guī)則,則將分詞文本中提交至定密模型文件中進(jìn)行處理,并返回對應(yīng)的密級。

圖2 自動定密處理過程

5 構(gòu)建基礎(chǔ)規(guī)則庫

依據(jù)國網(wǎng)公司及湖北公司相關(guān)文件,梳理核心商密、普通商密、工作秘密等定密范圍,結(jié)合近年來公司歷史文件定密情況,梳理形成輔助定密基礎(chǔ)規(guī)則。

當(dāng)通過規(guī)則庫無法匹配到密級時,系統(tǒng)自動記錄輔助定密日志,提供統(tǒng)一的視圖進(jìn)行展現(xiàn),每周對輔助定密情況進(jìn)行分析總結(jié),補(bǔ)充完善規(guī)則庫。后期當(dāng)歷史文件積累到一定數(shù)量,通過機(jī)器學(xué)習(xí)不斷自動完善規(guī)則庫,逐步替代人工干預(yù),提升輔助定密準(zhǔn)確度。

結(jié)語:綜上所述,公文分類問題逐漸提上議事日程,依靠計算機(jī)對電子公文進(jìn)行分類,不僅是現(xiàn)實的迫切需要,也是科技進(jìn)步的必然產(chǎn)物。本文提出解決傳統(tǒng)手工加密的新舊問題,保證加密的效率、準(zhǔn)確性和智能性。

猜你喜歡
規(guī)則分類文本
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數(shù)的分類
TPP反腐敗規(guī)則對我國的啟示
主站蜘蛛池模板: 精品99在线观看| 久久中文电影| 国产视频入口| 2022国产无码在线| 日日碰狠狠添天天爽| 亚洲成a人在线观看| av一区二区无码在线| 色窝窝免费一区二区三区| 国产精品观看视频免费完整版| 高h视频在线| 亚洲黄网在线| a级毛片毛片免费观看久潮| 五月天丁香婷婷综合久久| 欧美色丁香| 国产精品30p| 欧美不卡视频一区发布| 日韩免费无码人妻系列| 成人年鲁鲁在线观看视频| 国产人人射| 九九久久精品免费观看| 啪啪啪亚洲无码| 国产午夜无码专区喷水| 国产不卡国语在线| 欧美综合区自拍亚洲综合绿色| 欧洲精品视频在线观看| 国产第一页免费浮力影院| 国产chinese男男gay视频网| 亚洲系列无码专区偷窥无码| 青青热久麻豆精品视频在线观看| 国产免费久久精品44| 成人综合久久综合| 91精品综合| P尤物久久99国产综合精品| 精品少妇人妻一区二区| 99热这里只有免费国产精品 | 四虎影视库国产精品一区| 国产成+人+综合+亚洲欧美| 老司机精品一区在线视频| 欧美精品另类| 伊人久久婷婷| 1024国产在线| 999福利激情视频| 精品亚洲欧美中文字幕在线看| 日本午夜影院| 无码国产偷倩在线播放老年人| 99久久国产综合精品2020| 香蕉精品在线| 国产精品偷伦在线观看| 五月激情婷婷综合| 国产av剧情无码精品色午夜| 久久综合国产乱子免费| 国产丝袜啪啪| 波多野结衣爽到高潮漏水大喷| 国产91线观看| 红杏AV在线无码| 欧美成在线视频| 高清视频一区| 久久亚洲精少妇毛片午夜无码 | 欧美成在线视频| 不卡视频国产| 精品福利视频导航| 欧美日韩福利| 亚洲日韩欧美在线观看| 国产日韩欧美黄色片免费观看| 92午夜福利影院一区二区三区| 久久99国产综合精品女同| 在线国产毛片| 香蕉久人久人青草青草| 九色视频一区| 亚洲天堂777| 欧美日韩中文字幕在线| 精品视频第一页| 国产呦精品一区二区三区下载| 在线精品亚洲一区二区古装| 亚洲精品无码在线播放网站| 亚洲男人天堂久久| 国产av色站网站| 欧美精品v欧洲精品| 亚洲性影院| 国产视频入口| 亚洲无码37.| 亚瑟天堂久久一区二区影院|