999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理技術的電網采購文件智能化系統應用

2021-03-08 15:12:23湯力杜潔李芹王菁
科學與財富 2021年3期
關鍵詞:智能化

湯力 杜潔 李芹 王菁

摘 要:采購是信息化項目建設的重要環節。但是由于近年來信息化項目申報數量多,很容易發生重復采購的現象,除了影響項目的進度外,也會影響電網公司的經濟效益。因此,必須要對采購文件進行審查,杜絕重復申報。傳統的審查方法通常存在效率低、準確性差等問題,不能滿足電網公司的使用需要。本文提出了一種基于自然語言處理技術的采購文件智能化審查方法,運用了建模等技術,可以支持文檔模板固化、資料審查等功能,實際應用中速率快、準確度高,具體推廣應用價值。

關鍵詞:自然語言處理技術;智能化;審查方法;信息化項目

1.電網采購文件智能化審查系統的關鍵技術

1.1詞權重計算技術

在電網采購文件中,不同文件的重要程度存在很大差異。詞權重計算,就是根據各類文件標題的重要程度,為其賦予不同的權重,這樣才能讓最終的審查結果更加真實、有效。例如,采購文件中包含一些高頻率的詞語,或是專業術語,應當賦予相對較高的權重。計算詞語權重是運用統計學的知識,也就是用文本的統計信息(如詞頻、詞之間的同現頻率等)計算詞語的權重,大部分的統計方法都基于香農信息學理論:如果特征項在所有文本中出現的頻率越高,那么它所包含的信息熵也就越少;如果特征項只在少量文本中有較高的出現頻率,那么該特征項就會擁有較高的信息熵。其中熵是不確定性的衡量,不確定性越高,熵越高。TF-IDF算法是計算詞語權重的典型代表,在準確提取特征詞匯等方面有著明顯的優勢。

1.2中文分詞技術

計算機在識別并理解文檔內容的過程中,無法理解整個句子的含義,只能先將句子拆分成最小的單元,即原子詞匯。然后再利用特定的算法,檢測詞匯的重復率。中文分詞是基于自然語言處理技術的審查系統的核心技術之一,目前常用的分詞方法有多種,較為常見的是機械式分詞、統計式分詞。其中,基于統計的分詞方法中,比較典型的算法是N元文法模型(N-gram模型),該模型基于這樣一種假設,第N個詞的出現只與前面N–1個詞相關,而與其他任何詞都不相關,整句的概率就是各個詞出現概率的乘積。N-gram模型通過計算N個詞匯組成序列的概率值來衡量分詞方案的合理性。

2.系統運行流程

2.1全文檢索流程

工作人員登錄Web界面后,在檢索欄中輸入想要檢索的內容,可以是某個關鍵詞,也可以是某個語句,然后點擊全文檢索。系統接收到檢索指令后,第一步是進行中文分詞,同時在系統后臺開始加載LSI主題模型。利用該模型完成相似度分析,最終在Web界面上輸出檢索結果。

2.2主題模型訓練流程

電網智能化審查系統主要有文檔模板語料標記和數據預處理兩個功能。為了保證兩個功能的順利實現,在完成系統設計后,還要對運行流程進行調試和訓練,用于檢測流程是否順暢、功能是否實現。主題模型訓練流程如下:系統自動調用采購文件資料庫中存儲的各類文檔,并檢測文檔的存儲格式。將所有格式的電子文檔,去掉圖片、表格以后,統一轉化為txt.格式。完成格式轉化后,依次進行中文分詞、TF-IDF轉換、LSI主題建模等。最后將建立的模型,保存到計算機的硬盤中。當需要語料標記和數據預處理時,可以直接調用相應的模型,完成檢索和查重。具體流程如圖1所示。

2.3采購文件智能化審查流程

當工作人員將一份新的采購文件錄入該系統時,該系統首先識別該資料的文件格式,如果屬于PDF或Word格式,第一步進行格式轉換,統一轉換為TXT格式。然后開始中文分詞,在這一過程中系統同時在后臺加載LSI主題模型。模型加載完成后,自動對已經完成中文分詞的采購文件進行相似度分析。新的采購文件同時進行備份,并將備份文件納入到采購資料庫中,實現資料庫的數據更新。完成相似度分析后,將分析結果在Web界面上展示,工作人員可以根據使用需求選擇打印出來。

3.系統軟件架構

電網采購文件審查系統的軟件部分共分為4個單元,具體功能為:(1)采購資料庫單元,用于存放電網公司以往產生的采購文件。以資料產生年限作為劃分依據,方便相關人員查找、調用。(2)文本相似度分析單元。作為該系統的關鍵部分,具體又可以分為中文分詞、主題建模等功能。首先識別待檢測的采購文件,然后與資料庫中已有的文件進行對比,對比結果即為文本相似度,同時生成相似度報告,以便于相關人員對采購文件的進行調整。(3)Web界面。該系統的人機交互界面,管理員需要獲取權限后才能登陸Web界面,并完成采購文件查詢、上傳、下載等具體操作。(4)模型管理。支持對LSI主題模型的構建、修改和調用等操作。

4.應用效果

為了驗證基于自然語言處理技術的采購文件審查系統的實際應用效果,選取了一臺Windows 10 64位操作系統,8G內存,3.20GHz雙核CPU計算機進行測試。其中,當文檔數量為1000個時,中文分詞時間為28秒,主題建模時間為45秒,采購文件的審查時間為1.2秒;當文檔數量為5000個時,中文分詞時間為160秒,主題建模時間為184秒,采購文件審查為1.3秒;當文檔數量為10000個時,中文分詞事件為314秒,主題建模時間為352秒,采購文件審查為1.5秒。根據測試數據可知,隨著資料數量的增加,無論是正則匹配消耗的時間,還是主體建模需要的時間,都會同步增加,呈正相關;但是審查所需時間變化不大,應用效果良好。

結語:電網公司現行的文件審查方法無論是在審查所需時間,還是審查結果準確性方面,仍然存在一些不足。本文提出的一種基于自然語言處理技術的審查系統,除了可以高效率、精準性的完成采購文件審查外,還具有審查疏漏等功能,進一步提高了系統的適用性。利用Web界面,管理人員可以很方便的完成主題模型的更新、調用,保證了該系統可以根據電網公司采購文件審查需要,切實維護了電網公司的綜合效益。

參考文獻:

[1]郭蕾.基于自然語言處理的英語翻譯計算機智能評分系統設計[J].現代電子技術,2019(04):158-160.

[2]徐琳宏,丁堃,林原,等.基于機器學習算法的引文情感自動識別研究--以自然語言處理領域為例[J].現代情報,2020(01):124-125.

(云南電網有限責任公司信息中心? 云南 昆明? 650217)

猜你喜歡
智能化
智能化戰爭多維透視
軍事文摘(2022年19期)2022-10-18 02:41:14
住宅小區弱電智能化工程建設實現
大型公共建筑智能化系統造價控制
智能化的“世界觀”
印刷工業(2020年4期)2020-10-27 02:46:02
印刷智能化,下一站……
印刷工業(2020年4期)2020-10-27 02:45:52
餐廳智能化該如何進行?
中國儲運(2019年5期)2019-05-15 09:37:40
風電智能化時代開啟
能源(2018年10期)2018-12-08 08:02:52
汽車營銷如何智能化?
汽車觀察(2018年10期)2018-11-06 07:05:08
基于“物聯網+”的智能化站所初探
高速公路智能化的前景
中國公路(2017年12期)2017-02-06 03:07:25
主站蜘蛛池模板: 国产精品黄色片| 波多野结衣一区二区三视频| 无码高潮喷水在线观看| aⅴ免费在线观看| 另类综合视频| 国产精品成人AⅤ在线一二三四| 色香蕉影院| 亚洲日韩欧美在线观看| 亚洲国模精品一区| 一本大道香蕉久中文在线播放| 国产精品开放后亚洲| 青青操国产| 日本欧美一二三区色视频| 精品三级网站| 免费高清a毛片| 国产一区二区免费播放| 久久人体视频| 91久久大香线蕉| a级毛片免费网站| 免费一级成人毛片| 日韩最新中文字幕| 国产成人精品一区二区| 狼友av永久网站免费观看| 亚洲中文字幕在线精品一区| 尤物午夜福利视频| 在线毛片免费| 国产va在线观看免费| 日本午夜视频在线观看| 成人无码区免费视频网站蜜臀| 超清人妻系列无码专区| 伊人久久综在合线亚洲91| 四虎精品黑人视频| 又污又黄又无遮挡网站| 中文无码精品A∨在线观看不卡| 亚洲a级毛片| 日本久久免费| 久久青草精品一区二区三区| 国产美女视频黄a视频全免费网站| 欧美成人一区午夜福利在线| 国产精品久久久精品三级| 亚洲美女一区| 亚洲中文字幕无码爆乳| 欧美啪啪一区| 久久青草免费91线频观看不卡| 国产91透明丝袜美腿在线| 四虎永久在线精品国产免费 | 97无码免费人妻超级碰碰碰| 91麻豆国产在线| 2021无码专区人妻系列日韩| 亚洲男人的天堂久久香蕉| 99热这里只有成人精品国产| 国产成年女人特黄特色大片免费| 亚欧乱色视频网站大全| a毛片基地免费大全| 亚洲人成影视在线观看| 亚洲精品人成网线在线| 欧美亚洲国产一区| 亚洲第一页在线观看| 69精品在线观看| 欧洲亚洲一区| 91精品久久久无码中文字幕vr| 欧美日韩精品在线播放| 国产精品亚洲一区二区在线观看| 久久免费视频6| 国产精品亚洲一区二区在线观看| 青青草91视频| 夜夜爽免费视频| 国产精品综合久久久| 全裸无码专区| 美女无遮挡免费网站| 天天躁夜夜躁狠狠躁躁88| 精品久久人人爽人人玩人人妻| 久青草网站| 夜色爽爽影院18禁妓女影院| 国产欧美精品午夜在线播放| 无码综合天天久久综合网| 日韩在线视频网| 青青青国产精品国产精品美女| 亚洲aaa视频| 国产超碰在线观看| 国产精品手机视频一区二区| 日本在线国产|