999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種應用于電力技術專業領域的信息萃取算法

2022-08-30 08:17:32倪吉祥閆欣悅徐大亮
科技與創新 2022年17期
關鍵詞:信息方法模型

倪吉祥,閆欣悅,徐大亮

(1.國家電網有限公司高級培訓中心,北京 100192;2.北京數睿思德技術有限公司,北京 100083)

1 研究背景

信息萃取一直是國內外的研究熱點。異構數據的信息萃取是國內外計算機算法研究領域的熱點與難點。信息萃取經歷過2個階段的發展歷程:信息提取與關鍵信息萃取。早在20世紀90年代初,科學家和研究者們開始關注信息提取(Information Extraction,IE)相關研究。

隨著網頁文本信息的急劇增長,越來越多的人投入到IE領域的研究,IE研究人員逐漸將興趣轉移到Web網頁信息提取的研究上。其中比較知名的項目是卡耐基梅隆大學自動學習和發現中心的Web挖掘項目,他們采用機器學習算法,目標是通過訓練自動從Web中提取信息[1-4]。隨著信息技術的發展,信息萃取已經廣泛運用于搜索引擎、知識問答、信息檢索、知識服務等領域,同時成為知網、Google、百度、知乎、今日頭條等知名產品的核心技術競爭力[1-4]。然而,在電力等專業領域的業務中,一方面對知識的需求量是巨大的,另一方面由于數據異構以及專業知識的特點,目前主要使用人工方式進行信息萃取。這需要專家進行人工分析總結,并由具有經驗的萃取師進行提煉,存在效率低、時效性差、時間人工成本高等問題。近年來,國內外有關公司與機構積累了大量的研究成果[5-6],聯想公司提出了著名的四步復盤方法,進行信息萃取,四步復盤方法具體為回顧目標、評估結果、分析原因、總結規律。美國陸軍還曾提出AAR的方法,華為公司亦提出知識收割方法,通過選擇項目、單個項目知識收割、組織資產刷新、知識傳遞等方法步驟進行信息萃取。此外還有PREFS方法和STAR內容模型,均根據培訓過程管理的知識數據,進行信息萃取。

針對電力專業領域的實際情況,本文將創新性地結合AI神經網絡技術,包括自然語言處理技術、信息檢索技術、知識圖譜技術等等,提出一種適用于電力專業領域的數據萃取算法,能夠更高效地從海量數據中進行信息萃取,主要實現對最新的政策、行業新聞、前沿技術等外部信息,領導講話、制度文件、內部通知以及其他工作文件等內部信息的高效率、自動化萃取。相比現存技術萃取效率更高、人力需求更低、時效性更好。

2 算法描述與實現方法

2.1 全文數據獲取與語言模型建立

本文算法作用為采用人工智能技術從內外部海量數據中完成從數據抓取到異構化處理,最后完成摘要主題關鍵信息萃取等研究工作,其算法流程如圖1所示。

圖1 本文算法總流程

對于外部數據源的全文抓取,采用了以下方法實現:①爬蟲+訂閱的方法,自動化地獲取數據的更新;②采用文檔智能去重等關鍵算法保證數據的唯一性;③存儲結構化后的文件信息,同時保存必要的文檔來源等meta信息。其中爬蟲的算法步驟如下。

爬蟲算法框架:所有信息源的數據,都通過一個擴展性較好的通用爬蟲框架進行爬取。可以自動識別需要爬取的網頁鏈接,每日定時更新。也可以很方便增加數據源。

HTML解析技術:通過一個較為先進的網頁HTML解析框架,可以快速定位文章標題、正文、發布時間等一系列信息,剔除無用內容。同時也可以找到網站的頭條新聞,區分外部信息的重要程度。

模擬瀏覽器行為技術:可以自動模擬點擊、下拉網頁等行為,獲取更完整的網站信息。也可以在一定程度上解決網站的反爬措施。

對于內部文件的全文抓取,采用了以下方法實現:①文件自動化解析功能,自動抓取不同文件格式中的有效信息Word/PPT/Excel/PDF(非加密狀態);②對于加密狀態的文件,采用了OCR技術進行文本內容識別;③存儲結構化后的文件信息,同時保存必要的文件來源等meta信息。

2.2 專業領域語言模型建立

本文采用了BERT模型來構建語言模型[5-7],BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,因為decoder是不能獲要預測的信息的。模型的主要創新點都在pre-train方法上,即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的representation。

本文最后采用構建專業領域語言模型的全文語料規模為20萬條,其中19萬條來源于外網(公網)的數據,剩余的來源于內部文件。

2.3 摘要提取算法

摘要提取算法流程如圖2所示。

圖2 摘要提取算法流程

摘要算法的核心步驟如下。

候選句獲取:本文通過一些句法、句式特征獲取摘要的候選句。根據的特征有3項:①詞性;②句子成分(主謂賓從屬結構這種);③一些重點詞語。根據這些的排列組合建立了幾十條規則,用于獲取候選句。

重要性排序算法:通過TextRank算法為候選句構建相關性模型,計算候選句的重要性排序,得到初步摘要。TextRank的思想借鑒于網頁排序算法——PageRank,是一種用于文本的基于圖的排序算法。通過把文本分割成若干組成單元(句子),構建節點連接圖,用句子之間的相似度作為邊的權重,通過循環迭代計算句子的TextRank值,最后抽取排名高的句子組合成文本摘要。

二次相關性計算:通過相關性計算方法,得到最終的摘要。

2.4 主題關鍵詞萃取算法

主題關鍵詞提取算法流程如圖3所示。

圖3 主題關鍵詞提取算法流程

主題關鍵詞萃取算法的步驟如下。

分詞與詞性分析:通過感知機模型進行分詞與詞性分析,分詞后的結果和詞性結果是獲取關鍵詞的重要依據。其中,感知機模型可以描述為感知機是一種二類分類的線性分類模型,其輸入為實例的特征向量,輸出為實例的類別,+1代表正類,-1代表負類。感知機屬于判別模型,它的目標是要將輸入實例通過分離超平面將正負二類分離。感知機模型可以分為單層與多層,本文采用了3層的感知機模型。

詞語重要性分析:通過基于BERT-biLSTM-CRF的命名實體識別神經網絡算法,獲取候選關鍵詞。命名實體識別指識別中文文本中實體的邊界和類別。命名實體識別是文本處理中的基礎技術,廣泛應用在自然語言處理、推薦系統、知識圖譜等領域,比如推薦系統中的基于實體的用戶畫像、基于實體召回等。本文方法將基于神經網絡的BERT-biLSTM以及基于統計的CRF相結合,其中BERT方法在上文中已經進行了描述。CRF(Conditional Random Field,即條件隨機場)是自然語言處理的基礎模型,廣泛應用于中文分詞、命名實體識別、詞性標注等標注場景。本文將條件隨機場CRF與Attention機制(BERT)結合,中文分詞、命名實體識別、詞性標注效果有了顯著提高。通過關鍵詞的實體類別、TF-IDF信息、詞性、句子成分分析,得到重要性分數。另外在判斷重要性時,也結合了內容分類分類體系,與內容體系相關的關鍵詞會增加一定比例的分數。

采用語言模型對詞語上下文進行相關性分析:根據詞向量和文章向量,得到詞語和文章的相關性,相關性過低的無法成為關鍵詞。

3 實驗結果

本文設計人工盲評實驗如下。

實驗人數:20人。

數據樣本:100。

實驗過程:將本文算法處理的數據樣本與人工處理的數據樣本混合,進行盲評。

最后實驗結果如表1所示。結果表明,本文算法結果基本上與人工結果相似。本文算法示例如圖4所示,從示例中能看出算法自動提取結果能夠體現算法的有效性。

表1 實驗統計結果

圖4 信息萃取示例

4 結論

本文提出一種新的基于AI神經網絡技術的信息萃取算法,能夠有效針對外部和內部的異構多元數據進行信息萃取,能夠快速自動化地萃取全文中的摘要和主題關鍵詞等關鍵知識信息。人工盲評實驗表明了本文算法的有效性,后續我們將繼續圍繞信息萃取在電力教育培訓領域中的知識圖譜、方案智能設計等相關數字化應用展開探索性研究。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99久久精品视香蕉蕉| 国产成人精品视频一区视频二区| 欧美日韩精品一区二区在线线| 亚洲国产午夜精华无码福利| 欧美成人手机在线观看网址| 亚洲精品成人福利在线电影| 国产亚洲精品无码专| 日韩精品无码一级毛片免费| 国产无遮挡裸体免费视频| 亚洲一区二区无码视频| 成人午夜网址| 欧美成人日韩| a亚洲天堂| 在线视频精品一区| 成人午夜精品一级毛片| a级毛片免费网站| 思思99热精品在线| 国产亚洲现在一区二区中文| 99这里只有精品6| 国产性生大片免费观看性欧美| 热re99久久精品国99热| A级毛片无码久久精品免费| 热re99久久精品国99热| 91视频国产高清| 91蝌蚪视频在线观看| 一本久道热中字伊人| 日韩中文精品亚洲第三区| 国产超碰一区二区三区| 亚洲日本在线免费观看| 国模视频一区二区| 国产成a人片在线播放| 欧美亚洲网| 五月天综合网亚洲综合天堂网| 天天视频在线91频| 婷婷午夜天| 亚洲欧美日本国产专区一区| 亚洲中文字幕无码爆乳| 一级成人a毛片免费播放| 国产日韩欧美视频| 亚洲va欧美va国产综合下载| 精品视频在线观看你懂的一区 | 国产日本一区二区三区| 精品国产aⅴ一区二区三区| 东京热一区二区三区无码视频| 国产精品一线天| 国产成人无码AV在线播放动漫 | 一级福利视频| 国产成人亚洲毛片| 国产成人精品视频一区二区电影 | 欧美日韩午夜| 美女免费精品高清毛片在线视| 国产成人毛片| 毛片基地视频| 中文字幕欧美日韩| 少妇人妻无码首页| 亚洲男人的天堂网| 国产AV无码专区亚洲精品网站| 亚洲一区第一页| 啊嗯不日本网站| 精品国产乱码久久久久久一区二区| 麻豆国产精品一二三在线观看| 精品成人免费自拍视频| 日韩黄色精品| 国产精品久久自在自线观看| 国产jizzjizz视频| 亚洲色中色| 亚洲性视频网站| 伊人久久大香线蕉影院| 喷潮白浆直流在线播放| 久久精品丝袜| 久久国产亚洲偷自| 91毛片网| av午夜福利一片免费看| 免费不卡在线观看av| 日韩免费成人| 亚洲第一视频网| 亚洲青涩在线| 99精品伊人久久久大香线蕉| 欧美精品不卡| 国产一级α片| 国产成人h在线观看网站站| 国产乱人激情H在线观看|