999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于自然語言處理的環境科學命名實體識別方法

2017-11-07 17:51:30張永富李志宏李軍軍程樹東
科技創新導報 2017年21期

張永富+李志宏+李軍軍+程樹東

摘 要:提出一種基于自然語言處理模型的環境科學命名實體識別方法,該方法以自然語言處理模型為核心,在通用分詞庫的基礎上加入環保專業分詞庫和外部特征識別技術,實現了從環評文件中自動提取準確的環境科學命名實體信息;同時采用MCTS蒙特卡洛樹構建搜索引擎,提高了命名實體識別過程的搜索效率。

關鍵詞:自然語言處理 命名實體識別 信息提取 環境影響評價

中圖分類號:TP312 文獻標識碼:A 文章編號:1674-098X(2017)07(c)-0120-02

目前,在環保行業中,環境影響評價文件的數量日趨龐大,資料集成度越來越高,隨著互聯網和信息技術的發展,信息化管理技術已在各層次各系統廣泛應用[1]。

然而,環評項目的資料中包含多項指標(如總投資、建設性質、行業等),也無法實現自動提取和統計匯總,環評項目的各種數據信息無法實現電子化,不能得到及時有效的利用。環境統計工作量大、耗時長,單純地依靠人工完成,準確性難以保證。為減輕環評工作人員的勞動強度,提高工作效率,實施電子文件歸檔和管理制度,設計了一種基于自然語言處理的環境科學命名實體識別方法,實現環評信息的智能抽取。

1 理論基礎

1.1 環境影響評價

環境影響評價是指對規劃和建設項目實施后可能造成的環境影響進行分析、預測和評估,提出預防或者減輕不良環境影響的對策與措施,進行跟蹤監測的方法與制度[2]。環境影響評價可以為開發建設活動的決策提供科學依據,為經濟建設的合理布局提供科學依據,為確定某一地區的經濟發展方向和規模、制定區域經濟發展規劃及相應環保規劃提供科學依據,為制定環境保護對策和進行科學的環境管理提供依據,促進相關環境科學技術的發展。

1.2 自然語言處理

自然語言處理(Natural Language Processing,NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術[3]。自然語言處理又稱自然語言理解(Natural Language Understanding,NLU),是人工智能研究的重要內容之一,可以定義為研究在人與人交際中以及人與計算機交際中的語言問題的一門學科。

1.3 命名實體識別

命名實體(NE)是指人們感興趣的特定的專有名詞(如組織機構名)和特定的數量詞(時間和數字)。命名實體識別的任務被定義為識別出文本中出現的專有名稱和有意義的數量短語并加以歸類。中文NE的識別研究開始較晚,同英文實體識別相比,漢語NE的識別更難。漢語文本沒有類似英文文本中空格之類的顯示標示詞邊界的標識符,分詞和命名實體相互影響,缺乏明顯的特征標志;組織復雜,長短不一,沒有規律;縮略短語很多;實體名相互嵌套;缺少大規模語料庫。

1.4 條件隨機場模型

條件隨機場模型CRF由Lafferty等人于2001年提出,又稱為馬爾可夫隨機域,是一種用于標注和切分有序數據的條件概率模型。從形式上來說CRF可以看作是一種無向圖模型[4],考察給定輸入序列的標注序列的條件概率。

2 基于NLP的環評信息提取方法

2.1 基本原理

如圖1所示,以自然語言處理引擎為核心,采用文檔處理器對環評文件進行預處理,運用蒙特卡洛樹搜索算法,結合外部特征識別器和環評專業分詞庫,從環評文件中提取目標信息。

2.2 關鍵算法

2.2.1 MCTS蒙特卡洛樹

通過各個代表行業的環評報告書樣本,建立MCTS蒙特卡洛樹,通過對這些數據的挖掘,建立智能處理模型。當某個節點的被訪問次數超過了一定的門限值,則在蒙特卡羅樹上進一步展開下一級別的搜索。

最佳權重選擇算法:

其中,R為正則表達式匹配,t為要匹配的文本R(t)表示,正則表達式匹配后的值,s為要匹配的值,函數d為編輯距離。這樣通過度量性能,枚舉所有的可能性并選取最大/小值,獲取最佳權重。

2.2.2 環評專業分詞庫

創建外部特征識別器,引入外部特征,包括:組織機構字典、污染物單位名稱字典、污染物數值范圍(濃度、排放量等)字典、環評專業名詞字典(分詞中應用)和全國行政編制(省市區縣村)字典等。

3 應用結果分析

3.1 采用MCTS蒙特卡洛樹

采用采用MCTS蒙特卡洛樹算法之后,通過蒙卡章節訓練,搜索時間明顯加快,如表1所示。

3.2 加入環評專業分詞庫

加入環評專業分詞庫后,搜索的準確率得到提升,搜索時間縮短,如表2所示。

4 結語

本文提出了一種基于自然語言處理模型的環境科學命名實體識別方法,該方法以自然語言處理模型為核心,在通用分詞庫的基礎上加入環保專業分詞庫和外部征識別技術,實現了從環評文件中自動提取準確的環境科學命名實體信息;同時采用MCTS蒙特卡洛樹構建搜索引擎,提高了命名實體識別過程的搜索效率。

參考文獻

[1] J.Grudin.Computer-supported cooperative work:History and focus[J].Computer,1994(27):19-26.

[2] 環境保護部環境工程評估中心.建設項目環境影響評價[M].中國環境科學出版社,2011.

[3] 馮志偉.自然語言的計算機處理[M].上海外語教育出版社,1996.

[4] Lafferty J, McCallum A, Pereira F.Conditional Random Fields:Probabilistic models for segmenting and labeling sequence data[D].In: Proc.ICML 2001.endprint

主站蜘蛛池模板: 午夜限制老子影院888| 97久久免费视频| 久久国产黑丝袜视频| 国产成人精品亚洲日本对白优播| 夜夜爽免费视频| 国产在线麻豆波多野结衣| 久久久久国色AV免费观看性色| 无码精品国产dvd在线观看9久| 露脸国产精品自产在线播| 午夜a视频| 国产91无码福利在线| 亚洲综合色婷婷中文字幕| 亚洲成a∧人片在线观看无码| lhav亚洲精品| 久久精品国产亚洲AV忘忧草18| 色有码无码视频| 99这里只有精品免费视频| av无码一区二区三区在线| 91免费在线看| 日本道综合一本久久久88| 国产欧美日本在线观看| 国产精品人成在线播放| 免费毛片全部不收费的| 天天色综网| 久久国产乱子| 久久精品欧美一区二区| 欧美国产另类| 亚洲天堂网在线观看视频| 国产在线观看一区精品| 国产精品熟女亚洲AV麻豆| 精品国产乱码久久久久久一区二区| 亚洲精品视频在线观看视频| 国产视频你懂得| 午夜视频免费试看| 亚洲欧洲日韩久久狠狠爱| 国产另类视频| 欧美午夜一区| 久久久久亚洲av成人网人人软件| 亚洲精品国产精品乱码不卞 | 最新国产成人剧情在线播放| 欧美视频在线第一页| 无码中文AⅤ在线观看| 日本尹人综合香蕉在线观看| 久久综合激情网| 特级毛片8级毛片免费观看| 精品综合久久久久久97| 国产一级在线播放| 无码免费的亚洲视频| 免费激情网址| 亚洲婷婷六月| 久久99热这里只有精品免费看| 国产亚洲高清视频| 小说区 亚洲 自拍 另类| 久夜色精品国产噜噜| 福利视频久久| 精品欧美视频| 国产情侣一区二区三区| 97在线视频免费观看| 婷婷六月在线| 四虎永久免费地址| 毛片在线播放a| 九色视频线上播放| 国产性爱网站| 久久久国产精品无码专区| 九九精品在线观看| 手机精品福利在线观看| 婷婷成人综合| 精品国产Av电影无码久久久| 亚洲中文久久精品无玛| 波多野结衣一区二区三区AV| 中文字幕久久波多野结衣| 亚洲日本韩在线观看| 国产三级成人| 性网站在线观看| 沈阳少妇高潮在线| h视频在线播放| 国产真实乱子伦精品视手机观看| 国产成人综合日韩精品无码不卡| 中文一区二区视频| 99青青青精品视频在线| 全色黄大色大片免费久久老太| 国产精品浪潮Av|