張永富+李志宏+李軍軍+程樹東
摘 要:提出一種基于自然語言處理模型的環境科學命名實體識別方法,該方法以自然語言處理模型為核心,在通用分詞庫的基礎上加入環保專業分詞庫和外部特征識別技術,實現了從環評文件中自動提取準確的環境科學命名實體信息;同時采用MCTS蒙特卡洛樹構建搜索引擎,提高了命名實體識別過程的搜索效率。
關鍵詞:自然語言處理 命名實體識別 信息提取 環境影響評價
中圖分類號:TP312 文獻標識碼:A 文章編號:1674-098X(2017)07(c)-0120-02
目前,在環保行業中,環境影響評價文件的數量日趨龐大,資料集成度越來越高,隨著互聯網和信息技術的發展,信息化管理技術已在各層次各系統廣泛應用[1]。
然而,環評項目的資料中包含多項指標(如總投資、建設性質、行業等),也無法實現自動提取和統計匯總,環評項目的各種數據信息無法實現電子化,不能得到及時有效的利用。環境統計工作量大、耗時長,單純地依靠人工完成,準確性難以保證。為減輕環評工作人員的勞動強度,提高工作效率,實施電子文件歸檔和管理制度,設計了一種基于自然語言處理的環境科學命名實體識別方法,實現環評信息的智能抽取。
1 理論基礎
1.1 環境影響評價
環境影響評價是指對規劃和建設項目實施后可能造成的環境影響進行分析、預測和評估,提出預防或者減輕不良環境影響的對策與措施,進行跟蹤監測的方法與制度[2]。環境影響評價可以為開發建設活動的決策提供科學依據,為經濟建設的合理布局提供科學依據,為確定某一地區的經濟發展方向和規模、制定區域經濟發展規劃及相應環保規劃提供科學依據,為制定環境保護對策和進行科學的環境管理提供依據,促進相關環境科學技術的發展。
1.2 自然語言處理
自然語言處理(Natural Language Processing,NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術[3]。自然語言處理又稱自然語言理解(Natural Language Understanding,NLU),是人工智能研究的重要內容之一,可以定義為研究在人與人交際中以及人與計算機交際中的語言問題的一門學科。
1.3 命名實體識別
命名實體(NE)是指人們感興趣的特定的專有名詞(如組織機構名)和特定的數量詞(時間和數字)。命名實體識別的任務被定義為識別出文本中出現的專有名稱和有意義的數量短語并加以歸類。中文NE的識別研究開始較晚,同英文實體識別相比,漢語NE的識別更難。漢語文本沒有類似英文文本中空格之類的顯示標示詞邊界的標識符,分詞和命名實體相互影響,缺乏明顯的特征標志;組織復雜,長短不一,沒有規律;縮略短語很多;實體名相互嵌套;缺少大規模語料庫。
1.4 條件隨機場模型
條件隨機場模型CRF由Lafferty等人于2001年提出,又稱為馬爾可夫隨機域,是一種用于標注和切分有序數據的條件概率模型。從形式上來說CRF可以看作是一種無向圖模型[4],考察給定輸入序列的標注序列的條件概率。
2 基于NLP的環評信息提取方法
2.1 基本原理
如圖1所示,以自然語言處理引擎為核心,采用文檔處理器對環評文件進行預處理,運用蒙特卡洛樹搜索算法,結合外部特征識別器和環評專業分詞庫,從環評文件中提取目標信息。
2.2 關鍵算法
2.2.1 MCTS蒙特卡洛樹
通過各個代表行業的環評報告書樣本,建立MCTS蒙特卡洛樹,通過對這些數據的挖掘,建立智能處理模型。當某個節點的被訪問次數超過了一定的門限值,則在蒙特卡羅樹上進一步展開下一級別的搜索。
最佳權重選擇算法:
其中,R為正則表達式匹配,t為要匹配的文本R(t)表示,正則表達式匹配后的值,s為要匹配的值,函數d為編輯距離。這樣通過度量性能,枚舉所有的可能性并選取最大/小值,獲取最佳權重。
2.2.2 環評專業分詞庫
創建外部特征識別器,引入外部特征,包括:組織機構字典、污染物單位名稱字典、污染物數值范圍(濃度、排放量等)字典、環評專業名詞字典(分詞中應用)和全國行政編制(省市區縣村)字典等。
3 應用結果分析
3.1 采用MCTS蒙特卡洛樹
采用采用MCTS蒙特卡洛樹算法之后,通過蒙卡章節訓練,搜索時間明顯加快,如表1所示。
3.2 加入環評專業分詞庫
加入環評專業分詞庫后,搜索的準確率得到提升,搜索時間縮短,如表2所示。
4 結語
本文提出了一種基于自然語言處理模型的環境科學命名實體識別方法,該方法以自然語言處理模型為核心,在通用分詞庫的基礎上加入環保專業分詞庫和外部征識別技術,實現了從環評文件中自動提取準確的環境科學命名實體信息;同時采用MCTS蒙特卡洛樹構建搜索引擎,提高了命名實體識別過程的搜索效率。
參考文獻
[1] J.Grudin.Computer-supported cooperative work:History and focus[J].Computer,1994(27):19-26.
[2] 環境保護部環境工程評估中心.建設項目環境影響評價[M].中國環境科學出版社,2011.
[3] 馮志偉.自然語言的計算機處理[M].上海外語教育出版社,1996.
[4] Lafferty J, McCallum A, Pereira F.Conditional Random Fields:Probabilistic models for segmenting and labeling sequence data[D].In: Proc.ICML 2001.endprint