基于BERT模型的政策條件識別研究

2020-05-18 02:43:35顧佳怡

科技視界 2020年7期

顧佳怡

摘要

企業想要從近年國家推出的各種惠企政策中找到適合自身的優惠政策需要花費大量的時間，為了節省時間成本以及實現惠企政策更好的推送，本文利用BERT+DNN模型的方式，使用BERT將政策文本向量化，從而賦予句子一定的含義。而后向DNN網絡輸送數據，訓練出分類模型使其能夠自動識別政策文件中企業申領補貼所要達到的條件。在僅僅解讀了166篇文件的情況下，最終得出大多數分類的準確率都達到了80%以上，而且可知DNN所獲取的訓練數據越多，分類就會越準確。更精準的模型能夠節省很大時間成本與人力成本解讀政策并且為后續任務提供支持。

關鍵詞

自然語言處理;TF-IDF;Single-Pass聚類;熱點問題提取

中圖分類號： ?F626;TP391.1 ? ? ? ? ? ? ? ? 文獻標識碼： A

DOI：10.19694/j.cnki.issn2095-2457.2020.07.093

0 引言

近幾年國家推出許多惠企政策，用以降低企業經營負擔;鼓勵、扶持企業創辦;援助、恢復企業生產力等。針對不同地區、不同類型的企業會推出不同的政策;同一個政策文件中有對企業申領補貼的條件、補貼的項目、申報的材料等各字段。面對各類惠企政策，很多企業難以分散出精力去研究自身能夠獲得哪些補貼。為了能夠讓企業獲得更多的實惠，判定企業可以獲取哪些政策給予的補貼。首先要判定該企業是否滿足政策的補貼申領條件。

本文基于福建省福州市地方政府出臺的各類政策，利用BERT模型結合DNN訓練出的分類模型用以識別政策的中的各種條件。為后續給企業推送、政策匹配以及給企業做出政策申請的診斷做技術鋪墊。

1 理論模型

1.1 BERT模型

使用計算機從政策中提取條件之前，首先要讓計算機識別政策中哪些字段屬于條件，BERT模型是由Google公司訓練的，可以將字、句子進行向量化并且賦予字向量、句子向量一定意義的模型，其最大的特點在于能夠在不同的語境賦予字不同的意義并且以句子為單位將整句話的意義融合到句子開頭的符號中。本文將用于政策中的句子輸入到BERT模型，得到可以用于后續任務的詞向量與句向量。

1.2 DNN模型

DNN即為深度神經網絡，是包含輸入層、隱藏層和輸出層的神經網絡。網絡會通過自身的神經元進行復雜的運算，整合出輸入數據與輸出數據的關系。從而發現事物的特征以及事物之間的內在關聯，并以參數的形式存儲下來。新的數據進入模型，根據已經存儲下來的參數進行計算可以自動分類。

2 政策條件識別實證研究

2.1 研究流程

首先收集福州工信局、福州市人民政府、福州市政府公開信息欄這三個門戶網站發布的政策。第二，將收集好的政策按照句子為單位拆分。第三，依據企業標簽體系將政策中的企業申報補貼條件打上對應的標簽值。第四，將所得句子輸入到BERT模型，獲取句子的句向量。第五，將數據分為訓練集與驗證集，并將訓練集輸入到DNN模型中進行訓練。最后利用驗證集檢驗模型分類效果。

2.2 數據預處理

2.2.1 政策文件的收集與處理

首先，本文利用網絡爬蟲技術，收集了來自福州工信局、福州市人民政府、福州市政府公開信息欄三個政府門戶網站的166個政策文件。然后，設定規則將政策文件按照句字拆分并清理掉無用的符號，總共得到8465句話。最后將數據輸入到GOOGLE訓練好的專用于中文詞向量化的BERT模型中，得到句子向量化后的數據。并將數據分為訓練集與測試集。

2.2.2 企業標簽的獲取

本文設定9個維度去刻畫一家企業，分別為：基礎信息、經營狀況、企業績效、企業發展、經營風險、知識產權、社會貢獻、輿情信息、企業法人群體。政策文件中對企業申領補貼的條件會與這9個維度的標簽相對應。所以政策文件中屬于申領補貼條件的句子會被打上標簽值為1-9的標簽;若政策文件句子不屬于任何維度則標簽值為0。

2.2.3 數據的分布

整理本文得到各類條件的占比以及分類如表1。

2.3 基于BERT模型輸出結果說明

本文使用的BERT模型，是由GOOGLE發布的用中文訓練所得模型。將數據輸入模型得到每個句子的向量，輸出的結果中包含的信息如下：

●整個BERT模型由12層transformer構成，本文結果從倒數第二層取出。

●結果中包含8465個條目，每個條目與訓練前的句子一一對應。

●每個條目中都有名為CLS的向量，其維度為768維，包含了整句話的所有信息。

●各條目中包含了原句的單個字的信息，每個字都被訓練為768維度的向量。

本文旨在從政策文件中提取出是條件的句子以及給條件分類，所以后續任務中用到擁有每個句子所有信息的CLS來進行分類即可。

2.4 基于DNN網絡分類結果分析

得到包含政策句子的句向量后，需要搭建DNN神經網絡模型進行多分類，本文利用Python編程，使用keras深度學習框架搭建神經網絡。網絡的參數如下：

●輸入層，神經元個數24、輸入維度768、激活函數為relu.

●隱藏層1，神經元個數16、激活函數為relu.

●隱藏層2，神經元個數12、激活函數為relu.

●輸出層，神經元個數10、激活函數為softmax.

隨機抽取80%的數據放入網絡中訓練，剩下20%的數據對模型的結果進行驗證，最終得到的驗證集結果如表2。

從表2可以看到，各類別分類結果參差不齊。結果最好的為‘非條件類別，準確率高達98.51%;結果最差的為‘輿情信息類別，準確率只有63.26%;不過總體來看分類效果還不錯，除‘經營狀況、‘輿情信息以外其他類別的準確率都在80%以上。

并且可以很明顯的看出，準確率低的類別數據量都較少，準確率高的類別數據量都較大，所以有理由認為隨著數據量的增多，政策條件識別的準確率會隨之增加。

3 結論

本文采用的數據為福州市政府門戶網站的公開惠企政策，共計166個，政策內容均為文本形式。將政策文本拆分為以句為單位，利用BERT將句子轉為向量，結合DNN深度神經網絡分類器對政策文本條件進行識別得出以下結論：

第一：人為對惠企政策進行解讀的話文本中有的條件是可以直觀得到的，但有的條件會與別的條件產生耦合，個人長時間對政策進行解讀的話很容易產生誤判，利用機器對政策條件進行識別會大大提高效率和準確率。

第二：機器對政策識別的準確率需要大量數據的支撐，從表2的結果也可以看出，隨著數據量的增大，分類的準確率也會增高。

第三：效率的提高，如果訓練出來的分類模型效果比較好。后續政策條件的提取就會大大節省人工成本以及時間成本。

最后：本文將網絡爬蟲、數據處理、模型遷移、分類模型的搭建等技術都利用Python編程自動化實現。之后可將其封裝成為一個模塊部署在政策檢索的系統中幫助系統提升性能。為后續的任務如：政策推薦、政策匹配、政策分析等提供有力的支撐。