999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的政策條件識別研究

2020-05-18 02:43:35顧佳怡
科技視界 2020年7期
關鍵詞:分類模型企業

顧佳怡

摘 要

企業想要從近年國家推出的各種惠企政策中找到適合自身的優惠政策需要花費大量的時間,為了節省時間成本以及實現惠企政策更好的推送,本文利用BERT+DNN模型的方式,使用BERT將政策文本向量化,從而賦予句子一定的含義。而后向DNN網絡輸送數據,訓練出分類模型使其能夠自動識別政策文件中企業申領補貼所要達到的條件。在僅僅解讀了166篇文件的情況下,最終得出大多數分類的準確率都達到了80%以上,而且可知DNN所獲取的訓練數據越多,分類就會越準確。更精準的模型能夠節省很大時間成本與人力成本解讀政策并且為后續任務提供支持。

關鍵詞

自然語言處理;TF-IDF;Single-Pass聚類;熱點問題提取

中圖分類號: ?F626;TP391.1 ? ? ? ? ? ? ? ? 文獻標識碼: A

DOI:10.19694/j.cnki.issn2095-2457.2020.07.093

0 引言

近幾年國家推出許多惠企政策,用以降低企業經營負擔;鼓勵、扶持企業創辦;援助、恢復企業生產力等。針對不同地區、不同類型的企業會推出不同的政策;同一個政策文件中有對企業申領補貼的條件、補貼的項目、申報的材料等各字段。面對各類惠企政策,很多企業難以分散出精力去研究自身能夠獲得哪些補貼。為了能夠讓企業獲得更多的實惠,判定企業可以獲取哪些政策給予的補貼。首先要判定該企業是否滿足政策的補貼申領條件。

本文基于福建省福州市地方政府出臺的各類政策,利用BERT模型結合DNN訓練出的分類模型用以識別政策的中的各種條件。為后續給企業推送、政策匹配以及給企業做出政策申請的診斷做技術鋪墊。

1 理論模型

1.1 BERT模型

使用計算機從政策中提取條件之前,首先要讓計算機識別政策中哪些字段屬于條件,BERT模型是由Google公司訓練的,可以將字、句子進行向量化并且賦予字向量、句子向量一定意義的模型,其最大的特點在于能夠在不同的語境賦予字不同的意義并且以句子為單位將整句話的意義融合到句子開頭的符號中。本文將用于政策中的句子輸入到BERT模型,得到可以用于后續任務的詞向量與句向量。

1.2 DNN模型

DNN即為深度神經網絡,是包含輸入層、隱藏層和輸出層的神經網絡。網絡會通過自身的神經元進行復雜的運算,整合出輸入數據與輸出數據的關系。從而發現事物的特征以及事物之間的內在關聯,并以參數的形式存儲下來。新的數據進入模型,根據已經存儲下來的參數進行計算可以自動分類。

2 政策條件識別實證研究

2.1 研究流程

首先收集福州工信局、福州市人民政府、福州市政府公開信息欄這三個門戶網站發布的政策。第二,將收集好的政策按照句子為單位拆分。第三,依據企業標簽體系將政策中的企業申報補貼條件打上對應的標簽值。第四,將所得句子輸入到BERT模型,獲取句子的句向量。第五,將數據分為訓練集與驗證集,并將訓練集輸入到DNN模型中進行訓練。最后利用驗證集檢驗模型分類效果。

2.2 數據預處理

2.2.1 政策文件的收集與處理

首先,本文利用網絡爬蟲技術,收集了來自福州工信局、福州市人民政府、福州市政府公開信息欄三個政府門戶網站的166個政策文件。然后,設定規則將政策文件按照句字拆分并清理掉無用的符號,總共得到8465句話。最后將數據輸入到GOOGLE訓練好的專用于中文詞向量化的BERT模型中,得到句子向量化后的數據。并將數據分為訓練集與測試集。

2.2.2 企業標簽的獲取

本文設定9個維度去刻畫一家企業,分別為:基礎信息、經營狀況、企業績效、企業發展、經營風險、知識產權、社會貢獻、輿情信息、企業法人群體。政策文件中對企業申領補貼的條件會與這9個維度的標簽相對應。所以政策文件中屬于申領補貼條件的句子會被打上標簽值為1-9的標簽;若政策文件句子不屬于任何維度則標簽值為0。

2.2.3 數據的分布

整理本文得到各類條件的占比以及分類如表1。

2.3 基于BERT模型輸出結果說明

本文使用的BERT模型,是由GOOGLE發布的用中文訓練所得模型。將數據輸入模型得到每個句子的向量,輸出的結果中包含的信息如下:

●整個BERT模型由12層transformer構成,本文結果從倒數第二層取出。

●結果中包含8465個條目,每個條目與訓練前的句子一一對應。

●每個條目中都有名為CLS的向量,其維度為768維,包含了整句話的所有信息。

●各條目中包含了原句的單個字的信息,每個字都被訓練為768維度的向量。

本文旨在從政策文件中提取出是條件的句子以及給條件分類,所以后續任務中用到擁有每個句子所有信息的CLS來進行分類即可。

2.4 基于DNN網絡分類結果分析

得到包含政策句子的句向量后,需要搭建DNN神經網絡模型進行多分類,本文利用Python編程,使用keras深度學習框架搭建神經網絡。網絡的參數如下:

●輸入層,神經元個數24、輸入維度768、激活函數為relu.

●隱藏層1,神經元個數16、激活函數為relu.

●隱藏層2,神經元個數12、激活函數為relu.

●輸出層,神經元個數10、激活函數為softmax.

隨機抽取80%的數據放入網絡中訓練,剩下20%的數據對模型的結果進行驗證,最終得到的驗證集結果如表2。

從表2可以看到,各類別分類結果參差不齊。結果最好的為‘非條件類別,準確率高達98.51%;結果最差的為‘輿情信息類別,準確率只有63.26%;不過總體來看分類效果還不錯,除‘經營狀況、‘輿情信息以外其他類別的準確率都在80%以上。

并且可以很明顯的看出,準確率低的類別數據量都較少,準確率高的類別數據量都較大,所以有理由認為隨著數據量的增多,政策條件識別的準確率會隨之增加。

3 結論

本文采用的數據為福州市政府門戶網站的公開惠企政策,共計166個,政策內容均為文本形式。將政策文本拆分為以句為單位,利用BERT將句子轉為向量,結合DNN深度神經網絡分類器對政策文本條件進行識別得出以下結論:

第一:人為對惠企政策進行解讀的話文本中有的條件是可以直觀得到的,但有的條件會與別的條件產生耦合,個人長時間對政策進行解讀的話很容易產生誤判,利用機器對政策條件進行識別會大大提高效率和準確率。

第二:機器對政策識別的準確率需要大量數據的支撐,從表2的結果也可以看出,隨著數據量的增大,分類的準確率也會增高。

第三:效率的提高,如果訓練出來的分類模型效果比較好。后續政策條件的提取就會大大節省人工成本以及時間成本。

最后:本文將網絡爬蟲、數據處理、模型遷移、分類模型的搭建等技術都利用Python編程自動化實現。之后可將其封裝成為一個模塊部署在政策檢索的系統中幫助系統提升性能。為后續的任務如:政策推薦、政策匹配、政策分析等提供有力的支撐。

猜你喜歡
分類模型企業
一半模型
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
分類算一算
重要模型『一線三等角』
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 国产主播在线一区| 激情综合激情| 人妻无码AⅤ中文字| 亚洲中文字幕久久精品无码一区| 成年免费在线观看| 国产成人综合亚洲网址| 国产欧美亚洲精品第3页在线| 亚洲αv毛片| 亚洲色图欧美激情| 人妻精品久久无码区| 人妻中文久热无码丝袜| 无码丝袜人妻| 国产精品无码久久久久AV| 欧美日韩北条麻妃一区二区| 亚洲综合精品第一页| 免费不卡视频| 亚洲精品国产综合99| 亚洲综合色在线| 欧美日韩在线亚洲国产人| 亚洲视频在线观看免费视频| 欧美亚洲一二三区| 国产欧美日韩免费| 国产一级二级在线观看| 成人蜜桃网| 久久免费看片| 蝌蚪国产精品视频第一页| 亚洲无码视频一区二区三区| 国产91麻豆免费观看| 日韩亚洲综合在线| 午夜国产理论| 亚洲中文字幕日产无码2021| 精品自窥自偷在线看| 国产jizzjizz视频| 国产乱码精品一区二区三区中文 | 久草性视频| 亚洲综合经典在线一区二区| 成年网址网站在线观看| 亚洲高清国产拍精品26u| 亚洲色无码专线精品观看| 免费中文字幕在在线不卡| 色成人综合| 国产精品人成在线播放| 美女啪啪无遮挡| 国产黄色爱视频| 91精品人妻一区二区| 国产精品美女自慰喷水| 91精品网站| 亚洲不卡网| 永久免费无码日韩视频| 成人国产小视频| 免费无遮挡AV| 精品国产美女福到在线直播| 亚洲精品卡2卡3卡4卡5卡区| 毛片基地视频| 91丨九色丨首页在线播放| 成年人国产网站| 九九热在线视频| 国产在线观看一区精品| 啊嗯不日本网站| 成人午夜天| 久久77777| 国产精品欧美日本韩免费一区二区三区不卡 | 国产美女免费| 国产91麻豆视频| 色老头综合网| 亚洲人成网站在线观看播放不卡| www.亚洲一区二区三区| 久草性视频| 亚洲无码熟妇人妻AV在线| 99这里只有精品6| 久久99国产乱子伦精品免| h网站在线播放| 91国语视频| 国产情精品嫩草影院88av| 欧美a在线看| 国产第一页免费浮力影院| 97成人在线视频| 久久综合九色综合97网| 天天综合网色中文字幕| 久久婷婷人人澡人人爱91| 免费午夜无码18禁无码影院| 国产成人高清精品免费软件|