999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器深度學(xué)習(xí)的智能材料預(yù)審模型構(gòu)建

2020-09-16 13:29:19周向明貝聿運(yùn)
科學(xué)與信息化 2020年14期
關(guān)鍵詞:深度學(xué)習(xí)

周向明 貝聿運(yùn)

摘要:近年來(lái),機(jī)器人過程自動(dòng)化(RPA)因代替人工操作電腦以實(shí)現(xiàn)業(yè)務(wù)自動(dòng)化而備受矚目。從業(yè)務(wù)流程自動(dòng)化(BPA)到機(jī)器人過程自動(dòng)4GRPA,商業(yè)領(lǐng)域基于規(guī)則自動(dòng)化業(yè)務(wù)流程,有效簡(jiǎn)化了企業(yè)運(yùn)營(yíng)并降低成本。本文探討了如何基于機(jī)器深度學(xué)習(xí)構(gòu)建智能材料預(yù)審模型,簡(jiǎn)化政務(wù)領(lǐng)域材料預(yù)審人力成本,以期為各地“一網(wǎng)通辦”線上線下實(shí)現(xiàn)申請(qǐng)材料預(yù)審智能化、自動(dòng)化提供可供借鑒參考的方法。

關(guān)鍵詞:智能材料預(yù)審;深度學(xué)習(xí);Faster R-CNN;OCR;NLP

隨著各地“一網(wǎng)通辦”工作的深入推進(jìn),越來(lái)越多的政務(wù)服務(wù)實(shí)現(xiàn)在線可辦。與此同時(shí),由于線上線下服務(wù)不同源、申請(qǐng)人業(yè)務(wù)不熟悉等原因,申請(qǐng)人容易提交不規(guī)范、不完備、無(wú)關(guān)聯(lián)的“無(wú)效電子材料”,導(dǎo)致用戶材料反復(fù)補(bǔ)正、在線申報(bào)效率較低。本文在通過引用深度學(xué)習(xí)技術(shù)、OCR技術(shù)和NLP技術(shù),構(gòu)建智能材料預(yù)審模型,推動(dòng)實(shí)現(xiàn)智能材料預(yù)審場(chǎng)景的落地應(yīng)用,有效減少用戶提交“無(wú)效材料”的情況,提升審批效率,增進(jìn)企業(yè)及群眾辦事便捷度和獲得感。

1智能材料預(yù)審要點(diǎn)與核心問題

1.1行政預(yù)審材料受理要點(diǎn)

在日常審批過程中,審核人員主要關(guān)注三個(gè)方面,即申請(qǐng)內(nèi)容的完備性、一致性和規(guī)范性。完備性是指申請(qǐng)人是否提供數(shù)量完整的材料,材料包含的內(nèi)容和要素是否全部涵蓋。一致性指申請(qǐng)材料與填報(bào)內(nèi)容是否一致,材料與材料之間的關(guān)聯(lián)信息是否一致。規(guī)范性指申報(bào)內(nèi)容和材料類型是否符合常規(guī)、常識(shí);申報(bào)內(nèi)容和材料的格式是否滿足申報(bào)條件和法律規(guī)章制度要求。

1.2智能材料預(yù)審需解決的兩個(gè)核心問題

針對(duì)審核人員的關(guān)注要點(diǎn)的分析和技術(shù)論證,要實(shí)現(xiàn)智能材料預(yù)審需重點(diǎn)解決兩個(gè)問題:一是如何提取申請(qǐng)人上傳附件材料中的關(guān)鍵信息;二是如何自動(dòng)鑒別非固定版式材料的申請(qǐng)內(nèi)容,如何自動(dòng)核驗(yàn)非固定版式材料的規(guī)范性。

(1)附件材料關(guān)鍵信息要素提取

針對(duì)申請(qǐng)附件材料的關(guān)鍵信息提取問題,本文分析常見的行政審核材料類型,提出相應(yīng)技術(shù)解決方案。常見的附件材料主要分為兩類:

2.2關(guān)鍵技術(shù)

(1)材料信息識(shí)別——基于深度學(xué)習(xí)的OCR模型構(gòu)建

1)固定版式材料:如證照類、圖紙類、照片類;承諾書、通知書、表格類等。這類材料格式比較固定,通過基于深度學(xué)習(xí)的OCR(光學(xué)字符識(shí)別)技術(shù)能夠?qū)崿F(xiàn)關(guān)鍵信息的快速準(zhǔn)確提取。

2)非固定版式材料:證明類(婚育證明、表格類等)、文檔類(告知承諾、判決書等),這類材料一般沒有有統(tǒng)一模板,需要針對(duì)每類材料進(jìn)行要點(diǎn)識(shí)別提取和分析建模,通過深度學(xué)習(xí)技術(shù)結(jié)合光學(xué)字符識(shí)別(OCR)技術(shù),快速完成歷史材料數(shù)據(jù)的關(guān)鍵信息標(biāo)注,自動(dòng)生成抽取模型。

(2)申請(qǐng)內(nèi)容信息處理

對(duì)于非固定版式材料申請(qǐng)內(nèi)容、材料的規(guī)范性辨別,本文采用自然語(yǔ)言處理技術(shù)(NLP)和規(guī)則模型算法,通過機(jī)器學(xué)習(xí)自動(dòng)處理大量重復(fù)性、基于規(guī)則的預(yù)審業(yè)務(wù)流程,模擬人工操作路徑,完成業(yè)務(wù)信息的查詢和校驗(yàn),自動(dòng)判斷申請(qǐng)內(nèi)容的規(guī)范性。

2智能材料預(yù)審模型構(gòu)建

2.1智能預(yù)審流程

本文構(gòu)建的材料智能預(yù)審流程如圖1所示。材料智能預(yù)審可分為線上自動(dòng)預(yù)審與線下輔助預(yù)審。當(dāng)申請(qǐng)人在線上提交材料時(shí),通過智能材料預(yù)審模型識(shí)別比對(duì),對(duì)申請(qǐng)人提交的材料進(jìn)行在線核驗(yàn),對(duì)申請(qǐng)人提交材料存在的錯(cuò)誤實(shí)時(shí)提醒。當(dāng)申請(qǐng)人在“綜合窗口”進(jìn)行業(yè)務(wù)辦理時(shí),通過OCR識(shí)別、掃描驗(yàn)證等方式將申請(qǐng)材料識(shí)別處理,基于材料智能預(yù)審模型識(shí)別比對(duì),輔助工作人員錯(cuò)誤告知申請(qǐng)人。

OCR技術(shù)在智能材料預(yù)審中的作用主要是信息識(shí)別提取,基于現(xiàn)有技術(shù)和材料預(yù)審涉及的OCR場(chǎng)景為受控場(chǎng)景,本文構(gòu)建了基于深度學(xué)習(xí)的OCR模型框架,模型架構(gòu)由四個(gè)部分組成,輸入材料圖像、基于Faster R-CNN受控場(chǎng)景文字定位、基于序列識(shí)別學(xué)習(xí)的文本識(shí)別、識(shí)別輸出結(jié)果。

1)基于Faster R-CNN的受控場(chǎng)景文字檢測(cè)

對(duì)于受控場(chǎng)景(如身份證、營(yíng)業(yè)執(zhí)照等)的文字檢測(cè),采用基于Faster R-CNN算法的關(guān)鍵字檢測(cè)。Famer R_CNN算法結(jié)構(gòu)由RPN(候選區(qū)域生成網(wǎng)絡(luò))和RCN(區(qū)域分類網(wǎng)絡(luò))兩個(gè)子網(wǎng)絡(luò)組成。RPN通過監(jiān)督學(xué)習(xí)的方法判斷候選框是否為目標(biāo),輸出結(jié)果為無(wú)標(biāo)簽的區(qū)域和粗定位結(jié)果。RCN引入類別概念,對(duì)候選區(qū)域進(jìn)行分類損失和位置回歸,輸出精細(xì)定位結(jié)果。Faster R-CNN整個(gè)網(wǎng)絡(luò)流程都能共享卷積神經(jīng)網(wǎng)絡(luò)提取的特征信息,可以通過多次檢測(cè)確定不同粒度的文本區(qū)域。

2)基于CNN序列學(xué)習(xí)的文本識(shí)別

基于序列學(xué)習(xí)的文本識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)分為三層:卷積層、遞歸層和解譯層。模型構(gòu)建過程如圖2所示,首先通過卷積層網(wǎng)絡(luò)神經(jīng)模型(CNN)提取字符特征,生成卷積特征圖;其次在遞歸層,利用基于雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BLSTM)的遞歸神經(jīng)網(wǎng)絡(luò)作為序列學(xué)習(xí)器,學(xué)習(xí)特征序列中字符特征和字符的先后關(guān)系,有效建模序列內(nèi)部關(guān)系;最后在解譯層,通過CTC(聯(lián)結(jié)主義時(shí)間分類器)操作將每一時(shí)刻的預(yù)測(cè)結(jié)果聯(lián)合起來(lái),去掉空白和重復(fù)的模式,就形成最終的序列預(yù)測(cè)結(jié)果文本“勞動(dòng)合同書”。

(2)材料信息處理—基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)

對(duì)于已經(jīng)識(shí)別提取的材料信息,需進(jìn)行文本語(yǔ)義分析。本文采用NLP最新算法BERT(Bidirectional EncoderRepresentations from Transformers),使政務(wù)領(lǐng)域材料預(yù)審中的關(guān)鍵信息抽取、材料預(yù)審合規(guī)性檢查等需要認(rèn)知參與的復(fù)雜任務(wù)實(shí)現(xiàn)智能化、自動(dòng)化的應(yīng)用效果。輸入表示

針對(duì)不同的輸入表示要求,可以在一個(gè)詞序列中表示單個(gè)文本句或一對(duì)文本。對(duì)于給定的詞,表征由其對(duì)應(yīng)的詞表征(Token Embedding)、段表征(Segment Embedding)和位置表征(Position Embedding)三部分求和組成。

1)預(yù)訓(xùn)練任務(wù)

本文引用一個(gè)下一句預(yù)測(cè)任務(wù)NSP(Next SentencePrediction)進(jìn)行句子之間關(guān)系理解模型的訓(xùn)練。訓(xùn)練語(yǔ)料從預(yù)審材料語(yǔ)料庫(kù)中抽取包括A和B的兩個(gè)句子進(jìn)行生產(chǎn),其中50%的概率是A是B的下一句,50%的概率是A是語(yǔ)料庫(kù)中的一個(gè)隨機(jī)句。NSP的任務(wù)是通過獲取句子間的信息預(yù)測(cè)A是否是B的下一句。

2)算法模型構(gòu)建

本文通過四個(gè)階段構(gòu)建BERT模型。

①開啟混合精度實(shí)現(xiàn)訓(xùn)練加速,使用混合精度訓(xùn)練可以加速訓(xùn)練過程并且減少顯存開銷;

②在通用型材料預(yù)審語(yǔ)料基礎(chǔ)上加入個(gè)性化材料語(yǔ)料進(jìn)行模型訓(xùn)練;

③預(yù)訓(xùn)練過程中融入政務(wù)知識(shí)圖譜中的實(shí)體信息,這種基于符號(hào)語(yǔ)義的計(jì)算模型,可以為BERT提供先驗(yàn)知識(shí),使其具備一定的常識(shí)和推理能力;

④在業(yè)務(wù)數(shù)據(jù)上進(jìn)行微調(diào),支持不同類型的業(yè)務(wù)材料預(yù)審。

(3)規(guī)則算法構(gòu)建

規(guī)則應(yīng)用算法指對(duì)材料格式糾錯(cuò)、文字糾錯(cuò)、表單糾錯(cuò)、材料與材料之間的關(guān)系校驗(yàn)功能進(jìn)行算法設(shè)計(jì)和加工,每個(gè)功能點(diǎn)都有獨(dú)立的算法和規(guī)則。

1)兩項(xiàng)關(guān)鍵工作——規(guī)則和數(shù)據(jù)

“規(guī)則”和“數(shù)據(jù)”是實(shí)現(xiàn)材料智能預(yù)審兩項(xiàng)關(guān)鍵工作。規(guī)則是通過深度學(xué)習(xí),梳理不同類型材料的預(yù)審規(guī)則,構(gòu)建預(yù)審規(guī)則模型;數(shù)據(jù)是指基于政務(wù)知識(shí)圖譜產(chǎn)生的大量材料文本數(shù)據(jù),基于前面輸入的預(yù)審規(guī)則模型進(jìn)行大規(guī)模樣本訓(xùn)練。完成上述兩項(xiàng)工作后,從召回率和準(zhǔn)確率兩個(gè)方面,對(duì)于系統(tǒng)智能預(yù)審效果進(jìn)行衡量,以提升模型計(jì)算能力。通過規(guī)則的梳理分析,訓(xùn)練樣本的不斷輸入,持續(xù)地反饋和優(yōu)化算法,逐步提高召回率和準(zhǔn)確率。

2)業(yè)務(wù)規(guī)則分類

材料預(yù)審由于涉及的業(yè)務(wù)及材料類型多種多樣,還需對(duì)不同類型材料和不同審批事項(xiàng)的業(yè)務(wù)規(guī)則進(jìn)行分類。本文應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為典型的監(jiān)督學(xué)習(xí)方法,基于遷移學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)。模型遷移通過固定網(wǎng)絡(luò)特定層次的參數(shù),用目標(biāo)域的數(shù)據(jù)來(lái)訓(xùn)練其他層次。對(duì)于業(yè)務(wù)規(guī)則分類任務(wù)而言,首先根據(jù)分類的類別數(shù)修改網(wǎng)絡(luò)輸出層,接著固定較淺的卷積層,基于業(yè)務(wù)標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)倒數(shù)若干層參數(shù)。相比于直接提取圖像的高層語(yǔ)義特征來(lái)進(jìn)行監(jiān)督學(xué)習(xí),采用分階段的參數(shù)遷移對(duì)原始域與目標(biāo)域間的差異性更健壯。

基于深度學(xué)習(xí)的業(yè)務(wù)規(guī)則分類與檢測(cè)方法替代傳統(tǒng)機(jī)器學(xué)習(xí)方法,在構(gòu)建的預(yù)審模型與遷移學(xué)習(xí)的基礎(chǔ)上,通過從海量數(shù)據(jù)中的持續(xù)學(xué)習(xí),實(shí)現(xiàn)了材料預(yù)審場(chǎng)景落地。

3結(jié)束語(yǔ)

隨著各地政府越來(lái)越多的探索“秒批”、“無(wú)人干預(yù)自動(dòng)審批”的實(shí)現(xiàn),本文研究的基于深度學(xué)習(xí)構(gòu)建智能材料預(yù)審模型的方法,對(duì)政務(wù)領(lǐng)域?qū)崿F(xiàn)材料智能預(yù)審具有重要意義,也為審批智能化提的后續(xù)發(fā)展提供參考借鑒的方法。同時(shí),本研究也存在以下不足:一是模型運(yùn)轉(zhuǎn)效能還需通過實(shí)驗(yàn)應(yīng)用進(jìn)行檢測(cè),二是模型應(yīng)用落地的場(chǎng)景還有待豐富。這些不足也構(gòu)成了本文后續(xù)的研究方向。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 超薄丝袜足j国产在线视频| 好久久免费视频高清| 国产偷国产偷在线高清| 一本一道波多野结衣av黑人在线| 国产一二三区视频| 国产在线97| 亚洲精品图区| 色网站免费在线观看| 欲色天天综合网| 日本精品中文字幕在线不卡| 国产精品手机视频一区二区| 色久综合在线| 色屁屁一区二区三区视频国产| 91久久夜色精品国产网站| 欧美中文字幕在线二区| 国产你懂得| 热伊人99re久久精品最新地| 日本人妻丰满熟妇区| 亚洲av成人无码网站在线观看| 91外围女在线观看| 午夜福利在线观看入口| 久久精品只有这里有| 色妞www精品视频一级下载| 国产区福利小视频在线观看尤物| 亚洲天堂免费| 国产9191精品免费观看| 中文字幕亚洲乱码熟女1区2区| 一本大道香蕉久中文在线播放| 2020国产精品视频| 伊人久久青草青青综合| 免费观看亚洲人成网站| 不卡无码h在线观看| 亚洲国产天堂久久综合226114| 97av视频在线观看| 欧美精品在线观看视频| 在线免费无码视频| 国产粉嫩粉嫩的18在线播放91| 日韩毛片基地| 亚洲人成网址| 999在线免费视频| 婷婷激情五月网| 综合成人国产| 女人爽到高潮免费视频大全| 久久特级毛片| 五月天天天色| 亚洲高清无在码在线无弹窗| 日韩美一区二区| 免费AV在线播放观看18禁强制| 91精品国产无线乱码在线| 国产一区二区三区免费观看| a毛片在线免费观看| 91av成人日本不卡三区| 无码专区第一页| 亚洲欧洲日韩综合色天使| 国产网站免费| 国产毛片久久国产| 国产乱人激情H在线观看| 69av在线| AV色爱天堂网| 91欧美亚洲国产五月天| 国产精品极品美女自在线网站| 亚洲一区二区三区国产精品| 日本欧美精品| 91口爆吞精国产对白第三集| 成人综合在线观看| 黄色国产在线| 91黄视频在线观看| 91精品伊人久久大香线蕉| 91在线精品免费免费播放| yjizz视频最新网站在线| 伊伊人成亚洲综合人网7777| 搞黄网站免费观看| 日韩国产亚洲一区二区在线观看| 免费毛片a| 极品国产一区二区三区| 永久免费无码成人网站| 欧美精品在线观看视频| 四虎永久在线精品国产免费 | 欧美午夜视频在线| 97人妻精品专区久久久久| 中文字幕欧美成人免费| 热99re99首页精品亚洲五月天|