胡赫薇 龔潤(rùn)澤 葉慕戎


摘 要:金融文書(shū)的自然語(yǔ)言處理是目前金融科技領(lǐng)域的研究熱點(diǎn),相關(guān)研究大多數(shù)著眼于傳統(tǒng)的分詞和基于機(jī)器學(xué)習(xí)的語(yǔ)義場(chǎng)景分析這種有監(jiān)督的學(xué)習(xí)方法,難以滿(mǎn)足當(dāng)前金融監(jiān)管行業(yè)快速處理金融文本的需求。針對(duì)這一問(wèn)題,本文構(gòu)建了一個(gè)基于多層LSTM的中文金融文書(shū)摘要自動(dòng)生成算法框架,通過(guò)Seq2Seq模型,基于注意力機(jī)制的強(qiáng)化學(xué)習(xí)框架,發(fā)現(xiàn)最優(yōu)策略,對(duì)文本進(jìn)行編碼、解碼,從LSTM編碼器中抽取文本序列并輸出摘要。實(shí)驗(yàn)結(jié)果表明,多層LSTM結(jié)構(gòu)相比傳統(tǒng)RNN的ROUGE值更高,具有較好的學(xué)習(xí)能力。
關(guān)鍵詞:金融文本;摘要自動(dòng)生成;序列到序列;注意力機(jī)制
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)32-0018-03
Research?and?Implementation?of?Automatic?Generation?of
Financial?Document?Abstract?Based?on?Deep?Learning
HU?Hewei GONG?Runze YE?Murong
(Shanghai?Lixin?University?of?Accounting?and?Finance,Shanghai?201209)
Abstract:?The?natural?language?processing?of?financial?documents?is?a?research?hotspot?in?the?field?of?financial?science?and?technology?at?present.?Most?of?the?relevant?researches?focus?on?the?supervised?learning?method?of?traditional?word?segmentation?and?semantic?scenario?analysis?based?on?machine?learning,?which?is?difficult?to?meet?the?needs?of?the?current?financial?regulatory?industry?to?process?financial?documents?quickly.?To?solve?this?problem,?this?paper?constructed?an?algorithm?framework?based?on?multi-layer?LSTM?(short?and?long-term?memory?network)?for?automatic?generation?of?Chinese?financial?document abstracts,?and?used?Seq2Seq?(sequence?to?sequence)?model.?The?experimental?results?show?that?the?multi-layer?LSTM?structure?has?better?learning?ability?than?the?traditional?RNN?(cyclic?neural?network)?in?terms?of?the?value?of?the?rule?(semantic?recovery).
Keywords:?financial?text;automatic?summary?generation;sequence?to?sequence;attention?mechanism
1 研究背景
隨著全球金融高度信息化的大趨勢(shì),金融文本信息正在急速膨脹,金融從業(yè)者想要快速且全面地找到所需信息并閱讀理解難度較大,所以,金融文書(shū)的精準(zhǔn)語(yǔ)義摘要生成算法已成為金融科技領(lǐng)域的研究熱點(diǎn)。2011年,Mihalcea提出了TextRank和LexRank算法。這兩個(gè)算法都基于重要性和數(shù)量的假設(shè),實(shí)現(xiàn)無(wú)監(jiān)督算法進(jìn)行關(guān)鍵詞和關(guān)鍵句的抽取。2014年,谷歌團(tuán)隊(duì)和Yoshua?Bengio提出了Seq2Seq的框架,包含編碼與解碼過(guò)程。在編碼過(guò)程中,該框架實(shí)現(xiàn)了輸出可變長(zhǎng)度序列的功能,將深度學(xué)習(xí)的應(yīng)用范圍從傳統(tǒng)的分類(lèi)回歸任務(wù)擴(kuò)展到文本生成領(lǐng)域,是深度學(xué)習(xí)發(fā)展歷史上的里程碑[1-5]。
本文提出基于序列對(duì)序列和注意力機(jī)制的處理框架,雙向LSTM作為處理單元的文本自動(dòng)摘要處理模型,解決了語(yǔ)義包含性和通用性的問(wèn)題。……