999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的財務機器人自動撰文場景研究

2021-04-16 07:00:52孟志剛吳云偉姜宇杰
長沙大學學報 2021年2期
關鍵詞:文本模型

孟志剛,吳云偉,姜宇杰

(長沙學院計算機工程與應用數學學院,湖南 長沙 410022)

電力企業會計工作面臨著諸多困難和挑戰[1],會計模式亟待創新。部分企業的財務人員雖然具有相關從業資格,但因缺乏工作經驗或對會計職責的正確認識,做出的財務報告質量較低;同時,部分企業的會計人員甚至缺乏基本的道德與法律意識,出現財務造假等違規行為,這些都導致企業在財務人員的培養上付出更高的成本[2]。此外,企業財務報表編輯煩瑣、機械,繁重的壓力促使財務人員難以按時上交中期表,影響企業決策的進行,且紛繁復雜的信息常會使得財務人員撰寫財務報告時顧此失彼,出現對現金流量表述過于詳細的情況,導致財務報表中很多周期性和季節性的信息無法被表露出來,不能有效突出重點,造成財務報告的信息量不足[3]。

為解決以上問題,本文提出了基于深度學習的財務機器人的設想,希望通過信息化手段實現自動撰文,旨在協助財務人員解決以往財務報告中所出現的問題,節省企業培養成本,減輕工作壓力,提高工作效率。

采用深度學習技術產生語料是業界常用方法,如循環神經網絡(Recurrent Neural Networks,RNN)是將序列數據作為輸入,順著序列的傳播方向進行鏈式遞歸的遞歸神經網絡[8]。自然語言數據是典型的序列數據,所以對序列數據學習有一定優勢的RNN在NLP(Natural Language Processing)問題中得以應用。RNN具有分布式表達、能在序列預測中明確地學習和利用背景信息、長時間范圍內學習和執行數據的復雜轉換能力,因此,RNN在對序列的非線性特征進行學習時具有一定優勢[9]。常見的RNN有長短期記憶網絡(Long Short-Term Memory,LSTM)和雙向循環神經網絡(Bidirectional RNN,Bi-RNN)。

綜上所述,本文將撰寫報告建模為基于深度學習的文本自動生成問題模型,分別選擇深度學習算法中的LSTM算法和GRU算法進行建模并進行比較。實驗表明,在大規模語料庫的基礎上,模型生成的文本涵蓋的信息更加全面,與人工生成的文本意思更相近。

1 問題描述

為提高電力企業報告質量,減輕電力企業財務人員工作壓力,本文提出了基于深度學習的財務機器人自動撰文的模型,財務報告的撰寫目標是構建一個文本生成算法,此算法接收大規模語料庫句子輸入,經計算后輸出關聯句子,并找出輸入和輸出之間的對應關系,自動從語料庫中獲取語義和語法知識,模擬人工寫作來生成財務報告。本文分別使用了LSTM算法和GRU算法進行算法開發,并對兩種算法的效能進行比較評估。

2 基于深度學習的文本生成技術

文本生成技術分為文本到文本的生成、數據到文本的生成和圖像到文本的生成三類。本文所討論的是文本到文本的生成,日常在社交媒體中見到的“機器人寫作”“人工智能寫作”“自動對話生成”“機器人寫古詩”等,都屬于文本生成的范疇。近二十年來,學界都是使用高維稀疏的特征,通過機器學習方法來訓練模型。隨著深度學習技術的突飛猛進,稠密矩陣表征的方法使自然語言處理任務得到更好的解決,詞向量技術(vector to vector,Vec2Vec)的發展,增廣了深度學習技術在自然語言處理中的應用。深度學習應用在文本生成中就是將生成文本的過程看成是生成動作,而且深度學習模型需要根據相應的環境信息來學習文本生成的知識。

基于RNN的文本生成算法是當前研究的主流。相比一般的神經網絡來說,RNN能夠更好地處理序列變化的數據,比如某個單詞的意思會因為上文提到的內容不同而有不同,RNN可以很好地解決這種問題,在此基礎上,有研究將RNN的隱藏層數量控制在1500 個,使得生成文本的效果得到了極大的提升。還有研究基于RNN算法自動生成小語種詩歌,但缺點是需要花費大量時間,并且生成的效果不夠好。

原則上來說,足夠大的RNN應該足以生成任意復雜度的序列。但是,實際上,標準RNN無法長時間存儲過去輸入的信息。往往是網絡結構太深,造成網絡權重不穩定,從而導致梯度消失和梯度爆炸等問題,而LSTM就是為了解決長序列訓練過程中梯度消失和梯度爆炸的問題而構建出的特殊的RNN。相比于普通的RNN,LSTM能夠在更長的序列中有更好的表現,還能更好地存儲和訪問信息,將LSTM單元作為隱層單元構建RNN,并采用字符級語言模型縮小了解空間,極大地提升了模型的效能和文本生成的效果。

2.1 基于LSTM的文本自動生成模型

2.1.1 預處理

定義序列長度、正向序列長度,創建存儲提取句子的列表,存儲每個句子的下一個字符(即預測目標),創建一個字典,主要以訓練文章中的每一個字符為鍵。

2.1.2 模型構造

本文提出的基于LSTM的文本自動生成模型是以句子作為輸入,通過LSTM網絡獲取特征,最后通過全連接層(Dense層)將提取的特征輸入損失層。使用交叉熵損失函數得到損失值后,用RMSProp算法進行神經網絡權重的優化。如圖1所示。

圖1 基于LSTM的文本自動生成模型

此模型由以下結構組成:

(1)X表示三階張量,主要有句子數、序列長度和字典長度。序列長度就是句子的長度,字典長度是指語料庫中不重復的字的個數。

(2)Y表示二階張量,主要有句子數和字典長度。

(3)基礎模型創建:通過Keras來構建模型Sequential。

(4)LSTM層:通過model.add(layers.LSTM(256, input_shape=(maxlen, len(chars))))來創建模型的第一層,為長短期記憶網絡層,其中每一批輸入的尺寸為(256,maxlen,len(chars))。

(5)Dense層:通過深度學習框架Keras的代碼 model.add(layers.Dense(len(chars), activation='softmax'))來創建模型的第二層,主要定義為語料中所有不重復的字符的總數個節點,以及使用softmax激活函數的神經層。

(6)優化器:在這里使用的是RMSProp 優化器。 RMSProp算法計算了梯度的微分平方加權平均數。此種做法有利于消除大幅度擺動的方向,用于修正擺動幅度,減小各個維度的擺動幅度。RMSProp優化算法框架如下:

(a)計算目標函數關于當前參數的梯度:

(b)根據歷史梯度計算一階動量和二階動量:

一階動量mt,二階動量Vt,Hinton建議設定超參數β1為 0.9,學習率a為10-3。

(c)計算當前時刻的下降梯度:

a是實際的學習率(也即下降步長)是實際的下降方向,ηt是下降的梯度。

(d)根據下降梯度進行更新:

(7)損失函數:在該模型中,主要使用的是categorical_crossentropy(交叉熵損失函數),交叉熵損失用來評估當前訓練得到的概率分布與真實分布的差異情況。交叉熵的值越小,兩個概率分布就越接近,它刻畫的是實際輸出概率與期望輸出概率的距離,公式如下:

y為期望的輸出,y※為神經元實際輸出。

(8)模型訓練:以X為輸入數據,Y為標簽,其中batch_size設置為512來進行為期10輪的訓練。

2.2 基于GRU的正反序列文本自動生成模型

2.2.1 預處理

定義序列長度、正向序列長度、反向序列長度,創建存儲提取句子的列表,存儲每個句子的下一共字符(即預測目標),創建一共字典,主要以訓練文章中的每一個字符為鍵。

2.2.2 模型構造

本文提出的基于GRU的正反序列的基礎神經網絡模型(見圖2)是以句子的正序與反序兩種序列作為數據輸入網絡。網絡模型由三縱列組成,第一縱列接收句子的正序序列,詞嵌入(Embedding)后通過GRU單元獲取特征。第二、三縱列分別接收正、反序列,都是詞嵌入后卷積、池化提取特征。最后三個縱列的輸出全部拼接后,經過全連接層輸入損失層。

此模型由以下結構組成:

圖2 基于GRU的正反序列的基礎神經網絡模型

(1)NormalⅠnput為二階張量,張量內容為(句子數,正向序列長度)。訓練時,假若語料庫內容為“我是中國人民的好干部”,則NormalⅠnput的內容為[“我是中”“是中國”“中國人”“國人民”],輸入層的數據通過循環遍歷往下層輸入數據。

(2) ReverseⅠnput為二階張量,張量內容為(句子數,反向序列長度)。訓練時,假若語料庫內容為“我是中國人民的好干部”,則ReverseⅠnput的內容為[“的民人”“好的民”“干好的”“部干好”],此層的數據通過循環遍歷往下層輸入數據。

(3) 第一縱列:第一縱列以Embedding作為該縱列的第一層,它的輸入是一階張量,長度為正向序列長度,輸出張量為(字典長度,64,正向序列長度)。該層的輸出層為GRU層,通過layers.GRU(128,return_sequences=True)(model_1)來構建第一縱列的輸出層,該縱列的作用是返回所有GRU單元的輸出。

(4) 第二縱列:第二縱列的第一層為Embedding層,它的輸入是一階張量,長度為反向序列長度,輸出張量為(字典長度,64,反向序列長度);通過該層轉換之后的數據再進入該層的第二層Conv1D層,該層的激活函數為relu,通過激活后的該層寬度默認為第一層Embedding的維度之后便進入該縱列的第四層Maxpool1D層(1D輸入的最大池化層),通過在這層進行數據最大池化之后便按照之前兩層進行返回。

(5) 第三縱列:第三縱列的第一層Embedding層的長度為正向序列長度,與第二縱列相對應,該層的模型與第二縱列是完全一樣的卷積、池化層,只是其長度轉換為了反向序列長度,并且輸入的數據與第一縱列相同,通過兩個一樣的層,來進行正反向一同學習詞的前后概率,進而達到文本生成的效果。

本文基于GRU的文本自動生成模型(見圖3)采取上文提出的基礎模型,通過交叉熵損失函數計算損失值,采用RMSProp優化器進行神經網絡權重的優化。

圖3 基于GRU的文本自動生成模型

此模型由以下結構組成:

(1)基于GRU的基礎神經網絡模型創建:通過Keras來構建上面的三縱列的神經網絡模型進行訓練。

(2)Y為一維張量,主要有句子數。訓練網絡時,其內容是一個個的用來檢驗預測結果的單字;訓練時,假若語料庫內容為“我是中國人民的好干部”,則Y的內容為[“國”“人”“民”“的”]。

(3)優化器:此處同樣使用RMSProp優化器,學習率同為10-3。

(4)損失函數:該模型主要使用的是數字編碼,因此使用的損失函數為sparse_categorical_crossentropy交叉熵損失函數,它與categorical_crossentropy一樣都是用于衡量真實分布與訓練分布的差值,只不過前者接收數字編碼,后者接收one-hot編碼,在此不贅述公式。

(5)模型訓練:通過以X作為三層的輸入數據,Y為標簽,其中batch_size為128來進行為期10 輪的訓練。

3 文本自動生成技術對比與分析

文本自動生成技術主要采用兩種深度學習方法進行實驗對比,分析結果如下。

3.1 數據來源

文本自動生成訓練數據由電力公司A提供,主要提供的數據集是日常撰寫的電力報告,根據已提供的數據,進行模型訓練,實現文本自動生成。

3.2 實驗過程

本文中,分別分析了基于LSTM和GRU的文本生成方法,在LSTM和GRU的算法中,使用相同的初始句:在較多高度重復的手工操作,耗費大量的人力和時間。手工處理存在,但可以從結果中看到,基于LSTM的模型輸出的結果可以生成一些連續的句子,但這些句子不通順,如表1所示。這可能是因為LSTM更適合運用在長結構網絡中的訓練,能保證信息不被丟失,但由于存在許多相似的句子,以及這些句子的上下文語境并不相同,模型容易越走越歪。

其中,LSTM模型輸入輸出如表1所示。

表1 LSTM模型輸入輸出

而基于GRU的正反序列算法是在LSTM基礎上進行改進得來,GRU花費的時間成本更低,同時對硬件計算能力的要求也更低,參數較LSTM也更少,可能正是這些原因,在實驗結果中,GRU算法結果中出現的非漢字也更多,句子更不通順,如表2所示。

表2 GRU正反序列模型輸入輸出

3.3 評價指標

由于生成的文本是供人閱讀的,所以評價的直觀方法是人主觀來評價句子是否通順、合理,較片面。所以本文還另外采取程序化的評價方法,從多方面對算法作用的效果進行對比[10]。

(1)BLEU指標

BLEU是由ⅠBM公司Kishore Papineni等人在2002年對機器翻譯的結果進行評價時提出的基于文本相似度的評價指標,原理是計算待評價譯文和一個或多個參考譯文間的距離。距離是文本間n元相似度的平均,n=1,2,3(更高的值似乎無關緊要)。也就是說,如果待選譯文和參考譯文的2元(連續詞對)或3元相似度較高,那么該譯文的得分就較高。BLEU指標計算如下式:

其中,BP表示懲罰項因子,乘法右邊表示n-gram精度的幾何加權平均,N一般取值為1~5,表示n-gram的權重,取值為

式(7)中懲罰項因子BP的取值如下:

兩個算法實現效果的BLEU指標對比結果如表3所示。

表3 生成100長度文本的BLEU指標對比

結果表明,簡單的LSTM算法比采用正反序列融合訓練的GRU算法效果更好,這里可能是因為LSTM模型一開始輸出的內容同輸入內容一樣,導致得分偏高,所以單靠自動化指標評價并不完善。

(2)人工主觀評價

對于兩個模型分別30 次輸出的語句進行人工打分,以語句通順和上下文相關為標準,進行人工評估,結果如表4所示。

表4 人工評測對比

4 總結

本文通過系統地分析文本自動生成問題的特點,提出了財務機器人自動撰文的問題,采用深度學習算法解決文本自動生成問題。由上述結果可知,直接采用LSTM神經元堆疊的辦法比GRU采取句子正反序列訓練更為簡單,可以有效地處理文本連續動作集的問題。因此,深度學習算法對文本自動生成具有重要意義。

5 展望

如果用小說作為語料庫來訓練以上的神經網絡,生成的文本語句語義將更加連貫,語句將更加通順。而采用電力公司A的多篇報告拼湊成的文本作為語料庫,訓練的神經網絡生成的文本效果不盡如人意。這可能是因為小說文本較通俗、連貫性強,神經網絡學習的任務比較簡單。而電力報告語義緊湊,用詞比較專業化,做數據工程的時候也沒有把各種序號、非語義的間隔符號除去,數據比較煩瑣。

因此,本研究可進行以下改進:

第一,清洗數據,保留報告中語句通順的部分,剔除無關符號。

第二,通過一句話來生成一段文字報告難度太大,通過若干關鍵詞來組合生成句子可能生成效果更好。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲无卡视频| 中国黄色一级视频| 一级毛片在线免费视频| 久久久亚洲色| 精品亚洲麻豆1区2区3区| 国产精品无码一二三视频| 亚洲第一视频免费在线| 亚洲最大情网站在线观看 | 免费人成又黄又爽的视频网站| 国产精品无码AV片在线观看播放| 国产精品嫩草影院视频| 亚洲一区二区三区香蕉| 女人av社区男人的天堂| 精品久久蜜桃| 日韩欧美中文字幕在线韩免费 | 欧美中文字幕无线码视频| 国产欧美日韩在线一区| 成人福利在线观看| 国产最新无码专区在线| 亚洲天堂网在线视频| 欧美成人综合在线| 成人a免费α片在线视频网站| 久久a毛片| 日本爱爱精品一区二区| 热这里只有精品国产热门精品| 青草视频网站在线观看| 亚洲丝袜中文字幕| 日韩精品毛片人妻AV不卡| 91久久偷偷做嫩草影院| 全部免费特黄特色大片视频| 国产超碰在线观看| 色偷偷一区二区三区| 欧美色视频在线| 尤物在线观看乱码| 国产精品区网红主播在线观看| 亚洲成人黄色在线| 2022国产无码在线| 国产一级α片| 伊在人亞洲香蕉精品區| 亚洲精品无码人妻无码| 91亚洲精选| 在线观看无码av免费不卡网站 | 精品人妻一区无码视频| 九色在线视频导航91| 幺女国产一级毛片| 亚洲国产午夜精华无码福利| 国产激情在线视频| 久青草网站| 人妻丰满熟妇αv无码| 日韩亚洲综合在线| 在线观看国产精品第一区免费| 国产小视频网站| 国产一区二区人大臿蕉香蕉| 日本免费a视频| 青青青亚洲精品国产| 精品久久国产综合精麻豆| 日韩欧美国产成人| 欧美黑人欧美精品刺激| 黄色免费在线网址| 极品国产在线| 久久人与动人物A级毛片| 毛片在线看网站| 国模粉嫩小泬视频在线观看| 国产成人久视频免费| 91麻豆精品国产91久久久久| 国产国拍精品视频免费看| 国产男人的天堂| 国产精品亚洲精品爽爽| 亚洲91精品视频| 亚洲手机在线| 青青草国产在线视频| 亚洲成aⅴ人在线观看| 亚洲天堂啪啪| 无码综合天天久久综合网| 一级香蕉人体视频| 国产男女免费视频| 夜夜操天天摸| 亚洲综合色区在线播放2019| 国产精品无码AV中文| 亚洲高清无码精品| 国产在线观看91精品| 亚洲无码电影|