999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Seq2Seq中文文本摘要在金融知識引擎系統中的應用

2022-10-06 04:13:40谷葆春
計算技術與自動化 2022年3期
關鍵詞:語義文本信息

谷葆春

(北京信息科技大學 計算機學院,北京 100101)

對于大多數中小投資者來說,由于信息獲取的滯后性和非系統性,在和專業機構、游資以及很多量化資金的較量中,經常成為被收割的對象,難以獲取滿意的收益。因為在投資市場公司數量眾多,散戶的精力有限,缺少投研能力,因此沒辦法做到了解和熟悉大部分公司的基本面。

美國的AlphaSense公司已經開發出新一代的金融知識引擎系統,它可以從新聞、財報各種行業網站等獲取大量數據、信息、知識形式的“素材”,然后通過自己的邏輯和世界觀將這些素材組織成投資決策。國內目前還沒有類似的系統,因此本文為中小投資者提供了一種在短時間內獲取公司較多有價值投資信息的方法。

使用Seq2Seq深度學習模型,可以通過在Encoder端輸入新聞、財報、公告和研報等數據,在Decoder端輸出相關重要信息的摘要,從而為投資者節省大量的時間,并為他們的買入和賣出提供輔助決策。

1 文本摘要

文本摘要是對特定的文本信息,實現抽取或概括其主要含義,同時能保留原文本重要內容的一種文本生成任務。文本摘要技術一方面能對文本進行簡潔、準確的總結,節省用戶閱讀和獲取信息的時間,另一方面傳達了原文內的主要內容,保證了用戶獲得信息的有效性。

摘要分為抽取式和生成式兩種。抽取式摘要主要從文中選取跟中心思想最接近的一個或幾個句子,組成最后的摘要;而生成式摘要則是在理解原文內容的基礎上,用自己的語言概括原文的核心思想,從而達到生成最后摘要的目的。

2 生成式文本摘要的主要方法

(1)早期的LSTM方法;

(2)早期的Encoder-Decoder模型,如lstm2lstm;

(3)Seq2Seq + Attention模型;

(4)Self-Attention和Transformer,自注意力機制;

(5)預訓練+微調,例如Bert與PreSumm等。

近兩年雖然Bert模型在許多摘要任務中有著較為出色的表現,但Seq2Seq + Attention模型仍然有自己的應用場景。考慮到普通用戶的資源情況,本文采取Seq2Seq + Attention模型實現相關金融數據的摘要處理方式。

3 Seq2Seq模型

3.1 Seq2Seq模型

Seq2Seq即Sequence to Sequence,也就是序列到序列的意思,模型結構如圖1所示。在文本摘要中輸入序列為新聞或財報等原文,而輸出序列為生成的原文摘要。Seq2Seq模型拼接了兩個RNN系統的模型,分別稱為模型的編碼器Encoder部分和解碼器Decoder部分。Encoder將變長源序列映射為定長語義向量并組合在一起,而Decoder將該向量映射回變長目標序列。

圖1 Seq2Seq模型

給定輸入序列=(,,…,),編碼器將其轉換成一個向量:

=(,,…,)

(1)

=(,-1)

(2)

是時刻的隱層狀態,由當前輸入和上一個單元的輸出共同決定,是由整個序列的隱層向量得到的向量表示,由最后一個編碼器輸出,是解碼器從編碼器接收的唯一信息。

解碼可以看作編碼的逆過程,根據給定的語義向量和之前已經生成的輸出序列,,…,-1來預測下一個輸出的單詞。

=argmax()=

(3)

(|,,…,-1,)=(-1,,)

(4)

表示時刻預測的結果,是解碼器Decoder的隱藏層。

3.2 加入Attention機制

Encoder-Decoder模型很經典,但其局限性在于編碼和解碼之間的唯一聯系是固定長度的語義向量,即編碼器要將整個序列的信息壓縮進一個固定長度的向量中。這有兩個弊端,一是語義向量無法完全表示整個序列的信息,壓縮損失了一定的數據。二是先輸入的內容攜帶的信息會被后輸入的信息稀釋掉。輸入序列越長,問題越嚴重。這樣在解碼的時候一開始沒有獲得輸入序列足夠的信息,解碼時準確率也會打一定折扣。

為了解決上述問題,Attention模型被提出。Attention模型在輸出的時候,產生一個注意力范圍表示接下來輸出時重點關注的輸入序列部分,再根據關注的區域來產生下一個輸出,如此反復。Attention模型增加了模型的訓練難度,但它提升了文本生成的效果。

在解碼時,由提示當前輸出對應的源序列的隱層狀態,而不是在每步解碼中都用同一個語義向量,用表示每步使用的語義向量后如下:

p(|,,…,-1,)=(-1,,)

(5)

=(-1,-1,)

(6)

其中,為某一步解碼時的隱層狀態,引入了相應信息,為激活函數。

代表對源序列信息的注意力,對不同輸入的隱層狀態分配不同的權重,由于輸入輸出序列往往長度不相同,此步還起到了對齊作用,整個構成了一個alignment model,定義():

(7)

其中為解碼階段的第步,為源序列的第個輸入。

引入注意力機制后,輸入的隱層狀態不再經過整個源序列編碼過程的傳遞,而直接作用于語義向量,減少了信息損失。

的定義為:

(8)

一個softmax層可以將歸一化為是注意力得分,即量化輸入的隱層狀態被第個輸出分配的注意力,定義為:

=tan(-1+)

(9)

其中,tan為激活函數,是將輸入輸出隱層狀態進行線性組合的注意力得分計算方式,另外還有dot product等不同的設計,但最終是都為了讓相關輸入的隱層狀態與當前輸出的隱層狀態有更高的得分。

擁有更高注意力得分的輸入,在語義向量的計算中有更高權重,從而為當前輸出的引入了主要的信息,解碼過程的語義向量不再是無差別,而是基于源序列與目標序列的依賴關系建模得到。

模型訓練時,通過反向傳播讓輸出更接近結果,更新隱層狀態與注意力函數的參數。

總而言之,通過訓練,注意力機制可以對關系較大的輸入輸出賦以較大權重(兩者在轉換中對齊的概率更大),對位置信息進行了建模,從而減少了信息損失,能專注于更重要的信息進行序列預測。

4 Seq2Seq模型中文摘要的算法

step_1:數據預處理

數據集采用的是網上的新浪微博數據,每篇文章由正文和標題組成,標題作為正文數據的摘要,總數量為45萬個樣本,選取其中的40萬個數據作為訓練數據。每篇正文平均字數為45個字,字數標準差為11,最多字數為513,最少字數為14。標題平均字數為11個字,字數標準差為3,最多字數為34,最少字數為2。

使用jieba分詞器對正文和標題數據進行分詞操作,然后在正文中去掉停用詞,標題中的停用詞則不用去除,因為去掉停用詞之后,標題的意思會變得不連貫。

對標題數據加上開始標記“GO”和結束標記“EOS”。對長度不同的正文數據,以最長長度為基準,長度不足的填充數據“PAD”。

step_2:使用詞向量

使用維基百科中文詞向量實現中文詞匯到向量的映射,該詞向量表有35萬個詞語。有些詞語沒有出現在該表中,則對這些詞語(UNK)需要單獨構造詞向量。

正文中如果有過多的UNK,或是長度超過設置的最大長度(80),則該數據會被去除。因為過長的正文數據會造成生成的摘要效果不佳。

step_3:建立模型

先構造基本LSTM單元,其隱層結點的數量為256個,后面接一個dropout層。采用雙向RNN網絡,把2層LSTM基本網絡堆疊在一起,形成編碼Encoder層。雙向RNN網絡是當前的輸出除了與前面的序列有關系,與后面的序列也有關系的網絡形式。

對于Decoder層的構造,首先是把sequence_length等參數傳進來,然后同樣構造2層RNN網絡,在訓練時,直接將標題數據作為輸入,而不是將上一步的結果作為輸入。而在測試時,則使用上一步的結果作為輸入。

step_4:訓練模型

指定好Scope域,保證訓練好的權重參數,可以在測試時重復使用。訓練的各項參數分別是每次的batch_size為64,學習率為0.0005。損失函數采用tensorflow的sequence_loss判斷預測結果與目標值是否一致。

step_5:測試數據及結果評測

測試時,首先恢復之前的Seq2Seq模型,讀取保存的session,輸入測試數據,測試數據采用樣本數據中剩下的5萬個數據,將網絡前向傳播執行一次,最后生成的摘要數據保存在摘要文件中。中文文本摘要采用LawRouge評價器,它支持Rouge-1、Rouge-2以及Rouge-L三種評價。使用files_rouge.get_scores方法對模型輸出摘要文件列表和參考摘要文件列表進行評價,再用三個評價的加權平均作為最終評價:0.2*scores['rouge-1']['f']+ 0.4*scores['rouge-2']['f']+ 0.4*scores['rouge-l']['f']。 最后的結果為0.8949,生成的摘要結果滿足了用戶的需求。

5 結 論

對于投資者來說,及時、準確地獲取公司基本面和消息面的信息,才能對股票等投資標的下一步的走勢和節奏進行合理的判斷。本文采用Seq2Seq + Attention模型,對公司新聞、研報和財報等信息實現自動摘要生成,總體結果令人滿意。后續的改進方向是能形成自己的邏輯和世界觀,從而將這些素材組織成投資決策,對于摘要的準確性提高則可以考慮結合Bert模型。

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 性做久久久久久久免费看| 亚洲一区二区三区国产精华液| 青青草原国产| 91日本在线观看亚洲精品| 国产成人精品视频一区二区电影| 青青草综合网| 91福利在线看| 欧美一区二区精品久久久| 天天操精品| 99热精品久久| 色综合中文| 99re视频在线| www.99精品视频在线播放| 99re在线视频观看| 亚洲国产成人在线| 鲁鲁鲁爽爽爽在线视频观看| 中文无码精品A∨在线观看不卡| 欧美精品成人| 国产成人一区免费观看 | 国产精品香蕉在线| 一级毛片免费高清视频| 日本黄色a视频| 动漫精品中文字幕无码| 日日拍夜夜操| 91免费国产高清观看| 国产免费羞羞视频| 成年午夜精品久久精品| 国产免费a级片| 直接黄91麻豆网站| 三级毛片在线播放| 国产精品99久久久| 国产无码精品在线| 欧美日韩亚洲国产| 日本AⅤ精品一区二区三区日| 国产老女人精品免费视频| 国产精品粉嫩| 在线观看无码a∨| 波多野结衣一区二区三区四区视频| 日本91在线| 99人体免费视频| 国产国模一区二区三区四区| 中文字幕久久精品波多野结| 99九九成人免费视频精品 | 亚洲国产理论片在线播放| 日韩无码视频专区| 女人av社区男人的天堂| 在线观看国产精美视频| 91亚洲精品第一| 国产福利小视频在线播放观看| 日本一本在线视频| 十八禁美女裸体网站| 久久亚洲黄色视频| 欧美国产日韩一区二区三区精品影视| 欧美精品高清| 久久亚洲美女精品国产精品| 日本欧美在线观看| 午夜国产精品视频| 国产亚洲精| 日本免费一级视频| 久久青草精品一区二区三区| 欧美色伊人| 中文无码精品a∨在线观看| 国产啪在线91| 欧美国产三级| 久久免费看片| 天堂网亚洲系列亚洲系列| 国产永久在线观看| 这里只有精品免费视频| 国产午夜小视频| 综合成人国产| 在线播放精品一区二区啪视频| 国产乱码精品一区二区三区中文| 国产真实乱子伦精品视手机观看| 日韩精品久久久久久久电影蜜臀| 97se亚洲综合在线| 亚洲性影院| 国产午夜一级毛片| 欧美人人干| 91免费在线看| 亚洲天堂首页| 91国语视频| 性色在线视频精品|