999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖深度學習的金融文本多標簽分類算法

2022-04-18 10:56:08金雨澄王清欽苗仲辰林越峰項雅麗
計算機工程 2022年4期
關鍵詞:關聯語義文本

金雨澄,王清欽,高 劍,苗仲辰,林越峰,項雅麗,熊 贇

(1.復旦大學 計算機科學技術學院,上海 210438;2.上海市數據科學重點實驗室,上海 200438;3.上海金融期貨信息技術有限公司,上海 200120)

0 概述

在移動互聯網時代,金融新聞資訊成為人們高效獲取市場情報的主要途徑。然而隨著新聞數量的爆發式增長,如何準確地對金融文本進行分類用以精準推薦或輔助決策,成為亟待解決的問題。由于單條新聞文本常常同多個標簽相關聯,因此多標簽文本分類問題受到廣泛關注[1-3]。

二元關聯是解決多標簽問題最常用的思路[1-3]。二元關聯把多標簽分類轉化為多個二分類問題[4],每次針對一個標簽類別開展,即每次判斷樣本是否屬于某個類別。不同的標簽與文本中不同的特征有關。文獻[1]提出的CAML算法使用標簽注意力機制為每個二分類問題進行特征提取。然而,CAML使用固定窗口大小的卷積網絡融入上下文信息,導致模型只能提取固定長度的局部短語信息。文獻[2-3]提出的MSATT-KG和BiGRULWAN 算法分別使用密集連接卷積層和雙向門控循環網絡代替一維卷積層,從而關注到文本中不同粒度的上下文信息。文獻[5]提出的ZACNN 算法在CAML 的基礎上進一步融入標簽語義特征等先驗知識,以提升模型在小樣本場景下的性能表現。然而,這些工作都忽略了標簽之間的復雜依賴關系,二元關聯中多個二分類問題并不是相互獨立的。

圖深度學習[5-7]通過深度網絡刻畫了圖節點之間的關聯,其在蛋白質分子屬性推斷[8]、交通流量預測[9]、金融欺詐檢測[10]、新聞文本分類[11]等領域得到了成功應用。在多標簽文本分類中,也有一些工作通過圖深度學習刻畫了標簽層級結構。文獻[12-13]分別提出使用Tree-LSTM(Tree-structured Long Short Term Memory)網絡和圖卷積神經網絡(Graph Convolution Network,GCN)對標簽的層級結構和標簽語義描述進行編碼表示。上述方法都依賴于預先定義的標簽層級結構和豐富的標簽語義信息。然而,在金融領域,這樣的標簽結構信息獲取依賴于專業領域人員,對標簽劃分層級結構的代價很大,并且由于尾部標簽出現頻次較低,尾部標簽對應的二分類問題中正負樣本數量嚴重失衡,但上述工作難以直接處理這種數據的不均衡性問題。

本文通過建模金融文本多標簽分類中標簽之間的相關性,提出基于圖深度學習的金融文本多標簽分類算法,在不依賴于標簽層級結構等先驗知識的前提下,學習語義信息以建模標簽之間的復雜依賴關系。該算法根據原始數據集中的標簽分布構建標簽關聯圖,對新聞文本使用雙向門控循環網絡進行上下文語義嵌入,并將通過標簽注意力機制得到的文本特征表示作為圖上對應標簽節點的屬性信息,進一步使用圖神經網絡融合標簽之間的關聯與文本信息得到新聞的特征表征,利用多個線性層預測新聞文本在標簽空間中的概率分布。同時,為解決二元關聯中尾部標簽正負樣本嚴重不均衡的問題,選用非對稱損失函數[14]作為優化目標。

1 問題定義

給定一段新聞文本,經過分詞、去除停用詞等處理,將原始輸入文本轉換為字符序列d=[w1,w2,…,wm],其中:wi表示輸入序列中的第i個單詞;m表示輸入文本長度。標簽空間被定義為集合{l1,l2,…,lL},其中:L代表標簽空間中的標簽數量。每個新聞文本可能屬于一個或多個標簽,表示為標簽集合C。本文多標簽文本分類任務的目標是學習一個映射函數f(·),將字符序列映射為一個標簽集合C,即f(d)=C,0 ≤|C| ≤L。具體地,輸入新聞樣本d,對于每個標簽li,模型輸出該樣本屬于標簽li的概率,最終根據輸入樣本關于L個標簽的概率構造輸出標簽集合C。

2 基于圖深度學習的多標簽分類算法

本節將詳細介紹本文提出的基于圖深度學習的多標簽文本分類模型FMLG,其中所使用的重要符號定義如表1 所示。

表1 重要符號定義Table 1 Definition of important symbols

2.1 模型框架

圖1 展示了FMLG 模型的基本框架。輸入新聞文本d。首先,將原始字符序列轉換為嵌入表示,并進一步表示為融合上下文信息的語義嵌入向量,由于不同標簽會側重不同的文本特征,因此多標簽注意力網絡使用多個注意力頭提取標簽相關的文本特征;然后,為了捕捉標簽之間的依賴關系并學習更豐富的語義信息,在構建標簽關聯圖的基礎上,模型使用門控圖神經網絡實現標簽間的語義特征交互;最后,多個線性層被用于預測標簽的概率分布。

圖1 FMLG 模型框架Fig.1 Framework of FMLG model

2.2 上下文語義嵌入

JOHNSON 等[15]指出,預訓 練的詞嵌入 表示可以使模型訓練過程更加穩定,因此,使用word2vec[16]進行嵌入表示學習。單詞序列經過嵌入表示后得到向量序列為了在嵌入表示中融入上下文信息,進一步使用雙向門控循環網絡對向量序列H進行編碼,得到一系列文本的上下文語義嵌入表示

2.3 多標簽注意力網絡

由于文本中常常包含大量冗余信息且每個標簽側重不同角度的文本特征,因此FMLG 使用標簽注意力{q1,q2,…,qL}進行特征提取,對每個注意力向量有qi∈注意力權重計算方式如下:

其中:αij代表文本中第j個字符與標簽li的相關程度;fai代表同標簽li相關的文本向量表示。最終可以得到文本的向量表示

2.4 圖語義交互層

盡管FMLG 模型利用了標簽注意力來提取與各個標簽相關的文本特征,但這樣的做法只是在標簽與文本之間建立聯系,仍然無法捕捉標簽之間的關系。本文先利用統計關系對標簽進行構圖,再通過門控圖神經網絡[17]對其進行特征交互。這不僅可以在模型中顯式地融入標簽之間的關聯,而且其中的門控機制也可以自適應地捕捉到更豐富的相關文本特征。

本文模型首先根據訓練集構建標簽關聯圖G,圖G為有向帶權圖,其中節點集V由數據集中的所有標簽組成,邊權Aij被定義為標簽li和lj之間的條件概率,條件概率通過訓練數據集估算得到,即:

其中:I為指示函數。給定圖G,模型使用門控圖神經網絡進行特征交互。圖上節點的初始向量表示設置為注意力層提取得到的特征,即首先通過圖上的信息流動從鄰節點聚合信息:

然而從鄰節點聚合到的信息可能存在噪聲,因此模型使用門控機制自適應選擇有效信息,信息聚合與傳遞的具體過程如下:

其中:||代表拼接操作。

最終,對于每個類別,模型訓練一個二分類器:

2.5 損失函數

由于大部分標簽只在少數樣本中出現,因此采用二元關聯解決多標簽分類會導致二分類問題中正負樣本比例的嚴重失衡。本文采用非對稱損失函數(Asymmetric Loss)[14]處理非均衡分布問題。非對稱損失通過權重衰減因子和置信度閾值平衡正負樣本在損失中的占比。預測概率同真實概率pi之間的非對稱損失函數Lasy計算如下:

其中:L+和L-分別代表樣本作為正類和負類時帶來的損失。權重衰減因子γ用于為易分負樣本的損失賦予更小的權重,置信度閾值m用于忽略預測置信度較高負樣本帶來(<m)的損失。上述2 個參數可以減少負樣本在損失中的占比,使模型更注重正樣本產生的優化信息。

3 實驗與結果分析

本節通過實驗驗證FMLG 模型的有效性,并分析討論實驗中的場景數據以及相關的參數設置。

3.1 數據集

實驗使用的金融新聞數據集中共包含84 707 條中文金融新聞文本,文本的平均長度為598 個中文字符。每條文本由新聞標題和內容兩部分組成。數據集中的每條文本都被打上多個金融類話題標簽,共包含115 個標簽。數據集中每條文本平均被打上1.5 個標簽,35%的文本標簽數量大于1,13%的標簽在數據集中出現次數少于100 次。

3.2 對比算法

下面介紹本文采用的對比算法:

1)CAML[1]。由于文本中存在大量冗余信息且不同標簽對應著不同的文本特征,因此該方法提出在卷積神經網絡的基礎上,進一步使用注意力機制為每個標簽進行特征提取。

2)BiGRU-LWAN[3]。由于卷積神經網絡只能提取局部信息,而雙向GRU 可以捕捉長距離依賴,因此該方法將CAML 的卷積神經網絡替換為雙向GRU。BiGRU-LWAN 在多個多標簽文本分類數據集上都取得了極佳的效果,是一個極具競爭力的對比算法。

3)ZACNN[5]。RIOS 等提出在CAML 中融入標簽的語義信息以進一步提升模型在尾部低頻標簽上的性能表現。

3.3 實驗設置

實驗預處理階段使用jieba(https://github.com/fxsjy/jieba)對文本進行分詞,并取文檔頻率大于4 次的字符組成詞表。預訓練嵌入表示維度設置為100。隨機劃分70%、15%、15%的數據分別作為訓練集,測試集和驗證集,并將在訓練集中出現次數少于100 次的標簽視為尾部少樣本標簽。

對于本文提出的FMLG 算法,經雙向GRU 編碼后的特征維度dc,門控圖神經網絡隱藏層維度都設置為300。非對稱損失函數中的γ和m分別被設置為2 和0.05。對于CAML 算法,CNN 的卷積核大小設置為3,特征維度dc設置為100。BiGRU-LWAN 的特征維度設置為300。ZACNN 的卷積核大小設置為3。

為了使得模型有著更好的泛化能力,實驗中對于上述所有模型的詞嵌入層向量表示和注意力系數使用概率為0.2 的Dropout[18]。訓練階段優化器選用Adam[19],學習率設置為10-4,ZACNN 訓練輪數設為30 輪,其余模型設置為10 輪。本文實驗中選擇廣泛使用的評價指標精度、召回率和F1 值來評估模型的性能對比,并基于驗證集選擇最優的模型進行測試。

3.4 實驗結果

在FMLG 模型上分別進行2 組實驗。FMLG/BCE 和FMLG/ASL 分別表示使用交叉熵和非對稱損失函數訓練的FMLG 模型。表2、表3 展示了模型在所有標簽和尾部標簽上的性能表現,其中,加粗數據表示最優結果。

表2 模型在所有標簽上的性能表現Table 2 Model performance on all labels %

表3 模型在尾部標簽上的性能表現Table 3 Model performance on tail labels %

從表2、表3 所列出的實驗數據可以看出:

1)ZACNN 模型效果最差。ZACNN 中標簽的嵌入表示通過標簽名稱中字符的嵌入表示取平均得到,但是由于標簽名稱同對應文本特征存在較大的語義鴻溝,因此導致模型表達能力欠缺。

2)BIGRU-LWAN 效果優于CAML,表明卷積網絡只能提取固定長度的局部信息的特點具有局限性,雙向GRU 可以更好地建模上下文之間的長距離依賴。

3)相比BIGRU-LWAN,FMLG/BCE 取得了更好的結果,且在尾部標簽上的提升更為明顯,這表明顯式地建模標簽之間的關聯能夠提升模型性能。

4)對比FMLG/BCE 和FMLG/ASL 可以發現,使用非對稱損失函數能夠大幅提升模型在正負樣本失衡條件下的召回率與F1 值。

為了更加直觀,在表4 中進一步列出部分測試樣例預測結果,其中文本中的下劃線部分代表新聞中的重要信息。從中可以發現,相比性能最優的對比算法BIGRU-LWAN 算法,FMLG 可以預測出更為完整的標簽集合。以樣例1 為例,由于標簽“A 股策略”和“研判優選”在訓練集中存在共現關系,它們在標簽關聯圖中存在連邊,FMLG 可以通過圖語義交互層學習兩者之間的依賴關系,從而實現更為準確完整的預測輸出。

表4 部分測試樣例預測結果Table 4 Prediction results of some test samples

3.5 消融實驗

為表明語義交互層帶來的提升不完全是由于更深層的網絡結構導致,實驗中還將圖神經網絡中的鄰接矩陣替換為單位陣。從表5 實驗結果可以發現,使用單位陣代替標簽關聯圖會導致性能下降。這表明在模型中通過構建標簽關聯圖的方式顯式建模標簽之間的關聯具有重要意義。

表5 不同鄰接矩陣對實驗結果的影響Table 5 Influence of adjacency matrix to experimental result %

此外,還通過實驗探究不同圖神經網絡結構對實驗結果的影響,實驗結果見表6。可以發現,門控圖神經網絡取得了更好的效果,進一步驗證了從鄰節點聚合到的信息往往存在噪聲,門控機制可以從中自適應選擇有效信息。

表6 不同圖神經網絡對實驗結果的影響Table 6 Influence of different graph neural networks to experimental result %

4 結束語

本文提出基于圖深度學習的多標簽文本分類算法FMLG,通過標簽統計信息構建關聯圖,并利用門控圖神經網絡挖掘標簽之間的關系。在與各個算法的對比實驗中,FMLG 在所有標簽和尾部標簽的宏觀F1 值上最高取得了2.0%和4.5%的提升,這表明顯式建模標簽之間的關系可以大幅提升模型的泛化能力。為了進一步解決二元關聯中正負樣本不均衡的問題,FMLG 使用非對稱損失函數作為優化目標。相比現有算法,FMLG 在所有標簽和尾部標簽宏觀F1值上最高取得了3.1%和6.9%的提升。由于現實場景中標簽數量較多,數據集中的樣本常常只被打上部分標簽,使用存在標簽缺失的樣本訓練模型會對性能造成較大的負面影響。后續將在本文工作的基礎上使用PU learning[21-22](Positive-Unlabelled learning)進一步模型在標簽缺失場景下的魯棒性。

猜你喜歡
關聯語義文本
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产成人av大片在线播放| 国产精品视频猛进猛出| 国产精品99久久久| 欧美三级自拍| 日本精品中文字幕在线不卡| 无码网站免费观看| 亚洲第一视频免费在线| 国产精品视频公开费视频| 国产裸舞福利在线视频合集| 狠狠色丁婷婷综合久久| 亚洲日本中文字幕天堂网| 国产精品视频免费网站| 久久黄色免费电影| 久久精品人人做人人爽电影蜜月 | 国产人成网线在线播放va| 日本免费新一区视频| 国产美女精品在线| 老司机精品久久| 四虎综合网| 亚洲自偷自拍另类小说| 午夜免费小视频| 亚洲男人天堂网址| 伊伊人成亚洲综合人网7777| 99在线视频免费观看| 青青操视频免费观看| 国产微拍一区二区三区四区| 色哟哟国产精品一区二区| 一级成人a毛片免费播放| 亚洲成网站| 国产欧美日韩免费| 中文成人在线视频| 国产va欧美va在线观看| 国产激情无码一区二区免费 | 国产真实乱子伦视频播放| 亚洲欧美另类中文字幕| 亚洲啪啪网| 亚洲综合色区在线播放2019| 首页亚洲国产丝袜长腿综合| 日韩资源站| 久久香蕉国产线看观看精品蕉| аv天堂最新中文在线| 欧洲精品视频在线观看| 日本一本正道综合久久dvd| 特黄日韩免费一区二区三区| 国产亚洲欧美日韩在线一区二区三区| 67194在线午夜亚洲| 亚洲av无码专区久久蜜芽| 国产午夜精品一区二区三| 亚洲欧洲国产成人综合不卡| 国产成人精品亚洲77美色| 天天躁夜夜躁狠狠躁躁88| 国产午夜精品一区二区三区软件| 丁香综合在线| 国产资源站| 国产一区在线观看无码| 国产一区二区三区免费| 国产精品污视频| 亚洲综合天堂网| 国产视频欧美| 韩国自拍偷自拍亚洲精品| 欧美在线综合视频| 国产成人高精品免费视频| 中文字幕在线播放不卡| 亚洲欧美综合在线观看| 久久鸭综合久久国产| 亚洲资源在线视频| 成人在线欧美| 国产精品所毛片视频| 一级看片免费视频| 美女扒开下面流白浆在线试听| 欧洲日本亚洲中文字幕| 成人精品在线观看| 日韩国产无码一区| 日本草草视频在线观看| 夜夜操狠狠操| 国产精品一区二区久久精品无码| 国产人碰人摸人爱免费视频| 亚洲国产亚综合在线区| 国产一级毛片高清完整视频版| 欧美一级高清片欧美国产欧美| 在线中文字幕网| 制服无码网站|