999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

債券領域專用詞向量研究

2022-12-29 00:00:00華嬌嬌杜通唐華云
債券 2022年12期

摘要:自然語言處理技術推動著智能債市的發(fā)展,其關鍵在于利用計算機充分挖掘債市數(shù)據(jù)中蘊含的特征和規(guī)律。這些特征的本質是對債市文本的數(shù)字化編碼,可作為債市文本分類、債市輿情分析、債券智能問答等多種應用的計算機輸入“語言”,是實現(xiàn)智能債市的基礎。為了實現(xiàn)對債市文本特征的預提取,本文利用CBOW模型對大量債市文本進行訓練,獲得了首套債市領域專用的數(shù)字“詞典”,填補了債券領域專用詞向量的空白。該詞向量利用文本的上下文信息,已經(jīng)具備了一定的語義表達能力,不僅可以區(qū)分一字多義,還可以針對特定概念群進行類推。

關鍵詞:詞向量 自然語言處理 債券

債券市場是金融市場的重要組成部分。債券的全生命周期中會產(chǎn)生海量的文本數(shù)據(jù),其中蘊含著債券市場大量的知識和規(guī)律。然而,這也導致了債券市場大數(shù)據(jù)的知識體系較為龐雜,且數(shù)據(jù)中一些冗余、錯誤和有用信息混雜交錯,需要進行整合、清洗和挖掘來獲取有用的信息。僅依賴人工處理難度較大,也是對社會資源的極大浪費。依靠債券領域得天獨厚的數(shù)據(jù)優(yōu)勢,自然語言處理(NLP)技術具備模型端到端的設計和對特征工程弱依賴的特點,已成為賦能債券領域各應用的強大助力,帶動著金融業(yè)逐步邁入智能金融新紀元。

目前,NLP技術正廣泛應用于智能客服、定制化推薦、自動文摘、輿情分析、文檔分類等債市服務中。然而,這些應用的實現(xiàn)往往取決于債市文本數(shù)據(jù)和特征質量。在運用NLP技術對特征進行自動化提取的過程中,債市文本作為非結構化的字符數(shù)據(jù),無法直接被計算機識別,需要轉化為具有語義信息的數(shù)值形式。具體地,需要將由多個詞構成的文本空間轉化為高維向量空間,即利用向量表示詞,向量之間的距離刻畫詞與詞之間的相近程度,最終形成“文本-詞”的債市數(shù)字詞典(詞向量)。

本文為填補債市專用詞向量的空白,利用詞向量訓練技術,以債市特定文本作為訓練語料庫,訓練出一套富含債市領域先驗知識的數(shù)字詞典。該詞向量區(qū)別于傳統(tǒng)關鍵詞、規(guī)則匹配,已經(jīng)具備一定的語義表達能力。

詞向量編碼方式選擇

詞向量本質是以詞為單位,用多個數(shù)值對文本進行編碼,編碼方式主要包括獨熱(one-hot)、共現(xiàn)矩陣和分布式編碼等,具體描述如表1所示。

目前較為流行的詞向量編碼方式為分布式編碼,該種編碼的優(yōu)點在于:第一,通過度量向量之間的相似程度,詞之間具備了“距離”的概念,這對很多NLP的下游任務(文檔分類、命名實體識別、情感分析、問答系統(tǒng)等)極有意義。第二,該詞向量的每一維都有特定的含義,同等維度的詞向量,該詞向量能包含更多的語義信息。因此,該詞向量可以節(jié)省更多的存儲空間,并提高計算效率。區(qū)別于離散編碼,分布式編碼在擴增新詞匯時無須增大向量維度,所構成的語義矩陣不再稀疏,不會出現(xiàn)維度災難。因此,本文所研究的詞向量基于分布式編碼。

詞向量訓練

本研究的詳細流程見圖1,主要分為債市文本數(shù)據(jù)選擇、訓練語料庫構建及訓練模型和對應的參數(shù)設置。

(一)債市文本數(shù)據(jù)選擇

本研究所使用的數(shù)據(jù)來源為:截至2022年2月23日中國債券信息網(wǎng)(https://www.chinabond.com.cn/)的公開文本,主要涉及該網(wǎng)站的8個子欄目:債券市場、政府債券、金融債、信用債、月度紀事、宏觀經(jīng)濟、國際動態(tài)和熱點問題。該網(wǎng)站披露的數(shù)據(jù)均經(jīng)過領域內(nèi)專家篩選,質量可靠且覆蓋面較廣,共計13702篇文章,131224個自然段落,具體統(tǒng)計信息如表2所示。

(二)訓練語料庫構建

本文預訓練語料庫的構建分為兩步:第一步,清除文章中所有非漢字成分,主要包括標點符號、字母等。第二步,利用“結巴”(jieba)工具對文本進行分詞得到債市文本序列。其中,分詞需要配備有停用詞表(可忽略的不影響語義的詞)和用戶詞表(領域內(nèi)的默認專用詞)。例如,文本“10月正式發(fā)行綠色債券”,清除非漢字字符后得到“月正式發(fā)行綠色債券”,去除停用詞“月”“正式”,保留用戶詞“綠色債券”,經(jīng)分詞所得的債市文本序列為:“發(fā)行”“綠色債券”(見圖1)。原文本中每個段落所得的債市文本序列集合構成了詞向量訓練的語料庫,圖2與圖3分別展示了語料庫中最頻繁出現(xiàn)的前20和200個詞。

(三)訓練模型及其參數(shù)設置

本文使用的詞向量訓練模型為連續(xù)詞袋模型(Continuous Bag Of Words,CBOW),該方法利用目標詞的上下文詞表示該詞(見圖4)。具體地,訓練語料庫記為D,詞表集合記作W=(w1,w2,…,wN),N為詞數(shù)目。詞袋中任意一個詞wi的輸入和輸出向量分別記作和。模型的目標函數(shù)(最大化對數(shù)似然函數(shù))可定義為:

其中,wc=wt-W,…,wt-1,wt+1,…,wt+W代表目標詞wt 的上下文詞,W為上下文窗口的大小。hwi代表目標詞上下文詞向量的均值或和向量。由于每次梯度迭代更新時,需涉及所有詞向量,復雜度較高。為了加速模型計算,本文采用了負采樣算法進行優(yōu)化,即將每個目標詞的上下文詞作為正樣本,對每個正樣本采樣多個負樣本,每次梯度更新僅涉及所有的正負樣本詞。本文對每個正樣本所采樣的負樣本為10,具體實現(xiàn)可參考文獻。此外,本文過濾了詞典中出現(xiàn)次數(shù)小于5的詞,設置詞向量的維度為200,上下文窗口為5,訓練的輪次為100,初始學習率為0.025。

訓練結果分析

(一)語義表達能力

本文通過詞向量之間的皮爾斯相關系數(shù)來刻畫詞之間的相似程度,以衡量本文詞向量的語義表達能力。表3以“綠債”“中債”為例,展示了與之最相關的詞。其中,與“綠債”語義最相近的詞語包括“綠色債券”“綠色”“債券”“綠標委”等與“綠債”有重疊字的詞,還包括“貼標”“藍色(債券)”“熊貓(債券)”等字面上不相關的詞。對于“中債”,雖然漢語中含有“中”“債”的詞很多,但是與之最相近的前3個詞僅包括“中證”“中央國債登記結算有限責任公司”“中央結算公司”。由于訓練過程中并未加入任何人工規(guī)則,這些結果表明該詞向量已經(jīng)可以自動捕捉到債市語料所蘊含的特征和規(guī)律,并將該特征存于數(shù)值向量中。不同于關鍵詞匹配的語義識別,該詞向量已經(jīng)在文本的語義層面具備一定的理解能力。

(二)區(qū)分一字多義的能力

中文存在著大量的多義字,比如“風”可以指具象的自然界的空氣流動現(xiàn)象(風速)、消息(聞風而動)、歌謠(國風),或抽象的社會長期形成的禮節(jié)(風氣)、外在表現(xiàn)的態(tài)度和舉止(風度)等。為闡述本研究詞向量區(qū)分一字多義的能力,筆者分別展示了帶有“風”和“能”的前50個詞,并進行個案分析。具體地,首先對這些詞對應的向量進行主成分分析(PCA),然后對結果的前2個主成分進行可視化。圖5中“風”主要分成3類:自然界的風、風險和作風相關的語義。圖6中“能”被分為:能力、能源和虛詞能相關的語義。該結果揭示了該詞向量保留了詞之間的語義關系,即相近字義的詞在向量空間上也是臨近的,一定程度上可以區(qū)分一字多義。

(三)類推能力

本文選取了4對不同的債券類型和對應的發(fā)行主體,并對這8個詞向量進行PCA降維,選擇前2個主成分進行可視化。

如圖7所示,結果發(fā)現(xiàn)發(fā)行主體和債券類型被分為兩類(虛線圈),位于圖的兩側。此外,箭頭的指向表明,債券發(fā)行主體和對應債券類型在圖中的位置關系與其概念關系保持一致。尤其是地方政府和中央政府之間的距離比其他發(fā)行主體近,對應的兩種債券類型也比其他債券類型近。由于訓練過程中并未加入債券和對應的發(fā)行主體之間的概念關系或相關先驗知識,該結果表明本研究的詞向量能夠自動組織概念,并學習概念之間的抽象關系進行類推。

結論

本研究利用CBOW模型對中國債券信息網(wǎng)中的13000多篇債市文本進行訓練,并獲得了首套債市領域專用的數(shù)字“詞典”,填補了債券領域專用詞向量的空白。該“詞典”共有76042個債市專用詞,每個詞由200維向量組成,其內(nèi)容涵蓋了債券市場的各個子領域。不同于關鍵詞匹配,該詞向量能夠區(qū)分一字多義,且可以針對特定概念群進行類推,已經(jīng)具備了一定的語義表達能力。

當然,本研究中出現(xiàn)了一些錯誤的結果:一是分詞導致的錯誤,比如“創(chuàng)債”“年國”等;二是一些無意義的詞沒有過濾,比如“首只”“十七”等;三是一些噪聲詞干擾詞向量的訓練,比如與“中債”最相近的詞“精選”“高等級”“成分”等。為了解決這些問題,后續(xù)將嘗試更多成熟的分詞工具,并根據(jù)債市數(shù)據(jù)特點設計更多的用戶專用詞表和停用詞表。此外,后續(xù)會補充更多的債券信息來源,以擴充詞向量的訓練語料庫,訓練出一個語義表達能力更強的債券領域專用詞向量。

參考文獻

[1]陳德光,馬金林,馬自萍,等. 自然語言處理預訓練技術綜述[J]. 計算機科學與探索,2021,15(8).

[2] Mikolov T, Sutskever I, Chen K et. al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013(26).

主站蜘蛛池模板: 国产精品免费电影| 最新国语自产精品视频在| 综合亚洲色图| 亚洲综合在线网| 成人午夜天| 一级一级一片免费| 人人艹人人爽| 亚洲无码日韩一区| 国产丰满大乳无码免费播放| 狠狠做深爱婷婷综合一区| 国产福利小视频高清在线观看| 亚洲第一视频免费在线| 国产成人午夜福利免费无码r| 就去吻亚洲精品国产欧美| 欧美午夜小视频| 久久99精品国产麻豆宅宅| 亚洲精品色AV无码看| 日韩视频福利| 国产欧美日韩资源在线观看| 天堂av综合网| 亚洲一级无毛片无码在线免费视频 | 最近最新中文字幕在线第一页| 日韩经典精品无码一区二区| 亚洲综合色在线| 亚洲色图另类| 欧美日韩另类在线| 在线亚洲天堂| 日本高清有码人妻| 国产欧美日韩免费| 日a本亚洲中文在线观看| 国内精品伊人久久久久7777人| a天堂视频| 国产人成在线视频| 亚洲天堂区| 中国丰满人妻无码束缚啪啪| 久草视频一区| 成年片色大黄全免费网站久久| 午夜欧美在线| 3344在线观看无码| 亚洲免费福利视频| 亚洲成av人无码综合在线观看| 国产精品男人的天堂| 玖玖精品视频在线观看| 亚洲日本一本dvd高清| 亚洲一级毛片在线播放| 亚洲成人播放| 色综合五月| 国产精品无码久久久久AV| 亚洲国产中文在线二区三区免| 国产91精品久久| 国产地址二永久伊甸园| 国产十八禁在线观看免费| 亚洲a级在线观看| 亚洲妓女综合网995久久| 欧美激情首页| 亚洲妓女综合网995久久| 中文字幕久久亚洲一区| 国产黄网永久免费| 91小视频在线| 亚洲黄色片免费看| 亚洲AⅤ无码日韩AV无码网站| 午夜日韩久久影院| 国产内射在线观看| 亚洲欧美另类专区| 2021国产精品自产拍在线| 久久99久久无码毛片一区二区| 国产性生大片免费观看性欧美| 久久国产精品娇妻素人| 精品视频一区二区观看| 97视频在线观看免费视频| 欧美成人免费午夜全| 欧洲精品视频在线观看| 国产免费怡红院视频| 亚洲一欧洲中文字幕在线| 久久香蕉国产线看观| 婷婷色在线视频| 伊人久久综在合线亚洲91| 亚洲综合二区| jizz在线观看| 99爱在线| 国产精品久久久久鬼色| 欧美成人影院亚洲综合图|