999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量的國際業務實時推理模型*

2019-05-27 06:12:02張軾坤高列寧周云康
網絡安全與數據管理 2019年5期
關鍵詞:規則詞匯模型

張軾坤,沈 峰,高列寧,周云康

(1.交通銀行軟件開發中心(上海),上海 201201; 2.武漢理工大學 經濟學院,湖北 武漢 430070)

0 引言

隨著“一帶一路”戰略的發展,我國加快了對外開放的幅度,越來越多的企業加入了全球化國際化“朋友圈”。隨之而來是國際貿易業務量的增長,而銀行作為企業的國際貿易服務機構,通過加入環球同業銀行金融電訊協會(Society for Worldwide Interbank Financial Telecommunications,SWIFT),提供了國際結算、國際清算、擔保、貿易融資、國際匯款等專業金融服務。相對于以發送SWIFT報文為主的進口業務,出口業務流程是從接受SWIFT報文開始,由國際業務專業人員逐字檢查各類SWIFT報文域信息,并結合各類國際慣例人工分析SWIFT報文內容,審核無誤后再進行下一步業務操作。以上國際業務操作環節中,存在著人工審核報文、人工審單、人工錄入、人工反洗錢等一系列亟待解決的服務效率低下問題,其中SWIFT報文分析是各環節的第一個重要步驟。

目前國內銀行的SWIFT報文業務處理系統只負責報文域的解析,即直接將報文域信息映射到業務系統頁面,報文內容的分析工作還是由人工處理。國際業務專業人員須根據當前業務產品類型(如國際結算的信用證、托收、保函業務)依據國際慣例處理業務,包括英文版UCP600(跟單信用證統一慣例)、ISBP745(國際標準銀行實務)、URC522(跟單托收統一規則)、URR725(銀行間償付統一慣例)、URDG758(見索即付保函統一規則)、ISP98(國際備用信用證慣例)等。另外,國際商會每年對全球提交的各類案例發布兩次官方意見,也是國際業務專業人員處理業務、與同業交涉業務時參考的重要依據,目前國際商會正式出版了1995年以來的官方意見(ICC Opinions),共約30萬字英文。如何從復雜繁多的國際慣例中快速定位關鍵信息,如何結合當前業務實際場景快速整理摘要,將它們整合成有價值的參考信息,是提高國際業務SWIFT報文處理效率的關鍵。

交通銀行于2018年5月31日決定正式啟動新的集團信息系統智慧化轉型工程,即“新531”工程。通過整體布局、系統規劃我行的智慧化轉型方向,加快創新發展。為適應全行智慧化發展戰略,提升國際業務服務和管理能力,本研究針對國際業務領域專業化特點,利用機器學習方法,通過對SWIFT報文語料的統計和計算,得到語料信息的TF-IDF值,結合GLoVe算法實現SWIFT報文業務領域特征的詞向量提取;使用seq2seq模型結合attention機制實現業務摘要的自動組裝;利用Google的word2vec模型對國際慣例語料進行學習,將詞語映射到k維向量空間進行向量運算,通過向量空間上的相似度保留詞匯語義上的相關度;最終結合報文解析、業務清分、規則庫等業務系統功能構建國際業務實時推理模型,并試驗驗證實時推理模型在實際業務SWIFT報文處理的有效性。

1 基于詞向量的國際業務實時推理模型構建方法

1.1 詞向量模型

本研究通過在Python平臺上使用Google開源工具word2vec[1]產生詞向量(distributed representation),其基本思想是通過訓練將每個詞映射成K維實數向量(K一般為模型中的超參數),通過詞之間的距離(比如cosine相似度、歐氏距離[2]等)來判斷它們之間的語義相似度,word2vec采用一個三層的神經網絡(包括輸入層、隱層、輸出層),選用skip-gram模型[3]訓練數據,如圖1所示[4],其核心思想是根據中心詞來預測周圍的詞。

圖1 skip-gram模型

以一條UCP600國際慣例為例,假設中心詞是tenor,窗口長度為2,則根據tenor預測左邊兩個詞和右邊兩個詞。這時,tenor作為神經網絡的input,預測的詞作為label。圖2中窗口長度為2,中心詞從左往右移動,遍歷所有文本。每一次中心詞的移動,最多會產生4對訓練樣本(input,label)。

word2vec考慮到了當前詞的上下文信息,由此學習到的詞向量包含了豐富的語義和語法關系。本研究將UCP600、ISBP745、URC522、URR725、URDG758、ISP98共計5萬條慣例信息作為word2vec的訓練數據集Data_icp。訓練模型選用skip-gram,得到模型BITS2vec。

1.2 基于GLoVe詞向量+seq2seq模型+attention機制的自動摘要構建模型

Global Vectors for Word Representation[5](簡稱GLoVe)是斯坦福大學NLP組2014年提出的一種非監督學習算法[6],通過對語料庫的“單詞-單詞”共現矩陣[7]進行聚合,得到的表示形式展示了單詞向量空間的線性結構。本研究通過使用GLoVe算法工具初始化SWIFT報文語料的共現矩陣,并訓練得到SWIFT報文GLoVe詞向量。

seq2seq模型[8]本質上是一種encoder-decoder框架[9],Encoder通過學習輸入將其編碼成一個固定大小的語義向量S,繼而將S傳給Decoder,Decoder再通過對語義向量S的學習來進行輸出。但

圖2 word2vec訓練樣本產生過程

是因為語義向量S是固定長度,Encoder無法將整個輸入序列信息壓縮進去,會導致語義向量無法完全表示整個序列的信息,使得Decoder在一開始就沒有獲得序列足夠信息,解碼質量要打一定折扣。為了解決該問題,attention機制[10]被提出,該機制在產生輸出時,會產生一個關注度權重C來表示接下來輸出時需要重點關注輸入序列的哪些部分,然后根據關注的區域來產生下一個輸出,如此反復。

如圖3所示,本研究通過將SWIFT報文GLoVe詞向量作為Encoder的輸入序列,隨后加載attention機制,計算Encoder中每個RNN(Recurrent Neural Netword,循環神經網絡[11])單元的輸出同當前單元Decoder端的輸出的余弦相似度[12],再將Encoder的RNN單元輸出同各自余弦相似度進行加權向量和,得到當前RNN關注度C,最終再輸入到Decoder中訓練產生SWIFT報文語料摘要。

圖3 基于GLoVe詞向量+seq2seq模型+attention機制的自動摘要構建模型

1.3 業務規則引擎

業務規則引擎[13]是一個軟件模塊,它基于規則編程,將規則運用于推理數據,主要功能是接受數據輸入、解釋業務規則,并根據業務規則做出相應的決策。本研究通過將我行國際業務產品的業務需求和國際慣例整理成XML格式業務規則,可根據接受到的業務關鍵字自動匹配不同的業務產品所適用的業務規則,并最終提供當前SWIFT報文的業務規則參考信息,采用業務規則引擎的基本結構如圖4所示。

圖4 業務規則引擎基本結構

本研究共計整理了我行49大類國際業務產品業務規則和6類國際慣例規則,規則數據采用DB2數據庫的形式保存,業務規則模塊采用XML格式的方式編寫,因XML方式技術較成熟,本文不再贅述。但對規則編寫形式做簡要描述,例如,原始業務需求為:如果當前SWIFT報文所對應業務存在一張匯票多筆提單的情況,需要根據信用證要求的船公司數量和貨物港口地理位置情況,計算匯票付款期限,并提供相關日期計算國際慣例參考信息。需要轉化為規則編寫形式,如圖5所示。

圖5 規則編寫形式

1.4 基于詞向量的國際業務實時推理模型

國際業務詞向量是SWIFT報文分析的重要工具。不同的報文類型、不同的業務產品適用的慣例也不相同。通過提取SWIFT報文語料詞匯分布特點,結合相關算法,可計算得到當前SWIFT報文關鍵信息,將關鍵信息輸入到相關國際業務詞向量庫可獲取當前業務國際慣例詞向量。鑒于此,本研究采用如圖6所示的基于詞向量的國際業務實時推理模型提供SWIFT報文實時自動摘要和關聯國際慣例參考功能。

首先,整理UCP600(跟單信用證統一慣例)、ISBP745(國際標準銀行實務)、URC522(跟單托收統一規則)、URR725(銀行間償付統一慣例)、URDG758(見索即付保函統一規則)、ISP98(國際備用信用證慣例)、ICC Opinions(國際商會官方意見)數據集Data_icp,設置word2vec模型參數(包括向量維數size、上下文窗口大小window、是否Cbow模型isCbow),訓練成國際慣例專業詞向量庫模型BITS2vec,并使用GloVe算法訓練歷史SWIFT報文語料Data_swift_history得到SWIFT報文GLoVe詞向量。運用GLoVe詞向量加載seq2seq模型和attention機制構建自動摘要模型Auto_summary。詞向量庫模型BITS2vec和自動摘要模型Auto_summary統一存放在模型庫路徑以便后續調用。

圖6 基于詞向量的國際業務實時推理模型

然后,對實時SWIFT報文語料Data_swift_online根據業務類型進行清分,根據報文類型進行解析,并將處理后的語料進行分詞,再輸入到自動摘要模型Auto_summary,運行摘要模型產出SWIFT自動摘要。同時,推理模型會計算詞匯的TF-IDF值[14],獲得詞集S={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfm)}。通過設定TF-IDF的閾值,篩選得到候選詞集SLn={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfn)} (n

2 試驗結果及分析

2.1 詞向量模型試驗

國際慣例特征向量可將業務特征映射到高維空間,對慣例表達的有效性,主要體現在語義相近的慣例詞匯,其空間距離小。如ship、carrier、master、charterer等運輸單據相關的詞匯具有較強的語義相似性,其空間距離應該小,相似度應該高,因此可以用于識別國際慣例關聯詞匯。對采集的5萬條國際慣例數據進行處理,去掉停用詞匯,設置word2vec模型參數(size:100;上下文窗口大小window:5;是否Cbow模型isCbow:false),運行模型獲得國際慣例專業詞向量庫BITS2vec,每個慣例詞匯映射到100維的向量空間,采用基于Python的數據可視化工具t-sne進行降維可視化[15],如圖7所示,距離越近表示語義越近。

圖7(b)為圖7(a)的局部放大顯示,可見shipment、order、transport、document、insurance等運輸相關慣例詞匯在語義上有一定的關聯性,在向量空間上相對距離較近,說明了詞向量對語義聚合效果比較好。同時可以試驗基于BITS2vec輸出的100維詞向量取詞效果,利用similarity函數[16]獲取慣例最相似的5個詞匯,結果如表1所示。

表1 相似詞和相似度示例(top 5)

表1為慣例詞匯shipment和payment的排名前5的相似詞匯和對應的相似度。以詞匯payment為例,利用BITS2vec獲得的相似詞charges、reimbursement、draft在語義上有較強的關聯,為后續的規則庫加工提供了可泛化的國際慣例語義關鍵詞集Keyword_pooling。

2.2 推理模型試驗

為了驗證推理模型的有效性,本研究選取3萬筆歷史SWIFT報文語料,并使用GloVe算法訓練SWIFT報文GLoVe詞向量,加載seq2seq模型和attention機制構建自動摘要模型Auto_summary。

在測試環境將實時接收到的MT700、MT707、MT710等SWIFT報文語料Data_swift_online進行報文清分,解析關鍵語料信息存放在FIN_CONTENT,并運行推理模型。

推理模型會計算SWIFT報文詞匯的TF-IDF值,獲得當前SWIFT報文詞集S={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfm)}。設定TF-IDF的閾值為0.4,篩選得到候選詞集SLn,將候選詞集SLn輸入到BITS2vec模型得到實時報文慣例關鍵詞匯集Keyword_pooling,繼續輸入到業務規則引擎庫加工,得到本筆業務關聯國際慣例參考信息,并結合自動摘要最終得到規整的推理分析產出,輸出結果如圖8所示。

圖8 運行國際業務實時推理模型的產出

從圖8可以看出,推理模型抽取了當前SWIFT報文語料的關鍵信息組成了自動摘要:No confirmation to this documentary credit,therefore no engagement or responsibility on our part(表明當前信用證沒有保兌確認,因此無付款責任),從而加快了業務人員對SWIFT報文信息的理解速度。同時,推理模型結合當前SWIFT報文的關鍵詞匯集Keyword_pooling找到了UCP600(跟單信用證統一慣例)、ISBP745(國際標準銀行實務)中關于“裝運日”(date of shipment)和“匯票到期日”(maturity date)的慣例信息作為業務參考信息,一定程度上方便了銀行國際業務專業人員后續審單環節業務處理,提高了業務人員SWIFT報文分析效率。

3 結論

本研究主要針對國際慣例詞匯的特征向量表示,提出基于詞向量的國際業務實時推理模型,推理模型融合了BITS2vec詞向量模型的語義優勢,將國際慣例特征映射到高維空間,實現了慣例詞匯在語義空間和向量空間的有效表示。通過GLoVe算法產生SWIFT報文詞向量,使用seq2seq模型加載attention機制學習產出報文摘要。利用TF-IDF值在詞匯重要程度的度量作用,實時計算獲得SWIFT報文語料候選詞集,注入到BITS2vec詞向量模型,運行規則引擎后生成國際慣例參考信息。通過實驗和結果分析,驗證了推理模型的可行性和有效性。在下一步研究工作中,將進一步拓展訓練數據集,加入SWIFT官方國際業務行業分析報告等語料,訓練更廣域的語義表示,進一步提升推理模型的國際業務領域可用性。

猜你喜歡
規則詞匯模型
一半模型
撐竿跳規則的制定
數獨的規則和演變
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 在线色国产| 国产亚洲欧美日韩在线观看一区二区 | 天堂岛国av无码免费无禁网站| 青青操视频在线| 天堂亚洲网| 制服丝袜在线视频香蕉| 久久性视频| 欧美精品高清| 亚洲欧美一区二区三区麻豆| 国产情侣一区| 一区二区三区国产精品视频| 国产高清在线观看| 久草热视频在线| 亚洲第一极品精品无码| 亚洲天堂视频在线观看免费| 欧美日韩中文国产| 亚洲欧美成aⅴ人在线观看| 亚洲 欧美 中文 AⅤ在线视频| 亚洲中文无码av永久伊人| a欧美在线| 97超爽成人免费视频在线播放| 日韩AV无码一区| 91丝袜美腿高跟国产极品老师| 国产一级毛片yw| 亚洲最新网址| 国产原创自拍不卡第一页| 欧美日韩成人在线观看| 国产毛片片精品天天看视频| 波多野结衣一级毛片| 久久人人97超碰人人澡爱香蕉| 亚洲一级毛片免费看| 色综合天天操| 丁香六月激情综合| 在线观看免费国产| 亚洲一区网站| 日本午夜视频在线观看| 国产一区二区三区免费观看| 美女被躁出白浆视频播放| 久久久91人妻无码精品蜜桃HD| 在线观看免费黄色网址| 久久精品欧美一区二区| 亚洲色欲色欲www网| 高清亚洲欧美在线看| 伊人久综合| 无码高清专区| 午夜无码一区二区三区在线app| 呦女亚洲一区精品| 91娇喘视频| 日韩精品毛片| 91黄视频在线观看| 91丨九色丨首页在线播放| 找国产毛片看| 亚州AV秘 一区二区三区| 精品国产Av电影无码久久久| 国产乱子伦一区二区=| 久久综合色天堂av| 97视频免费在线观看| www.国产福利| 国产福利免费观看| 婷婷综合在线观看丁香| a色毛片免费视频| 999在线免费视频| 欧美日韩国产一级| 日韩无码视频播放| 欧美区日韩区| 亚洲欧美另类日本| 97国产精品视频人人做人人爱| 尤物视频一区| 亚洲一级毛片免费看| 国内精品一区二区在线观看| 综合色区亚洲熟妇在线| 色欲国产一区二区日韩欧美| 四虎国产成人免费观看| 国产精品55夜色66夜色| 88国产经典欧美一区二区三区| 欧美亚洲国产一区| 日韩欧美中文| 日本一本正道综合久久dvd | 国产美女91视频| 久久一本日韩精品中文字幕屁孩| 日韩欧美国产中文| 成人噜噜噜视频在线观看|