999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的金融領域知識發現研究綜述

2021-03-01 12:23:46秦江源王宸徐辰星周震霆
科學與財富 2021年27期
關鍵詞:數據挖掘

秦江源 王宸 徐辰星 周震霆

摘 要:在大數據時代的洪流奔涌之下,金融行業的文本信息量也正飛速增長,使得人們對金融數據的分析與應用方式產生了深刻變革,海量、多源、異構的金融數據正對金融從業者帶來前所未有的困難和挑戰。從金融數據之中挖掘出對金融決策支持有價值的知識,加快金融企業面向文書自動化的產業升級,已成為如今金融業的研究熱點之一,對金融決策支持過程具有相當的意義。

關鍵詞:金融文本,數據挖掘,知識發現

1.引言

近幾年隨著金融市場的開放, 外資金融機構的進入, 多種金融創新將不斷涌現, 競爭也隨之不斷加劇。李金迎(2009)指出,各行各業的數據庫中積累的數據中蘊含著相當的金融領域知識,而傳統數據挖掘方法,遠沒有挖掘出數據的潛在價值;何德旭(2011)探討了金融安全網絡機制,聯系了信息框架和金融安全網;張永杰(2011)在資產定價方面開展了研究, 發現網絡開源信息中包含對股票異常日收益率有顯著解釋力的內容;朱建平(2011)指出,目前需要采用高頻數據,在較窄觀測區間內產生足夠的數據量, 同時對市場微結構模型做出一定的驗證;中國銀聯股份有限公司(2013)指出,數據時代, 數據已經成為企業創新的核心驅動力和競爭力。大數據已經影響企業決策方式從“業務驅動”向“數據驅動”轉型;孔翔宇(2016)依據財經新聞主題與股票市場的相關性, 提出了基于新聞主題分布的模型,以此進行中國股市漲跌的預測;鮑捷(2016)提出知識圖譜是形成投資研究業務自動化表達邏輯的基礎,在整個智能金融的技術鏈條中處于核心地位;汪建基(2017)分析了傳統人工智能方法在處理大規模碎片化知識時存在的問題,討論了碎片化知識處理組織與學習的基本結構,指出了行業知識圖譜在人工智能知識發現中的重要性;2017年7月20日,國務院發布《新一代人工智能發展規劃》,首次提出了智能金融的概念,鼓勵將智能金融應用于智能客服、智能監控等等,實現制造與服務、金融的智能化融合。

根據國家統計局數據顯示,截至2018年末,全國共有金融業企業法人單位13.7萬個,從業人員1818.0萬人;同時,2015年末,經濟學普通本科在校生與畢業生數約116萬人,管理學普通本科在校生與畢業生數約360萬人,共有合計約上五百萬人的高校市場;同時,市場規模正以每年約10%的速度快速增長,市場潛力可見一斑。鑒于此,本文試圖對現有文獻進行梳理與拓展,分析互聯網金融對金融結構的影響,并整理常用的數據挖掘方法,探討它們影響金融結構的作用機制,在此基礎上提出相應建議。

2.數據挖掘方法

數據挖掘,即數據庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在實際應用領域中,數據挖掘任務常可被劃分為分類、聚類、預測、關聯分析等等統計方法。

2.1決策樹

決策樹(decision tree)是數據挖掘中的一種常見算法,呈樹形結構,能夠利用信息增益尋找數據庫中包含最大信息量的內容建立節點,其中每個內部節點都表示其在一個屬性上的判斷,每個分支代表了節點判斷結果的輸出,在每個分枝出的節點中,重復判斷、分支的過程,最終建立出決策樹,其中每個葉節點均代表了一種分類結果。決策樹是一種常見的有監督分類方法,通過對已有樣本的學習,決策樹能對新進入的數據做出正確的分類。決策樹的優勢在于其可解釋性,能夠在相對短的時間內能夠對大型數據集做出可行性強且效果良好的結果,且不需要繁瑣的數據預處理。盡管如此,面對樣本數量的不平衡問題時,決策樹便會顯得無能為力,往往會偏向于具有更多數值的特征。

2.2關聯分析

關聯規則是一種基于規則的機器學習方法,用于從數據集中尋找事件之間的隱含關系,能反映出事件與其他事件之間的關聯性,是數據挖掘研究的主要模式之一。關聯規則分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在關聯規則挖掘的研究當中,目前影響最廣、使用最頻繁的是Apriori算法, Apriori 算法是一種致力于挖掘關聯規則的頻繁項集算法,通過運用逐層搜索,在所有的頻繁集中找出強關聯規則。

2.3神經網絡

神經網絡 (neural network)是近年來火熱的算法之一,它通過模仿生物神經網絡,由大量的人工神經元聯結進行計算,從而構建出復雜的計算模型,具有強大的聯想、記憶、推理功能。其中,誤差反向傳播算法由Romelhart在1986年提出,它將輸出誤差通過隱藏層向輸入層層層傳遞,并傳遞到每層單元使其都獲得誤差信號,同時修正各單元的權重,如此反復直到權值不斷調整至最優,由此得到了一個多層前饋神經網絡模型,即BP神經網絡模型。BP神經網絡具有結構簡單,狀態穩定等特點,在眾多神經網絡模型中應用最為廣泛,在分類、最優預測等任務中均有著良好表現。

3.文本挖掘研究

3.1情感分析

在金融領域中,往往需要對股票論壇中的評論信息,各金融網站的新聞等進行情感傾向分析,以此研究投資者情緒,把握輿情發展趨勢,為此需要對評論進行數據挖掘與特征提取。文本情感分析,就是對具有情感色彩的詞、句乃至文檔進行分析歸納的過程。首先,需要基于金融語料庫來進行情感詞典的構造,人工標注好情感傾向詞匯作為語料庫,然后運用樸素貝葉斯網絡,支持向量機等分類器進行分類訓練,得到訓練完成的分類器后,便可以對新輸入的評論數據進行預測,得到其情感傾向。

3.2自動摘要

為從海量的金融研報、股市要聞,公司公告中提取簡明扼要的觀點,減少金融工作者的閱讀負擔,自動摘要技術應運而生。然而,市場對于金融信息的需求正在日益提高,如何保證自身摘要的可靠性成為了研究者面對的主要問題。在文本摘要自動生成技術中,以長短時記憶網絡(Long short term memory,LSTM)最為見長。LSTM依靠其長期記憶能力進行語義關聯,能夠處理任意長的文本序列,有效解決了傳統模型面對數據不定長度的困難。LSTM模型的特點是系統的輸出會一直保留在網絡中,和模型下一時刻的輸入共同決定下一時刻的輸出,因此可以刻畫出復雜的歷史依賴關系。

3.3命名實體識別

面對著海量的互聯網金融信息,投資者和決策者常常苦于如何高效的獲取需要的知識。針對這一問題,金融命名實體識別的實現將有效提高金融信息的獲取效率,為金融工作者提供有力的信息支撐。

命名實體識別(NER)是自然語言處理中的一項基礎任務,其主要目標是識別出文本中具有特定意義的實體,一般包括兩種劃分:實體、時間、數字三大類,人名、地名、組織機構名、時間、日期、貨幣量、百分數七小類。為實現命名實體識別,首先需要進行詞實體標注,常見的標注方法有BIO,BIOES,Markup等等。BIO標注法中,B表示實體詞的開頭,I表示實體詞的中間,O表示不是實體詞的部分,以此來區分識別實體詞。BIOES則是在BIO的基礎上,增加了E(表示實體詞的結尾)和S(表示能單獨組成一個實體),是目前最通用的實體標注方法。目前在命名實體識別任務中,主要算法包括有基于規則的詞性標注方法和基于統計模型的詞性標注方法兩類,均在命名實體識別任務中取得了良好表現。

4.總結與展望

隨著互聯網金融的日益發展,金融從業者與數據挖掘工作者規模會日漸龐大,發現金融知識的潛在價值也是勢在必行。本文基于前人基礎,總結了主要的數據挖掘、文本挖掘方法,旨在梳理出前人研究脈絡,分析未來金融領域所要面對的挑戰。大數據時代下,金融知識發現將成為數據挖掘中的一個重要應用,會日益發揮出其價值。

參考文獻:

[1].唐曉波,譚明亮,胡瀟然,石文萱,周巧.面向金融決策支持的知識獲取研究綜述[J].信息資源管理學報,2020,10(03):27-35.

[2].馬琳,董智鶴,夏嵩,賈孺.數據挖掘技術綜述淺析[J].數字技術與應用,2019,37(10):230-231.

[3].陳安,陳寧,范超.金融信用風險評價中的數據挖掘技術綜述[J].智能計算機與應用,2017,7(05):55-59.

[4].丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014,51(04):691-706.

[5].李金迎,詹原瑞.金融行業的數據挖掘技術研究[J].現代管理科學,2009(08):14-16.

[6].何德旭,饒云清,王智杰.金融安全網:基于信息空間理論的分析[J].經濟理論與經濟管理,2011(02):69-78.

[7].張永杰,張維,金曦,熊熊.互聯網知道的更多么?——網絡開源信息對資產定價的影響[J].系統工程理論與實踐,2011,31(04):577-586.

[8].朱建平,魏瑾,謝邦昌.金融高頻數據挖掘研究評述與展望[J].經濟學動態,2011(06):59-62.

[9].柴洪峰.金融大數據及銀行卡產業大數據實踐[J].上海金融,2013(10):27-29+116.

[10].孔翔宇,畢秀春,張曙光.財經新聞與股市預測——基于數據挖掘技術的實證分析[J].數理統計與管理,2016,35(02):215-224.

[11].鮑捷.知識圖譜如何助力實現智能金融[J].金卡工程,2016(07):45-49.

[12].汪建基,馬永強,陳仕濤,劉子熠,鄭南寧.碎片化知識處理與網絡化人工智能[J].中國科學:信息科學,2017,47(02):171-192.

[13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.

本文得到上海立信會計金融學院大學生創新創業訓練計劃(202111047034X)基金支持. 秦江源,女,法學專業本科在讀;

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 伊人久久久久久久| 日韩av高清无码一区二区三区| 国产欧美综合在线观看第七页| 日韩高清一区 | 亚洲成人福利网站| 亚洲欧美一区二区三区麻豆| 日韩一级二级三级| 91精品久久久无码中文字幕vr| 99视频在线免费| 乱人伦视频中文字幕在线| 综合色天天| 亚洲中文字幕23页在线| 亚洲第一区在线| 亚洲国产天堂久久综合| 2020最新国产精品视频| 东京热高清无码精品| 婷婷激情亚洲| 无码人妻免费| 91人妻在线视频| 亚洲欧美日韩久久精品| 国产男女XX00免费观看| 熟妇丰满人妻| 天天躁夜夜躁狠狠躁躁88| 国内精品九九久久久精品| 国产精品网拍在线| 久久久久青草大香线综合精品| 亚洲精品在线影院| 久久a毛片| 秋霞一区二区三区| 热久久综合这里只有精品电影| 韩国自拍偷自拍亚洲精品| 亚洲视频免费在线看| 国产网站黄| 久久这里只有精品8| 欧美乱妇高清无乱码免费| 国产成人高精品免费视频| 久久久久久高潮白浆| 精品国产污污免费网站| 2019年国产精品自拍不卡| 蜜桃臀无码内射一区二区三区 | 99久久精品国产自免费| 91无码人妻精品一区二区蜜桃| 特级欧美视频aaaaaa| 99精品在线视频观看| 四虎成人精品| 精品视频一区在线观看| 日韩a在线观看免费观看| 亚洲免费毛片| 欧美日韩高清在线| 亚洲视频免| 在线观看亚洲天堂| 亚洲清纯自偷自拍另类专区| 亚洲视频色图| 日韩精品无码一级毛片免费| aa级毛片毛片免费观看久| 亚洲一级毛片在线观播放| 香蕉99国内自产自拍视频| a天堂视频| 草逼视频国产| 国产在线精彩视频二区| 色成人亚洲| 亚洲综合色区在线播放2019| 久久久久久久久亚洲精品| 欧美www在线观看| 99久久国产自偷自偷免费一区| 欧美国产在线看| av手机版在线播放| 欧美a在线| 国产精品香蕉在线观看不卡| 亚洲人成成无码网WWW| 成人在线不卡| 国产成人亚洲毛片| 国产视频入口| 亚洲精品无码日韩国产不卡| 美女内射视频WWW网站午夜| 人妻一区二区三区无码精品一区| 中文字幕日韩视频欧美一区| 无码乱人伦一区二区亚洲一| 欧美97欧美综合色伦图| 91福利在线观看视频| 国产欧美中文字幕| 国产激爽大片高清在线观看|