秦江源 王宸 徐辰星 周震霆



摘 要:在大數據時代的洪流奔涌之下,金融行業的文本信息量也正飛速增長,使得人們對金融數據的分析與應用方式產生了深刻變革,海量、多源、異構的金融數據正對金融從業者帶來前所未有的困難和挑戰。從金融數據之中挖掘出對金融決策支持有價值的知識,加快金融企業面向文書自動化的產業升級,已成為如今金融業的研究熱點之一,對金融決策支持過程具有相當的意義。
關鍵詞:金融文本,數據挖掘,知識發現
1.引言
近幾年隨著金融市場的開放, 外資金融機構的進入, 多種金融創新將不斷涌現, 競爭也隨之不斷加劇。李金迎(2009)指出,各行各業的數據庫中積累的數據中蘊含著相當的金融領域知識,而傳統數據挖掘方法,遠沒有挖掘出數據的潛在價值;何德旭(2011)探討了金融安全網絡機制,聯系了信息框架和金融安全網;張永杰(2011)在資產定價方面開展了研究, 發現網絡開源信息中包含對股票異常日收益率有顯著解釋力的內容;朱建平(2011)指出,目前需要采用高頻數據,在較窄觀測區間內產生足夠的數據量, 同時對市場微結構模型做出一定的驗證;中國銀聯股份有限公司(2013)指出,數據時代, 數據已經成為企業創新的核心驅動力和競爭力。大數據已經影響企業決策方式從“業務驅動”向“數據驅動”轉型;孔翔宇(2016)依據財經新聞主題與股票市場的相關性, 提出了基于新聞主題分布的模型,以此進行中國股市漲跌的預測;鮑捷(2016)提出知識圖譜是形成投資研究業務自動化表達邏輯的基礎,在整個智能金融的技術鏈條中處于核心地位;汪建基(2017)分析了傳統人工智能方法在處理大規模碎片化知識時存在的問題,討論了碎片化知識處理組織與學習的基本結構,指出了行業知識圖譜在人工智能知識發現中的重要性;2017年7月20日,國務院發布《新一代人工智能發展規劃》,首次提出了智能金融的概念,鼓勵將智能金融應用于智能客服、智能監控等等,實現制造與服務、金融的智能化融合。
根據國家統計局數據顯示,截至2018年末,全國共有金融業企業法人單位13.7萬個,從業人員1818.0萬人;同時,2015年末,經濟學普通本科在校生與畢業生數約116萬人,管理學普通本科在校生與畢業生數約360萬人,共有合計約上五百萬人的高校市場;同時,市場規模正以每年約10%的速度快速增長,市場潛力可見一斑。鑒于此,本文試圖對現有文獻進行梳理與拓展,分析互聯網金融對金融結構的影響,并整理常用的數據挖掘方法,探討它們影響金融結構的作用機制,在此基礎上提出相應建議。
2.數據挖掘方法
數據挖掘,即數據庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在實際應用領域中,數據挖掘任務常可被劃分為分類、聚類、預測、關聯分析等等統計方法。
2.1決策樹
決策樹(decision tree)是數據挖掘中的一種常見算法,呈樹形結構,能夠利用信息增益尋找數據庫中包含最大信息量的內容建立節點,其中每個內部節點都表示其在一個屬性上的判斷,每個分支代表了節點判斷結果的輸出,在每個分枝出的節點中,重復判斷、分支的過程,最終建立出決策樹,其中每個葉節點均代表了一種分類結果。決策樹是一種常見的有監督分類方法,通過對已有樣本的學習,決策樹能對新進入的數據做出正確的分類。決策樹的優勢在于其可解釋性,能夠在相對短的時間內能夠對大型數據集做出可行性強且效果良好的結果,且不需要繁瑣的數據預處理。盡管如此,面對樣本數量的不平衡問題時,決策樹便會顯得無能為力,往往會偏向于具有更多數值的特征。
2.2關聯分析
關聯規則是一種基于規則的機器學習方法,用于從數據集中尋找事件之間的隱含關系,能反映出事件與其他事件之間的關聯性,是數據挖掘研究的主要模式之一。關聯規則分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在關聯規則挖掘的研究當中,目前影響最廣、使用最頻繁的是Apriori算法, Apriori 算法是一種致力于挖掘關聯規則的頻繁項集算法,通過運用逐層搜索,在所有的頻繁集中找出強關聯規則。
2.3神經網絡
神經網絡 (neural network)是近年來火熱的算法之一,它通過模仿生物神經網絡,由大量的人工神經元聯結進行計算,從而構建出復雜的計算模型,具有強大的聯想、記憶、推理功能。其中,誤差反向傳播算法由Romelhart在1986年提出,它將輸出誤差通過隱藏層向輸入層層層傳遞,并傳遞到每層單元使其都獲得誤差信號,同時修正各單元的權重,如此反復直到權值不斷調整至最優,由此得到了一個多層前饋神經網絡模型,即BP神經網絡模型。BP神經網絡具有結構簡單,狀態穩定等特點,在眾多神經網絡模型中應用最為廣泛,在分類、最優預測等任務中均有著良好表現。
3.文本挖掘研究
3.1情感分析
在金融領域中,往往需要對股票論壇中的評論信息,各金融網站的新聞等進行情感傾向分析,以此研究投資者情緒,把握輿情發展趨勢,為此需要對評論進行數據挖掘與特征提取。文本情感分析,就是對具有情感色彩的詞、句乃至文檔進行分析歸納的過程。首先,需要基于金融語料庫來進行情感詞典的構造,人工標注好情感傾向詞匯作為語料庫,然后運用樸素貝葉斯網絡,支持向量機等分類器進行分類訓練,得到訓練完成的分類器后,便可以對新輸入的評論數據進行預測,得到其情感傾向。
3.2自動摘要
為從海量的金融研報、股市要聞,公司公告中提取簡明扼要的觀點,減少金融工作者的閱讀負擔,自動摘要技術應運而生。然而,市場對于金融信息的需求正在日益提高,如何保證自身摘要的可靠性成為了研究者面對的主要問題。在文本摘要自動生成技術中,以長短時記憶網絡(Long short term memory,LSTM)最為見長。LSTM依靠其長期記憶能力進行語義關聯,能夠處理任意長的文本序列,有效解決了傳統模型面對數據不定長度的困難。LSTM模型的特點是系統的輸出會一直保留在網絡中,和模型下一時刻的輸入共同決定下一時刻的輸出,因此可以刻畫出復雜的歷史依賴關系。
3.3命名實體識別
面對著海量的互聯網金融信息,投資者和決策者常常苦于如何高效的獲取需要的知識。針對這一問題,金融命名實體識別的實現將有效提高金融信息的獲取效率,為金融工作者提供有力的信息支撐。
命名實體識別(NER)是自然語言處理中的一項基礎任務,其主要目標是識別出文本中具有特定意義的實體,一般包括兩種劃分:實體、時間、數字三大類,人名、地名、組織機構名、時間、日期、貨幣量、百分數七小類。為實現命名實體識別,首先需要進行詞實體標注,常見的標注方法有BIO,BIOES,Markup等等。BIO標注法中,B表示實體詞的開頭,I表示實體詞的中間,O表示不是實體詞的部分,以此來區分識別實體詞。BIOES則是在BIO的基礎上,增加了E(表示實體詞的結尾)和S(表示能單獨組成一個實體),是目前最通用的實體標注方法。目前在命名實體識別任務中,主要算法包括有基于規則的詞性標注方法和基于統計模型的詞性標注方法兩類,均在命名實體識別任務中取得了良好表現。
4.總結與展望
隨著互聯網金融的日益發展,金融從業者與數據挖掘工作者規模會日漸龐大,發現金融知識的潛在價值也是勢在必行。本文基于前人基礎,總結了主要的數據挖掘、文本挖掘方法,旨在梳理出前人研究脈絡,分析未來金融領域所要面對的挑戰。大數據時代下,金融知識發現將成為數據挖掘中的一個重要應用,會日益發揮出其價值。
參考文獻:
[1].唐曉波,譚明亮,胡瀟然,石文萱,周巧.面向金融決策支持的知識獲取研究綜述[J].信息資源管理學報,2020,10(03):27-35.
[2].馬琳,董智鶴,夏嵩,賈孺.數據挖掘技術綜述淺析[J].數字技術與應用,2019,37(10):230-231.
[3].陳安,陳寧,范超.金融信用風險評價中的數據挖掘技術綜述[J].智能計算機與應用,2017,7(05):55-59.
[4].丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014,51(04):691-706.
[5].李金迎,詹原瑞.金融行業的數據挖掘技術研究[J].現代管理科學,2009(08):14-16.
[6].何德旭,饒云清,王智杰.金融安全網:基于信息空間理論的分析[J].經濟理論與經濟管理,2011(02):69-78.
[7].張永杰,張維,金曦,熊熊.互聯網知道的更多么?——網絡開源信息對資產定價的影響[J].系統工程理論與實踐,2011,31(04):577-586.
[8].朱建平,魏瑾,謝邦昌.金融高頻數據挖掘研究評述與展望[J].經濟學動態,2011(06):59-62.
[9].柴洪峰.金融大數據及銀行卡產業大數據實踐[J].上海金融,2013(10):27-29+116.
[10].孔翔宇,畢秀春,張曙光.財經新聞與股市預測——基于數據挖掘技術的實證分析[J].數理統計與管理,2016,35(02):215-224.
[11].鮑捷.知識圖譜如何助力實現智能金融[J].金卡工程,2016(07):45-49.
[12].汪建基,馬永強,陳仕濤,劉子熠,鄭南寧.碎片化知識處理與網絡化人工智能[J].中國科學:信息科學,2017,47(02):171-192.
[13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.
本文得到上海立信會計金融學院大學生創新創業訓練計劃(202111047034X)基金支持. 秦江源,女,法學專業本科在讀;