摘 要:目前大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用到各行各業(yè)的文本數(shù)據(jù)分析領(lǐng)域。Python作為大數(shù)據(jù)處理和分析的首選編程語(yǔ)言,尤其在中文文本的識(shí)別、分析、處理方面具備絕對(duì)優(yōu)勢(shì)。文章以深圳國(guó)海創(chuàng)新資本數(shù)據(jù)匹配項(xiàng)目為實(shí)際案例,介紹大數(shù)據(jù)技術(shù)在金融領(lǐng)域中的中文文本數(shù)據(jù)分析應(yīng)用。整個(gè)數(shù)據(jù)分析匹配過(guò)程包括數(shù)據(jù)預(yù)處理、列表數(shù)據(jù)元素匹配、輸出匹配結(jié)果三個(gè)步驟。研究成果為大數(shù)據(jù)在金融行業(yè)的廣泛應(yīng)用提供了具體的技術(shù)方法和研究思路。
關(guān)鍵詞:大數(shù)據(jù);中文文本;數(shù)據(jù)分析
1 引言
近年來(lái),隨著全球數(shù)字化信息數(shù)據(jù)量呈爆發(fā)式增長(zhǎng),大數(shù)據(jù)已經(jīng)滲透到各行各業(yè),相應(yīng)誕生的大數(shù)據(jù)技術(shù)也迅猛發(fā)展,也被人們用來(lái)解決各種實(shí)際問(wèn)題。Python這門編程語(yǔ)言異軍突起,目前已經(jīng)成為大數(shù)據(jù)處理和分析的首選編程語(yǔ)言。原因有以下幾個(gè):第一、Python是一種開(kāi)源的解釋型腳本語(yǔ)言、簡(jiǎn)單易學(xué)。第二,和C++、Java一樣,Python也是一種面向?qū)ο缶幊陶Z(yǔ)言,具備封裝、繼承、多態(tài)三大特性。第三,Python的跨平臺(tái)性良好、可擴(kuò)展性強(qiáng)、代碼重用性高。第四、Python為我們提供了豐富的第三方庫(kù)、應(yīng)用廣泛。Python不僅僅可以用來(lái)做系統(tǒng)編程、圖形處理、GUI編程,而且目前一些非常火爆的概念比如網(wǎng)絡(luò)爬蟲、人工智能、大數(shù)據(jù)、云計(jì)算等都將Python視為首選語(yǔ)言。另外,Python在中文文本的識(shí)別、分析、處理方面相比較于其它編程語(yǔ)言具備絕對(duì)優(yōu)勢(shì)。所以,目前政府機(jī)構(gòu)使用的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、金融領(lǐng)域的量化投資分析都使用到Python。
本文以深圳國(guó)海創(chuàng)新資本數(shù)據(jù)匹配項(xiàng)目為實(shí)際案例,演示如何利用大數(shù)據(jù)技術(shù)解決目前金融領(lǐng)域中相關(guān)中文文本數(shù)據(jù)分析問(wèn)題。
2 問(wèn)題描述
2.1 項(xiàng)目需求
深圳國(guó)海創(chuàng)新資本有限公司給我們提供了大量的excel文件,每個(gè)文件里有數(shù)千條數(shù)據(jù)。每條數(shù)據(jù)由4列信息(代碼、名稱、發(fā)行對(duì)象、股東信息)組成。每條數(shù)據(jù)中發(fā)行對(duì)象中有若干成員(>=1)、股東信息中有若干成員(>=1)。發(fā)行對(duì)象中若干成員(>=1)只要出現(xiàn)在股東信息中,該公司認(rèn)為該條數(shù)據(jù)發(fā)行對(duì)象與股東信息之間存在關(guān)聯(lián)性。否則,則不存在關(guān)聯(lián)性。該公司要求我們準(zhǔn)確標(biāo)記出每條數(shù)據(jù)發(fā)行對(duì)象和股東信息之間是否存在關(guān)聯(lián)性。存在,則關(guān)聯(lián)性標(biāo)注為1。不存在,則關(guān)聯(lián)性標(biāo)注為0。
所提供的excel表格數(shù)據(jù)內(nèi)容如圖1所示。其中第3條數(shù)據(jù)發(fā)行對(duì)象中的成員北京盈谷信曄投資有限公司出現(xiàn)在了該條數(shù)據(jù)對(duì)應(yīng)的股東名稱當(dāng)中,則認(rèn)為該條數(shù)據(jù)發(fā)行對(duì)象和股東名稱之間存在關(guān)聯(lián)性,需要將關(guān)聯(lián)性標(biāo)記結(jié)果為1。其中第5條數(shù)據(jù)發(fā)行對(duì)象中每一個(gè)成員都沒(méi)有出現(xiàn)在第對(duì)應(yīng)的股東名稱當(dāng)中,則該條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果需要標(biāo)記為0。
2.2 問(wèn)題分析
顯然,這是一個(gè)中文字符串?dāng)?shù)據(jù)處理問(wèn)題。其中涉及到中文字符串的預(yù)處理、匹配、輸出結(jié)果等操作。我們無(wú)法通過(guò)Excel自帶的公式來(lái)計(jì)算出每條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果。如果采用人工的方法進(jìn)行手動(dòng)標(biāo)注,不僅僅費(fèi)時(shí)費(fèi)力,而且準(zhǔn)確性得不到保證。所以需要我們借助大數(shù)據(jù)技術(shù)通過(guò)編寫算法來(lái)解決。我們?nèi)绻x擇C++、Java等編程語(yǔ)言,它們處理中文字符串困難,相關(guān)API接口函數(shù)都得自己寫,代碼量大、處理效果不佳。而Python在處理中文字符串方面擁有絕對(duì)優(yōu)勢(shì),是解決該問(wèn)題的首選。
3 數(shù)據(jù)處理和分析
整個(gè)數(shù)據(jù)處理和分析過(guò)程包含三個(gè)步驟,分別是數(shù)據(jù)預(yù)處理、列表數(shù)據(jù)元素匹配、輸出匹配結(jié)果。我們選擇使用Python中常見(jiàn)的數(shù)據(jù)結(jié)構(gòu)——列表來(lái)存儲(chǔ)數(shù)據(jù)。整個(gè)數(shù)據(jù)處理和分析流程圖如圖2所示。
3.1 數(shù)據(jù)預(yù)處理
首先,將Excel表格數(shù)據(jù)中的發(fā)行對(duì)象信息和股東名稱信息這兩列復(fù)制出來(lái),存放到txt文本文件內(nèi)。去除文本數(shù)據(jù)中的頓號(hào),并將頓號(hào)替換為字母a和b。這樣做是為了方便我們后面編寫程序?qū)γ織l數(shù)據(jù)進(jìn)行分割切片。然后編寫程序?qū)⒚織l數(shù)據(jù)中的發(fā)行對(duì)象成員和股東名稱成員依次添加到對(duì)應(yīng)的列表中。具體程序?qū)崿F(xiàn)如圖3所示。
3.2 列表數(shù)據(jù)元素匹配
該步驟為解決該項(xiàng)目的核心算法。簡(jiǎn)單來(lái)說(shuō),就是將發(fā)行對(duì)象列表中的每個(gè)元素和股東名稱列表中的每個(gè)元素逐一匹配。一旦有一個(gè)元素匹配成功,則該條數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)果置為1,否則為0。具體程序?qū)崿F(xiàn)如圖4所示。
3.3 輸出匹配結(jié)果
全部數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)束后,我們將關(guān)聯(lián)性匹配結(jié)果列表里的數(shù)據(jù)輸出到Exce表格關(guān)聯(lián)性列中,如圖5所示,就完成了整個(gè)項(xiàng)目所有內(nèi)容。
圖5 輸出匹配結(jié)果
4結(jié)論
我們選擇Python作為開(kāi)發(fā)語(yǔ)言,利用大數(shù)據(jù)處理和分析技術(shù)解決了深圳國(guó)海創(chuàng)新資本有限公司中文文本數(shù)據(jù)匹配難題,最終得到的關(guān)聯(lián)性匹配結(jié)果準(zhǔn)確率達(dá)到100%。將大數(shù)據(jù)技術(shù)應(yīng)用到金融領(lǐng)域,不僅僅可以為從業(yè)者或公司解決數(shù)據(jù)分析或處理方面的難題,而且可以大大的提高工作效率,節(jié)省時(shí)間成本。本項(xiàng)目中編寫的程序稍作修改,還可以更深入做中英文字符串查找、匹配、歸類、提取等操作,可以用來(lái)解決金融領(lǐng)域所遇到了類似問(wèn)題。
參考文獻(xiàn):
[1] 諶志群,張國(guó)煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007,25(7):1046-1051.
[2] 袁海,陳康,陶彩霞,等.基于中文文本的可視化技術(shù)研究[J].電信科學(xué),2014,30(4):114-121.
[3] 谷俊,王昊.基于領(lǐng)域中文文本的術(shù)語(yǔ)抽取方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2011,27(4):29-34.
[4] 黃冬,何睿.“大數(shù)據(jù)”認(rèn)知的語(yǔ)義網(wǎng)與情感傾向分析[J].中國(guó)文化產(chǎn)業(yè)評(píng)論,2015(2):335-347
[5] 季培培,鄢小燕,岑詠華.面向領(lǐng)域中文文本信息處理的術(shù)語(yǔ)識(shí)別與抽取研究綜述[J].圖書情報(bào)工作,2010,54(16):124-129.
[6] 康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014,1:1-08.
[7] 蔡慶豐,郭春松,陳詣之.大數(shù)據(jù)思維在金融學(xué)研究中的運(yùn)用[J].經(jīng)濟(jì)學(xué)動(dòng)態(tài),2015,3:104-114.
[8] Liu B,Zhou X,Wang Y,et al.Data processing and analysis in real‐world traditional Chinese medicine clinical data:challenges and approaches[J].Statistics in medicine,2012,31(7):653-660.
[9] Syeda K N,Shirazi S N,Naqvi S A A,et al.Big Data and Natural Language Processing for Analysing Railway Safety:Analysis of Railway Incident Reports[M]//Innovative Applications of Big Data in the Railway Industry.IGI Global,2018:240-267.
作者簡(jiǎn)介:
汪洋(1991.09——)男,漢族,四川城市職業(yè)學(xué)院 汽車與信息工程學(xué)院 四川省成都市 助教 碩士 主要 研究領(lǐng)域大數(shù)據(jù)、人工智能等。
基金項(xiàng)目:
本論文需掛四川城市職業(yè)學(xué)院校級(jí)課題,課題名稱《基于大數(shù)據(jù)的中文文本情感分析研究——以電商平臺(tái)熱銷手機(jī)用戶評(píng)論為例》,課題編號(hào)CS19KYYB10)。