譚欠男 陳中舉 涂天宇 王瑞



摘要:隨著網(wǎng)絡(luò)時代的迅速發(fā)展以及我國對數(shù)據(jù)信息可視化的深入研究,大數(shù)據(jù)的資源提供對于各個行業(yè)也變得越來越重要。尤其是對于股票數(shù)據(jù)的分析,如何更好地進(jìn)行各股之間的相關(guān)性分析已經(jīng)成為當(dāng)今股票分析的重中只重。希望通過此次分析,可以為股票數(shù)據(jù)信息可視化技術(shù)的發(fā)展以及對于股票預(yù)測的訓(xùn)練提供一定的幫助。
關(guān)鍵詞:大數(shù)據(jù);股票數(shù)據(jù);可視化;相關(guān)性分析
中圖分類號 TP393? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)08-0030-02
Abstract: With the rapid development of the network era and the in-depth research on the visualization of data information in China, the provision of big data resources has become more and more important for various industries.Especially for the analysis of stock data, how to better carry out visual analysis has become the focus of stock analysis today.It is hoped that this analysis can provide some help for the development of stock data information visualization technology and the training of stock forecast.
Key words: big data; stock data; visualization; correlation analysis
1 引言
隨著網(wǎng)絡(luò)數(shù)據(jù)資源逐漸豐富,人們對于網(wǎng)絡(luò)資源的需求和使用也在不斷地增加。
伴隨著科學(xué)技術(shù)的發(fā)展,股市的逐漸進(jìn)步,越來越多的人開始炒股,特別是眾所周知的2014年的股市大牛,當(dāng)時更是全國掀起了一波炒股的浪潮。伴隨著人們對股市的熱情,對股市數(shù)據(jù)所進(jìn)行的技術(shù)分析對于那些投資人決定是否投資起著重要的作用。在我國,就算不是炒股的人也可以很容易地發(fā)現(xiàn)我國股票市場中,不同行業(yè)之間的股票總是會有著相似的同時漲和同時跌的規(guī)律,可以看出其表現(xiàn)出的過度的相關(guān)性。本文所介紹就是關(guān)于同行股票之間相關(guān)性的研究并對其進(jìn)行可視化。
2 可視化技術(shù)
數(shù)據(jù)的可視化主要是為了借由一些圖形圖像的手段來清楚地表達(dá)所要傳達(dá)的信息。在表達(dá)過程中,為了更好地傳達(dá)清楚思想和概念,總是需要將美學(xué)形式與功能同時發(fā)展,通過直接的方式把關(guān)鍵的信息和特征來成功表達(dá)數(shù)據(jù)的深入了解。在當(dāng)今時代,如何面對一堆雜亂無章的數(shù)據(jù),如何通過可視化進(jìn)行數(shù)據(jù)呈現(xiàn),是可視化技術(shù)面臨的新的挑戰(zhàn)。
可視化主要包括科學(xué)算術(shù)中的可視化、數(shù)據(jù)和信息的可視化。可視化技術(shù)現(xiàn)今被應(yīng)用在各行各業(yè),大到國家重點項目介紹,小到微分子化學(xué)等的展示模擬[1]。
3 相關(guān)性的基本理論
相關(guān)性研究是指對于線性相關(guān)的研究[2],線性相關(guān)的系數(shù)在度量函數(shù)的均值和方差計算比較方便的,在實際的生活中,很多函數(shù)的均值和方差并不是那么容易得到的,有的根本就不存在均值或者方差,所以很多的分布函數(shù)不是很容易進(jìn)行線性相關(guān)分析。在此文章中,將通過Pandas的百分比變化即股票收益來計算其相關(guān)性。
通過研究分析,發(fā)現(xiàn)股票歷史數(shù)據(jù)對于股票的相關(guān)性的研究具有一定的研究價值,股票相關(guān)性是研究股價與收益之間關(guān)系和行業(yè)分類的技術(shù)工具,對于股票市場的系統(tǒng)性風(fēng)險和資產(chǎn)組合有效的衡量具有重要的價值[3]。本文對于同行股票的相關(guān)性進(jìn)行可視化分析,對后期的股票分析預(yù)測有著重要的指導(dǎo)意義。
4 股票數(shù)據(jù)集的獲取與處理
東方財經(jīng)和網(wǎng)易財經(jīng)上有很多關(guān)于每一只股票的信息。此次所需的股票的數(shù)據(jù)集是利用Python中的BeautifulSoup獲取所需數(shù)據(jù),Pandas對數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,使用Matplotilib進(jìn)行圖表展示,具體數(shù)據(jù)獲取如下。
(1)通過連板網(wǎng)獲取股票的名稱與股票代碼。
(2)在網(wǎng)易財經(jīng)上通過谷歌瀏覽器的檢查工具來獲取請求接口。
(3)利用xpath去提取網(wǎng)頁中的要獲取下載的數(shù)據(jù)的起始和結(jié)束時間。
(4)通過連板網(wǎng)上獲取的股票代碼與其url進(jìn)行拼接。
(5)獲得所需股票數(shù)據(jù)集。
數(shù)據(jù)的分析與可視化有助于人們從眾多繁雜的數(shù)據(jù)中更快速地獲取到有用的信息。本次研究利用的是上證股票制藥行業(yè)公司的數(shù)據(jù)集,通過Python代碼獲取的股票數(shù)據(jù)集存儲在本地,如圖1所示。
通過Python所爬取的數(shù)據(jù)集總是存在著各種各樣的問題,接下來要做的就是對其進(jìn)行數(shù)據(jù)預(yù)處理[4],刪除缺失值、清洗格式和無用的信息、分離標(biāo)簽等,在此不過多介紹該清理過程,清理之后的數(shù)據(jù)集如圖2所示。
5 可視化分析
在對數(shù)據(jù)處理過程中可視化處理使用的信息圖表工具比較熱門,信息圖表示信息、數(shù)據(jù)和知識等的視覺化的表達(dá)[5],當(dāng)今世界上有很多的可視化的工具,比如谷歌公司的制圖服務(wù)接口Google Chart API、Visual.ly、大數(shù)據(jù)魔鏡等。本文主要使用的是Python中支持的可視化工具庫,主要用到的是Matplotlib、seaborn、bokeh等對獲取的股票數(shù)據(jù)集進(jìn)行股票相關(guān)性分析。同行公司股票相關(guān)性使用的是Pandas的百分比與其他相關(guān)函數(shù)進(jìn)行分析,通過散點圖查看它們之間的收益分布,發(fā)現(xiàn)同行的制藥公司之間是有著正相關(guān)關(guān)系的。如圖3所示。
如圖4所示為通過熱力圖來分析股票之間相關(guān)性可視化,它們之間的競爭關(guān)系通過圖片顏色的深淺來表示,當(dāng)顏色越深時代表著股票之間的相關(guān)性越弱,相反顏色越深則代表相關(guān)性越強(qiáng)。從圖中可以看出60083(第一藥業(yè))與其他制藥公司之間的相關(guān)性是最強(qiáng)的,同時每一支股與其他股都有著白色間隙,這說明各個制藥公司之間的雖然存在著一些相關(guān)性,但是不能說它們存在所謂的因果關(guān)系。
6 總結(jié)
為完成股票數(shù)據(jù)相關(guān)性可視化的研究,本文利用Python中的BeautifulSoup獲取所需數(shù)據(jù),Pandas對數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,使用Matplotilib進(jìn)行圖表展示。通過少量的代碼獲取股票代碼和股票歷史數(shù)據(jù)集,并通過獲得的數(shù)據(jù)集進(jìn)行可視化分析,完成股票相關(guān)性的研究。可以看出同一行業(yè)的股票之間的收益存在著微弱的正相關(guān)關(guān)系,近似的正相關(guān)關(guān)系只能說明該行業(yè)的趨勢發(fā)展,不能說明股票之間存在因果關(guān)系,更不能說明競爭股票是如何互相影響的。根據(jù)它們之間的正相關(guān)關(guān)系,為以后更好地預(yù)測股票價值提供基礎(chǔ)。
總之,在數(shù)據(jù)信息逐漸增多的今天,Python提供了強(qiáng)大的第三方庫,不論是在數(shù)據(jù)的處理方面還是進(jìn)行數(shù)據(jù)的可視化,都變得更加方便和簡潔,為更好地進(jìn)行數(shù)據(jù)分析提供更為簡單易用的可能。
參考文獻(xiàn):
[1] 沈恩亞.大數(shù)據(jù)可視化技術(shù)及應(yīng)用[J].計算機(jī)軟件及計算機(jī)應(yīng)用,2020(3):68-83.
[2] 李閃.中國各行業(yè)股票市場相關(guān)性分析[J].上海理工大學(xué)管理學(xué)院,2020(9):81-84.
[3] 寧瀚文,屠雪永.基于高維波動率網(wǎng)絡(luò)模型的股票市場風(fēng)險特征研究[J].統(tǒng)計研究,2019,36(10):58-73.
[4] 劉艷玲,姚建盛.Python在數(shù)據(jù)可視化中的應(yīng)用[J].福建電腦,2020,36(3):68-70.
[5] Lyra: An Interactive Visualization Design Environment[J].Arvind Satyanarayan,Jeffrey Heer.? Computer Graphics Forum ,2014(2).
【通聯(lián)編輯:梁書】