方驥 謝慧敏
摘要:本文探討了數(shù)據(jù)挖掘技術(shù)簡(jiǎn)述,分析了Python的功能與特點(diǎn),研究了Python在大數(shù)據(jù)挖掘、分析中的實(shí)際應(yīng)用情況。
關(guān)鍵詞:Python;大數(shù)據(jù);挖掘;分析
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)09-0075-02
0 引言
近年來(lái),我國(guó)政府對(duì)于大數(shù)據(jù)的挖掘、分析工作的重視程度不斷上升,并為這一情況安排了相應(yīng)的部署工作,在現(xiàn)有基礎(chǔ)上,進(jìn)一步完善相關(guān)工作的業(yè)務(wù)流程,全力完善相關(guān)工作年的體制結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)共享、數(shù)據(jù)深度開(kāi)發(fā)。Python近年來(lái)在數(shù)據(jù)統(tǒng)計(jì)這一方面得到了廣泛應(yīng)用。相較于傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)中應(yīng)用的SAS、SPSS等統(tǒng)計(jì)工具,Python是一種基于現(xiàn)代化、信息化、網(wǎng)絡(luò)化、科學(xué)化背景下的新型統(tǒng)計(jì)工具,相較于傳統(tǒng)統(tǒng)計(jì)工作,該工具具有簡(jiǎn)單易學(xué),操作便利,可深入挖掘數(shù)據(jù)的相關(guān)信息等優(yōu)點(diǎn)。因此,在大數(shù)據(jù)的挖掘、分析中應(yīng)用Python是非常有必要的。
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)述
數(shù)據(jù)挖掘技術(shù)其實(shí)是一門(mén)新興交叉學(xué)科,涉及人工智能、數(shù)理統(tǒng)計(jì)、知識(shí)工程等多個(gè)領(lǐng)域的相關(guān)技術(shù)與相關(guān)知識(shí),也囊括一套完成、連續(xù)的過(guò)程。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘技術(shù)其實(shí)是利用多種復(fù)雜計(jì)算方法,在多種未加工的數(shù)據(jù)中,發(fā)現(xiàn)并挖掘有效知識(shí)以及數(shù)據(jù)間的潛在關(guān)系。通過(guò)挖掘出來(lái)的有效數(shù)據(jù),從而完成相應(yīng)的數(shù)據(jù)統(tǒng)計(jì)工作,并通過(guò)統(tǒng)計(jì)結(jié)果完成相應(yīng)領(lǐng)域的工作。因?yàn)閿?shù)據(jù)挖掘技術(shù)能夠真實(shí)、準(zhǔn)確的反映某一領(lǐng)域、某一方向的相關(guān)信息,因此近年來(lái)數(shù)據(jù)挖掘技術(shù)在金融業(yè)、醫(yī)療業(yè)、電信業(yè)以及零售業(yè)等行業(yè)中廣泛應(yīng)用,并獲得了相對(duì)顯著的成果。
2 Python的功能與特點(diǎn)
Python近年來(lái)在游戲開(kāi)發(fā)、圖形用戶(hù)界面開(kāi)發(fā)、數(shù)據(jù)開(kāi)發(fā)以及網(wǎng)路開(kāi)發(fā)等多個(gè)領(lǐng)域中廣泛應(yīng)用。從實(shí)際應(yīng)用情況可以看出,Python具有功能強(qiáng)大、可滿(mǎn)足不同工作需求等特點(diǎn)。詳細(xì)功能與特點(diǎn)如下[1]:
(1)網(wǎng)絡(luò)開(kāi)發(fā):從實(shí)際應(yīng)用可以看出,Python內(nèi)部中有很多常見(jiàn)網(wǎng)絡(luò)協(xié)議庫(kù),因此可作為網(wǎng)絡(luò)編程工具參與相應(yīng)的網(wǎng)絡(luò)開(kāi)發(fā)工作中。(2)網(wǎng)絡(luò)爬蟲(chóng):Python本身自帶框架,這個(gè)框架能夠獲取相應(yīng)的網(wǎng)站信息以及網(wǎng)頁(yè)內(nèi)容,可利用正則表達(dá)式達(dá)到分析、提取所需數(shù)據(jù)的目的。(3)游戲開(kāi)發(fā):Python本身自帶編程方式,用于游戲開(kāi)發(fā)工作,可有效提高其開(kāi)發(fā)便捷性。再者,在游戲開(kāi)發(fā)工作中,游戲會(huì)員的登錄注冊(cè)系統(tǒng)、交換游戲裝備系統(tǒng)以及戰(zhàn)斗攻防系統(tǒng)等等都可以利用Python,實(shí)現(xiàn)進(jìn)一步優(yōu)化,進(jìn)一步提高游戲開(kāi)發(fā)工作的效率與質(zhì)量。(4)GUI:Python能夠在短時(shí)間內(nèi)迅速完成創(chuàng)建GIU應(yīng)用程序的工作,而且能夠和Java形成相應(yīng)的Jython數(shù)據(jù)庫(kù)。(5)人工智能:人工智能是近年來(lái)的新發(fā)展方向,在實(shí)際社會(huì)實(shí)踐過(guò)程中,有很多類(lèi)型不同的智能項(xiàng)目在設(shè)計(jì)、開(kāi)發(fā)過(guò)程中需要Python的參與,譬如谷歌的無(wú)人駕駛以及百度大腦、微軟的小冰等等。(6)物聯(lián)網(wǎng)終端:Python本身的功能還可在多個(gè)不同方面體現(xiàn)出來(lái),譬如阿里巴巴、臉書(shū)、新浪等等方面中。可以說(shuō),在現(xiàn)今物聯(lián)網(wǎng)中,Python是無(wú)處不在的,各個(gè)領(lǐng)域均有Python的應(yīng)用。這種情況進(jìn)一步體現(xiàn)了Python的實(shí)際應(yīng)用價(jià)值,并且能夠進(jìn)一步推動(dòng)物聯(lián)網(wǎng)終端升級(jí)發(fā)展。
3 Python在大數(shù)據(jù)挖掘、分析中的實(shí)際應(yīng)用情況
從Python的實(shí)際應(yīng)用情況可以看出,Python本身具有強(qiáng)大的適應(yīng)性功能與普及性功能,可在大數(shù)據(jù)的挖掘、分析等工作中廣泛應(yīng)用。在大數(shù)據(jù)背景下利用Python完成數(shù)據(jù)分析功能,能夠獲取很多具有一定真實(shí)性、準(zhǔn)確性?xún)?yōu)點(diǎn)的信息,可充分發(fā)揮大數(shù)據(jù)本身的應(yīng)用價(jià)值,也能夠?yàn)橄嚓P(guān)工作的研究、進(jìn)展提供更多具有顯著應(yīng)用價(jià)值的參考信息。總的來(lái)說(shuō),Python在大數(shù)據(jù)挖掘、分析中應(yīng)用,具有顯著的應(yīng)用價(jià)值,實(shí)際價(jià)值如下[2]:
3.1 數(shù)據(jù)分析庫(kù)
Python本身具有數(shù)據(jù)分析庫(kù)的作用。現(xiàn)在是一個(gè)大數(shù)據(jù)時(shí)代,只有相對(duì)功能全面、簡(jiǎn)單好操作、數(shù)據(jù)分析速度快的數(shù)據(jù)編程工具,才能夠滿(mǎn)足大數(shù)據(jù)背景下的數(shù)據(jù)分析需求。因此,Python本身具備的數(shù)據(jù)分析庫(kù)功在實(shí)際數(shù)據(jù)分析中應(yīng)用,可在保證數(shù)據(jù)分析的基本效率基礎(chǔ)上,進(jìn)一步提高數(shù)據(jù)分析的效率與質(zhì)量。Python中有應(yīng)用頻率較高的數(shù)據(jù)分析庫(kù),如Pandas以及Numpy,第一個(gè)數(shù)據(jù)分析庫(kù)具有DataFrame以及Series兩類(lèi)數(shù)據(jù)框,在數(shù)據(jù)框中,囊括很多標(biāo)準(zhǔn)數(shù)據(jù)模型,操作者可根據(jù)實(shí)際需求,數(shù)據(jù)模型的應(yīng)用價(jià)值,使用所需的數(shù)據(jù)模型完成大型數(shù)據(jù)的分析工作。比如,如果操作者須在短時(shí)間內(nèi)完成千萬(wàn)行CVS數(shù)據(jù)處理,可利用傳統(tǒng)數(shù)據(jù)分析工具字典進(jìn)行處理,只需要2分鐘,然后轉(zhuǎn)變?yōu)镻ython處理,則只需要10秒不到的時(shí)間。第二個(gè)數(shù)據(jù)分析庫(kù)更適合在數(shù)組以及矩陣的數(shù)據(jù)分析中應(yīng)用,操作十分方便,可在科學(xué)領(lǐng)域中進(jìn)行有效計(jì)算。也就是說(shuō),采用Python完成數(shù)據(jù)分析處理工作,可有效縮短工作時(shí)間的同時(shí),還可有效提升工作效率,并且能夠保證數(shù)據(jù)分析結(jié)果本身的有效性。若能充分掌握Python的數(shù)據(jù)分析庫(kù)應(yīng)用方法,Python便會(huì)成為當(dāng)下最適合在大數(shù)據(jù)分析中應(yīng)用的方法。除去以上簡(jiǎn)單講解的Python數(shù)據(jù)庫(kù)分析功能,Python還具有人工智能以及神經(jīng)網(wǎng)絡(luò)等多種資源方式。同時(shí),利用一些服務(wù)器平臺(tái),實(shí)施Python數(shù)據(jù)庫(kù)分析,也能夠達(dá)到C語(yǔ)言的目的。從實(shí)際應(yīng)用情況可以看出,不同的數(shù)據(jù)庫(kù)具有不同的應(yīng)用價(jià)值,在不同方面的應(yīng)用價(jià)值也存在新竹差異。因此,想要充分發(fā)揮Python數(shù)據(jù)庫(kù)分析的價(jià)值,操作者必須深入了解Python,掌握Python數(shù)據(jù)庫(kù)分析的相應(yīng)功能。
3.2 數(shù)據(jù)挖掘能力
相較于R語(yǔ)言(傳統(tǒng)數(shù)據(jù)處理、計(jì)算、制圖軟件),Python本身含有多項(xiàng)產(chǎn)品建構(gòu)功能。對(duì)于操作人員而言,學(xué)習(xí)Python,難度較小,更容易上手。但學(xué)習(xí)R語(yǔ)言,學(xué)習(xí)難度較高,不容易上手。再者,隨著Python的不斷更新?lián)Q代,Python本身的編程語(yǔ)言排名順序不斷升高。比如,在統(tǒng)計(jì)分析工作中,現(xiàn)在Python的排名已經(jīng)比R語(yǔ)言更高。從臨床實(shí)踐調(diào)查結(jié)果可以看出,在2016年時(shí),實(shí)際應(yīng)用R語(yǔ)言的人數(shù)遠(yuǎn)遠(yuǎn)高于應(yīng)用Python的人數(shù)。但是從2017年的統(tǒng)計(jì)數(shù)據(jù)可以看出,應(yīng)用Python的人數(shù)明顯高于應(yīng)用R語(yǔ)言的人數(shù)。也就是說(shuō),隨著Python的應(yīng)用,越來(lái)越多的人認(rèn)識(shí)到Python本身的應(yīng)用價(jià)值,因此應(yīng)用Python的人數(shù)越來(lái)越多。
應(yīng)用Python人數(shù)的持續(xù)增多,為數(shù)據(jù)挖掘工作人員帶來(lái)了新的發(fā)展方向。主要是因?yàn)镻ython編程語(yǔ)言本身的數(shù)據(jù)挖掘能力比較高,能夠在自動(dòng)化方式以及智能技術(shù)基礎(chǔ)上,有效減少工作人員的數(shù)據(jù)挖掘工作實(shí)際工作量。這一特點(diǎn)導(dǎo)致操作人員在應(yīng)用Python編程語(yǔ)言后,可用更短的時(shí)間完成更多的數(shù)據(jù)挖掘工作,可進(jìn)一步提升數(shù)據(jù)挖掘的全面性,可結(jié)合實(shí)際工作需求,完成相應(yīng)的數(shù)據(jù)挖掘工作。再者,在完成數(shù)據(jù)挖掘工作后,還可在無(wú)需切換Python的基礎(chǔ)上,進(jìn)一步對(duì)所挖掘的數(shù)據(jù)進(jìn)行有效分析,可充分發(fā)揮大數(shù)據(jù)時(shí)代背景下的實(shí)效性特點(diǎn),可更好的適應(yīng)時(shí)代發(fā)展。
3.3 程序包和平臺(tái)
Python本身具有PyPI技術(shù)支持,含有Python模塊與腳本資源庫(kù)。Python本身內(nèi)部資源豐富,可直接被程序調(diào)用。再者,在大數(shù)據(jù)挖掘、分析工作中應(yīng)用Python,可通過(guò)豐富的數(shù)據(jù)交流區(qū),達(dá)到使用數(shù)據(jù)、使用文檔等功能的目的。Python其實(shí)屬于開(kāi)源性質(zhì),必須通過(guò)長(zhǎng)時(shí)間設(shè)計(jì)、開(kāi)發(fā)、完善,才能在平臺(tái)應(yīng)用Python的過(guò)程中,保證平臺(tái)能夠穩(wěn)定運(yùn)行,跨平臺(tái)運(yùn)行穩(wěn)定。為滿(mǎn)足Python在大數(shù)據(jù)挖掘、分析中的有效應(yīng)用,市場(chǎng)必須不斷提高Python人員的專(zhuān)業(yè)性,才能保證Python的應(yīng)用價(jià)值被充分挖掘出來(lái),才能降低大數(shù)據(jù)的挖掘、分析成本,才能讓獲取的數(shù)據(jù)可視化。再者,Python能夠促進(jìn)2D圖表、3D突變更為便利快捷的創(chuàng)作。只要在Python專(zhuān)屬庫(kù)基礎(chǔ)上,完成最初簡(jiǎn)單的Python代碼編寫(xiě),可及時(shí)輸出可視化結(jié)果,可輔助操作人員更快發(fā)現(xiàn)數(shù)據(jù)的實(shí)際應(yīng)用按機(jī)制,才能優(yōu)化相應(yīng)工作,滿(mǎn)足實(shí)踐過(guò)程中挖掘、分析大數(shù)據(jù)的目的。
4 結(jié)語(yǔ)
綜上所述,在大數(shù)據(jù)挖掘、分析工作中應(yīng)用Python,可有效提高相關(guān)工作的效率與質(zhì)量,具有顯著的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 肖樂(lè).基于python的Web大數(shù)據(jù)采集和數(shù)據(jù)分析[J].電腦知識(shí)與技術(shù),2018(22):9-11.
[2] 龔莎.基于Python的可配置自動(dòng)化爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦迷,2018(10):203.