
摘要:隨著計(jì)算機(jī)技術(shù)在新時代的發(fā)展,數(shù)據(jù)挖掘運(yùn)用也越來越多,除了在銀行金融、生物醫(yī)學(xué)、電子商務(wù)等商業(yè)科研領(lǐng)域。在新時期,數(shù)據(jù)挖掘在公共管理領(lǐng)域也得到了進(jìn)一步的運(yùn)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;新時期;運(yùn)用
中圖分類號:G642? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)25-0001-02
1 數(shù)據(jù)挖掘概述
1.1? 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘(Data Mining,簡稱DM)是從不完整、大量有噪聲的數(shù)據(jù)中提取出有意義的模式知識的過程[1],挖掘分析的對象主要有數(shù)據(jù)庫或數(shù)據(jù)倉庫內(nèi)容以及其它多種數(shù)據(jù)源。主要涉及統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、高性能計(jì)算等眾多學(xué)科,而分析是一個包含多步驟知識發(fā)現(xiàn)的過程[2],主要如圖1所示[3]。
1.2數(shù)據(jù)挖掘內(nèi)涵
數(shù)據(jù)挖掘是提取隱藏在數(shù)據(jù)集中的知識和信息,這些知識和信息尚未完全探索,雖然事先未知,但具有許多有用的知識,通過挖掘分析將其表示成最終能被人容易理解知識[4]。它不但能夠從大量隨機(jī)、有噪聲、不完全的數(shù)據(jù)中學(xué)習(xí)已有的知識,而且能夠發(fā)現(xiàn)未知的信息,所得到的知識既能容易理解,又便于應(yīng)用、存儲,這些知識可以在管理信息、決策支持、預(yù)測趨勢、過程控制等許多領(lǐng)域發(fā)揮作用[5]。
2 商業(yè)及科研領(lǐng)域
數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用領(lǐng)域,主要在金融領(lǐng)域、生物醫(yī)學(xué)、電子商務(wù)中具有廣泛的運(yùn)用。
2.1數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用
在數(shù)據(jù)挖掘技術(shù)發(fā)展的早期,它已經(jīng)應(yīng)用于金融市場。早期在金融市場的運(yùn)用主要是分析特定對象的演變或發(fā)展趨勢,進(jìn)而采取相應(yīng)預(yù)防措施,突出的應(yīng)用在信用評估和防止欺詐。較早前,Robert Groth等運(yùn)用Neural network對進(jìn)行股票走勢預(yù)測[6],輔助客戶制定穩(wěn)健的投資策略。但隨著互聯(lián)網(wǎng)、第三方支付的發(fā)展與沖擊,非銀行金融機(jī)構(gòu)借助網(wǎng)絡(luò)對銀行傳統(tǒng)業(yè)務(wù)大規(guī)模“蠶食”,對銀行產(chǎn)生了較大沖擊,網(wǎng)絡(luò)信貸開始嶄露頭角,數(shù)據(jù)挖掘也開始在網(wǎng)絡(luò)金融借貸方面。陳等[7]以Weka為工具,運(yùn)用數(shù)據(jù)挖掘?qū)2P網(wǎng)絡(luò)金融平臺借貸歷史挖掘分析,使用Weka已有的算法及數(shù)據(jù)模型,參考借出總金額、時間、總次數(shù)指標(biāo),以聚類結(jié)果為導(dǎo)向,將出款人分為8種類型。以類型判斷出款人的潛在價值,為管理者提供參考導(dǎo)向。而對于傳統(tǒng)銀行業(yè),也在積極運(yùn)用數(shù)據(jù)挖掘來提升其在存、貸、匯等傳統(tǒng)業(yè)務(wù)的優(yōu)勢地位,進(jìn)一步鞏固開拓市場。
2.2數(shù)據(jù)挖掘在生物醫(yī)學(xué)中的應(yīng)用
數(shù)據(jù)挖掘在生物醫(yī)學(xué)領(lǐng)域也有著廣泛的應(yīng)用。Vysis 采用Neural network為藥品開發(fā)進(jìn)行蛋白質(zhì)分析[6]。在之前的研究中,數(shù)據(jù)挖掘主要是分析生物序列,試圖找出某種未知的規(guī)律。隨著深度學(xué)習(xí)的發(fā)展,數(shù)據(jù)挖掘在生物醫(yī)學(xué)上也出現(xiàn)了新的研究應(yīng)用??梢酝ㄟ^對已有的疾病數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘?qū)W習(xí),實(shí)現(xiàn)對患者疾病分類,間接對醫(yī)生輔助診斷。張[8]等針對已有疾病數(shù)據(jù)的不均衡、多標(biāo)記等特點(diǎn),進(jìn)行了不均衡、多標(biāo)記分類研究,提高了相應(yīng)的分類預(yù)測指標(biāo)。洪等[9]結(jié)合目前深度學(xué)習(xí)在生物醫(yī)學(xué)數(shù)據(jù)的最新應(yīng)用情況,運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型,數(shù)據(jù)預(yù)處理、模型構(gòu)建等方面的解決方法的分析,指出了深度學(xué)習(xí)在生物醫(yī)學(xué)數(shù)據(jù)的發(fā)展前景。
2.3電子商務(wù)領(lǐng)域的運(yùn)用
電子商務(wù)領(lǐng)域數(shù)據(jù)挖掘也有著較多的運(yùn)用。隨著新時期大數(shù)據(jù)的發(fā)展,通過分析交易平臺歷史交易數(shù)據(jù),可挖掘出購物者在商品類型的偏好,對其實(shí)現(xiàn)精準(zhǔn)推薦。同時,它可以協(xié)助電商平臺運(yùn)營,調(diào)整平臺的銷售策略和商品,進(jìn)一步為消費(fèi)者提供個性化服務(wù)。李等[10]在Spark平臺基礎(chǔ)上,改進(jìn)了協(xié)同過濾(Item-CF)算法商品推薦系統(tǒng)(此算法基于新物品),并將其應(yīng)用在公開的MovieLens數(shù)據(jù)集上測試。結(jié)果表明,該系統(tǒng)提高了相應(yīng)的推薦指標(biāo)并且降低時間復(fù)雜度。沈等[11]基于隨機(jī)森林,設(shè)計(jì)了一個關(guān)于帖子瀏覽的推薦系統(tǒng)。該系統(tǒng)在數(shù)據(jù)處理、特征選擇和調(diào)整參數(shù)等前期基礎(chǔ)上,將實(shí)際問題與分類模型結(jié)合,形成新的新的分類模型,對用戶推薦感興趣的帖子,而且還對用戶瀏覽后是否會產(chǎn)生交互行為進(jìn)行了預(yù)測。通過提高推薦精確度等相應(yīng)技術(shù)指標(biāo),數(shù)據(jù)挖掘在電商得到進(jìn)一步深入。
3公共管理領(lǐng)域的運(yùn)用
數(shù)據(jù)挖掘除了在上述商業(yè)科研領(lǐng)域發(fā)揮著作用外,也開始在電子政務(wù)領(lǐng)域、政府決策領(lǐng)域、數(shù)字經(jīng)濟(jì)等公共管理領(lǐng)域開始發(fā)揮著重要作用。
3.1 電子政務(wù)領(lǐng)域
電子政務(wù)的核心建立在是以互聯(lián)網(wǎng)為基礎(chǔ)的將政府管理和服務(wù),建設(shè)以群眾滿意為導(dǎo)向的政府服務(wù)體系[12]。雖然政府部門多年來積累了大量豐富的數(shù)據(jù),但是數(shù)據(jù)利用的頻率和效率都很低,而數(shù)據(jù)挖掘可以解決這個問題。利用數(shù)據(jù)挖掘分析,“挖掘”和“提煉”政府部門的數(shù)據(jù),使政府能夠有效地安排和指導(dǎo)政府服務(wù)。通過數(shù)據(jù)挖掘分析群眾在辦事過程中遇到的難點(diǎn)、賭點(diǎn),有針對性地推出相應(yīng)的政策,制定便民的服務(wù)流程、制度,讓“沉睡”的數(shù)據(jù)發(fā)揮更大的作用。讓政務(wù)服務(wù)更具有針對性、滿足更加個性化需求,這就是新時期電子政務(wù)的發(fā)展方向[13]。
3.2 政府決策領(lǐng)域
政府決策是公共管理中非常重要的組成部分,要充分滿足群眾在社會各項(xiàng)公共服務(wù)需求,體現(xiàn)人性化色彩,必須全面地了解社會公共服務(wù)的各方面數(shù)據(jù),深入地進(jìn)行分析、匯總從而制定相應(yīng)的決策。然而,社會服務(wù)涉及廣泛的數(shù)據(jù),并且相應(yīng)的數(shù)據(jù)量很大。通過數(shù)據(jù)挖掘分析處理這些已有的社會服務(wù)數(shù)據(jù),從中挖掘出決策者想要的信息,有利于決策者更加科學(xué)、合理、有針對性的決策。利用基于數(shù)據(jù)挖掘的決策咨詢系統(tǒng),使政府能夠更加有效掌握經(jīng)濟(jì)和社會運(yùn)行的具體情況,使決策更加科學(xué)。
孫等[14]采用5層架構(gòu),通過全面的數(shù)據(jù)采集、建立決策數(shù)據(jù)倉庫、采用適合數(shù)據(jù)挖掘算法,并根據(jù)用戶需要對數(shù)據(jù)進(jìn)行主題分類,在結(jié)果上采用直觀的、可視化和支持查詢的顯示呈現(xiàn)。給用戶提供了更加方便、更加具有針對性的決策體驗(yàn)。楊等[15]以數(shù)據(jù)倉庫為基礎(chǔ),運(yùn)用聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘,建設(shè)了政府經(jīng)濟(jì)決策系統(tǒng),實(shí)現(xiàn)了對政府經(jīng)濟(jì)決策實(shí)現(xiàn)了有效的支持。
3.3數(shù)據(jù)挖掘在數(shù)字經(jīng)濟(jì)中的應(yīng)用
數(shù)字經(jīng)濟(jì)是以數(shù)字資源為基礎(chǔ),數(shù)字技術(shù)和信息技術(shù)是其重要的驅(qū)動力,通過信息網(wǎng)絡(luò)的連接形成了生產(chǎn)和消費(fèi)等經(jīng)濟(jì)活動的總和。當(dāng)前,隨著新技術(shù)的發(fā)展,通過智能手機(jī)不僅可以完成看病掛號、繳付水電費(fèi)等一般事務(wù),而且還可以參與舉報違法、糾正不實(shí)消息,報告重大險情、交通事故等,數(shù)字經(jīng)濟(jì)越來越多地用于民生領(lǐng)域。數(shù)據(jù)挖掘是數(shù)字經(jīng)濟(jì)智能化“引擎”,為數(shù)字經(jīng)濟(jì)的下一步發(fā)展提供了重要支持。
4結(jié)語
數(shù)據(jù)挖掘計(jì)算機(jī)領(lǐng)域中熱門的研究領(lǐng)域之一,同時也是一個隨著時代發(fā)展而不斷發(fā)展的學(xué)科,在未來的領(lǐng)域中,會有著更加廣泛的運(yùn)用。本文主要從應(yīng)用方面總結(jié)和闡述了當(dāng)前數(shù)據(jù)挖掘運(yùn)用的主要方向。在新時期,隨著大數(shù)據(jù)等技術(shù)發(fā)展,數(shù)據(jù)挖掘的運(yùn)用領(lǐng)域也會越來越廣。
參考文獻(xiàn):
[1]王光宏, 蔣平. 數(shù)據(jù)挖掘綜述[J]. 同濟(jì)大學(xué)學(xué)報, 2004, 32(2): 246-252.
[2]葉磊, 駱興國, 李建喜. 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢葉磊[J]. 電腦知識與技術(shù), 2006(32): 26-27.
[3]Han J, Kamber M. Data Mining : Concepts and Technique[M]. 2005.
[4]Zaki M J, Yu J X, Ravindran B, et al. Advances in Knowledge Discovery and Data Mining[J], 2013, 5476(4): xviii.
[5]劉力揚(yáng). 數(shù)據(jù)挖掘與數(shù)據(jù)庫知識發(fā)現(xiàn)[J]. 河南廣播電視大學(xué)學(xué)報, 2000(3): 42-43.
[6]滕廣青, 毛英爽. 國外數(shù)據(jù)挖掘應(yīng)用研究與發(fā)展分析[J]. 統(tǒng)計(jì)研究, 2005, 22(12): 68-70.
[7]陳雪改, 王飛. 基于P2P互聯(lián)網(wǎng)金融的數(shù)據(jù)挖掘技術(shù)研究[J]. 重慶理工大學(xué)學(xué)報, 2017, 31(7): 151-155.
[8]潘主強(qiáng), 張林, 顏仕星, et al. 中醫(yī)臨床數(shù)據(jù)疾病分類機(jī)器學(xué)習(xí)方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(13): 146-154.
[9]洪浩, 伯曉晨, 醫(yī)學(xué)信息學(xué)雜志 李 J. 深度學(xué)習(xí)在生物醫(yī)學(xué)數(shù)據(jù)中的應(yīng)用[J], 2018, 39(3): 2-9.
[10]李星, 李濤. 基于Spark的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2018, 28(10): 201-205.
[11]沈晶磊, 虞慧群, 范貴生, et al. 基于隨機(jī)森林算法的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)科學(xué), 2017, 44(11): 164-167.
[12]劉典文. 數(shù)據(jù)挖掘技術(shù)在公共管理領(lǐng)域的應(yīng)用[J]. 行政論壇, 2010, 17(2): 42-46.
[13]周民, 賈一葦. 推進(jìn)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”,創(chuàng)新政府服務(wù)與管理模式[J]. 電子政務(wù), 2016(6): 73-79.
[14]孫道遠(yuǎn). 基于數(shù)據(jù)挖掘技術(shù)的政府決策咨詢系統(tǒng)的研究與設(shè)計(jì)[J]. 長春工程學(xué)院學(xué)報, 2017, 18(4).
[15]楊越. 數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)中的數(shù)據(jù)與應(yīng)用[D]. 解放軍信息工程大學(xué), 2012.
【通聯(lián)編輯:王力】