任冷
摘 要:互聯網催生了大數據,在互聯網滲透各個產業的過程中,同時也實現了數據電子化,使產生的大數據具備了前所未有的利用價值。大數據將通過自己的“智慧”,重塑了很多產業。因此,研究了數據挖掘在各行業的應用,以及在這些應用要求下面臨的技術挑戰和發展趨勢。
關鍵詞:數據挖掘;應用研究;新的挑戰;發展趨勢
中圖分類號:TP311 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.16.007
近年來,互聯網已經融入我們生活中的方方面面,尤其是這幾年以來,在互聯網技術的推動下,很多行業都已經從傳統的模式轉變成了物聯網模式,又從物聯網變成了現在的“互聯網+”運營模式了。海量數據的分析就顯得尤為重要,那么數據挖掘技術的發展就會有了質的飛躍,將來也會成為企業發展一個必需的依賴技術。數據挖掘典型的應用領域包括金融、醫療、零售和電商、電信、交通等。另外,由于新的數據類型也隨著技術進步不斷增加,因此本文指出了數據挖掘的發展趨勢和所面臨的挑戰。
1 數據挖掘的應用
數據挖掘所要處理的問題就是在龐大的數據中找出有價值的隱藏事件,并加以分析,獲取有意義的信息和模式,為決策提供依據。數據挖掘應用的領域非常廣泛,只要有分析價值與需求的數據,都可以利用挖掘工具進行發掘分析。目前,數據挖掘應用最集中地領域包括金融、醫療、零售和電商、電信和交通等,而且每個領域都有特定的應用問題和應用背景。
1.1 金融領域
不管是銀行,還是其他金融機構,都存儲了海量的金融數據,比如信貸、儲蓄與投資等金融數據。對于這些數據,運用數據挖掘技術進行有針對性的處理,將會得到很多具有價值的知識。金融數據具有可靠性、完整性和高質量等特點。這在很大程度上利于開展數據挖掘工作以及挖掘技術的應用。數據挖掘在金融領域中有許多具體的應用,例如分析多維數據,以把握金融市場的變化趨勢;運用孤立點分析等方法,研究洗黑錢等犯罪活動;應用分類技術,對顧客信用進行分類,為維持與客戶的關系以及為客戶提供相關服務等決策提供參考。
1.2 醫療領域
在人類的遺傳密碼、遺傳史、疾病史以及醫療方法等醫療領域中,都隱藏著海量的數據信息。另外,對醫院內部結構、醫藥器具、病人檔案以及其他資料等的管理也產生了巨量的數據。對于這些巨量的數據,運用數據挖掘相關技術處理,從而得到相關知識規律,將有利于相關人員工作的開展。運用數據挖掘技術,在很大程度上有助于醫療人員發現疾病的一些規律,從而提高診斷的準確率和治療的有效性,不斷促進人類健康醫療事業的發展。
1.3 零售和電商領域
由于零售業會產生龐大的數據,主要是銷售數據,比如商品的購進賣出記錄、客戶購買、消費記錄等。特別是隨著Web以及電子商務等商業方式日益普及流行,相應的數據也以飛快的速度增長著。運用數據挖掘技術對這些海量的數據進行針對性的處理分析,可以獲取很多極具價值的知識。例如可以有效地識別顧客的購買行為,從而把握好顧客購買的趨勢。這些關于顧客的有效信息是商家采取最佳決策的關鍵依據。商家可以根據數據挖掘結果有針對性地采取有效措施,比如如何改進服務質量,確保顧客的滿意度;如何提高商品的銷售量;如何設計較優的運輸路線以及采取怎樣的銷售策略等,從而提高企業效益。此外,由于數據挖掘的推薦系統已經成為電子商務的關鍵技術,通過數據挖掘,再對網站進行系統分析,對用戶的行為模式加以識別,在增加客戶黏性,提供個性化服務,優化網站設計等方面也取得了很好的效果。
1.4 電信領域
電信運營商已逐漸發展為一個融合了語音、圖像、視頻等增值服務的全方位立體化的綜合電信服務商。三網融合,即電信網、因特網和有線電視網的“融合”,是未來的一種發展趨勢。這一現象將會產生巨量的數據。運營商要合理地分析商業形式和模式,運用數據挖掘是非常有必要的。例如對用戶行為、利潤率、通信速率和容量、系統負載等電信數據,可以運用多維分析方法進行分析;要發現異常模式,可以運用聚類或孤立點分析等方法進行數據挖掘;要得到電信發展的影響因素,可以運用關聯或序列等模式進行分析等。總之,數據挖掘技術對電信業的發展發揮著非常重要的作用,比如如何提高相關資源的利用率、更深入更充分地了解用戶行為、如何獲取更好的經濟效益。
1.5 社交網絡分析
社交網絡分析是從關系和結構兩個方面來了解、度量和預測行為的科學。結合圖論和非參數統計技術,研究人員利用數據,比如電話數據,或者表明人與人之間聯系的觀察數據,來識別網絡內和跨網絡的關鍵人員和關鍵群體,或者特殊模式和重要途徑。現在,社交網絡分析呈現爆炸式增長,數據一般是以元網絡的形式表示,即關于誰(who)、什么(what)、哪里(where)、怎樣(how)和什么時候(when)的信息以多模態、多鏈接、多層次的網絡連接起來。數據通常是動態的。這一動態性正是我們感興趣的地方。我們可以通過這些數據來分析人們的活動取向,為公司的營銷提供有力的依據,也可以利用多個社交媒體來交叉驗證同一個人,這對于追蹤犯罪行為、恐怖分子、戀童癖者尤為重要。
1.6 交通領域
交通問題對城市的民生有很大影響。該領域積累了大量的數據,比如出租公司積累的乘客出行數據和公交公司的運營數據。通過對乘客數據和運營數據進行分析和挖掘,能夠為公交、出租公司科學的運營和交通部門的決策提供依據,比如合理規劃公交線路,實時為出租車的行駛線路提供建議等。這樣,不僅可以提升城市運力和幸福指數,還可以有效減少因交通擁堵問題造成的成本浪費。另外,航空公司也可依據歷史記錄來尋找乘客的旅行模式,以便提供更加個性化的服務,合理設置航線等。
近年來,數據挖掘的應用發展迅速,不僅在以上領域,在政府部門、軍事、制造業、科學研究等方面也都取得了一定的進展。
2 數據挖掘中隱私問題
隱私權是指個體的私人信息部被他人非法收集、公開和利用的權利。隱私保護就是保護個體的隱私權不被侵害,保護個體隱私在未經授權的時候不被泄露和惡意利用。基于隱私的數據挖掘存在以下2個層面的問題。
2.1 原始信息隱私保護
企業、醫院、政府部門通常收集了大量的個人原始信息,泄露這些信息可能識別出個人用戶的身份。為了防止個人隱私的泄露,這些原始數據均需要在進行數據挖掘之前進行修改和隱藏。這個層面主要解決的問題是如何在原始數據不準確的前提下得到正確的挖掘結果。
2.2 敏感規則隱私保護
企業、醫院、政府部門不僅存儲著大量的個人原始信息,通過對這些原始信息的挖掘,還可以得知某一群體的特征和行為規律。為了防止這些敏感規則被挖掘出來,通常事先改變原始數據的統計特征,使這些敏感規則的生成概率大大降低。
我們既不能否認通過數據挖掘產生的巨大利益,也不能因為存在有隱私保護技術正得到越來越多的關注,在保護隱私信息方面還需要更多的探索。更好的一個愿景是,將計算機科學、管理科學、社交網絡技術、政策法規等多個方面有效地結合在一起,共同來完成從數據中發現有效的知識。
3 數據挖掘的發展趨勢
3.1 數據挖掘與物聯網、云計算和大數據
簡單來說,物聯網就是物物相連的網絡,是數字世界和物理世界的高度融合。物聯網底層的大量傳感器為信息的獲取提供了一種新的方式。這些傳感器不斷地產生著新的數據,隨著各種各樣的異構終端設備的接入,物聯網采集的數據量也就會越來越大,其數據類型和數據格式也會越來越復雜。這些數據與時間和空間相關聯,有著動態、異構和分布的特性,也為數據挖掘任務帶來了新的挑戰。
云計算是一種基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態、易擴展且經常是虛擬化的資源(包括硬件、平臺和軟件),實現了設備之間的數據應用和共享。隨著物聯網的發展,感知的信息不斷增加,需要不斷地增加服務器的數目來滿足需求。但由于服務器的承載能力是有限的,服務器在節點上出現混亂和錯誤的概率大大增加。為了更好地提供服務,基于云計算的系統能有效地解決物聯網分布式數據挖掘中所遇到的問題,在進行相關數據挖掘時能夠顯著地提高性能。
目前,大數據已成為繼物聯網、云計算之后又一信息科技的新熱點。大數據在本質上仍然是海量數據,但規模更大,實時性和多樣性特點更明顯,相應的數據挖掘技術也需要有所改進,研究如何處理半結構化,甚至非結構化的數據是目前大數據挖掘面臨的挑戰之一。
將物聯網、云計算、大數據與數據挖掘研究聯系起來,不僅具有深遠的科學研究價值,而且將產生巨大的經濟效益和社會價值。
3.2 數據挖掘研究和應用面臨的挑戰
大數據時代的數據挖掘面臨著新的挑戰,主要表現在以下幾個方面。
3.2.1 數據類型的多樣性
不同的應用、系統和終端,由于標準的差異性,會產生不同結構的數據,其中包括結構化數據、半結構化數據和非結構化數據、對這些異構化數據的抽取與集成將成為一大挑戰。
3.2.2 數據挖掘算法的改進
大數據時代數據的量級達到了一個新的階段,而且還有其他新的特征,現有挖掘算法需要基于云計算進行改進,以適應不同應用對數據處理能力的需求。
3.2.3 數據噪聲太大
由于普適終端所處地理位置的復雜性,產生的數據具有很多噪聲。在進行數據清洗時,不易把握清洗粒度——粒度太大,殘留的噪聲會干擾有價值的信息;粒度太小,可能會遺失有價值的信息。
3.2.4 數據的安全性與隱私保護
互聯網的交互性使得人們在不同地點產生的數據足跡得到積累和關聯,從而增加了隱私暴露的概率,且這種隱性的數據暴露往往是無法控制和預知的。隨著數據挖掘工具和電子產品的日益普及,保護隱私和信息安全是數據挖掘將要面對的一個重要問題。這就需要進一步地開發,以便在適當的信息訪問和挖掘過程中保護隱私和信息安全。
3.3 數據挖掘的發展方向
3.3.1 應用的探索
數據挖掘正在探索、擴大其應用范圍。通常,數據挖掘技術在處理特定應用時存在著局限性。因此,目前存在一種針對特定應用來開發數據挖掘系統的趨勢。
3.3.2 可視化數據挖掘
可視化能更直觀地展示數據的特性,圖像展示更符合人的觀察習慣。可視化數據挖掘已成為從大量數據中發現知識的有效途徑,系統研究和開發可視化數據挖掘技術將推進數據挖掘作為數據分析的基本工具。
3.3.3 多種系統的集成
數據庫/數據倉庫系統等已經成為信息處理系統的主流,而且與數據庫和數據倉庫系統的緊耦合方式正是數據挖掘系統的理想體系結構。將不同的系統集成到統一的框架中,有利于保證數據的可獲得性和一致性,以及數據挖掘系統的可移植性、可伸縮性和高性能。
4 結束語
數據挖掘的應用在很多領域取得了一定的成果,而且其廣闊的應用前景已吸引了眾多的研究人員和商業公司的加入。但是,數據挖掘所帶來的有關隱私和信息安全的問題需要著重考慮。數據挖掘技術發展的時間很短,屬新興科學,在技術和社會不斷發展的今天,還面臨著很多挑戰和值得重點研究的方向,相信數據挖掘技術的研究與應用將會得到長足的進步,必將產生巨大的經濟效益和社會效益。
參考文獻
[1]郭群.多媒體信息挖掘綜述[J].信息系統工程,2010(08).
[2]Maciejewski T,Stefanowski J.Local neighbourhood extension of SMOTE for mining imbalanced data.IEEE Symposium on Computational Intelligence and Data Mining(CIDM),2011(01).
[3]Knerr U.H..Pairwise classification and support vector machines.MA:MIT Press,1999.
[4]李明江,唐穎,周力軍.數據挖掘技術及應用[J].中國新通信,2012(22).
[5]徐振龍,郭崇慧.隱私保護數據挖掘研究的簡要綜述[C]//第七屆中國管理學年會商務智能分會場論文集,2012.
[6]王惠中,彭安群.數據挖掘現狀及發展狀況[J].工礦自動化,2011,2(2).
[7]梁志.基于數據關系的SVM多分類方法研究[D].山西大學計算機與信息學院,2013
[8]He H.B.,Garcia E.A.Learning from imbalanced data.IEEE Transaction Knowledge and Data Engineering,2009,21(9).
[9]Xue Zhenxia,Liu Sanyang,Liu Wanli.Unbalanced squares support vector machines.System Simulation,2009(21).
[10]Y. Tang,Y.-Q.Zhang,N. Chawla,et al.“SVMs modeling for highly imbalanced classification”Systems, Man and Cybernetics,Part B:Cybernetics.IEEE Transactions on,2009,39(1).
〔編輯:劉曉芳〕