劉宇陽
(光大科技有限公司,北京 100040)
企業在經營發展的過程中,必然會積累大量的數據資源,相關數據資源能夠反映企業的經營情況、經營風險以及市場走向等信息。利用好相關數據資源,對于進一步提升企業經營決策能力以及風險規避能力具有重要的意義?,F階段,大數據BI工具的出現與發展為企業大數據分析與挖掘提供了有效的方法。在大數據BI工具的支撐下,大量的企業數據資源能夠被分析應用,從而為企業經營決策提供重要支撐,因此需要對大數據BI工具的應用進行深入分析。
利用大數據技術進行企業數據的分析與挖掘,最有效的方式就是利用BI工具。大數據BI工具對大數據技術的基本實施過程進行了詳細的封裝,在此基礎上,再通過BI工具對數據進行分析與挖掘,無須編寫代碼,這樣即使沒有IT技術背景的管理人員也可以利用BI工具對數據進行分析和處理[1]。在企業管理領域應用BI工具能夠有效提升大數據挖掘與分析效率,有利于經營管理人員將精力集中于數據的分析以及企業戰略決策上,而不用為編程而發愁。目前市面上存在多種BI工具,不同的BI工具在功能與使用場景方面存在一定的差異,具有各自的特點。常規的BI工具主要有數據匯集、數據清洗、數據轉換、數據分析、數據可視化等多種功能,不同的BI工具在數據分析方面存在著很大的差別。有些數據分析工具以傳統的關系數據庫為基礎,對SQL的查詢和統計進行簡單的分析,有些則采用了以機器學習等智能算法為基礎的復雜分析方法。當前常用的大數據BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆軟FineBI、微軟PowerBI、QlikView、SpagoBI等。
大數據的來源主要有物聯網、互聯網應用、傳統的數據資源等,相關數據資源的獲得途徑也不盡相同。物聯網所提供的數據資源大多是無組織的,且大部分都是視頻、音頻和各種感知數據,相關數據資源的價值并不高,因而通常都是通過數據分析商來獲得[2]?;ヂ摼W數據主要包括網絡應用數據和手機App應用數據,主要表現為網絡鏈接、文本、數據表以及其他無組織格式的圖片、音頻、視頻等,這類數據在數據價值方面往往有著較高的密度,主要通過網絡獲取,也可以從數據分析商處直接購買。傳統的數據資源大多屬于結構數據,其價值較高,數據來源主要包括ERP系統、政務系統、各種公司的內部系統等,這些數據可以從相應的系統軟件中獲取。而在公共平臺上發布的氣象、交通等數據,則可以通過網絡進行數據采集。
在利用算法進行數據挖掘和分析前,必須對數據的完整性和質量進行檢驗,對不符合標準的數據進行數據清洗,確保所采集的數據有較高的規范化水平,能夠滿足機器學習的要求[3]。在采集到的原始數據中,經常會出現特征值缺失、異常值、重復等問題,針對相關問題需要對其進行進一步的分析和處理。數據集的缺省將影響數據的聚類、分組和預測,若將包含缺省的數據進行大規模的刪除,將會造成大量的隱性數據丟失,嚴重時會降低大數據的客觀真實性,進而降低算法的精確度。在數據缺省不高的情況下可以采用人工填寫、平均值填充、特殊值填充等方法來填充數據,無論采用何種方式對缺省數據進行處置,都要根據具體的情形進行適當的調整。在進行數據預處理時,還可以通過貝葉斯網絡和神經網絡等方法來分析和挖掘丟失數據。在數據預處理過程中,還需要對離群值過大的數據進行處理。離群值是指數據集合中不合理的數據,例如使用者替換數據、傳感器測量的誤差、實驗的誤差、處理數據、抽樣中的異常和天然異常數據等。在處理離群點時,應采取與丟失點同樣的處理方式,并盡可能地對產生的異常值進行校正。
在所采集到的數據中可能存在大量重復數據,重復數據可以是多條數字完全一樣的數據,也可以是同一數據集合中的某一特定特性的數據,其值會因數據的不同而有所差異。如果是前者,可以直接進行去重處理;如果是后者,則要看具體的業務狀況,可以將這些重復的數據進行合并,也可以不進行處理。
目前,大部分的機器學習算法都對數據的特性有特殊的需求,在利用機器學習算法進行數據挖掘和分析前,必須根據需求對數據進行標準化處理[4]。數據標準化也稱為數據規范化,可以克服因具有各種特性的單元尺度所引起的數據間的不可比較性,進而改善機器辨識的精度。目前,最常見的數據標準化方法有最小化、非線性標準化、z-尺度標準化、平均標準化。
在數據挖掘方面,需要運用機器學習、深度學習等人工智能技術來建立分析、判斷和智能決策支撐體系。機器學習對于大數據分析的重要性是毋庸置疑的,能讓我們對過去和現在的數據進行更好的分析,并且對將來的數據進行更精確的預測[5]。將機器學習運用于企業管理領域,能夠有效地從大量數據中挖掘有用的信息,尋找出最優的營銷戰略,從而極大地改善企業的經營決策水平,促進企業生產力的提升,使企業的運營風險降到最低。目前來看,機器學習算法主要分為有監督學習和無監督學習算法。有監督學習算法又可以分為兩種,一種是分類算法,另一種是對樣本數據進行預測的算法,該算法基于離散類型的分類信息,利用回歸算法對數字數據進行預測,所預測的對象為連續類型。K-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機等均屬于監督學習算法這類算法訓練不需要包含明確的分類對象,所以也不需要對新的數據進行預報。聚類算法、密度估算法等是目前最常用的算法。在應用聚類算法時,若要估計不同類別的相似程度,可用密度估計法來進行分析;采用無監督算法,可以減少特征的維度。K-均值算法、最大期望算法、DBSCAN算法等都是非監督學習算法。
在進行數據探索、分析預測時,可采用數據可視化的方法,能夠使抽象的數據以圖形化的方式直觀地呈現,從而大大提升了數據分析的效率[6]。很多BI工具都帶有Dash-board(Dashboard)數據顯示模塊。Dashboard可以為使用者提供數據跟蹤、挖掘和多維數據處理功能,并提供大量的數據源,能夠實現實時數據更新,具有互動顯示面板。在可視性圖形分類上,BI工具可以為用戶提供各種類型的圖像,如區域圖、熱力圖、流向圖、點圖等。
現階段,隨著信息技術不斷發展,市面上出現了大量的大數據BI工具,不同的BI工具在軟件功能設計以及使用場景方面存在一定的差異。從應用實踐來看,數獵云是一款功能強大且具有較高實用性的大數據BI工具軟件,因此本文以數獵云為例,探究大數據BI工具在企業大數據挖掘中的應用。
數獵云是一款基于數獵云客戶機接入數獵云大數據服務器的圖形大數據BI工具,該款工具軟件與許多BI工具的區別在于,不但具有數據轉換、分析、可視化、數據處理等多種數據處理模塊,以及幾十種統計分析、數據挖掘、機器學習等算法,且無須編程,只要用鼠標輕輕一拉,就可以完成對企業數據的分析和預測。
數獵云所采用的機器學習算法為監督學習算法,在應用的過程中能夠依據大數據對企業經營過程中的風險進行分析預測。在利用該BI工具進行企業經營風險預測時,需要對預測模型進行訓練,并對數據集的特征進行提取。在這個過程中,Education、Self_Employed、Loan-Amount、Loan_AmountTerm、Credit_History、屬性_Area等為特征變量,Loan_Status為分類標簽,并利用算法模型的特征變量,對企業經營過程中的風險進行判斷。
業務數據分析的目的是利用向量機在原始數據基礎上對企業經營風險進行預測[7]。支撐向量機的是一種二元型有監督的學習算法,在應用的過程中首先要對模型進行訓練,然后才能對數據進行預測。模型訓練的數據來源為企業OA系統所提供的CSV格式文件。企業OA系統所提供的樣本數據可達數萬條,在模型訓練的過程中可將數據按照70%、30%的比率分成兩個小組,前者是訓練預測模型的支持數據,后者是訓練試驗模型的訓練數據,以評價模型的作用。數獵云與數據源進行連接,從企業的業務數據中抽取出CSV數據,在此基礎上將CSV數據轉換為結構數據,再將結構化的業務數據寫入對應的數據庫,實現業務數據的匯集。
將數據挖掘、統計分析、機器學習、深度學習等應用于大數據分析中,通常都會對數據的輸入有一定的限制。Married、Depen-dents等存在數據空值、數據類型不統一的情形,必須進行數據清洗和處理。在清洗處理前,可以利用數據瀏覽和統計的方式來研究和描述數據的質量。以Married畫像為例,在數獵云中,Mar ried的屬性(業務類型、業務指標完成情況)可以被分類,以此來判斷Married的非法屬性值有多少。在預處理過程中要盡可能地彌補Married的缺失,并在必要的時候引用相關的商業數據,如Married業務類型和Dependents業務指標之間的關系。從商業角度來看,不同的業務類型其業務指標有一定的差異,當業務類型較為復雜時,業務指標達成也存在很大的困難。這樣,Married的缺省值就可以根據這種業務相關性來填補。針對數據集中的Self_Employed、CoapplicantIncome、Loan_Amount_Term、redit_History、Loan_Status等屬性,因為相關屬性缺失的比率不高,很難拼接成有意義的信息,因此可以對相關屬性的空白值記錄進行刪除。
支持向量機是一種監督學習算法,該算法需要訓練預測模型,并對訓練后的模型進行預測性能評估。只有經過評估,才能真正應用到實踐中去。在運用模型時,必須將模型預測結果與實際經營情況進行分析對比,在此基礎上不斷完善模型。對支持向量機進行訓練,可以得到精確的預測模型。在數獵云中,支持向量機的輸入要求是CSN型。首先可利用NumAssemable轉換工具,其歸類標(Loan_Status)和多種特性數字的類型、標準化CSN數據(應用實例、CoapplicantIncome、LoanAmount、Credit_History)組合為CSN類型,并將CSN數據輸入到SVM中,設定迭代次數、步長、正則化參數。在分類門限等相關參數的基礎上,進行建模。模型訓練完成后,要注意對模型的訓練效果進行觀察。模型的預測精度是由0到1來計算的,隨著時間的推移,模型的精度也會越來越高。在測試精度不高時,要對模型的訓練參數進行調整,以便對模型進行完善。針對模型的訓練可以反復進行,直至模型精度符合需求為止。在評價模型的過程中需要應用預測精度。在數獵云系統中,首先需要將多個具有不同數值的特征信息進行組合,將這些特征信息輸入到網絡中,然后進行仿真計算,得出相應的模型預測結果。通過對預測結果與實測數據進行對比,檢驗模型預測結果是否具有準確性?!?/p>