摘要:增強分析指利用人工智能和機器學習技術,對數據挖掘過程進行增強和優化的一種方法,它可以幫助企業更好地理解和利用數據,提供更準確和有用的分析結果。本文深入探討了增強分析技術在數據準備、數據分析和數據挖掘三個關鍵過程中的應用,重點介紹了輔助數據準備、自動洞察、自動可視化及自然語言生成等多種增強分析技術[1],并結合部分案例進行了闡述。通過閱讀本文,讀者可全面了解增強分析技術的核心原理和實際應用方法,為在復雜的數據環境中做出準確決策提供有力支持。
關鍵詞:增強分析;數據挖掘;人工智能;工程化應用
一、引言
在信息爆炸的當今時代,企業和組織積累了大量數據,這些數據蘊含著寶貴的洞察和價值。然而,從這些海量數據中獲取有意義的信息以支持決策卻是一項復雜而艱巨的任務。隨著人工智能和機器學習技術的迅速發展,增強分析技術應運而生,并作為一種重要的方法,為數據挖掘和分析提供了新的視角和手段[2]。增強分析技術通過運用人工智能和機器學習的算法,能夠在數據挖掘過程中實現增強和優化,從而更好地揭示數據背后的價值,為企業提供更準確、更有用的分析結果。
本文旨在深入研究增強分析技術[3]的工程化應用,從數據準備、數據分析到數據挖掘等關鍵過程,探討這一技術在實際應用中的潛力與優勢。在數據挖掘領域,增強分析技術具備突出的特點,它不僅僅局限于傳統方法,還包括諸如輔助數據準備、自動洞察、自動可視化及自然語言生成等多種技術手段。通過對這些關鍵技術的探討分析,可以更加深刻地理解增強分析技術的核心原理,并將其應用于實際情境,從而在不斷變化的數據環境中做出更加明智的決策。
二、增強數據準備
(一)可視化數據交互
可視化交互通過將數據可視化為圖表、圖形和地圖等形式,使數據分析人員能夠更直觀、直接地與數據進行交互。通過可視化數據交互,決策者能夠直觀地與數據互動,快速了解數據的特點、分布和問題,從而在數據準備階段就能做出明智的決策。增強可視化在數據準備階段會提前考慮可視分析的意圖,即清洗與可視分析查詢相關的數據子集,在降低數據清洗代價的同時還能提高可視分析的質量[4]。可視化數據交互一般使用集成工具,利用可視化組件、即席查詢、透視分析等技術實現數據的聯動查詢與展現,目前該類工具有Smartbi、Powerbi、帆軟等廠商。以下是在增強分析下的可視化數據交互涉及的一些核心技術。
通過交互式圖表和可視化元素,設計和實現各種交互式圖表和可視化元素,如折線圖、柱狀圖、餅圖,以及與之相關的交互式功能等。用戶可以與這些元素進行互動,以更好地理解數據。動態數據刷新,當用戶與圖表進行交互時,允許數據實時刷新以反映用戶的操作。這使用戶能夠在交互過程中觀察數據的變化和趨勢。聯動和跨圖表交互,允許用戶在不同的圖表之間建立聯動關系。當用戶在一個圖表中選擇或操作數據時,其他圖表也會相應地更新,以保持數據的一致性和關聯性。過濾和篩選,提供能夠根據用戶的需求對數據進行動態過濾和篩選的功能。用戶可以通過交互式控件選擇數據的特定子集,從而更好地關注感興趣的部分。交互式工具提示和標簽,當用戶將鼠標懸停在可視化元素上或點擊它們時,顯示相關信息的交互式工具提示和標簽,幫助用戶更詳細地了解數據??梢暬瘜Ш胶吞剿?,提供交互式的導航工具,使用戶能夠在大量數據中自由瀏覽和探索,以查找特定的趨勢、模式或異常。交互式查詢和分析,允許用戶通過交互式查詢語言或界面直接在可視化中進行數據分析,從而實時提取和呈現感興趣的信息[5]。動態時間軸和播放功能,對于時間序列數據,提供交互式的時間軸和播放功能,使用戶能夠觀察數據隨時間的變化。
這些技術有助于創造具有豐富交互性的數據可視化,使用戶能夠更加深入地探索數據,從中獲取實時的見解,并支持更有力的決策。
(二)數據關系發現
數據關系發現涉及自動化地發現數據中的關聯、模式和趨勢,為用戶提供更深入的洞察和數據理解。當前,數據關系發現領域已經涌現出多種技術和方法,其中包括:
1.關聯規則挖掘?;陬l繁項集挖掘,自動發現數據項之間的關聯關系,常用于市場籃子分析、推薦系統等場景。涉及算法有Apriori、FP-Growth等。
2.時間序列分析。利用統計和機器學習方法,如使用Arima、Lstm、指數平滑等算法識別時間序列數據中的趨勢、周期性和異常情況,廣泛應用于金融和氣象等領域。
3.動態網絡分析。將數據關系表示為動態網絡,運用圖論和復雜網絡分析方法,揭示數據實體之間的演化和關聯。例如,探索社交網絡中用戶關系的變化和演化,發現意外的社交圈層。常用到圖論算法(最短路徑、中心性分析、社區檢測等)進行分析。
4.自動數據清洗和融合。借助數據挖掘技術如填充缺失值、異常發現、智能融合等,自動識別和修復數據質量問題,整合來自多個源的數據。
在增強數據準備中,許多工具和產品致力于數據關系發現的自動化。如Smartbi提供豐富的數據可視化和交互功能,用戶可以通過圖表和儀表盤探索數據的關聯和模式;RapidMiner為數據分析提供全面的工作流設計和數據預處理,支持自動關聯規則挖掘等任務;圖數據庫Neo4j支持圖數據建模和查詢,適用于動態網絡關系的分析[6]。用于在線業務數據分析的Google Analytics,常用于揭示用戶行為和關聯。這些工具和產品提供了便捷的界面和功能,幫助用戶在實際應用中更好地進行數據關系發現。
三、強數據分析
(一)自動洞察
自動洞察通過使用方差檢驗、球形檢驗、相關性計算、決策樹、CHAID分箱、GBDT等統計分析與機器學習算法,自動發現數據中的關鍵信息并提供洞察見解。這使決策者能夠更快速地獲得有意義的指導結果,無須手動進行復雜的分析過程。通過自動洞察技術,企業可以快速獲取數據的洞察,發現潛在的業務機會和風險。
在實際應用中,常見的有圍繞基本事實、關鍵驅動因素、異常分析、最佳組合等方面進行數據解釋洞察。例如,金融機構可以用來解釋財務數據中的變動趨勢,幫助分析師理解各種因素如何影響財務績效;在市場營銷中,能夠揭示營銷活動和用戶行為之間的關聯,指導市場團隊調整策略;人力資源管理中分析人員信息,洞察員工滿意度等。例如,在分析員工離職原因時,圍繞離職字段,分析員工的績效評估、薪資水平、加班情況、晉升機會、專業職級等因素對目標的影響,有助于理解員工流失的背后動因。
(二)自動可視化
近年來,自動可視化技術在智能圖表生成、數據維度分析及數據聚合與匯總等方面取得了顯著進展。這些技術使得用戶能夠無需煩瑣的手動設置,即可獲得適合的圖表類型,并從不同維度和匯總視角更好地理解數據。通過自動化生成圖表和圖形,將數據呈現為直觀的視覺形式,使非技術專業人士也能輕松理解和分析數據。
在數據準備階段的自動分析,通過數據的自動探索及可視化,展示各維度數據的分布情況、統計缺失、填充或類型修復建議等智能交互操作,極大地便利了分析人員快速理解現有數據的總和情況。
(三)自然語言查詢
自然語言查詢的本質是結合增強分析如上述自動可視化、自動洞察等底層應用能力,通過自然語言理解(NLU)技術,用戶能夠用更自然、直觀的方式提出數據分析請求,并在系統的自動化支持下獲取所需的洞察和結果。
案例1:一名市場分析師想了解某個產品在不同市場中的銷售趨勢。他使用自然語言查詢工具輸入:“分析產品A在各個市場中的銷售趨勢。”系統通過自然語言理解,識別出用戶的分析意圖,并自動調用自動洞察和自動可視化技術,生成相應的銷售趨勢報表和圖表。
案例2:一名經理希望將某個部門的績效數據可視化以便更好地理解。他使用自然語言查詢工具輸入:“自動為我生成上個季度部門X的績效報表?!毕到y根據用戶意圖,自動觸發自動可視化技術,生成包含部門績效信息的圖表和報告。
自然語言理解這項技術在商業智能、搜索引擎、虛擬助手等領域擁有廣泛的應用前景,它的核心在于讓機器能夠理解人類日常使用的自然語言,將人類的查詢、問題或指令轉化為計算機可以理解和處理的形式,從而實現高效、直觀的人機交互。在實現自然語言查詢的過程中,涉及多個關鍵技術,其中包括實體識別、語義匹配以及關系抽取等難題。實體識別技術使機器能夠從文本中準確識別出命名實體,如人名、地名、組織等,從而幫助構建準確的查詢條件。語義匹配技術旨在確保用戶的查詢與數據庫中的內容相匹配,以實現精準的搜索結果。而關系抽取技術則能夠從文本中提取出實體之間的關系,為生成更準確的查詢條件提供支持。
(四)自然語言生成
早期,自然語言生成技術的局限性主要體現在生成的文本缺乏流暢性、邏輯性和真實性。這種情況導致生成的文本難以達到人類寫作的水平,從而限制了自然語言生成在實際應用中的范圍。然而,近年來,隨著深度學習技術的發展,尤其是Transformer架構的引入,自然語言生成取得了重大突破,目前代表性的大模型有openai的GPT系列、Facebook的Llama及清華ChatGLM等。這些大模型有著出色的應用,如使用Langchain做領域知識問答、使用ChatPDF做閱讀理解,甚至直接用ChatGPT協助寫代碼等工作。2023年的大型模型ChatGPT的發布,標志著自然語言生成領域的一個重要里程碑。ChatGPT采用了強大的預訓練技術,通過大量的文本數據進行預訓練,使得模型能夠學習到豐富的語言知識和模式。這使得生成的文本更加流暢自然,并且能夠根據上下文進行合理的邏輯推斷。此外,ChatGPT還引入了更加精細的微調過程,以進一步提升生成文本的質量。以下是LLM大模型的一些關鍵性指標:
(1)預訓練的語言模型[7]。基于大規模語料庫的預訓練語言模型(如BERT、GPT系列)具有強大的語言理解能力。它們通過無監督學習,學會了理解語言的結構、語法和語義,為自然語言生成奠定了基礎。
(2)特定任務微調。預訓練的語言模型需要在特定任務上進行微調,以使其適應特定領域或任務。微調階段通過在有監督數據上進行訓練,使模型學會生成特定領域的語言表達。
四、增強數據挖掘
(一)特征工程
特征工程涉及對原始數據進行預處理和轉換,以提取出對于機器學習算法有意義的特征,從而改善模型性能和預測能力。以下是特征工程在數據挖掘中的核心內容。
1.特征選擇與提取
特征選擇指從原始特征中選擇出最具有代表性和信息量的特征,以減少維度和降低計算成本。常見的特征選擇方法包括方差閾值、互信息、卡方檢驗等。特征提取則是通過轉換技術將原始數據映射到新的特征空間,以捕捉數據的潛在結構和模式。主成分分析(PCA)、線性判別分析(LDA)等是常見的特征提取方法。
2.特征構造
特征構造指根據業務領域知識和數據分析的需求,創造新的特征。通過組合、衍生、聚合原始特征,可以獲得更有意義的特征。例如,從時間戳中提取小時、星期幾等時間特征,將地理坐標轉化為距離特征等。
3.缺失值處理
數據中的缺失值會對機器學習模型產生負面影響,因此需要進行適當處理。常見的方法包括刪除含有缺失值的樣本、填充缺失值(如均值、中位數填充),或者使用模型進行缺失值預測。
4.數據標準化和歸一化
不同特征的尺度和分布差異可能影響模型的收斂速度和性能。因此,特征工程中的數據標準化和歸一化是重要的步驟。標準化將特征轉化為均值為0,標準差為1的分布,而歸一化將特征縮放到一個特定范圍內,如[0,1]。
5.離散化
離散化是將連續特征劃分為若干個離散的區間,以減少異常值對模型的影響,同時還可以處理一些算法對連續值不敏感的情況。
6.特征交叉與多項式特征
特征交叉是將不同特征的組合作為新的特征,以捕捉它們之間的交互關系。多項式特征則是通過將原始特征進行冪次擴展,以引入更高階的關系,如二次、三次特征。
7.領域知識的運用
在特征工程中,領域知識的運用可以幫助提取有意義的特征。了解數據所代表的業務背景,可以指導特征的選擇、構造和轉換,從而更好地捕捉數據的內在規律。
特征工程的良好實踐可以顯著提升機器學習模型的性能和泛化能力。通過合理的特征選擇、構造和處理,可以使模型更好地適應數據,并從中挖掘出更深層次的信息。
(二)統計分析
統計分析是數據挖掘中的重要環節,它涉及對數據進行探索性分析和建模,以揭示數據的分布、關聯性和模式。以下是一些常見的統計分析方法和算法。
1.描述性統計
描述性統計是對數據的基本特征進行總結和描述的過程。常用的描述性統計包括均值、中位數、標準差、分位數、頻數分布等。例如,對于一組銷售數據,可以計算平均銷售額、最大銷售額、銷售額的分布等,以了解銷售情況的基本特征。
2.相關分析
相關分析用于探究不同變量之間的關系。皮爾遜相關系數是一種常用的方法,用于度量兩個連續變量之間的線性關系。例如,在市場營銷中,可以分析廣告投入與銷售額之間的相關性,以確定廣告對銷售的影響。
3.回歸分析
回歸分析用于建立變量之間的關聯關系,特別是用于預測一個變量(因變量)如何受到其他變量(自變量)的影響。線性回歸、多項式回歸、邏輯回歸等是常見的回歸分析方法。例如,房地產市場可以使用回歸分析來預測房價與房屋面積、地理位置等因素的關系。
4.聚類分析
聚類分析是將數據集中的觀察值分成不同的組(簇),使得同一組內的觀察值之間更相似,而不同組之間更不相似。K均值聚類、層次聚類、DBSCAN等是常見的聚類算法。在市場分析中,可以使用聚類分析將顧客分成不同的市場細分以制定定制化的營銷策略。
5.分類分析
分類分析是將數據集中的樣本分為不同的類別或標簽的過程。決策樹、隨機森林、支持向量機(SVM)、樸素貝葉斯等是常見的分類算法。例如,在醫學診斷中,可以使用分類分析將病人的癥狀和檢測結果分為不同的疾病類別。
6.時間序列分析
時間序列分析用于處理隨時間變化的數據,如股票價格、氣象數據、銷售時間序列等。移動平均法、指數平滑法、ARIMA模型等是常見的時間序列分析方法。例如,氣象學家可以使用時間序列分析來預測未來幾天的氣溫變化。增強數據挖掘往往會同時貫穿特征工程、統計分析兩大核心內容,通過組件化特征工程與統計分析等的算子,使整個數據挖掘建模過程,能以低代碼拖拽配置的方式快速完成數據的探索、分析和建模。極大提高了數據分析師的工作效率,同時降低對人員技術的要求。
(三)自動化機器學習
自動化機器學習(AutoML)旨在簡化和自動化機器學習流程,使更多人能夠有效地利用機器學習模型。它綜合了特征工程和統計分析的方法,以提高模型性能并降低使用門檻。在自動化機器學習中,以下是關鍵的應用和技術。
1.特征工程自動化
AutoML工具可以自動進行特征選擇、提取和構建,減少了對領域專業知識的需求。這些工具能夠識別關鍵特征,生成新的特征,以優化模型性能。
2.統計分析自動化
AutoML平臺能夠自動選擇適合數據性質和任務類型的統計分析方法和算法。這消除了用戶深入了解不同模型的需求。
3.超參數優化
自動化機器學習包括自動搜索最佳超參數配置,從而提高模型性能。這減少了手動調整模型參數的煩瑣工作。
4.模型選擇和集成
AutoML提供了多種模型選擇和集成策略,以確保模型性能最優。用戶可以自動選擇和組合最佳模型,以提高預測性能。自動化機器學習的發展使更多領域的人能夠受益于機器學習技術,而無須深入研究機器學習的復雜性。這一趨勢將繼續推動機器學習的廣泛應用,并為解決各種實際問題提供更多可能性。
五、結束語
隨著數據的不斷增長和復雜性的不斷提升,增強分析技術將在未來發揮更加重要的作用。然而,盡管增強分析技術在實際應用中表現出巨大的潛力,但也存在一些挑戰和限制。例如,自然語言生成方面,如何保證生成的信息準確性和可信度仍然是一個需要解決的問題。展望未來,可以預見增強分析技術將在智能決策支持、商業智能和預測分析等領域得到廣泛應用。
作者單位:操文煜 中國電子科技集團公司第十四研究所
參考文獻
[1]增強分析是數據和分析的未來,2019-2022,www.gartner.com,Gartner報告.
[2]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004(02):246-252.
[3]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[4]任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
[5]袁喆,文繼榮,魏哲巍,等.大數據實時交互式分析[J].軟件學報,2020,31(01):162-182.
[6]何凡,沈毅,葉眾.卡方自動交互檢測法及其應用[J].中華預防醫學雜志,2005(02):62-64.
[7]余同瑞,金冉,韓曉臻,等.自然語言處理預訓練模型的研究綜述[J].計算機工程與應用, 2020,56(23):12-22.
[8]馬昱欣,曹震東,陳為.可視化驅動的交互式數據挖掘方法綜述[J].計算機輔助設計與圖形學學報,2016,28(01):1-8.