隨著信息技術特別是互聯網技術的迅猛發展,社交網絡、移動互聯網、物聯網、云計算等相繼進入人們的日常工作和生活中,用戶、企業和政府等個人和組織都在產生大量的數據,數據信息量正呈指數式爆炸增長。為了更好地理解用戶需求,提高服務質量,以及洞悉用戶的潛在價值,研究AI技術在運營數據低代碼分析方面的應用,對幫助業務進行深入的數據挖掘和解決方案顯得格外重要。
機器學習算法的應用日益廣泛,相關的開源平臺和工具也如雨后春筍般涌現,其中不乏一些非常優秀的產品,如Powerbi、Stata、Orange3等,在實踐處理業務需求時所面臨的關鍵痛點有:
數據的多樣性與復雜性:隨著數據類型的多樣性增加和算法復雜性的提升,開源的算法在計算性能、穩定性和可擴展性方面面臨著巨大挑戰。特別是在運營領域,對于復雜多變的業務環境,需要更靈活、高效的解決方案。
安全與隱私的重要性:在實際業務場景中,數據分析涉及大量敏感數據。因此,確保數據操作的安全性和隱私性顯得尤為重要,尤其是在運營領域,對于客戶隱私的保護至關重要。
研發效率與專業門檻:傳統的編譯代碼建模開發周期較長,對于人才的專業技術要求也較高。一些數據分析產品在擴展能力上存在不足,無法快速擴展算子并共享使用。同時,缺乏統一的模型管理和模型服務平臺,導致業務部門在應用模型服務時時效性不佳。在運營中,迅速響應變化、快速優化模型以適應新的業務場景是至關重要的。
瞄準上述痛點,研究專業易用、深度定制的機器學習開放平臺,以快捷低代碼方式幫助業務進行深入的數據挖掘和解決方案顯得格外重要。
(一) 平臺特點
低代碼數據分析平臺,其獨特之處在于提供了全生命周期、自助式的大數據挖掘平臺,為用戶提供了高度靈活和易用的數據分析工具。通過低代碼數據分析平臺,用戶能夠在整個數據處理生命周期中進行自助式操作,從數據的收集和清洗,到模型的構建和結果的可視化,實現了一體化的數據分析體驗。
1.海量數據處理
低代碼數據分析平臺構建于分布式計算的基礎之上,匯集分布式算法和數據分析方法,包括數據預處理、特征工程、機器學習算法等,可高效的完成海量、高維度數據的復雜計算,滿足企業級數據挖掘需求,幫助客戶從海量數據中挖掘出業務價值。
2.自動化模型構建
(1)自助機器學習,支持將與特征、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用。(2)模型自動學習,支持對已保存的模型,自動根據最新的數據進行訓練,并能自動將符合一定要求的模型發布或者部署到生產中。(3)模型自動調參,支持對模型參數進行自動搜索,選擇最優的模型參數。
3.完善的生態體系
工具支持從數據上傳、數據預處理、特征工程、模型訓練、模型評估到模型發布、模型和服務管理的機器學習全流程。并且擁有銀行級別的數據安全權限管理。
4.拖拽式可視化建模
封裝經典的機器學習算法, (1)支持在WEB 界面,通過拖、拉、拽等方式即可完成復雜數據挖掘流程。(2)支持使用內置的自助機器學習功能進行自動建模,實現模型自動選擇、參數自動探索、模型效果自動評估、模型自動向下傳導及模型自動優化。
5.可視化的無縫集成
能夠與BI工具的可視化功能無縫集成,將挖掘結果通過多樣豐富的BI報表可視化手段進行分析展現。
6.一鍵式模型部署服務
將挖掘流程以服務的方式進行發布,用戶直接調用服務鏈接訪問,實現模型到業務的無縫銜接,支持Restful API數據接入到實驗中,支持WEB服務。
(二)技術架構
低代碼數據分析平臺的總體可分為五層:
數據源層:包括關系型數據庫,HDFS、流式數據kafka、MPP數據庫以及本地文件CSV、TXT等。
調度技術框架層:大數據計算平臺Spark集群、高可用平臺ZooKeeper、擴展開發平臺Anaconda(Python)、DAG調度引擎集群、服務引擎集群。
分布式算法模型庫:分類、聚類、回歸、推薦、特征工程、統計、文本挖掘等。
數據分析管理層:DAG操作框架、實驗管理、服務管理、數據可視化、資源監控、自定義管理。
應用層:流失預警、客戶細分、異常值檢測、價值分析、產品推薦、流量分析等。
其中,作為低代碼數據分析平臺的核心智能驅動內核,其計算引擎構件主要包含實驗引擎、服務引擎、Python計算代理、Spark圖計算代理等。其中,實驗引擎負責接收實驗執行請求,通過解析實驗定義,生成Spark計算任務或Python計算任務,并分別發送給代理到相對應的計算集群。
服務引擎可以將訓練好的模型發布成Restful接口,便于提供模型預測服務給第三方系統調用。平臺特有的大部分組件則由Spark分布式計算代理完成,承擔著平臺的核心計算任務。而對于Python計算任務,則發送到Python計算代理中完成,主要彌補平臺組件的不足,增加擴展算法的能力。
(三) 技術應用場景
在數據分析低代碼平臺中,常見的技術場景是相對有限的,如分類、回歸、聚類、異常檢測等,但落實到實際項目的業務層出現的場景卻各一。例如,分類這個技術場景,在電力行業是竊漏電檢測,在工業設備檢測為是否故障,在客戶運營方面則為流失用戶預測。因此,掌握常見的技術場景,是進行下一步業務場景建模的核心關鍵。
在金融領域,通過對海量的交易數據進行分析,實現更精準的風險評估和預測,同時利用其強大的可視化功能,更直觀地了解業務狀況,做出更明智的決策。在電力行業,通過對能源生產和消耗數據的深度挖掘,幫助企業實現對電力系統的全面監控與管理。從發電設備的狀態監測到電網運行的實時分析,為電力企業提供了全方位的數據支持,優化能源利用效率,提升系統的可靠性。在制造業方面,通過對生產數據的實時監控和分析,制造企業能夠實現生產過程的精細化管理,提高生產效率,減少資源浪費,并優化供應鏈的運作。在政府行業,可以對各種社會經濟數據的整合和分析,更好地了解社會發展趨勢,為政策制定提供科學依據,推動社會治理的智能化升級。
1.聚類分群
“物以類聚,人以群分”即充分解釋了特征分群,它是指將具有相似特征的群體或者對象聚合在一起成為一個類,在該類中的對象都是彼此相似的。因此,可根據不同群體的特征利用數據挖掘給客戶、地區、品種等進行特征分群,然后依據不同分群的特點制定相應的策略。例如:對客戶進行科學的分群,可為客戶提供適配的產品、制定針對性的營銷活動和管理用戶,最終提升產品的客戶滿意度,實現商業價值。
聚類算法常用于無監督學習問題,對大量未知標注的數據集,按數據的內在聯系將數據集劃分為多個類別,使類別內的數據相似度較大,而類別間的數據相似度較小。常見算法:K均值、高斯混合模型。
應用場景:對客戶進行分層營銷、學生消費水平分群、電網用戶增加畫像維度、航空公司客戶價值分析。
2.分類預測
類別預測指的是根據對象已知的類別及特征進行建模訓練,再使用模型對其它未知的對象進行類別劃分預測。例如:根據客戶本身屬性和歷史行為特征等(年齡、性別、工作類型、婚姻狀況、文化程度、個人貸款、收入情況)結合歷史劃分的類別進行建模,預測其他或將來的客戶是否愿意辦理相關業務,也可預測辦理業務的意愿程度。
分類算法是根據已經分好類的一些數據,分析每一類的潛在特征并建立分類模型,用于識別未知數據的類別。常見算法:邏輯回歸、樸素貝葉斯、決策樹、隨機森林、支持向量機、梯度提升決策樹、多層感知機。
應用場景:銀行客戶流失預測、個人貸款違約預測、銀行理財產品預定預測、用戶竊漏電預測,山體滑坡預測等。
3.回歸預測
7RB1F2tf+eIvIYg360JS5w==回歸預測指的是根據某事件以往的歷史數據記錄(營銷數據、交易數據、市場供需等),對未來該事件的目標走勢(如價格等指標)進行預測,從而指導相關單位提前做出應對方案(規劃資源調度或者價格調整等)。例如:根據某個區域以往的電力或供水系統的負荷消耗能源的情況,對未來一段時間某個區域的電力或供水系統的負荷消耗能源總量做預測。以此指導相關單位提前規劃產能投入和相關基礎設施建設,從而降低企業運營成本提高客戶滿意度。常見算法:線性回歸、梯度提升回歸樹。
應用場景:服裝門店銷售額預測、用電需求預測、二手車交易價格預測、房子價格預測、超市商品銷量預測。
4.關聯推薦
關聯規則是反映一個事物與其他事物之間的相互依存性和關聯性,用于從大量數據中挖掘出有價值的數據項之間的相關關系,可從數據中關聯分析出“由于某些事件的發生而引起另外一些事件的發生”之類的規則。如平時在超市購買洗發水大多數也會購買沐浴露的情況,關聯規則常用于做推薦問題分析。常見算法:FP-Growth。
應用場景:商品零售購物籃關聯分析、客戶理財產品關聯分析、客戶書籍喜好關聯分析。
本文先是介紹了企業級數據分析低代碼平臺的特點和技術架構,以此作為介紹逐步引入機器學習技術在低代碼數據分析中的體現。而后,針對一些行業的典型應用場景展開舉例,試圖通過一些簡單的案例介紹,能讓讀者對技術在工程上的應用有個清晰的認識。最后,結合我所情況做了一些探索性的分析介紹。隨著增強分析與AI技術不斷的更替,未來必然能引領數據分析走向智能化的道路,幫助我所提升各方面的能力,響應國家數字化改革的號召。
作者單位: 南京電子技術研究所