999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于熵減和馬爾科夫鏈的中小企業(yè)客戶數據治理技術

2025-03-20 00:00:00劉敏黃倚霄陳智揚張湛梅
現代信息科技 2025年3期

摘" 要:針對傳統(tǒng)中小企業(yè)客戶數據呈現雜亂無序狀態(tài)且缺乏標準化的現狀,提出一種創(chuàng)新的數據治理技術。該技術整合多源異構數據,該技術匯聚多源異構數據,融合光學字符識別(Optical Character Recognition, OCR)等多種方法,構建標準化的中小企業(yè)基礎信息數據湖,從源頭提升數據質量。引入“熵減”理念,利用智能算法對數據質量進行量化評估,能夠及時定位并解決數據質量問題。同時,搭建時序數據庫并構建基于熵減的馬爾科夫鏈模型,以此預測未來數據質量趨勢,精準治理潛在問題區(qū)域。該技術不僅實現了數據價值的最大化,還顯著降低了治理成本,提高了數據治理的效率與準確性,為企業(yè)降本增效提供了有力支撐。

關鍵詞:熵減;數據治理;馬爾科夫鏈;中小企數據湖;時序數據庫

中圖分類號:TP311.1" " 文獻標識碼:A" 文章編號:2096-4706(2025)03-0140-07

Customer Data Governance Technology of Small and Medium Enterprises Based on Entropy Decrease and Markov Chain

LIU Min, HUANG Yixiao, CHEN Zhiyang, ZHANG Zhanmei

(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou" 510623, China)

Abstract: Aiming at the current situation that the customer data of traditional small and medium enterprises is disorderly and lacks standardization, an innovative data governance technology is proposed. This technology integrates multi-source heterogeneous data, fuses Optical Character Recognition (OCR) and other methods, and constructs a standardized basic information data lake of small and medium enterprises, to improve data quality from the source. By introducing the concept of “entropy decrease” and using intelligent algorithms to quantitatively evaluate data quality, data quality problems can be located and solved in time. At the same time, a time series database is built and a Markov Chain model based on entropy decrease is constructed to predict future data quality trends and accurately govern potential problem areas. This technology not only maximizes the value of data, but also significantly reduces the cost of governance. It improves the efficiency and accuracy of data governance and provides strong support for enterprises to decrease costs and increase efficiency.

Keywords: entropy decrease; data governance; Markov Chain; data lake of small and medium enterprises; time series database

0" 引" 言

中小企業(yè)作為數量最為龐大、最具活力的企業(yè)群體,貢獻了50%以上的稅收、60%以上的國內生產總值(GDP)、70%以上的技術創(chuàng)新成果、80%以上的城鎮(zhèn)勞動就業(yè)崗位以及90%以上的企業(yè)數量。在“發(fā)揮運營商的數智化優(yōu)勢,以創(chuàng)新驅動向各產業(yè)賦能,提升社會數智化水平”的發(fā)展新要求下,如何有效地管理和治理運營商大數據中的中小企業(yè)客戶數據,成為亟待解決的關鍵問題。

傳統(tǒng)的中小企業(yè)大數據存在諸多問題。數據源雜亂無章,人工錄入的數據缺乏有效的數據問題檢測手段,導致錯誤數據較多;同時,對數據質量缺乏客觀評估和量化分析;針對數據問題,也缺乏有效的治理方案和修復方案。此外,數據治理過程中投入的人力成本大,方法復雜,手動維護成本高,處理時間長且效率低下,這些問題嚴重阻礙了中小企業(yè)大數據價值的發(fā)揮。

1" 現有中小企業(yè)客戶數據治理問題

在現有的中小企業(yè)客戶數據治理工作中,主要面臨以下幾方面問題:中小企業(yè)數據采集雜亂繁多,數據治理難度大;數據治理缺乏量化的計算和評估;缺乏中小企業(yè)數據治理監(jiān)控預測機制;缺少中小企業(yè)數據治理的閉環(huán)機制。具體分析如下:

1)中小企業(yè)數據采集雜亂多,數據治理難:現有技術方案中,中小企業(yè)數據采集雜亂繁多,人工錄入的數據錯誤率高,標準化程度低,難以清晰地獲取中小企業(yè)的數量、公司名稱、地址分布等基礎信息。

2)中小企業(yè)數據質量缺乏量化的計算和評估:目前主流的中小企業(yè)數據質量管理,對系統(tǒng)數據質量情況缺乏量化的計算和評估。僅能知曉系統(tǒng)存在數據質量問題,但缺乏客觀的評估標準,只能大概了解某個模塊存在較大數據質量問題,卻無法準確掌握各個模塊的數據質量問題詳情。

3)缺乏中小企業(yè)數據質量監(jiān)控預測機制:現有技術方案缺少數據質量預測機制,無法得知哪個模塊在未來幾個月數據質量會變差,不能及時排查和解決數據質量問題,從而引發(fā)數據使用過程中的各種投訴,影響數據的使用價值。

4)缺少中小企業(yè)數據治理的閉環(huán)機制:現有技術方案缺乏數據治理的閉環(huán)機制,沒有建立數據質量調整知識庫,無法智能設置數據質量調整策略,也不能針對外部原因和業(yè)務原因進行智能的數據質量監(jiān)控調整。

2" 基于熵減和馬爾科夫鏈的數據治理

為解決上述技術問題,在當前主流的中小企業(yè)客戶數據治理基礎上,結合運營商大數據的特性,創(chuàng)新性地融合熵減理論與馬爾科夫鏈,構建數據湖并對數據質量進行智能評估[1-5]。通過量化評估與監(jiān)控、優(yōu)化時序數據庫查詢、預測數據質量趨勢,形成了高效、精準的數據治理體系,降低了數據治理成本,提升了治理效率與數據質量,確保實現數據價值的最大化。具體技術方案如下:

1)多源異構的中小企業(yè)運營商大數據獲取和融合。通過匯聚互聯(lián)網信息、運營商門戶網站、運營商APP、運營商總部下發(fā)信息、市場調研數據以及第三方采購數據等,運用基于OCR識別、水牌掃描、門頭照識別等多源異構數據匯集和融合處理技術,智能構建運營商中小企業(yè)基礎信息數據湖。

2)創(chuàng)建基于熵函數的智能算法。引入“熵減”理念構建中小企業(yè)數據治理模式,創(chuàng)建基于熵函數、最大熵、均熵的智能算法,對中小企業(yè)數據信息進行動態(tài)智能化數據質量監(jiān)控,查找數據質量失衡的問題原因并加以解決。

3)構建中小企業(yè)數據質量時序數據庫。根據熵值和均熵的時序排列,構建中小企業(yè)數據質量時序數據庫。采用標簽+時間戳分區(qū)檢索方式、TSM樹存儲技術,數據導入時間縮短了31.87%,占用空間減少了46.74%;運用預聚合和多維分組聚合查詢技術、保留刪除策略,查詢速度提升了一倍。

4)形成基于熵減的馬爾科夫鏈。根據歷史數據質量熵值和對應的數據質量狀態(tài),利用數據質量狀態(tài)向量和數據質量狀態(tài)轉移矩陣,形成基于熵減的馬爾科夫鏈,預測未來幾個月的數據質量情況,并對大概率存在數據質量問題的模塊進行數據治理。

通過打造一套完備的中小企業(yè)數據治理技術和體系,有效降低了數據治理的人力成本,解決了數據治理效率低、數據質量問題定位不準確、解決不及時等問題,實現了數據價值的最大化。

3" 基于熵減和馬爾科夫鏈治理實現

3.1" 多源異構的大數據獲取和融合

我國中小企業(yè)數量龐大,在城市中分布廣泛且分散。“清晰獲取中小企業(yè)的數量、公司名稱、地址分布等基礎信息”是運營商拓展中小企業(yè)市場的重要手段。如何獲得一份全面且高質量的“中小企業(yè)”名單,是業(yè)務發(fā)展的重要問題。

本系統(tǒng)基于“熵減”理念,匯集多源異構的中小企業(yè)數據來源。通過匯聚互聯(lián)網信息、運營商門戶網站、運營商APP、運營商總部下發(fā)信息、市場調研數據以及第三方采購等商機線索,運用基于OCR識別、水牌掃描、門頭照識別等多源異構數據匯集和融合處理技術,智能構建運營商中小企業(yè)基礎信息數據湖,降低人工收集及整理的成本,提高運營商在中小企業(yè)市場上的商機獲取效率[6-10]。

獲取的數據包括結構化、半結構化、非結構化數據,經過識別、解釋、歸一化處理后生成標準化的中小企業(yè)基礎數據。

基于多源異構數據匯集和融合處理的中小企業(yè)運營數據采集處理的主要流程如圖1所示。由于每個外部系統(tǒng)采集來的原始數據格式各異,所以需要對接口協(xié)議進行解析,以獲取中小企業(yè)的基本信息,這些信息涵蓋企業(yè)名稱、企業(yè)網址、創(chuàng)建日期、員工數量、行業(yè)分類、注冊資金、年營業(yè)額、信用信息等關鍵數據。部分信息借助OCR識別、水牌掃描、門頭照識別等技術進行處理,以提升數據的精確度。對于無法直接通過系統(tǒng)解釋處理的原始數據,則通過人工介入處理后再生成標準化數據。最終形成統(tǒng)一的中小企業(yè)基礎數據倉庫和數據湖。

3.2" 創(chuàng)建基于熵函數的智能算法

在大數據管理中,通常用熵的大小來表示數據質量偏離其平衡態(tài)或穩(wěn)態(tài)的程度。由于大數據系統(tǒng)的數據來源于外部系統(tǒng),若不加以控制,熵會逐漸增大,數據質量也會隨之變差。因此,我們需要定義熵來衡量大數據系統(tǒng)的整體數據質量狀況,并依據熵的情況對系統(tǒng)的數據質量進行控制,以確保數據的準確性。

在理想狀態(tài)下,數據質量控制點應處于預警線內,且排列無異常現象,如圖2所示。中控制線(Control Line, CL)代表數據質量穩(wěn)定狀態(tài)下的預期表現;控制上限(Upper Control Line, UCL)代表數據質量可能波動的上限,若超過該上限,則表明數據質量出現問題;控制下限(Lower Control Line, LCL)代表數據質量可能波動的下限,若低于該下限,同樣表明數據質量出現問題。

數據質量控制點X =實際指標值Ai-標準指標值Si,其中Si可根據業(yè)務情況進行設置和調整。例如,對于運營商用戶通信時長指標,工作日的通信時長通常偏大,休息日的通信時長通常偏小,因此通信時長的標準指標數值,在休息日會比工作日少約20%。

而數據質量不理想的狀態(tài)主要有以下幾種情況,針對這些情況構建相應的熵函數,以進行數據質量監(jiān)控和調整,從而達到熵減的目的:

1)數據質量監(jiān)控點超出控制線范圍,如圖3所示。若有若干數據質量監(jiān)控點超出了控制線界限,超出的點越多,數據質量問題就越嚴重,此時需要進行數據質量問題的查找和解決。

針對數據質量超出控制線情況,我們構建熵函數S1,用于表示當n個數據點超出控制線時,出現數據質量問題的概率。

2)數據質量監(jiān)控點在控制界限內,但在單側連續(xù)出現數據質量問題,如圖4所示。當若干個連續(xù)的數據質量監(jiān)控點出現在中心線同一側時,就出現了單側連續(xù)數據質量問題。

針對單側連續(xù)數據質量問題情況,我們構建熵函數S2,用于表示當連續(xù)n個數據點處于中心線同一側時,出現數據質量問題的概率。

3)數據質量監(jiān)控點在控制界限內,但在單側多數點出現數據質量問題,如圖5所示。若多數數據質量監(jiān)控點出現在中心線同一側,則出現單側多數點數據質量問題。

針對單側多數點存在數據質量問題情況,我們構建熵函數S3,用于表示連續(xù)n個數據質量監(jiān)控點中,至少有t個數據質量監(jiān)控點處于中心線同一側時,出現數據質量問題的概率。

4)數據質量監(jiān)控點在控制界限內,但出現持續(xù)單調數據質量問題,如圖6所示。當若干個連續(xù)的數據質量監(jiān)控點出現持續(xù)上升或下降現象時,就出現了持續(xù)單調數據質量問題。

針對持續(xù)單調數據質量問題情況,我們構建熵函數S4,用于表示連續(xù)n個數據質量監(jiān)控點連續(xù)上升或下降時,出現數據質量問題的概率。

5)數據質量監(jiān)控點在控制界限內,但連續(xù)遠離中心線,如圖7所示。當連續(xù)若干個數據質量監(jiān)控點遠離中心線,接近控制界限時,就出現了遠離中心線數據質量問題現象。

針對連續(xù)遠離中心線情況,我們構建熵函數S5,用于表示連續(xù)若干個數據質量監(jiān)控點接近控制線限制時,出現數據質量問題的概率。

在以上五個熵函數的基礎上,再定義最大熵和均熵,以此表示系統(tǒng)的數據質量情況。

(1)

(2)

通過計算這些熵和均熵,能夠判斷系統(tǒng)的數據質量情況,及時查找數據質量失衡的原因并加以解決。此外,根據這些熵和均熵的時序排列,結合時序數據庫和馬爾科夫鏈方法,還可以提供數據質量問題預警,及時解決數據質量問題。

3.3" 構建中小企業(yè)數據質量時序數據庫

基于前面步驟得到的五個熵、最大熵和均熵,以及這些熵函數隨時間變化而得到的時序數據序列,可以構建數據質量時序數據庫。

時序數據即時間序列數據,是指某個指標按照時間順序記載的數據序列。在以時間為橫軸的坐標系中將時序數據值連成線,并將歷史時序數據制作成多維度數據表,有助于發(fā)現其中的規(guī)律和異常。因此,在時序數據庫中對數據質量熵函數進行大數據分析,能夠更精確地進行數據質量異常預警。

首先設計基于熵函數的時序數據模型,該模型應包含時間戳、熵函數所屬系統(tǒng)、維度分類、指標名稱、五個熵函數、均熵等信息。具體舉例見表1。

接下來,構建基于熵函數的數據質量時序數據庫。在該時序數據庫中,存儲離線歷史數據質量監(jiān)控數據以及實時數據質量監(jiān)控數據。此外,申告平臺投訴數據和外部投訴數據,經實時流式數據處理引擎處理后,也被標準化為數據質量監(jiān)控數據,并存入時序數據庫。這些數據在前端進行可視化展示,并根據客戶的使用情況對報警規(guī)則進行配置調整,如圖8所示。

3.4" 形成基于熵減的馬爾科夫鏈

馬爾科夫鏈是一種用于描述數據相關性的數學模型,能夠精確計算出一系列觀測結果之間的相關程度。我們可以依據現有的數據質量報告和熵函數,估算系統(tǒng)數據質量情況(即數據質量熵)。這些帶有時間戳的數據質量熵,構成了馬爾科夫鏈。借助馬爾科夫鏈模型,我們能夠預測系統(tǒng)數據質量情況,并對大概率存在數據質量問題的模塊進行數據治理,以達到 “熵減”效果。

具體設計步驟如下:

1)根據前面計算得到的數據質量熵函數和均熵Savr進行數據質量等級劃分,并設置馬爾科夫鏈狀態(tài):

E1:數據質量優(yōu)秀,基本無數據問題,Savr<0.001

E2:數據質量良好,偶爾有小數據問題,0.001≤Savr<0.005

E3:數據質量一般,時常有數據問題但仍可接受,0.005≤Savr<0.020

E4:數據質量不好,偶爾有較大數據問題,需要整改。0.020≤Savr<0.100

E5:數據質量糟糕,無法忍受,亟須整改。Savr≥0.100

2)獲取歷史數據質量熵值和對應的數據質量狀態(tài),形成帶時間戳的狀態(tài)向量A =(E1、E2、E3、E4、E5)。

3)根據歷史不同時間的數據質量變動情況,計算狀態(tài)轉移概率矩陣B,矩陣中的各行元素之和為1,即對于某一時間的數據質量狀態(tài),將來轉換為本狀態(tài)和其他各種狀態(tài)的概率之和為1。

(3)

4)利用已知某時間的數據質量狀態(tài)向量A,以及根據歷史數據計算得到的數據質量狀態(tài)轉移矩陣B,通過A乘以B可以得到未來時間的數據質量情況。

(4)

以中小企業(yè)的運營商數據質量預測為例,過去三年中小企業(yè)的運營商數據質量情況如表2所示。

由表2可知,在5個從E1出發(fā)的狀態(tài)中,有3個轉移到E1,2個轉移到E2。同樣也可以得出從E2到E4出發(fā)的狀態(tài)轉移情況,如表3轉移矩陣和表4轉移概率矩陣所示,其中Tij表示從Ei狀態(tài)轉移到Ej狀態(tài)的次數,例如T12 = 2,表示E1狀態(tài)轉移到E2狀態(tài)的次數為2;Pij表示從Ei狀態(tài)轉移到Ej狀態(tài)的概率,例如P12 = 40%,表示E1的5次狀態(tài)轉移中,有2次,即40%的概率轉移到E2狀態(tài)。

根據轉移概率矩陣,可以預測下個月乃至后面幾個月的數據質量情況。比如根據2023年12月數據質量為E1的狀態(tài),可以預測2024年2月,數據質量保持E1的概率為76.33%,數據質量降低為E2的概率為19%,數據質量降低為E3的概率為0%,如表5所示。

而系統(tǒng)檢測到2024年數據質量實際情況如表6所示,2024年數據質量預測和實際的擬合曲線圖如圖9所示。

第M月的數據質量預測準確率計算方法如下:

(5)

由此可以得到2024年數據質量預測準確率如圖10所示。由于2月份是春節(jié)期間,2、3月數據波動比較大,所以2、3月的實際數據質量看上去比預測要差一點,后續(xù)將增加業(yè)務波動因子來提升預測準確性。

4" 結" 論

傳統(tǒng)的中小企業(yè)數據雜亂繁多,標準化程度低。本文提出的中小企業(yè)客戶數據治理技術,匯聚多源異構數據,融合多途徑識別數據(如OCR識別、水牌掃描、門頭照識別),通過標準化處理,智能構建運營商中小企業(yè)基礎信息數據湖,從源頭提升數據質量。

通過引入“熵減”理念,構建基于熵、最大熵、均熵的智能算法,量化評估中小企業(yè)數據質量,及時查找低質量數據的問題原因并加以解決。同時,構建了中小企業(yè)數據質量時序數據庫,并在此基礎上創(chuàng)建基于熵減的馬爾科夫鏈,建立數據質量狀態(tài)向量和數據質量狀態(tài)轉移矩陣,用以預測未來幾個月的數據質量情況,并對大概率存在數據質量問題的模塊進行數據治理。

基于熵減和馬爾科夫鏈的中小企業(yè)客戶數據治理技術,能夠有效地發(fā)現數據質量問題、查找原因并解決問題,還能有效預測未來的數據質量情況,切實實現了中小企業(yè)大數據價值的最大化,降低了數據治理人力成本,解決了數據治理效率低、數據質量問題定位不準確、解決不及時等問題,助力企業(yè)實現降本增效。

參考文獻:

[1] 李維剛,鐘正,王永強,等.基于時間距離-熵減策略的同步定位與地圖構建算法 [J].信息與控制,2023,52(5):660-668+688.

[2] 閆佳和,李紅輝,馬英,等. 多源異構數據融合關鍵技術與政務大數據治理體系 [J].計算機科學,2024,51(2):1-14.

[3]黃俊峰,葉滂俊,王敏.基于大數據基礎平臺的數據治理實踐 [J].信息技術與標準化,2022(6):19-23.

[4] 陳璐,郭宇翔,葛叢叢,等. 基于聯(lián)邦學習的跨源數據錯誤檢測方法 [J].軟件學報,2023,34(3):1126-1147.

[5] 于起超,韓旭,馬丹璇,等.流式大數據數據清洗系統(tǒng)設計與實現 [J].計算機時代,2021(9):1-5.

[6] 劉魯文,陳興榮,何濤.基于馬爾科夫鏈的教學效果評估方法 [J].統(tǒng)計與決策,2014(3):93-94.

[7] 廖普明.基于馬爾科夫鏈狀態(tài)轉移概率矩陣的商品市場狀態(tài)預測 [J].統(tǒng)計與決策,2015(2):97-99.

[8] 楊海民,潘志松,白瑋.時間序列預測方法綜述 [J].計算機科學,2019,46(1):21-28.

[9] 張建晉,王韞博,龍明盛,等.面向季節(jié)性時空數據的預測式循環(huán)網絡及其在城市計算中的應用 [J].計算機學報,2020,43(2):286-302.

[10] 鄭月彬,朱國魂.基于Twitter數據的時間序列模型在流行性感冒預測中的應用 [J].中國預防醫(yī)學雜志,2019,20(9):793-798.

作者簡介:劉敏(1975—),女,漢族,浙江臺州人,工程師,碩士,研究方向:大數據、人工智能;黃倚霄(1978—),男,漢族,廣東龍川人,高級工程師,碩士,研究方向:大數據、人工智能;陳智揚(1971—),男,漢族,廣東深圳人,高級工程師,碩士,研究方向:大數據、人工智能、網絡信息安全;張湛梅(1979—),女,漢族,廣東陽春人,正高級工程師,碩士,研究方向:大數據、人工智能。

主站蜘蛛池模板: h视频在线观看网站| 欧美全免费aaaaaa特黄在线| 婷婷伊人久久| 色综合a怡红院怡红院首页| 国产成人91精品| 色播五月婷婷| 欧洲免费精品视频在线| 国产a v无码专区亚洲av| 婷婷激情五月网| 亚洲国产成人无码AV在线影院L| 免费国产黄线在线观看| 国产成人一区二区| 精品第一国产综合精品Aⅴ| 91视频青青草| 国产极品美女在线播放| 91蝌蚪视频在线观看| 亚洲αv毛片| 亚洲人成成无码网WWW| 欧美成人a∨视频免费观看 | 精品91自产拍在线| 国产91丝袜在线播放动漫| 99精品视频播放| 日韩成人免费网站| 亚洲第一区在线| 久久久精品国产SM调教网站| 午夜福利亚洲精品| 老司机久久99久久精品播放 | 久久成人国产精品免费软件| 国产微拍一区二区三区四区| 亚洲一级毛片在线观播放| 国产成人精品亚洲77美色| 成人免费网站久久久| 亚洲色图另类| 国产在线第二页| 亚洲欧洲日本在线| 久久综合色视频| 欧美v在线| 国产黄在线观看| 久久一级电影| 天堂在线www网亚洲| 亚洲成人免费在线| 区国产精品搜索视频| 偷拍久久网| 免费观看成人久久网免费观看| 婷婷丁香在线观看| 久久综合激情网| 看国产一级毛片| 波多野结衣一区二区三区88| 国产迷奸在线看| 伊人久久福利中文字幕| 四虎影视8848永久精品| 99热免费在线| 又猛又黄又爽无遮挡的视频网站| 久久永久精品免费视频| a级毛片网| 日韩二区三区| 99re这里只有国产中文精品国产精品 | 在线视频97| 国产成人AV大片大片在线播放 | 亚洲中文字幕无码爆乳| 三级欧美在线| 国产精品yjizz视频网一二区| 久久综合亚洲鲁鲁九月天| 谁有在线观看日韩亚洲最新视频 | 99精品热视频这里只有精品7| 四虎在线高清无码| 四虎永久免费在线| a级毛片视频免费观看| jizz国产视频| 国产成人午夜福利免费无码r| 91免费片| 91在线中文| 日韩黄色大片免费看| 国产又粗又猛又爽视频| 久久国产精品77777| 精久久久久无码区中文字幕| 国产美女一级毛片| 91亚洲国产视频| 国产成人亚洲日韩欧美电影| 国产一区二区三区在线无码| 国产av一码二码三码无码| 欧美中文字幕一区|