面向智能化應用的需求計劃數據處理模型構建研究

2024-03-14 13:07:56汪亦星

機電信息 2024年5期

許璐倪穎汪亦星

（國網江蘇省電力有限公司物資分公司，江蘇南京 210036）

1 研究背景

2022年，我國發布了《綠色現代數智供應鏈發展行動方案》，要求在未來兩年的發展中，基本構建具有國際領先水平和國網特色的綠色現代數智供應鏈管理體系。在不斷探索數智化手段應用于需求計劃管理的過程中，通過應用現代信息技術不斷提升需求計劃精益化管理水平。為助力物資供應鏈完善提升，開展了需求計劃智能審核的智能化路徑研究，嘗試解決審核任務重、專家人才稀缺等難點，提升計劃質量，實現計劃審核智慧升級，發現了若干探索研究的重點問題，數據基礎就是其中的關鍵性問題之一。

在路徑研究中，通過分析調研現有需求計劃工作，定位了需求計劃工作“高體量、高要求”下人工審查模式存在的“效率低、錯誤率高”這一問題，發現了導致問題的主要因素：一是計劃條目多，計劃提報、審查任務重，在有限的審查會工作時間中難以逐點細致分析判斷；二是計劃審查要點邏輯復雜，主觀判斷規則多，專家的專業水準參差不齊，個人評判尺度難以統一，且資深專家的“經驗判斷”很難向新專家傳授。因此，重點探索了適用于需求計劃審查體系的信息化智能審查技術，旨在利用人工智能與數據科學工具，實現計劃信息的智能自動校驗，為專家的人工審查提供智能化輔助方案，提升審查質效。

2 研究現狀

案例集數據預處理路徑流程包括數據采集、數據清洗、數據補全和數據整理。數據采集是指從不同的數據源收集原始數據或歷史數據以用于后續的數據處理操作。數據采集源包括歷史審批數據、物資數據審核要點、技術規范書等。數據清洗是指對數據集進行一系列操作與處理以去掉不符合要求的數據，讓數據更加精確、準確、完整和可靠。數據補全是指依據技術規范書、審核要點等規范性文件構建數據間的邏輯關系，在邏輯關系的基礎上對數據集填充缺失的數據或信息。數據整理是指依據物資數據的審核要點，制定多級別、多類型數據重塑規則，構建結構化數據集和數據字典。

2.1 數據采集

數據采集是收集和獲取數據的過程，以便用于分析、研究、決策制定等目的。數據采集的方法因數據類型、來源和目的而異。常見的數據采集方法有：1）實地調查。在現實世界中進行面對面或電話訪談，收集數據。這種方法適用于需要深入了解受訪者或環境的情況，例如市場調查或社會調查。2）日志文件分析。分析服務器、應用程序或系統生成的日志文件，以了解系統性能、用戶活動或錯誤信息。

2.2 數據清洗

數據集的清洗可以分為數據的去重、缺失值的補全、異常值的處理等操作過程。

首先是數據的去重，去除數據集中重復的數據，保證每個數據只有一個實例。目前數據去重常用的方法包括：1）基于哈希值。使用一個哈希函數，將每條數據轉換成唯一的哈希值，再通過比較不同數據的哈希值來去重。2）基于集合。將數據集轉換成一個集合，自動去重。3）基于排序。對數據集進行排序，相同的數據緊鄰在一起，再遍歷一次去重。

接下來是對缺失值的處理，主要集中在處理數據集中的缺失數據上，可以選擇刪除缺失數據或者采用其他方式進行缺失數據的填充。數據缺失分析是對數據集中缺失數據的一種分析方法，常用的方法有以下幾種：1）均值插補。用均值填充缺失值，這種方法適用于數據集中缺失數據的分布比較均勻的情況。2）中位數插補。用中位數填充缺失值，這種方法適用于數據集中存在極端值的情況。3）分類插補。用類別變量的眾數填充缺失值，這種方法適用于分類變量的缺失值處理。

接著是異常值處理，主要處理集中的異常數據，可以選擇刪除異常數據或者用其他方式處理異常數據。常用的方法有：1）箱線圖。使用箱線圖檢查數據集的分布情況，并識別異常值。2）Z-score方法。計算每個數據點與數據集平均值的差值（即Z-score），并根據閾值判斷是否為異常值。3）替換法。將異常值替換為中位數、平均值或眾數。4）刪除法。刪除數據集中的異常值。

常見的數據清洗還包括數據類型轉換，即將數據集中的數據轉換成合適的類型，方便后面的處理和分析。一些常見的數據類型轉換方法有：1）將字符串轉換為數字類型；2）將數字類型轉換為字符串類型。

數據規范化也是常用的數據清洗方法。數據規范化是一種數據預處理技術，用于將不同尺度的數據轉換為統一的尺度，以便更好地進行比較、分析和處理。常見的數據規范化方法有標準化、歸一化、離散化等。

在上述方法的基礎上，劉凱等人[1]介紹了國網公司在數據標準化、數據質量、數據監控、數據質量報告、數據服務等領域的治理工作，這一系列舉措有助于推動公司的數字化轉型進程，為公司的業務創新和發展提供有力支持。劉松等人[2]提出了一種全新的數字化設備實物資產管理方法，這一方法以設備實物數字化信息圖模為基礎，實現了一種無須物理接觸的設備實物資產管理模式。這項創新提高了物資管理人員的工作效率，實現了電網設備物資管理的精益化水平。王學兵等人[3]通過識別項目庫中的不同項目分類，來建立代表性的項目庫，然后對各種項目庫中的電網建設物資進行綜合分析，以確定物資樣本，從而收集電網建設物資需求數據。丁靖等人[4]提出了一種基于歷史數據挖掘的電網建設物資需求預測系統。首先明確了典型項目對物資的需求數量，然后完成對歷史數據的賦值，該賦值來源于影響因素的權重，然后對電網物資訓練數據進行預處理和分離。

3 面向智能化應用的案例集分析和生成

本研究將借助于上述技術首先完成基于規則的存量數據的清洗，然后依據多個數據表之間的邏輯驗證以及單個數據表中字段之間的邏輯關系實現對空字段的自動補全，其后依據數據審核要求構建多級別審核模型，最終形成面向智能化應用的案例集，逐步完成典型案例集的生成。

3.1 清洗規則及清洗結果

本次案例數據中針對異常值類問題展開了數據刪除工作，發現該類數據的產生主要是源于測試應用。在該類測試數據中部分字段，諸如計劃審核會ID、采購申請號、行項目號等字段均為空值，可采取刪除操作去除數據的冗余性。

清洗規則的描述分為去除空數據和刪除歷史記錄數據兩個步驟。

3.1.1 去除空數據

1）結構化自然語言。

首先判斷單個數據條的“歷史記錄”字段是否為'X'，如果該值為'X'，則表明該列數據是歷史過程記錄數據，可直接進行該數據條刪除操作。

2）邏輯語言表達。

保留計劃審核會ID不為空的行：df['計劃審核會ID'].notnull()；或者刪除計劃審核會ID為空的行：df.dropna(subset=['計劃審核會ID'])。

3.1.2 刪除歷史記錄數據

1）結構化自然語言。

刪除物資唯一碼相同但“時間戳”的時間值不是最新的所有行。依次刪選出所有物資唯一碼相同的數據條，在刪選出的數據條中依據“時間戳”字段的數值進行降序排列，保留排列在第一位的數據條，并刪除其余重復數據條。

2）邏輯語言表達。

（1）刪除歷史記錄數據。

刪除歷史記錄為'X'的數據條：'delete 歷史記錄'=='X'。

（2）依據物資唯一碼排序，并刪除非最新時間的數據條：

數據清洗結果：通過該清洗步驟，將本次實驗數據量從45 069條減少至28 931條，去除無效數據約35.8%，大大降低了數據存量的冗余性，為下一步的數據處理提供了良好的數據基礎。

3.2 數據補全規則及補全結果

數據補全是指在數據集中存在缺失值或不完整的數據時，通過一定的方法和技術來填充或估計缺失的數據，以完善數據集的完整性和可用性。在本次案例數據中，將補全規則分為兩種：一是內部補全，即依據案例數據各字段之間邏輯關系完成相應字段的補全；二是跨表補全，即依據ERP中的數據實現對計劃審核表中相應字段的補全。具體如下：

3.2.1 內部補全

規則1（RR1）：“輪次”字段的補全規則。在部分數據中“輪次”字段為空，然而“計劃專職審核意見”和“計劃專職審核結論”等均為“通過”，因此可基于上述兩個字段的審核結果將“輪次”字段補全為“一輪評審結束”或者“二輪評審結束”，如表1所示。

表1 內部補全部分案例集

規則2（RR2）：“計劃審核結果”“計劃專職審核意見”“計劃專職審核結論”等字段的補全規則。在部分數據中，輪次字段為“二輪評審結束”，然而“計劃專職審核意見”“計劃專職審核結論”等字段缺少相應結果，可依據“輪次”字段的值將以上三個字段補全為“通過”字樣，如表1所示。

內部數據補全結果：通過該清洗步驟，基于規則1（RR1）實現了352個數據條的“輪次”字段補全，基于規則2（RR2）實現了12個數據條的“計劃專職評審意見”和“計劃專職評審結論”字段補全。累計完成364條樣本數據條的字段補全。

3.2.2 跨表補全

規則3（RR3）：跨表空字段補全。在計劃審核會數據表中部分字段的數值為空，但在ERP數據表中相應字段具有明確的取值，則可根據ERP數據表中的字段值完成對計劃審核會相應字段的數值補全。該類待補全的數據字段包括“采購方式”等，如表2所示。通過該規則的處理，能夠完成23 197條數據字段值的自動補全處理。

表2 跨表空字段補全部分案例集

規則4（RR4）：跨表錯誤字段補全。在計劃審核會中部分字段的字段名與ERP中相應字段存在誤差，因此可以根據ERP中正確的字段值完成對計劃審核會中錯誤字段的自動糾正。該類待糾正的數據字段包括“交貨地點”等（表3），能夠完成23 197條數據字段值的自動糾正處理。

表3 跨表錯誤字段補全部分案例集

規則5（RR5）：跨表錯誤數據糾正。根據ERP中的數據完成對計劃審核表中具有相同物資唯一碼的部分數據字段數值的糾正，如表4所示。

表4 跨表錯誤數據糾正部分案例集

3.3 數據整理規則及整理結果

3.3.1 數據整理規則

依據物資數據的審核要點，審核規則分為大類、中類、小類和細類等四個類型。依據審核標準在大類的基礎上進一步劃分出了審核中類以及審核小類。

3.3.2 數據整理結果

經過整理，將2023年需求計劃及技術規范書編審要點（物資類）細分成5個審核大類、22個審核中類以及170個審核小類，實現了對技術規范書審核要點的詳細分類。部分整理結果如表5所示。

表5 分類部分定義表

3.4 數據容錯整理

部分字段雖然在本輪次中未出現修改，但仍然要通過錯誤數據對其進行邏輯的判斷，部分錯誤測試數據案例集如表6所示。

表6 部分測試數據集

3.5 案例集和數據字典

3.5.1 案例集

結合上面對審核規則的大類、中類和小類的整理和歸納，將該規則集運用于存量數據，獲得如表7所示案例集。

3.5.2 數據字典及其結構

數據字典是一個用于描述數據庫中各種數據元素、數據結構和數據關系的文檔或工具。它提供了有關數據庫中存儲的數據的詳細信息，包括數據的定義、屬性、類型、長度、關聯關系等。

依據技術規范書自編技術規范的審核要點構建各物資的數據字典，該數據字典的結構包括物資大類、參數特性表類型、參數字段和參數值選取規則或默認值等。物資大類包括變壓器、互感器、電容器、電抗器、消弧線圈等。本次編制的數據字典包含1個大類、6個中類、44個小類。以變壓器類型為例，表8展示了部分數據字典內容。

表8 變壓器數據字典

4 結束語

本研究從實際生產中所面臨的物資需求計劃數據的預處理問題出發，以實現智慧供應鏈體系建設為目標，以電網物資計劃需求業務為切入點，對物資存量數據進行采集、清洗等一系列預操作，設計了面向物資計劃數據的清洗規則、補全規則、整理規則、容錯規則等數據預處理方法，減少了物資計劃數據的冗余，提高了物資計劃數據的質量，為物資計劃數據的進一步智能應用夯實了數據基礎。本研究將有助于提升供應鏈管理的質效，推進了電網企業新型基礎設施建設落地應用。