999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-medoids聚類的異構環境多源煙草物流數據集成方法研究

2024-12-31 00:00:00郭光根何蕊張玉軍
科技創新與應用 2024年35期

摘" 要:由于煙草物流行業在運營過程中涉及的數據來源極其廣泛且多樣,數據不僅格式各異、結構復雜,而且往往分散存儲在不同的信息系統中,導致物流數據在集成的過程中,出現數據吞吐量較低的現象。針對上述現象,提出基于K-medoids聚類的異構環境多源煙草物流數據集成方法。通過欠采樣平衡類別分布,利用數據相關性和閾值清洗剔除冗余信息,提高異構環境多源煙草物流數據質量,設計基于K-medoids聚類的煙草物流數據集成框架,使用遷移學習動態調整源域權重以優化目標域聚類性能,引入帶有相似性約束的新數據點作為初始聚類中心,實現異構環境多源煙草物流數據的有效集成。實驗結果表明,設計方法通過聚類算法能夠將來自不同數據源的數據進行有效分組和整合,降低數據處理的復雜性,提高數據集成的吞吐量。

關鍵詞:K-medoids聚類;異構環境;多源數據;煙草物流數據;數據集成方法

中圖分類號:TP311.1" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2024)35-0039-05

Abstract: Due to the extremely wide and diverse data sources involved in the operation process of the tobacco logistics industry, the data not only has different formats and complex structures, but is also often scattered and stored in different information systems, resulting in data throughput during the integration process of logistics data Low phenomenon. Aiming at the above phenomena, a multi-source tobacco logistics data integration method based on K-medoids clustering in heterogeneous environments is proposed. By undersampling to balance category distribution, using data correlation and threshold cleaning to eliminate redundant information, we improve the quality of multi-source tobacco logistics data in heterogeneous environments. A tobacco logistics data integration framework based on K-medoids clustering is designed, and transfer learning is used to dynamically adjust source domain weights to optimize target domain clustering performance. New data points with similarity constraints are introduced as the initial clustering center to achieve effective integration of multi-source tobacco logistics data in heterogeneous environments. Experimental results show that the design method can effectively group and integrate data from different data sources through clustering algorithm, reducing the complexity of data processing and improving the throughput of data integration.

Keywords: K-medoids clustering; heterogeneous environment; multi-source data; tobacco logistics data; data integration methods

在當今日益復雜的商業環境中,多源數據集成已成為提升業務效率和決策質量的關鍵技術之一。特別是在煙草物流領域,由于涉及多個環節、多個參與方以及多種數據類型,數據集成顯得尤為重要。然而,傳統的數據集成方法在面對異構環境時往往顯得力不從心,無法有效處理來自不同系統、不同格式、不同質量的數據。

文獻[1]提出基于云計算的建筑測繪數據集成管理方法,利用云計算的彈性伸縮和分布式處理能力,對建筑測繪產生的海量數據進行有效管理和集成。通過云計算平臺,實現對數據的集中存儲、統一管理和高效查詢。文獻[2]提出基于隨機森林的多源小樣本數據快速集成方法,從多個數據源中收集小樣本數據,使用經過預處理的數據集構建隨機森林模型,利用模型對多源小樣本數據進行分類和預測。模型根據輸入數據的特征將其劃分為不同的類別,根據分類或預測結果,對多源小樣本數據進行集成。

盡管文獻[1]和文獻[2]分別從不同角度對數據集成方法進行了探索,但它們在處理異構環境多源數據時,對異構數據的處理能力有限,無法有效處理來自不同系統、不同格式的數據。因此,本文提出基于K-medoids聚類的異構環境多源煙草物流數據集成方法,旨在實現煙草物流領域異構環境多源數據的有效集成,為煙草物流的決策分析和業務優化提供有力支持。

1" 異構環境多源煙草物流數據預處理

在煙草物流行業中,數據往往來自多個不同的系統、格式和結構,這些異構數據可能包含錯誤、重復、缺失或不一致的信息。因此,本文首先對異構環境多源煙草物流數據進行預處理。在煙草物流數據中,由于數據采集偏差、業務特性等,可能會出現某些類別的數據樣本遠多于其他類別的情況,導致后續在集成訓練時偏向于多數類,而忽略少數類[3]。為了處理異構環境多源煙草物流數據中類別不平衡的問題,本文采用欠采樣方法,通過減少多數類樣本的數量來平衡不同類別之間的樣本分布。

假設原始數據集中多數類樣本的數量為Nd,少數類樣本的數量為Ns,通過欠采樣技術使得多數類樣本的數量減少到Ny的過程可以用式(1)進行表示

Ny=Nd·Ns , (1)

式中:Ns表示異構環境多源煙草物流數據的欠采樣率。

利用隨機抽樣算法從Nd個多數類樣本中隨機抽取Ny個樣本進行保留,將保留的多數類樣本和原有的少數類樣本組合起來,形成新的數據集。新的數據集包含Ny個多數類樣本和Ns個少數類樣本,其中Ny+Ns=N。

將不同類別的樣本均衡分布后,樣本中的數據不僅格式各異,而且可能存在大量的重復或無效信息。因此,對異構環境多源煙草物流數據進行冗余處理,識別并剔除重復和無效的數據,在不損害數據原始性和真實性的前提下,降低數據處理和傳輸的復雜度。針對煙草物流數據的異構特性,本文采用一種基于數據相關性的冗余處理方法。假設N個樣本中,有來自n個不同數據源的煙草物流數據,表示為X1,X2,K,Xn。對數據進行清洗,設置一個閾值范圍[T1,T2],若某個數據點的值不在此范圍內,則視為無效數據。清洗后的數據可以表示為

Xq= {x∈Xi│T1≤x≤T2} 。 (2)

將清洗后的數據融合成一個統一的數據流,如式(3)所示

Yi=f(Xq) , (3)

式中:f表示映射函數,將每個數據源的數據轉換到統一的度量空間。

為了識別和剔除冗余數據,使用皮爾遜相關系數度量2個數據集之間的相關性。對于數據集Yi和Yj,其皮爾遜相關系數rij可以表示為

式中:Y表示數據集Yi和Yj中的第k個數據點;j表示它們的平均值;m表示數據點的數量。如果rij接近1,則表示2個數據集高度相關,可能存在冗余,根據數據特點,選擇保留其中一個數據集。

經過上述的數據預處理步驟,處理了異構環境多源煙草物流數據中類別不平衡問題,并識別及剔除了數據中的重復和無效信息,提高了數據的質量,為后續的數據集成奠定了堅實的基礎[4]。

2" 基于K-medoids聚類設計煙草物流數據集成框架

本文提出一種基于K-medoids聚類的集成算法框架,在異構煙草物流數據環境中構建準確聚類模型時,充分利用多源域數據,通過遷移學習來探索不同數據源之間的關聯性和互補性,從而優化目標域上的聚類性能。

假設存在一個包含多個源域和目標域的數據空間K,其中,源域A中包含大量帶有特征標記的樣本,目標域B中可能包含較少或沒有標記的樣本[5]。源域數據集中存在M個中心點,這些中心點代表M個不同的簇。利用K-medoids聚類算法在源域A上構建初始聚類模型,也就是K-medoids算法通過迭代的方式尋找源域A中的M個中心點。對于源域數據集A中的每個數據點Ai,被分配給離它最近的medoids所代表的簇Cm,其中m=1,2,K,M。此時的目標函數是最小化所有點到其所屬簇的medoids的距離之和,可以用式(5)進行表示

minimize, (5)

式中:d表示數據點Ai與其所屬簇C的medoids之間的距離。

在構建面向目標域的聚類模型時,為目標域和多個源域的初始樣本分配權重值。將目標域樣本權重初始化為co′={co1,co′2,K,co′n},co′i是第i目標域樣本的權重,將源域樣本權重初始化為w={w1,w2,K,wm},wj是第j個源域樣本的權重。通過多次迭代學習,根據梯度下降優化算法更新權重值,如式(6)所示

cj,t+1=wj,t-" , (6)

式中:t表示迭代次數;a表示學習率;L表示損失函數。

隨著迭代過程的進行,本文根據多源域與目標域之間的損失值來評估不同源域對目標域聚類任務的貢獻度[6]。通過計算多源損失,篩選出與目標域貢獻度最大的源域,將其視為目標源類[7]。這一過程可以用式(7)進行表示

Ls=Lm+wL,j,tLj , (7)

式中:Lm表示目標域的損失;Lj表示第j個源域的損失;g表示源域的數量;wL,j,t表示第j個源域損失的權重。

不僅要考慮源域當前的損失值,還要考慮其在連續迭代中的變化趨勢。如果源域的損失在連續迭代中持續下降,那么認為這個源域對目標域聚類任務的貢獻在增加,因此應該增加其權重[8]。相反,如果源域的損失在連續迭代中保持不變或上升,那么認為這個源域對目標域聚類任務的貢獻在減少或不再顯著,因此應該減少其權重?;谏鲜隹紤],對式(7)進行改進,得到以下公式

wL,j,t=wL,j,t·exp-λ· , (8)

式中:λ表示衰減率參數:1表示指示函數,當Lj,tlt;γ時取值為1,否則取值為0,確保只有當源域的損失小于閾值γ時,其權重才會被更新。

通過這種方式,可以更加精確地控制源域權重的更新,使得對目標域聚類任務有顯著貢獻的源域能夠獲得更高的權重,而貢獻較小的源域則會被逐漸淘汰,有助于構建一個更加高效和準確的聚類模型,以適應復雜多變的異構煙草物流數據環境。

3" 選取聚類中心初始值集成煙草物流數據

由于傳統的K-medoids聚類算法隨機選擇初始的medoids,這種做法可能會導致選擇的medoids過于接近,從而增加算法收斂到穩定解所需的迭代次數。為了改進K-medoids聚類算法中聚類中心點初始值的選擇過程,本文提出一種基于約束條件的medoids初始化方法。向已知的異構環境多源煙草物流數據集中引入V個新的數據點,并為這些新數據點制定2個關鍵約束條件。

第一,新加入的數據點必須與異構環境多源煙草物流數據集中的已有數據保持一定的相似性,確保算法更快地定位到可能的最優聚類中心[9]。

第二,新加入的V個數據點之間必須保持較低的相似性,確保初始的medoids在異構環境多源煙草物流數據空間中分布得更加均勻,減少算法在迭代過程中需要大幅度調整medoids位置的可能性。

基于上述2個約束條件,本文煙草物流數據集成過程示意圖如圖1所示。

選擇出V個符合要求的新數據點,并將它們作為K-medoids聚類算法的初始medoids,運行K-medoids聚類算法將異構環境多源煙草物流數據集中的數據點分配給不同的聚類。在每次迭代中,根據每個數據點與當前medoids之間的距離,將數據點分配給距離最近的medoids所代表的聚類,通過替換當前的medoids為同一聚類中的其他數據點來優化聚類結果[10]。如果在連續多次迭代中,medoids的選擇沒有發生變化,代表算法已經收斂到穩定解,則停止迭代,此時的煙草物流數據聚類結果即為煙草物流數據的集成。由此,完成了基于K-medoids聚類的異構環境多源煙草物流數據集成設計。

4" 實驗

4.1" 實驗準備

為了全面驗證本文提出的集成方法的可行性,設計一系列實驗。通過集成多個不同來源、不同格式、不同結構的煙草物流數據,旨在實現數據的高效整合、無縫共享和充分利用,為煙草物流管理和決策提供有力支持。

首先進行實驗環境設置,在硬件設備方面,采用型號為Dell PowerEdge R740的服務器,配備Intel Xeon Gold 6248R處理器和128 GB DDR4 ECC REG RAM內存,保證多源煙草物流數據處理的高效性和穩定性。在網絡設備方面,選擇型號為Cisco Catalyst 3850的交換機,構建實驗網絡,利用Cisco ASR 1000路由器將網絡間的路由進行轉發和流量控制。在軟件環境方面,配置以MySQL 8.0為數據庫管理系統來存儲和管理多源煙草物流數據,借助Talend Open Studio作為ETL工具實現數據的抽取、轉換和加載,利用Apache NiFi 1.15.0進行實時數據集成,并通過Python 3.9及其數據處理庫對數據進行清洗、轉換和分析。具體的實驗環境參數設置見表1。

在實驗環境搭建完成的基礎上,進行數據準備。模擬多源煙草物流數據,包括來自不同供應商、不同物流環節、不同系統平臺的數據見表2。

在進行煙草物流數據的集成工作時,由于數據來源于多個異構系統,要充分了解每個數據源的特點,包括數據格式、字段定義等,之后對模擬的數據進行清洗和預處理,去除重復數據、錯誤數據、無效數據等,確保數據的質量和準確性。將不同來源、不同格式、不同結構的數據轉換為統一的格式和標準,啟動數據集成工具,執行數據集成操作,將多源煙草物流數據集成到目標數據庫中。在數據集成的過程中,可能會出現各種錯誤和異常情況,因此,要建立完善的錯誤處理和日志記錄機制,及時發現、記錄并解決問題。

4.2" 實驗結果及分析

為了驗證本文方法在異構環境多源煙草物流數據集成方面的優越性,將本文方法與文獻[1]和文獻[2]中提出的類似方法進行對比分析。對比3種方法在數據集成過程中的數據吞吐量,得到如圖2所示的對比實驗結果。

根據圖2可以看出,本文方法在數據集成過程中的數據吞吐量表現優于文獻[1]和文獻[2]中的方法。從各個時間段的數據吞吐量來看,本文方法在每個時間段內的吞吐量都高于文獻[1]和文獻[2]中的方法。特別是在20~30 s的時間段內,本文方法的數據吞吐量達到了140 MB/s,明顯高于其他2種方法,表明本文方法在數據集成過程中具有更高的處理效率和性能。從平均數據吞吐量來看,本文方法的平均吞吐量為133 MB/s,文獻[1]和文獻[2]中的方法平均吞吐量分別為109 MB/s和97.8 MB/s,進一步驗證了本文方法在數據集成方面的優越性,不僅體現在瞬時處理速度上,更在長時間的穩定運行中保持了高效的數據處理能力。綜上所述,可以得出結論:本文提出的數據集成方法在數據吞吐量方面具有明顯的優勢,可以滿足異構環境多源煙草物流數據需要高效處理大量數據的需求。

5" 結論

本文通過K-medoids聚類算法,成功地將來自不同系統、不同格式、不同質量的煙草物流數據進行了有效集成,為后續的決策分析和業務優化提供了有力支持。在未來的研究工作中,我們將繼續深化對K-medoids聚類算法的研究,探索其在處理更加復雜和異構數據時的性能表現。同時,我們將結合煙草物流的實際業務需求,開展更多關于數據集成后的應用研究,如基于集成數據的物流路徑優化、庫存管理等。此外,隨著人工智能和大數據技術的不斷發展,我們也將積極探索將更多先進的技術手段引入煙草物流數據集成中,以提升數據處理的效率和準確性。

參考文獻:

[1] 王延堂.基于云計算的建筑測繪數據集成管理方法[J].信息與電腦(理論版),2024,36(2):156-158.

[2] 何昀,張川,張繼夫,等.基于隨機森林的多源小樣本數據快速集成方法[J].信息與電腦(理論版),2024,36(1):52-54.

[3] 張海彬,羅玉林,區云帆,等.基于中鐵貴州智慧社區管理的多源異構數據集成方法[J].建筑技術,2023,54(22):2808-2813.

[4] 沈川.基于K-Means算法的建筑工程進度數據集成方法[J].信息與電腦(理論版),2023,35(22):66-68.

[5] 陳超,胡才亮,崔鈺,等.基于時空聚類的多源異構時序數據集成方法[J].電子設計工程,2023,31(20):168-171,176.

[6] 范洪斌.基于關聯規則算法的工業生產數據智能集成方法[J].數字通信世界,2023(6):57-59.

[7] 祝鵬,郭艷光.基于K-medoids聚類算法的多源信息數據集成算法[J].吉林大學學報(理學版),2023,61(3):665-670.

[8] 楊航,盧偉開,黃海英,等.基于深度學習的IT服務綜合監控系統異構數據集成方法[J].微型電腦應用,2023,39(3):68-70.

[9] 李躍先,殷傳濤,魏億鋼.基于本體與中間件的科技資源數據集成方法[J].標準科學,2021(5):21-28.

[10] 盛靜文,于艷麗,江開忠.基于K-medoids聚類的貝葉斯集成算法[J].智能計算機與應用,2021,11(2):84-87.

主站蜘蛛池模板: 久久久精品无码一二三区| 亚洲精品在线91| 久久一日本道色综合久久| 国产一区三区二区中文在线| 72种姿势欧美久久久久大黄蕉| 亚洲精品福利视频| 亚洲国产成人在线| 中文字幕资源站| 露脸一二三区国语对白| 亚洲视频无码| 亚洲国产清纯| 国产网站免费观看| 久久影院一区二区h| a色毛片免费视频| 国产亚洲成AⅤ人片在线观看| 国产成人欧美| 性色生活片在线观看| 国产成人91精品| 这里只有精品在线播放| 51国产偷自视频区视频手机观看 | 男人天堂亚洲天堂| 久久青草免费91观看| 国产亚洲现在一区二区中文| 波多野结衣一二三| 玖玖精品视频在线观看| 欧美一区二区精品久久久| 丝袜无码一区二区三区| 波多野结衣一区二区三区88| 亚洲,国产,日韩,综合一区| 国产污视频在线观看| 99久久精品美女高潮喷水| 欧美一道本| 激情六月丁香婷婷四房播| 99精品视频播放| 日本免费高清一区| 1级黄色毛片| 欧美精品H在线播放| 亚洲欧洲日产国码无码av喷潮| 亚洲第一网站男人都懂| 日韩人妻少妇一区二区| 色哟哟国产精品一区二区| 激情乱人伦| 亚洲人成人伊人成综合网无码| 动漫精品中文字幕无码| 亚洲欧美日韩动漫| 亚洲最大福利视频网| 免费毛片视频| 先锋资源久久| 亚洲第一在线播放| 国产办公室秘书无码精品| 啊嗯不日本网站| 爱爱影院18禁免费| 国产极品粉嫩小泬免费看| 国产一级在线观看www色| 波多野结衣中文字幕一区二区| 久久精品中文无码资源站| 伊人国产无码高清视频| 99热这里只有成人精品国产| 色偷偷一区二区三区| 亚洲第一视频免费在线| 一本久道久久综合多人 | 国产玖玖玖精品视频| 黄色免费在线网址| 国产亚洲欧美日韩在线观看一区二区 | 天天色综网| 制服丝袜在线视频香蕉| 国产精品尹人在线观看| 又黄又湿又爽的视频| 99er精品视频| 国产一区二区精品福利| 日日碰狠狠添天天爽| 国内丰满少妇猛烈精品播| 国产成人盗摄精品| 91麻豆精品国产91久久久久| 91福利一区二区三区| 免费日韩在线视频| 国产成人精品18| 在线观看欧美国产| 亚洲成人77777| 啦啦啦网站在线观看a毛片| 精品国产成人高清在线| 色香蕉影院|