王妍妍,王艷寧
(1.燕山大學 經濟管理學院,河北 秦皇島 066004;2.燕山大學 理學院,河北 秦皇島 066004)
隨著我國電子商務的迅猛發展,物流行業的競爭也日益激烈,競爭的焦點就在于能否以最低的成本,提供快捷、安全的全方位物流服務。物流成本管理是通過成本管理物流,幫助企業實現預測、決策和計劃,包括成本控制、成本核算和成本分析。通過成本分析可以發現影響物流成本變動的因素。對物流成本數據進行分析,可以優化物流成本管理的過程和方法,有效降低物流行業的成本。數據挖掘可以根據物流成本數據特點發掘其中隱含的知識,從而更清楚的查看物流企業的成本情況?;跀祿诰蜻M行物流成本分析,可以實現在既定的顧客服務水平條件下降低物流成本,提高企業的競爭能力。
近年來,數據挖掘技術在物流管理中的應用十分廣泛。Ozdamara等[1]將層次聚類算法引入到車輛路徑選擇問題中,在每個規劃中,把結點歸入最小的聚類中。Fu等[2]提出了基于模糊聚類的物流企業評估模型,從基礎信息、管理水平、技術力量、運輸能力、信息化程度、市場競爭和客戶服務幾個方面評估企業的整體能力。張玉峰等[3]設計動態物流數據挖掘模型,分析了動態物流數據采集技術、動態物流數據處理技術以及動態物流數據挖掘技術等關鍵問題,為物流大數據的精益化管理提供支持。周磊等[4]將物聯網與數據挖掘技術相融合,構建物流信息分析模型,有效分析了物流信息。趙秀麗等[5]改進關聯規則算法,挖掘物流數據庫中的時空頻繁模式,如頻繁裝(卸)貨地點、頻繁直達路徑和頻繁轉運路徑等。江雨燕等[6]針對物流企業數據量大的特點,依據K-means聚類算法找到關鍵客戶,并對業務記錄進行Apriori關聯分析,形成相關聯的組合業務推廣模式。陳磊等[7]將模糊聚類方法應用于物流中心選址決策中,并給出了模糊聚類的基本思想和基于模糊聚類物流中心選址的分析步驟。韓世蓮[8]提出用模糊系統聚類方法對客戶進行分類,運用智能加權對動態屬性進行集成,并生成相應的配送策略,從而優化物流配送線路。也有一些學者采用數據挖掘技術降低企業的物流成本。Paul等[9]將數據挖掘用于降低物流成本,解決物流車輛的路徑選擇問題。Wang等[10]提出客戶聚類方法用于物流網絡優化,通過聚類客戶的相似特征,降低物流企業的運營成本,并提高客戶滿意度。Guo等[11]設計物流成本主題域數據倉庫,從不同的維度進行聚類,然后利用關聯規則挖掘,為降低物流企業的成本提供重要的決策支持。
上述研究表明,數據挖掘技術已經在物流管理的路徑選擇、供應商選取和物流中心選址等方面發揮了積極作用,但在物流成本分析方面還不夠深入。因此,本文詳細闡述了聚類和關聯規則在物流成本分析應用的過程和方法,以達到提高物流企業成本管理水平的目標。
物流成本數據可以從企業內部和企業外部獲取,這些數據數量大、結構不統一、更新速度快。所以,分析物流成本時,首先要確定分析對象,抽取出不同環節中成本的主要影響因素,再對數據進行變換形成適合數據挖掘的形式。
通過分析物流系統,發現物流成本發生在進貨、庫存、配送和運輸過程中,物流成本的主要構成有運輸成本、倉儲成本、管理費用等。其中,運輸成本是物品在運輸過程中發生的移動成本,包括公路運輸成本、鐵路運輸成本、水運運輸成本和空運運輸成本等。倉儲成本是物品在入庫和倉庫內進行移動、分揀、包裝和出庫等活動產生的成本。管理費用是與物流管理相關的各項費用和信息成本。在物流成本構成中,運輸成本和倉儲成本占比最大,是物流成本管理的重點部分。
將物流過程中的運輸成本和倉儲成本作為研究對象,收集運輸成本和倉儲成本作為原始數據,再將原始數據轉換成適合數據挖掘分析的形式。物流成本數據預處理過程如下:
首先,抽取貨物類型、倉儲時長、入庫準備成本、裝卸搬運成本、訂單處理成本、倉庫管理成本、分揀組裝成本等作為倉儲成本的字段信息。
然后,分析物流運輸方式主要有公路運輸、海洋運輸、鐵路運輸和航空運輸。運輸方式不同運輸成本字段也不同。其中,發貨方、收貨方和貨物類型是共有的三個字段。再分別抽取燃料成本、輪胎成本、修理成本、運輸成本等作為公路運輸成本的字段信息;航次成本、船舶固定成本、船舶租賃成本、集裝箱成本等作為水運運輸成本;材料成本、燃料成本等作為鐵路運輸成本的字段信息;飛行成本、飛機維修成本等作為空運運輸成本的字段信息。
在物品運輸時,運輸方式可能不唯一,所以運輸成本為四種運輸方式的成本總和。在倉儲成本和運輸成本字段中,發貨方和收貨方以省市為劃分,貨物類型分為工業品、消費品和農產品三類,每個省市和每類貨物分別設置不同代碼。成本中的每個字段就是一個成本項。
最后,對轉換后的各項成本數據進行規范化,采用最小-最大規范化方法將所有成本值計算到指定的區間內。計算方法見公式(1)。
假定minA和maxA分別為成本A的最小值和最大值,則成本A的某項成本值v規范化到新的區間[new_minA,new_maxA]為v’:

聚類可以歸納、分類和整合物流成本數據,將數據按自身特點劃分成相似度較高的類。關聯規則分析可以發現物流成本數據中隱含的有用規則,進而實現物流成本的全面管理?;跀祿诰虻奈锪鞒杀痉治龇椒ㄈ鐖D1所示。

圖1 基于數據挖掘的物流成本分析方法
聚類可以自動歸類樣本數據,將物流成本劃分成相似度較高的多個簇。在各個聚簇內分別進行物流成本分析,可以避免由于物流成本數量大、類型多而造成的分析效率低下、效果不佳等問題。
(1)物流成本數據相似度度量。物流成本由一系列成本項組成,成本表示為成本項序列{c1,c2,c3,…,cn}。假設物流成本 x={x1,x2,x3,…,xn},y={y1,y2,y3,…,yn},則物流成本x和y之間的歐幾里得距離d(x,y)見公式(2)。

其中,n為物流成本的數量,xk和yk是物流成本x和y在第k個成本項上的成本值。
物流成本之間的歐幾里得距離越小,則成本之間的相似程度就越高。依據歐幾里得距離,定義物流成本x和y之間的相似度sim(x,y),見公式(3)。

(2)物流成本數據的聚類算法。k-means是經典的聚類算法,對初始參數敏感,聚類中心隨機選擇,不同的初始值可能會導致聚類過程差別大,甚至得到不同的結果。為了能夠更客觀的形成物流成本簇,根據物流成本數據的分布情況定義熵,完成kmeans聚類過程。
假設物流成本 x=(x1,x2,x3,…,xn)和 y=(y1,y2,y3,…,yn),則成本x和成本y之間的熵Hxy見公式(4)。

假設物流成本集為C,包含n個成本數據,則物流成本x的總熵值Hx為該成本與其他成本熵值的和,見公式(5)。

根據熵的定義可知,成本數據分布比較集中的區域中成本的熵值較大,熵值越大成為聚類中心的可能性就越大。所以,選擇熵值大的成本數據作為聚類中心,可以讓聚類盡快達到穩定狀態。
綜上,物流成本的聚類過程如下:首先,計算物流成本之間的歐幾里得距離和相似度。然后,計算每個物流成本數據的熵,依次選擇熵值最大的k個物流成本作為聚類中心。最后,根據物流成本與k個聚類中心的相似度,將其歸入與其相似度最高的中心點所在的聚類中,形成物流成本類簇。采用熵值指導聚類中心的選擇,可以更快、更好的聚類物流成本數據。在同一簇中,物流成本的相似程度較大,成本水平相當。
物流成本之間存在相關性,采用Apriori算法可以挖掘物流成本之間隱含的關聯關系。但是由于其在產生頻繁項集時多次掃描數據庫,存在時間開銷大的問題。如果在同一簇內實施Apriori算法挖掘關聯規則,能夠大大提高算法的執行效率。所以,基于Apriori算法的物流成本關聯規則分析,采用先分后合的思想。首先在相似度較高的一個簇內挖掘關聯規則,然后再將各個簇中挖掘到的規則整合成決策支持庫。
同時,考慮到物流成本之間的相關性表現,將在橫向和縱向兩個方面分別挖掘關聯關系。橫向相關性是物流成本各個成本項之間的相互影響。例如,在同一次物流過程中,季節與運輸物品種類之間的關系??v向相關性是不同次物流過程中,不同種類的物品物流成本之間的相互影響。例如,某類物品與另一類物品物流成本之間的關系。
采用Apriori算法挖掘出物流成本項之間以及物流成本之間的強關聯規則,整合每個簇中取得的規則,再結合管理層需求和用戶需要分析所有的規則,找出有用規則形成物流成本決策支持庫。
為了驗證上述聚類算法的效果,采用UCI提供的iris和letter來驗證算法的效率和聚類的質量。測試數據集描述見表1。

表1 測試數據集樣本
在Weka平臺上,分別采用k-means算法和本文提出算法對測試數據集進行測試,聚類質量和效率見表2。
從實驗結果可以看出,與k-means算法相比,本算法準確率略高。當數據集較大時,由于本算法將熵值作為聚類中心的選擇標準,聚類中心確定以后聚類結果不再發生變化,所以該算法的運行時間較短。

表2 聚類質量和效率的比較
聚類物流成本數據時,首先要確定聚類個數k,這里采用平均輪廓系數對聚類結果進行評估。如果成本數據ci與同一聚類中成本數據的平均相似度為ai,與其他聚類中成本數據最大相似度為bi,則輪廓系數Sci定義如下:

平均輪廓系數記為所有成本數據輪廓系數的平均值,當平均輪廓系數最大時,聚類質量最好,此時對應的聚類個數k即為最優的。平均輪廓系數定義如下:

在實驗中抽取4 000條運輸成本和倉儲成本數據進行數據預處理,再采用上述k-means算法對成本數據進行聚類,并將4 000條成本數據分成15個類,此時聚類效果最優。
在每個簇中實施關聯規則分析,分別設置支持度和置信度為0.8。以水運成本數據為例,發現水運成本數據項之間的相關關系如下:
(1)發貨方∧船舶租賃成本∧船舶固定成本=>航線成本;
(2)發貨方∧運輸月份=>運輸時長。
通過挖掘所有類簇中的強關聯規則,可以得出物流成本數據之間存在的各種關聯,這些強關聯規則和成本的相關性可以形成物流成本決策支持庫,用于指導物流成本的合理分配。
物流成本分析和管理的目標是在一定的物流收益水平約束下,追求物流成本最小化。為了滿足企業降低物流成本的需求,本文提出了基于聚類和關聯規則的物流成本分析方法。根據物流成本的結構,采用聚類技術縮小物流成本分析的范圍。再采用關聯規則分析方法發掘每個簇中物流成本之間隱含的規則,根據這些規則制定合理的物流成本分配策略。以此來指導物流成本資源的分配,貫穿于物流企業管理各個環節的,為企業的成本管理提供決策支持。