(中遠海運集裝箱運輸有限公司,上海 200080 )
當今社會,大數據分析已滲透到集裝箱運輸業的各個方面。作為世界第三、中國第一的航運企業,透過客戶在我司留下的運輸足跡,站在行業的高度,結合企業內外部數據,探究和發現數據背后的潛在規律和價值。
本文圍繞深入挖掘航運數據背后的價值這一主題,選取我司在化工品和機電設備領域比較有代表性的兩家客戶(以下簡稱客戶A和客戶B),應用名詞解析和機器學習等技術,分析其出運貨物種類的特點及規律。筆者為本次數據分析制定了如下5個階段性目標,并分階段對其完成情況和意義進行詳細闡述。①從客戶A和客戶B著手,總結這兩家企業的關鍵出貨品類。②與這兩家公司外部公開的數據進行匹配,觀察其在我司系統中申報的貨物品類和其公司主營業務是否一致。③考察我司這些關鍵出貨品類的進出口地點和量的變化趨勢。④將這種分析方法拓展到全公司,考察和這兩家公司運輸相似貨物的客戶的貨流走向。⑤站在客戶的角度去思考,如何利用我司的資源和數據幫助客戶在其領域獲得成功。
從我司訂艙系統的源數中查找到這兩家客戶2015年7月至今的所有貨物數據。共計18 342條。結合這兩家公司及其子公司官網上的信息和我司系統中的SAP ID信息,梳理他們各自的主營業務。客戶A的主營商品種類主要涵蓋化工原料及其衍生產品,相對貨物品類較為集中;而客戶B則以機電設備、家用電器、電子電器、汽車配件為主。
首先對18 342條貨物數據的貨物描述進行名詞拆解和分析,拆解到只留下最為關鍵最能描述貨物情況的名詞。然后對相同的名詞進行分類匯總。
通過對貨物描述的名詞拆解和分析,得出以下結論。
1)HS CODE和OOCL_CMDTY_GRP都存在較高的缺失率,直接利用統計會丟失信息。
2)FULL_DESC不存在缺失,但數據質量較難控制,從筆者通過自然語言文本分析手段拆出名詞來看,客戶A的品類集中度較高,主要集中在化學品和橡膠上,有利于后期關鍵詞提取,而客戶B的較分散,說明客戶B的貨物關鍵詞提取難度更高。
3)HS CODE從統計結果看客戶B維護率較高,有助于后期輔助從FULL_DESC提取關鍵詞。
4)HS CODE和OOCL_CMDTY_GRP的缺失存在互補性,可以有助于后期輔助從FULL_DESC提取關鍵字。
通過這一階段的分析,確立了將客戶主營業務和其貨物信息結合起來的方法,那就是用名詞拆解的手段來進行同公司內HS CODE交叉補全,利用HS CODE作為主鍵來區分不同的貨物種類。再用人工的方法和該公司的主營業務匹配起來進行貨物進出口流向的分析和統計。
利用第二階段所建立的分析方法,筆者對18 342條貨物數據進行了公司內部的HS CODE交叉補全,并手工匹配了主營業務。再結合我司系統中貨物的進出口地完成了這兩家客戶的統計小結,即完成了第三個階段性目標。
1)拆出的名詞可能包含一些常用名詞,所以多于貨物信息分析需要結合多個關鍵字理解。
2)關鍵字存在單復數還未清洗,后續需要完善。
3)關鍵字是對這兩家企業的貨物信息拆解,未來要擴展到其他公司,還需要創建同義詞表等。
4)關鍵字對于拼音暫時未做處理,后續有方法可以處理,但較為復雜。
1)主營業務對應全人工處理,存在誤差,特別是客戶A的化學品拆解難度較大,很多歸類人工識別較困難。
2)主營業務對應目前是借助關鍵字表完成,然后通過關鍵字表返回源數據。處理量少,但存在人工誤差。
把視角擴大到全公司,站在全公司的角度上分析這兩家客戶的貨物流向和貨物信息在其同行業中有什么特點和優劣勢。
在對這兩家客戶研究成果的基礎上,統計分析全公司的貨描情況。
1)提升貨物描述數據質量,便于后續統計分析。
2)全公司貨物描述關鍵字提取,借助HS CODE建立分類體系。
3)全公司貨物描述中涉及這兩家客戶的主營業務貨種的統計分析,例如,橡膠在我司每年的運輸量、進出口國家等。
4)與這兩家客戶主營業務有交集的其他公司在我司的運輸情況。
筆者首先需要對全公司近一年的所有貨物數據進行名詞拆解分析和HS CODE交叉補全。由于數據量較為龐大,經過測試后隨機森林這個模式準確率最高,故采用此模型。
完成HS CODE補全的公司有6 862家,其中剔除HS CODE全部缺失的公司,還剩4 874家,其中2 513家公司完成了有效的HS CODE補全。原先該部分的數據缺失率為69%,補全后缺失率為23%,該部分的缺失率仍有降低的可能性。下面的統計分析部分是基于這一結果之上的簡單分析。
基于客戶名稱的分析,我司從數據層面上暫時沒有完整的信息用來區分貨代和直客,故筆者想借助客戶公司名稱來初步統計分析。客戶公司運輸量和不同HS CODE數量之間的數值相關性不是很強,只有0.262 5。未來如果筆者對客戶公司按照一定的規律進行劃分,可以劃區塊進一步分析兩者之間的相關性。或者通過不同區域數值的劃分、相關性來劃分客戶公司,能更好地對我司的客戶公司進行分群。
對于拼箱貨的貨物描述分析,貨物描述種類多,但實際的箱量貢獻度不高。這一類公司以百貨、零售、物流公司居多。在分析這類客戶公司貨物信息的時候,他們的實際貢獻度和一個箱子少量貨描的客戶公司的權重需要區別對待。
通過上一階段對代碼的分析和優化,筆者將該方法運用于全公司的數據的HS CODE交叉補全。筆者已經將大部分數據的HS CODE字段進行了補充,并加上了主營業務字段。為了后續篩選分析方便,引入“企業之間相似性”這個概念。
對于企業之間的相似性度量,可以將“量”概念引入,也可以忽略“量”,對于“量”,可以有多種方式度量:數據的量,產生TEU的量,利潤的量等。
在這里簡單起見,忽略“量”,將所有原先“量”,有數據看成1,沒數據看成0。因此對于一個公司的相似性度量只要考察二者主營業務的重疊數。例如客戶B有7種主營業務,但是目標公司與其重合的主營業務有3個,因此二者之間的相似性可以用3/7來計算,同時也有很多種計算方式,主要取決于希望從什么角度去看,后續供同行探討。
受制于單機的性能問題,筆者目前只完成了全公司70%貨物數據的HS CODE交叉補全。筆者還引入了“企業相似性”這一概念,從主營業務來判斷兩家客戶的相似程度,之后也會考慮加入更多的度量方式,例如數據的量、產生TEU的量、利潤的量等。
綜上所述,第一種是以貨物為基礎來考量,第二種是以公司為基礎,筆者認為可以將這兩種方法結合起來分析,看看怎樣最大化地給客戶帶去收益。