NLP和知識圖譜技術在鋼鐵電商用戶分類場景的應用

2023-11-14 13:05:26沈海倫

寶鋼技術 2023年5期

沈海倫

(歐冶云商股份有限公司,上海 200942)

在電商企業中,用戶類型的識別是用戶畫像的基礎,對精準營銷具有重要意義。用戶類型識別在消費品電商中通常會根據用戶的購買行為、點擊次數、頁面留存、登錄地址等信息進行分析,以用戶偏好作為聚類。鋼鐵采購行為并不受采購員的偏好影響,而是根據圖紙設計、生產周期、物料比例等要求進行規范操作,這種采購行為是一種高度標準化的、理性的行為。因此鋼鐵電商平臺的用戶分類模型需要結合行業自身特點進行設計。

在鋼鐵行業中通常會將用戶分為3種類型:鋼廠、鋼貿商、終端企業。鋼鐵電商平臺上游承接鋼廠,下游觸達終端企業,同時也為鋼貿商提供服務,在整個產業鏈中提供批量鋼材采購、物流與便捷支付和融資模式的市場角色[1]。

準確對鋼鐵電商平臺的用戶進行分類,可以帶來以下優勢:①幫助鋼廠更加貼近需求端,了解終端市場的個性化需求;②提高交易質量,幫助終端企業買到價格合適、質量有保障的鋼材;③為鋼貿商提供技術服務,提升鋼材的流通效率;④ 通過個性化的營銷手段,吸引更多的企業上平臺采購,幫助平臺提高競爭力與影響力。

1 鋼鐵電商用戶分類痛點及NLP、知識圖譜技術發展現狀

1.1 鋼鐵電商用戶分類現狀和痛點

鋼鐵電商平臺對用戶進行分類需要借助大量行業專家完成,常見流程為:人工閱讀用戶信息,根據經驗對公司名稱、注冊信息等進行分類,簡單計算交易的買入賣出量,用關鍵詞打標簽,之后根據判定結果結合電話回訪或線下走訪確定用戶類型。

該方法的痛點在于公司信息的篩選對判定人員能力要求比較高,只有熟悉行業的專家才有能力進行甄別;且交易統計的顆粒度比較粗,僅計算買入賣出量,沒有進一步提取它們的特征;此外人工判斷效率較低,一個熟練的市場人員每人每天只能排查數十家企業,而電商平臺的用戶通常在百萬到千萬級別,完全依靠人工的方式耗時長、成本高。同一個人不同時間,或不同人之間判定的標準不夠統一,分類的一致性不高。

鋼鐵電商平臺需要一種使用機器替代人工批量對用戶分類的方法,提高效率的同時保持分類的一致性。

1.2 NLP技術發展現狀

NLP(natural language processing,自然語言處理)是近年來人工智能領域研究中的一個重要方向,是一門融語言學、計算機科學、數學于一體的科學。通俗地講,自然語言處理技術主要是讓機器理解人類自然表述的語言。

NLP技術包含了語法模型、規則匹配、映射表的使用等。近年來,深度學習模型得到快速發展,類似BERT[2]、GPT等預訓練模型提供了易于使用的通用框架,尤其是BERT的出現無疑是NLP技術里程碑式的發展,多頭的注意力機制和雙向encoding讓BERT的無監督訓練更有效,并且使得BERT可以構造更寬的深度模型[3]。

基于BERT預訓練模型的文本分類技術在工業領域已實現了一些應用,如在安全生產事故多標簽分類任務中,將事故案例標記為物體打擊、車輛傷害等20類事故類別之一;碰撞、爆炸等15種傷害方式之一;防護、保險等裝置缺乏或缺陷等4大類不安全狀態之一;操作失誤等13大類不安全行為之一,共有52個標簽[4]。說明在專業領域,通過合理構建模型及準備訓練集可以取得預期效果。

1.3 知識圖譜技術發展現狀

知識圖譜(knowledge graph)以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。知識圖譜作為計算機科學的一個研究分支,在電商行業也有應用案例。

知識圖譜的數學基礎——“圖論”,在1736年由數學家歐拉提出。圖論中的圖是若干給定的點及連接兩點的線所構成的圖形,這種圖形通常用來描述某些事物之間的某種特定關系,用點代表事物,用連接兩點的線代表相應的兩個事物間具有這種關系[5]。

隨著知識圖譜技術的發展,對數據庫工具也提出了更高的要求,以往使用關系型數據庫求兩個集合間的笛卡爾積效率較低,查詢多層關系時代碼復雜。為解決這些痛點而開發的圖數據庫在易用性和計算效率兩方面都得到提升,使基于知識工程的復雜推理(圖推理)和基于圖論的信息流計算(圖計算)得以廣泛應用,也使業務專家能使用較低的成本構建推理和分析模型用于真實業務。

2 鋼鐵電商用戶類型分析

2.1 鋼鐵電商用戶類型及特征

針對鋼鐵電商3類不同用戶即鋼廠、鋼貿商、終端企業,可以制定不同的營銷策略。

鋼廠:指生產鋼鐵材料并對外銷售的企業(如寶鋼、鞍鋼、首鋼等);

鋼貿商:指轉賣鋼鐵材料賺取差價和服務費的企業;

終端企業:指使用消耗鋼鐵材料用于制造產品的企業(如海爾、格力、大眾等)。

在實際業務中,鋼廠是集中度較高、行業特征非常明顯的企業,在鋼鐵電商平臺注冊時即有專業營銷人員對接服務,此外也可通過對比鋼廠名錄進行辨識,通常不存在辨識難度;而鋼貿商和終端企業無法直接辨識,需要行業專家根據經驗判斷[6]。

企業名稱特征分析:對某電商平臺人工已驗證的公司信息樣本進行分析,發現終端企業的企業名稱具有比較典型的特征,如“浙江東海煤機有限公司”“煙臺市電纜廠”“沈陽泰達環保設備制造廠”等。

交易行為特征分析:以熱軋鋼卷或冷軋鋼卷為例,鋼廠生產出的鋼鐵材料大多都具有唯一的標識,這個標識被稱為捆包號。根據鋼材捆包的流轉特征,所有平臺用戶的交易行為都可以抽象分類為如圖1所示的3種類型。

圖1 鋼鐵電商平臺用戶交易行為特征分析Fig.1 Analysis of user transaction behavior characteristics on steel e-commerce platforms

A路徑:該捆包被平臺用戶買入后再度賣出,可以定義為是一筆轉手貿易。

B路徑:該捆包在線上買入后不再賣出,是捆包流轉路徑的終點。捆包在平臺上消失了,從數據的角度來看,通常這個捆包被認為是消耗掉(使用)。

C路徑:該捆包來源于線下,是線上路徑的起點。線下鋼鐵捆包的來源常見的有幾種可能:鋼廠期貨訂單轉線上銷售,鋼廠的現貨轉線上銷售,鋼貿商庫存調劑轉線上銷售等,是一種供應行為。

2.2 終端企業與鋼貿商的特征分析

終端企業與鋼貿商在兩個維度上具有比較明顯的特征差異:一是它們對鋼材的處理方式,即采購鋼材后是偏向消耗使用還是偏向轉手倒賣。根據鋼鐵平臺用戶3分類的定義可以看出,終端企業采購鋼材后偏向用于制造產品(消耗),而鋼貿商采購鋼材后更加偏向轉手倒賣賺取差價。二是它們的公司名稱大多具有明顯的特征,比如當公司名稱包含“制造”“機械制造”“電纜廠”“設備生產”等詞語時,該公司很有可能是終端企業,但當名字包含“進出口”“貿易”“商貿”“工貿”時,該公司更有可能是鋼貿商。

3 技術方案設計與實施

3.1 方案框架

基于以上分析,設計一套同時考慮公司名稱分類和交易行為計算的模型,可以實現對用戶類型進行辨識的目的。

在對公司名稱進行分類時,采用文本分類技術進行終端企業與鋼貿商的分類。常見的文本分類技術有基于關鍵詞的文本分類和基于深度學習的文本分類兩種實現方式[7]。由于深度學習技術可以考慮文本中所有文字的權重,對于未學習過的文字也可以給出一定程度的判斷,具有比較優秀的泛化能力,所以本研究選擇深度學習模型進行文本分類。

僅使用公司名稱進行文本分類預測企業類型的準確率還不高[8],需要結合交易行為進行綜合判斷。采用知識圖譜技術用節點和關系表達出企業之間的鋼卷捆包流轉關系,可以計算出各家企業的鋼材交易特征值。

最后通過規則模型對公司名稱分類和交易行為計算的結果進行綜合判斷,給出對平臺用戶分類的最終結果。詳細技術框架如圖2所示。

圖2 技術方案流程圖Fig.2 Technical solution flowchart

3.2 實施步驟

步驟一:數據準備。

本研究使用的數據均為某鋼鐵電商平臺內部數據,屬于非公開數據集。數據包括如下內容:

(1) 已經過驗證標注的公司名稱3 200條,作為深度學習分類模型的訓練集。

(2) 5 891條待預測公司的工商注冊企業名稱,使用訓練后文本分類模型進行公司名稱分類。

(3) 5 891家待預測公司一個自然年內的交易數據約100萬條,作為知識圖譜建模數據。

步驟二:基于深度學習的文本分類模型建設。

使用基于BERT的多標簽文本分類模型,GPU選擇英偉達2080Ti,訓練集共3 200條已標注樣本,其中終端企業樣本1 054條,鋼貿商樣本2 146條,模型訓練時間2 365 s。

訓練完成后用測試集進行驗證,測試集包含1 112條數據,其中標注為鋼貿商973條,標注為終端企業139條。驗證結果如表1所示。

表1 公司名分類模型精度Table 1 Accuracy of company name classification model

使用該模型對5 891家待預測公司名稱信息進行分類并記錄結果。

步驟三:基于知識圖譜技術的公司交易行為計算。

交易知識圖譜建模的方式參考了電力系統的建模經驗[9],從關系型數據庫中獲取原始交易數據,利用數學模型對數據進行清洗計算構建交易知識圖譜,最后使用圖數據庫工具Neo4j存儲實體和關系。

在知識圖譜建模中每個節點表示一家公司,節點與節點間的每條關系代表一次鋼鐵交易訂單,關系上的屬性包括了鋼材品類、規格、成交量等。交易圖譜樣例如圖3所示。

圖3 交易圖譜樣例Fig.3 Example of trading knowledge graph

對于平臺上的每筆交易進行特征計算并分類:

(1) 轉手行為:數據特點為入度和出度的關系中捆包號相同,提取該關系并統計重量,定義為“轉手量”。

(2) 消耗行為:數據特點為一個捆包只有入度沒有出度,提取該類關系并統計重量,定義為“消耗量”。

(3) 供應行為:數據特點為一個捆包只有出度沒有入度。提取該類關系并統計重量,定義為“供應量”。

使用Cypher語句編寫圖算法[10],在圖數據庫中遍歷所有公司節點和關系,計算出所有公司的特征值并記錄結果。典型樣例如表2所示。

根據業務經驗設計規則判定模型:

供應量≤消耗量且轉手量÷消耗量<0.1時,是一種供貨少、轉手少、消耗多的特征,常見于終端企業,返回判定值1;

供應量>消耗量或轉手量÷消耗量≥0.1時,是供應量大或是轉手量大的特征,常見于鋼貿商,返回判定值0。

步驟四:綜合判定。

表2 平臺用戶某一自然年內計算結果(樣例)Table 2 Calculation results of platform users within a certain natural year (sample) 單位:t

對公司名稱分類和交易行為計算的結果進行綜合判定:

(1) 當交易行為判斷結果為1,且公司名稱判斷結果為“終端”時,綜合判定為“終端”;

(2) 當交易行為判斷結果為0,且公司名稱判斷為“鋼貿商”時,綜合判定為“鋼貿商”;

(3)當交易行為判斷結果為0,公司名稱判斷結果為“終端”;或交易行為判斷結果為1,公司名判斷結果為“鋼貿商”時,綜合判定為“待確認”,由行業專家進行人工確認。判定規則如表3所示。

表3 綜合判斷規則Table 3 Comprehensive judgment rules

4 實施效果

模型從5 891家用戶中辨識出3 188家終端或貿易商,占總量的54.12%。其中貿易商2 261家,終端用戶927家;另有2 703家需要人工確認,人工確認的比例為45.88%。模型可以減輕專家超過50%的工作量。

公司業務單元對預測清單進行了抽檢回訪,以驗證模型的實際效果,準確性評價公式為:準確率=(回訪正確的數量÷預測數量)×100%。

抽檢520家預測為貿易商的用戶,準確率為84.81%;抽檢703家預測為終端企業的用戶,準確率99%。

模型預測結果如表4所示。經評估本模型在確保一定識別精度的前提下,可以有效地減輕專家的工作量。營銷團隊通過精準定位終端企業,用相對更低的成本提高了優質客戶的轉化率,在實際業務中得以推廣應用。此外該模型也可根據業務的需求進行靈活調整,只需要修改模型內綜合判定規則的閾值指標,即可快速調整進行個性化的定制,以適用于不同的需求。

5 結語

本研究將先進的NLP和知識圖譜技術應用于鋼鐵電商的真實業務中,實現了對鋼貿商和終端企業進行自動辨識的功能,節省人工與時間成本。同時,模型設計了雙重校驗的方式,彌補單一技術的不足,提高分類判定的準確性,為同類業務場景提供了解決思路。此外,模型易于理解,數據可解釋性高,各個模塊充分解耦,可以根據業務需求進行靈活的調整,實現了用人工智能技術為傳統業務賦能。