999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LLM在工業(yè)品物料分類場景的應(yīng)用

2024-01-11 10:23:44
寶鋼技術(shù) 2023年6期
關(guān)鍵詞:分類文本語言

朱 俊

(歐冶工業(yè)品股份有限公司,上海 201900)

1 工業(yè)品領(lǐng)域物料分類技術(shù)現(xiàn)狀及場景落地

1.1 工業(yè)品領(lǐng)域物料分類任務(wù)的概述

隨著全球工業(yè)化進程的不斷推進,工業(yè)品領(lǐng)域物料的種類與數(shù)量呈現(xiàn)出爆炸式增長。自21世紀初以來,全球制造業(yè)產(chǎn)值已經(jīng)翻了一番多[1]。如何對這些物料進行有效的分類和管理,已經(jīng)成為企業(yè)降低成本、提高生產(chǎn)效率和市場競爭力的關(guān)鍵問題。采用有效的物料管理系統(tǒng)可以幫助企業(yè)提高生產(chǎn)效率,同時降低庫存成本。因此,研究工業(yè)品領(lǐng)域物料分類技術(shù)具有重要的實際意義和理論價值。

1.2 NLP技術(shù)在工業(yè)品領(lǐng)域物料分類中的應(yīng)用及局限性

近年來,自然語言處理(NLP)技術(shù)在物料分類領(lǐng)域取得了顯著的成果。主要可以概括為基于規(guī)則的分類方法和基于深度學習的分類方法。

基于規(guī)則的分類方法是物料分類技術(shù)的傳統(tǒng)方法,通過人工設(shè)定一系列規(guī)則進行分類,例如基于專家經(jīng)驗制作關(guān)鍵詞—物料類別對照表。這種方法在物料種類較少、規(guī)則明確的場景下具有一定的實用性。然而,隨著物料種類的增多,規(guī)則的制定變得越來越復雜,人工設(shè)定的規(guī)則很難覆蓋所有物料,導致分類效果不理想。

隨著深度學習技術(shù)的不斷發(fā)展,這類方法在物料分類上也得到了不少應(yīng)用,并具有更好的泛化能力和更高的準確率[2]。例如DNN、LSTM、BERT等,可以有效地解決基于規(guī)則方法在物料種類繁多、規(guī)則復雜的情況下的局限性,可以隨著數(shù)據(jù)集的增長和變化不斷優(yōu)化模型性能[3]。

然而,基于深度學習的物料分類方法仍然存在一定的局限性。首先,深度學習模型需要大量的標注數(shù)據(jù)進行訓練,而在工業(yè)品實際場景中,大部分物料數(shù)據(jù)質(zhì)量較差,存在物料屬性數(shù)據(jù)缺失、型號規(guī)格書寫不規(guī)范等問題,獲取高質(zhì)量的標注數(shù)據(jù)是一大難題。此外,深度學習模型的可解釋性較差,由于工業(yè)領(lǐng)域?qū)蚀_性的要求較高,這可能導致企業(yè)在實際應(yīng)用中對模型輸出的結(jié)果產(chǎn)生質(zhì)疑,從而影響模型的推廣應(yīng)用。

綜上所述,工業(yè)品領(lǐng)域物料分類技術(shù)已經(jīng)取得了一定的成果,但仍然面臨著諸多挑戰(zhàn)。傳統(tǒng)的基于規(guī)則的分類方法在應(yīng)對復雜物料分類任務(wù)時顯得力不從心,而基于深度學習的分類方法雖然具有一定的優(yōu)勢,但也存在數(shù)據(jù)需求高、可解釋性差等問題。

近期,隨著GPT模型的快速崛起,生成式大語言模型逐漸成為自然語言處理領(lǐng)域的新風向,大量任務(wù)引入生成式大語言模型并取得了顯著的效果。因此,在未來的研究中,探討如何將生成式大語言模型與物料分類技術(shù)相結(jié)合,實現(xiàn)對工業(yè)品領(lǐng)域物料的高效識別和分類,具有重要的研究價值。

2 生成式大語言模型在工業(yè)品物料分類上的應(yīng)用

2.1 生成式大語言模型原理

大語言模型(LLM),如GPT-3和GPT-4(GPT即生成預訓練 Transformer)是基于Transformer架構(gòu)的NLP模型。大語言模型的訓練過程基于一個被稱為“自監(jiān)督”的學習任務(wù)。在這個任務(wù)中,模型預測給定一個文本序列中的下一個詞是什么。例如,如果輸入的文本是“今天天氣很好,我打算去公園”,那么模型的任務(wù)可能是預測“出行”這個意圖。這個任務(wù)要求模型學習到大量的語言知識,包括語法、詞匯、習語,甚至一些世界知識。LLM通過在大量的文本數(shù)據(jù)上進行訓練來完成這個任務(wù)。訓練數(shù)據(jù)可以包括各種類型的文本,比如書籍、文章、網(wǎng)頁等。模型通過這種方式學習了大量的語言模式,從而可以生成流暢且自然的文本。

大語言模型可以應(yīng)用于各種自然語言處理任務(wù),包括但不限于以下幾個方面:

(1) 文本生成:生成一篇文章,寫一個故事,或者是創(chuàng)作一首詩。

(2) 機器翻譯:將文本從一種語言翻譯成另一種語言。

(3) 問答系統(tǒng):在問答系統(tǒng)中,大語言模型可以用來生成問題的答案。

(4) 文本摘要:生成文本的摘要或者是概括。

(5) 情感分析:分析文本的情感傾向,是積極還是消極。

(6) 代碼生成和代碼理解:理解和生成編程代碼,這對于開發(fā)者幫助和代碼自動完成等場景非常有用。

(7) 聊天機器人:用于構(gòu)建能夠與人自然交流的聊天機器人。

2.2 工業(yè)品物料分類應(yīng)用場景

在工業(yè)品采購過程中,基于采購需求的描述,對工業(yè)品詢單物料進行分類,有助于精細化識別用戶需求,推薦最優(yōu)質(zhì)的供應(yīng)商。在該應(yīng)用場景中,分類模型需要根據(jù)非結(jié)構(gòu)化物料文本信息(可能包括物料名稱、型規(guī)、技術(shù)屬性及使用場景),將物料分類到一個具體的葉類,葉類來自于給定的物料葉類體系。本文用于訓練的數(shù)據(jù)集是物料庫中的物料數(shù)據(jù),共1 081 488條,每條包括名稱、品牌、型規(guī)、技術(shù)屬性、葉類字段,其中葉類即為預測目標,共581個葉類。另外有來自于實際業(yè)務(wù)場景中的物料數(shù)據(jù)523 897條,不包括所屬類別信息。

2.3 生成式大語言模型數(shù)據(jù)增強及效果

針對該場景,使用傳統(tǒng)的規(guī)則方法或深度學習方法效果較差。本文提出一種使用大語言生成式模型增強工業(yè)品物料分類的方法,以提高分類的準確性和魯棒性,并降低算力消耗。

首先,通過引入生成式大語言模型,分別對訓練數(shù)據(jù)進行增強,以及對多個分類模型進行集成,以增強分類模型的表現(xiàn)。作為參考,本文首先設(shè)計了一個基于關(guān)鍵詞—葉類表的TF-IDF統(tǒng)計學分類模型(每個關(guān)鍵詞對每個葉類計算TF-IDF,形成關(guān)鍵詞—葉類的權(quán)重表),一個基于Word2Vec+LGBM的分類模型[4],以及一個基于微調(diào)后的BERT的分類模型[5],各原始模型分別在測試集上的表現(xiàn)如表1所示。

表1 原始分類模型效果統(tǒng)計指標Table 1 Statistical metrics for the performance of the original classification model

本文以BELLE-7B-2M模型[6]為基礎(chǔ),通過物料數(shù)據(jù)庫數(shù)據(jù)對BELLE進行微調(diào),對原始數(shù)據(jù)進行增強。微調(diào)采用instruct-answer的形式,instruct為“有以下物料信息,{物料名稱、型規(guī)、品牌、技術(shù)屬性的拼接},請問它屬于哪個葉類”。answer為“{葉類名稱}”。微調(diào)數(shù)據(jù)采用平滑分布抽樣[7]后的物料庫數(shù)據(jù)2萬條,并保證每個葉類至少有一條物料數(shù)據(jù)。

在第一階段,使用生成式大語言模型對數(shù)據(jù)量較少的葉類進行數(shù)據(jù)增強。具體實施步驟見圖1、2。

圖1 使用原分類器結(jié)合人工審核找到分類效果較差葉類數(shù)據(jù)Fig.1 Finding poorly classified leaf data by the original classifier and manual review

圖2 使用BELLE對數(shù)據(jù)集進行增強Fig.2 Data augmentation with BELLE applied to the dataset

(1) 在物料數(shù)據(jù)庫中,采用分布平滑抽樣的方法取15%的數(shù)據(jù)作為測試集[7],并確保每個葉類至少有一個測試數(shù)據(jù)。統(tǒng)計三個模型的測試集結(jié)果,分別統(tǒng)計結(jié)果中所有葉類的F1值,取在三個模型下F1值均處于后四分之一的葉類作為待增強葉類集合。

(2) 使用LGBM、BERT和TF-IDF這三個模型分別對物料數(shù)據(jù)進行分類,得到三個類別預測結(jié)果(可以重復)。使用微調(diào)后的BELLE在這三個結(jié)果中進行選擇。取結(jié)果屬于待增強葉類的物料并人工審核BELLE的選擇是否正確,篩選后得到共1 362條物料數(shù)據(jù),作為增強樣本。

(3) 使用BELLE對增強樣本進行數(shù)據(jù)增強,即通過prompt“生成類似{增強樣本中的物料信息}的物料數(shù)據(jù)”使BELLE生成近似的物料數(shù)據(jù),以1∶10的比例擴充增強樣本以解決原數(shù)據(jù)分布不均及稀疏的問題[8]。

(4) 使用增強樣本繼續(xù)微調(diào)訓練LGBM和BERT模型,使其在待增強葉類上的性能得到提升。

在一階段融合后,LGBM和BERT在同樣的測試集下表現(xiàn)如表2所示。

表2 一階段加強后分類結(jié)果Table 2 Classification results after first-stage enhancement

在第二階段,將增強后的LGBM模型、增強后的BERT模型,以及原始的TF-IDF模型在推理階段進行集成,從而進一步提高工業(yè)品物料分類的準確性和魯棒性。具體實施步驟如圖3。

圖3 使用BELLE對BERT、LGBM和TF-IDF分類進行集成Fig.3 Integration of BERT,LGBM,and TF-IDF classifiers using BELLE

(1) 分別使用增強后的LGBM模型、增強后的BERT模型和原始的TF-IDF模型對測試樣本進行推理,得到各自的預測類別。這一步驟可以提供多種視角的預測結(jié)果,為后續(xù)的融合打下基礎(chǔ)。在實際操作中,我們將各模型的輸出結(jié)果進行歸一化處理,以消除不同模型預測概率值之間的差異。

(2) 使用微調(diào)后的BELLE對這三個預測類別進行判斷。具體而言,微調(diào)后的BELLE模型會將各模型的預測結(jié)果作為輸入,輸出一個綜合評估后的類別預測。BELLE模型基于其自身與訓練及微調(diào)的結(jié)果,對物料信息及三個模型的分類結(jié)果進行理解并選擇,從而使集成后的模型性能更加優(yōu)越。

通過BELLE進行集成學習后在同樣的測試集下可以得到表3所示結(jié)果。

表3 二階段加強后分類結(jié)果Table 3 Classification results after second-stage enhancement

2.4 試驗結(jié)果與分析詳述

本研究采用了三種模型:TF-IDF統(tǒng)計分類,LGBM及BERT模型進行分類,并采用微調(diào)后的BELLE-7B-2M模型進行兩階段的加強。實驗結(jié)果顯示,在使用微調(diào)后的BELLE模型一階段加強,對LGBM和BERT進行樣本增強和再次訓練后,LGBM在精確率0.88、召回率0.87和F1值 0.87上有所提升,BERT在精確率0.87、召回率0.89和F1值 0.88上也有所進步。在微調(diào)后的BELLE模型二階段加強后,通過對三個基礎(chǔ)模型的預測結(jié)果進行選擇完成對三個模型結(jié)果的集成,集成后的模型在精確率0.89、召回率0.90和F1值 0.89上相比三個模型獨立工作取得了進一步提升。總體來說,通過BELLE加強原分類模型的方法在提升模型性能方面取得了成效。

3 結(jié)語

本文通過對工業(yè)品領(lǐng)域物料分類技術(shù)的分析,提出了一套結(jié)合生成式大型預訓練模型(如BELLE)和深度學習分類器的物料分類方案,并經(jīng)實驗進行對比驗證了生成式大型預訓練模型能夠為分類任務(wù)帶來有效提升。這套方案充分利用了生成式模型在數(shù)據(jù)預處理和增強方面的優(yōu)勢,同時結(jié)合領(lǐng)域知識和先進的深度學習技術(shù),實現(xiàn)了高準確率的物料分類。

猜你喜歡
分類文本語言
分類算一算
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
讓語言描寫搖曳多姿
教你一招:數(shù)的分類
累積動態(tài)分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品一区二区三区无码视频无码| 全部免费特黄特色大片视频| 中文字幕无线码一区| 亚洲中文字幕国产av| 东京热一区二区三区无码视频| 成年片色大黄全免费网站久久| a级毛片在线免费| 青草视频在线观看国产| 亚洲精品色AV无码看| 免费A∨中文乱码专区| 国产成人久久777777| 美女免费黄网站| 在线观看免费黄色网址| a天堂视频在线| 精品国产成人av免费| 国产精品流白浆在线观看| 爆乳熟妇一区二区三区| 免费国产在线精品一区| www中文字幕在线观看| 在线看片中文字幕| 国产对白刺激真实精品91| 91黄视频在线观看| 国产日韩丝袜一二三区| 久久精品亚洲中文字幕乱码| 欧美不卡视频一区发布| 亚洲日韩图片专区第1页| 久久久久久尹人网香蕉 | 欧美精品在线免费| 国产XXXX做受性欧美88| 在线国产欧美| 国产一二三区视频| 亚洲精品久综合蜜| 99久久国产综合精品2020| 欧美另类精品一区二区三区| 亚洲综合久久成人AV| 91年精品国产福利线观看久久| 成年看免费观看视频拍拍| 久久久久久久久18禁秘| 亚洲欧洲日韩综合色天使| 久久视精品| 在线观看国产精美视频| 国产va视频| 91系列在线观看| 91精品国产自产在线观看| 日韩高清在线观看不卡一区二区| 国产精品无码久久久久久| 毛片免费在线视频| 亚洲欧美色中文字幕| 久操中文在线| 中文字幕无码电影| 欧美丝袜高跟鞋一区二区| 国产毛片不卡| av在线人妻熟妇| 99精品国产电影| 91亚洲视频下载| 国产日本欧美在线观看| 国产精品不卡片视频免费观看| 538国产视频| 蝴蝶伊人久久中文娱乐网| 成年女人a毛片免费视频| 国产色图在线观看| 欧美三級片黃色三級片黃色1| 国产成人福利在线视老湿机| 精品伊人久久久大香线蕉欧美| 国产日韩av在线播放| 欧美精品v欧洲精品| 久久免费精品琪琪| 97视频在线观看免费视频| 青青热久免费精品视频6| 亚洲福利视频一区二区| 一本视频精品中文字幕| 亚洲国产成人久久精品软件| 国产在线一二三区| 一区二区三区在线不卡免费| 午夜限制老子影院888| 国产乱人伦AV在线A| 国产熟女一级毛片| 天堂成人在线| 欧美成在线视频| 成人国产小视频| 亚洲永久视频| 亚洲国内精品自在自线官|