







摘 要:隨著人工智能技術(shù)快速發(fā)展,自然語(yǔ)言標(biāo)注、識(shí)別和提取分類技術(shù)也取得較大進(jìn)展,基于此類技術(shù)的智能模型應(yīng)用廣泛,但是模型應(yīng)用時(shí)的通用性和泛化性仍是技術(shù)難點(diǎn)。為解決目前資訊分析中信息量大、處理過(guò)程繁雜、通用性和泛化性不高等問(wèn)題,本文提出了一種通用的資訊文本信息提取和分類算法,并基于人工智能框架建立模型,將其應(yīng)用于海關(guān)資訊信息分析。試驗(yàn)證明該模型具有較好的信息提取和分類效果。
關(guān)鍵詞:文本提??;文本分類;深度學(xué)習(xí)
中圖分類號(hào):TP 311 " " " " " 文獻(xiàn)標(biāo)志碼:A
資訊的來(lái)源多樣,包括非結(jié)構(gòu)化的公開新聞、報(bào)道、內(nèi)部案情和情報(bào)等[1]。其文本也包括風(fēng)險(xiǎn)防控相關(guān)特定領(lǐng)域的有用信息。但是資訊文本存在邏輯復(fù)雜、實(shí)體嵌套和多層次分類難以識(shí)別的問(wèn)題。傳統(tǒng)算法僅能進(jìn)行一般的結(jié)構(gòu)化識(shí)別和提取,對(duì)國(guó)內(nèi)海關(guān)資訊文本特征的適配度低,難以達(dá)到智能化、精準(zhǔn)化分析目標(biāo)。
人工智能深度學(xué)習(xí)技術(shù)的發(fā)展為資訊文本智能化分析帶來(lái)了新思路[2]。國(guó)內(nèi)、外在此方面進(jìn)行了不斷研究,利用自然語(yǔ)言處理模型高效、準(zhǔn)確地解決了大規(guī)模的生物、化學(xué)和醫(yī)療等多個(gè)領(lǐng)域文本的實(shí)體或關(guān)系抽?。换谏墒铰肪€的基礎(chǔ)模型完成了通用文獻(xiàn)資訊的寫作優(yōu)化和準(zhǔn)確化文本分析任務(wù)[3];中國(guó)海關(guān)利用國(guó)際人工智能框架也進(jìn)行了有效的通用抽取,例如國(guó)家、物品、數(shù)量和日期等??偟膩?lái)說(shuō),人工智能技術(shù)用于文本結(jié)構(gòu)化已成為國(guó)內(nèi)、外資訊分析的重要手段。為解決國(guó)內(nèi)資訊文本提取的智能化和精準(zhǔn)化問(wèn)題,本文在資訊文本分析中引入國(guó)內(nèi)人工智能框架,設(shè)計(jì)文本提取和分類模型,將其應(yīng)用于海關(guān)資訊分析,不僅能夠滿足數(shù)據(jù)安全和自主可控要求,還能進(jìn)行快速分析和風(fēng)險(xiǎn)預(yù)警,提升風(fēng)險(xiǎn)研判效能。
1 融合文本提取與分類技術(shù)的資訊文本分析新方法
國(guó)內(nèi)的人工智能框架在自然語(yǔ)言處理等領(lǐng)域展現(xiàn)出了優(yōu)秀的性能和可控性。該框架與國(guó)內(nèi)模型相結(jié)合,具有更好的數(shù)據(jù)隔離、保護(hù)機(jī)制以及更可控的算法、模型訓(xùn)練過(guò)程。此外,該框架在與國(guó)內(nèi)數(shù)據(jù)平臺(tái)和安全技術(shù)的集成方面更具優(yōu)勢(shì)?;谧匀徽Z(yǔ)言處理的文本提取技術(shù)旨在從大規(guī)模無(wú)結(jié)構(gòu)文本中自動(dòng)提取結(jié)構(gòu)化信息(包括實(shí)體、關(guān)系和事件等,其中實(shí)體提取是指識(shí)別文本中具有特定意義的信息)。文本分類技術(shù)也是一種將文本自動(dòng)分類到預(yù)定義類別的自然語(yǔ)言處理技術(shù),常用于情感分析、主題識(shí)別等任務(wù)。
1.1 資訊文本分析新方法及其模型
根據(jù)資訊文本既要精準(zhǔn)提取知識(shí),又要智能分類文本的分析目標(biāo),本文提出的新方法是在使用知識(shí)增強(qiáng)的預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行調(diào)優(yōu),從而形成的文本提取和分類模型。
1.1.1 主體模型設(shè)計(jì)
本項(xiàng)目模型將基于國(guó)內(nèi)人工智能框架的Ernie[4]知識(shí)增強(qiáng)預(yù)訓(xùn)練模型作為主體模型,該模型具備多任務(wù)范式間的協(xié)同處理能力。該模型架構(gòu)由通用表示層和特定表示層組成。通用表示層能夠獲取不同任務(wù)范式中相同底層的抽象特征,例如詞匯信息和句法信息等;特定表示層包括自然語(yǔ)言理解(NLU)特定表示模塊和自然語(yǔ)言生成(NLG)特定表示模塊。基于這種上、下2層架構(gòu),利用較少的訓(xùn)練語(yǔ)料和時(shí)間成本對(duì)特定表示層調(diào)優(yōu),就能快速、有效地提升特定任務(wù)的識(shí)別效率和適應(yīng)性。
ERNIE 3.0的通用表示層和任務(wù)特定表示層均將Transformer-XL結(jié)構(gòu)作為主干。本文在新算法模塊的預(yù)訓(xùn)練任務(wù)中采用具有48個(gè)transformer層、4 096個(gè)隱藏單元和64個(gè)注意力頭結(jié)構(gòu)的通用表示層;采用具有12個(gè)transformer層、768個(gè)隱藏單元和12個(gè)注意力頭結(jié)構(gòu)的特定表示層。并使用GeLU激活函數(shù)和Adam優(yōu)化算法。參數(shù)設(shè)置如下:上、下文的最大序列長(zhǎng)度為512,語(yǔ)言生成的記憶長(zhǎng)度為128,總批量大小為6 144,學(xué)習(xí)率為1×10-4。通過(guò)單詞感知、結(jié)構(gòu)感知和知識(shí)感知預(yù)訓(xùn)練任務(wù),使模型具備理解、生成和推理能力。
1.1.2 模型特定能力泛化
進(jìn)行資訊文本分析,需要利用預(yù)訓(xùn)練好的參數(shù)組合來(lái)初始化模型,再對(duì)預(yù)訓(xùn)練的主體模型的特定表示層進(jìn)行調(diào)優(yōu),使調(diào)整后的模型獲得寬泛的資訊文本提取和分類能力。
1.1.2.1 資訊文本提取能力泛化
傳統(tǒng)的資訊文本提取結(jié)構(gòu)化的信息,不同任務(wù)間的數(shù)據(jù)表示和網(wǎng)絡(luò)均存在差異。本文以多任務(wù)統(tǒng)一建模的方式進(jìn)行調(diào)優(yōu),借鑒通用信息提取框架范式[5],在輸入層使用基于提示機(jī)制的結(jié)構(gòu)模式,指導(dǎo)模型在訓(xùn)練過(guò)程中自適應(yīng)地判別提取目標(biāo)。知識(shí)增強(qiáng)模型編碼層就是主體模型。在輸出層,解碼后的主體模型結(jié)果采用結(jié)構(gòu)化提取語(yǔ)言,將不同任務(wù)的提取結(jié)果表示為統(tǒng)一的形式。利用調(diào)優(yōu),使模型具備不限定行業(yè)領(lǐng)域和抽取目標(biāo)的關(guān)鍵信息抽取能力。主要過(guò)程如圖1所示。
輸入的表達(dá)式如公式(1)所示。
y=UIE(s⊕x) " " " " " " " " (1)
式中:y為抽取并生成的結(jié)構(gòu)化結(jié)果;s為定義的結(jié)構(gòu)抽取模式;x為輸入文本。
文本提取的整體輸入形式如公式(2)所示。
s⊕x=[s1,s2,...,si,x1,x2,...,xi] " " "(2)
式中:si為第i個(gè)結(jié)構(gòu)抽取模式的組件;xi為第i個(gè)原始文本序列內(nèi)容。
將公式(2)展開,得到最終模型輸入結(jié)果,如公式(3)所示。
s⊕x=[[spot],sp1,...,[spot],spi,...,[asso],a1,...,[asso],ai,...,[text],x1,...xi] (3)
式中:[spot]為后面接實(shí)體;spi為第i個(gè)不同類別實(shí)體;[asso]為后面接關(guān)系或事件;ai為第i個(gè)不同類別的關(guān)系或事件;[text]為后面接文本內(nèi)容。
1.1.2.2 資訊文本分類能力泛化
傳統(tǒng)的資訊文本分類存在不同任務(wù)間的標(biāo)簽遷移難度大和學(xué)習(xí)知識(shí)不共享的問(wèn)題。本文采用多任務(wù)統(tǒng)一語(yǔ)義匹配方式進(jìn)行調(diào)優(yōu),將分類任務(wù)統(tǒng)一建模為標(biāo)簽與文本間的匹配任務(wù)。知識(shí)增強(qiáng)模型編碼層是主體模型,在解碼層采用定向標(biāo)記鏈接,將輸入內(nèi)容解碼成標(biāo)簽與文本間的詞對(duì)鏈接并計(jì)算分?jǐn)?shù),在輸出層輸出標(biāo)簽名詞和文本內(nèi)容的關(guān)聯(lián)對(duì)。調(diào)優(yōu)后的模型支持不同領(lǐng)域間標(biāo)簽知識(shí)的遷移和眾多“泛分類”任務(wù)。主要過(guò)程如圖2所示。
輸入的表達(dá)式如公式(4)所示。
H=Encoder[l1,l2,...,li,t1,t2,...,ti,M]
(4)
式中:li為第i個(gè)標(biāo)簽序列;ti為第i個(gè)文本序列;M為掩碼矩陣,用于確定哪些序列對(duì)可以相互關(guān)注。
配對(duì)的連接分?jǐn)?shù)表達(dá)式如公式(5)所示。
S(li,tj)=FFNNlabel(hli)TRj-iFFNNtexthtj
(5)
式中:(li,tj)為標(biāo)簽和文本標(biāo)記配對(duì)的連接;FFNNlabel、FFNNtext分別為前饋神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)會(huì)單向傳播且過(guò)程中沒(méi)有反饋連接;Rj-i為旋轉(zhuǎn)位置嵌入,可注入相對(duì)位置信息;hli、htj分別為標(biāo)簽和文本標(biāo)記的嵌入表示。
以上2種模型泛化訓(xùn)練需要調(diào)節(jié)的超參數(shù)主要包括訓(xùn)練周期、最大學(xué)習(xí)率、批量處理大小以及文本最大切分長(zhǎng)度等,以使相應(yīng)參數(shù)達(dá)到最優(yōu)區(qū)間,提高資訊文本提取和分類的精度。
1.2 模型評(píng)價(jià)
1.2.1 資訊文本提取模型
通常,文本提取將準(zhǔn)確率p、召回率R和F1分?jǐn)?shù)作為評(píng)估指標(biāo)。在模型優(yōu)化過(guò)程中,提高準(zhǔn)確率可以減少將實(shí)體錯(cuò)誤識(shí)別和將類別錯(cuò)誤歸類的概率,提高召回率則可以捕捉更多正確的實(shí)體并減少遺漏。這2個(gè)指標(biāo)間通常需要進(jìn)行平衡,應(yīng)在平衡的前提下,將兩者維持在相對(duì)較高的水平,以獲得最佳性能。3個(gè)指標(biāo)的表達(dá)式分別如公式(6)~公式(8)所示。
(6)
(7)
(8)
式中:Tp為預(yù)測(cè)正確實(shí)體數(shù);Fp為不是該類實(shí)體而被錯(cuò)誤地預(yù)測(cè)到該類的實(shí)體數(shù);Fn為該類文本被誤預(yù)測(cè)到其他類別的實(shí)體數(shù)。
1.2.2 資訊文本分類模型
文本分類評(píng)估一般采用Macro F1和Micro F1作為評(píng)估指標(biāo)。Macro F1是F1分?jǐn)?shù)的宏觀平均,對(duì)每個(gè)類別的F1分?jǐn)?shù)取平均值,避免模型性能主要由數(shù)量大的類別主導(dǎo)。Micro F1全面評(píng)估模型在所有類別上的總體性能。不斷參數(shù)調(diào)優(yōu),使各種評(píng)估指標(biāo)達(dá)到最優(yōu)。指標(biāo)相關(guān)的表達(dá)式分別如公式(9)、公式(10)所示。
(9)
(10)
式中:n為所有類別總數(shù);F1i為第i個(gè)類別的F1分?jǐn)?shù);Psum為所有類別總的準(zhǔn)確率;Rsum為所有類別總的召回率。
2 新方法在海關(guān)資訊文本分析的應(yīng)用研究
2.1 海關(guān)資訊文本分析模型構(gòu)建
針對(duì)海關(guān)資訊文本行業(yè)背景和專業(yè)術(shù)語(yǔ)特殊的特點(diǎn),利用上文提出的提取與分類技術(shù)融合的新模型進(jìn)行資訊文本提取和文本分類模型的優(yōu)化和適配,構(gòu)建查獲資訊智能提取和分類模型,提高海關(guān)資訊分析的準(zhǔn)確性和適用性。在海關(guān)緝私和旅檢等場(chǎng)景中,海關(guān)的資訊文本多為進(jìn)、出口貨物查獲情況信息。應(yīng)用場(chǎng)景為查驗(yàn)事后分析預(yù)警環(huán)節(jié),模型構(gòu)建的數(shù)據(jù)來(lái)源為海關(guān)公告、媒體報(bào)道、綜合報(bào)告和周報(bào)等資訊數(shù)據(jù)。選取近一年進(jìn)、出口貨物查獲資訊作為訓(xùn)練數(shù)據(jù),數(shù)據(jù)的選取原則為保證樣本集有足夠的多樣性,以覆蓋海關(guān)領(lǐng)域的主要知識(shí)點(diǎn)和標(biāo)簽范圍。將資訊中有效實(shí)體定義為29類(可動(dòng)態(tài)調(diào)整),包括查發(fā)國(guó)家/地區(qū)、來(lái)源地、目的地和價(jià)值等;將資訊分類定義為104類(可動(dòng)態(tài)調(diào)整),包括現(xiàn)場(chǎng)查驗(yàn)、貨物夾藏、水運(yùn)和侵權(quán)風(fēng)險(xiǎn)等,然后根據(jù)自定義的實(shí)體標(biāo)簽和分類標(biāo)簽進(jìn)行人工標(biāo)注,將標(biāo)注后的貨物查獲記錄轉(zhuǎn)化為詞向量,將其作為模型輸入數(shù)據(jù),有效樣本數(shù)據(jù)約1 100條。
本文建?;谕ㄓ玫奶崛∨c分類技術(shù)融合的新模型。該模型能夠通過(guò)少量的梯度更新適應(yīng)新任務(wù)。模型采用具有12個(gè)transformer層、768個(gè)隱藏單元和12個(gè)注意力頭的結(jié)構(gòu),采用少樣本學(xué)習(xí)方法,以少量貨物查獲資訊標(biāo)記數(shù)據(jù)集作為輸入并計(jì)算輸出,再以少次訓(xùn)練迭代,反向傳播優(yōu)化模型中編碼層和解碼層的全量參數(shù)。在不斷的參數(shù)調(diào)整過(guò)程中得到貨物查獲實(shí)體識(shí)別模型和分類識(shí)別模型,對(duì)海關(guān)資訊中專業(yè)的海關(guān)術(shù)語(yǔ)進(jìn)行編碼表示;在解碼層針對(duì)實(shí)體執(zhí)行提取任務(wù),預(yù)測(cè)海關(guān)資訊實(shí)體的起始位置和結(jié)束位置;針對(duì)分類任務(wù),預(yù)測(cè)海關(guān)資訊標(biāo)簽和文本的連接關(guān)系;最終在輸出層輸出以結(jié)構(gòu)化表示的貨物查獲資訊實(shí)體和分類。
2.2 模型效果
模型在樣本集和非樣本集的表現(xiàn)見表1。由220個(gè)測(cè)試樣例驗(yàn)證模型效果可知,實(shí)體識(shí)別的結(jié)果是準(zhǔn)確率為92.75%,召回率為95.79%,F(xiàn)1分?jǐn)?shù)為94.25。分類識(shí)別的結(jié)果是Macro F1為75.32,Micro F1為74.68。使用全量樣本集進(jìn)行調(diào)優(yōu)后,2個(gè)模型預(yù)測(cè)準(zhǔn)確率分別提高了8.34%和19%,識(shí)別效果顯著提升。同時(shí),使用非樣本集共200條新增文本進(jìn)行預(yù)測(cè),實(shí)體識(shí)別準(zhǔn)確率為90.14%,分類識(shí)別準(zhǔn)確率Macro F1為74.8。與樣本測(cè)試集的識(shí)別效果相比,準(zhǔn)確率下降幅度較小,可見在海關(guān)資訊文本領(lǐng)域,本文模型具有較好的實(shí)體提取和分類泛化能力。
資訊文本提取和分類模型已用于3 374條各種無(wú)結(jié)構(gòu)資訊文本的關(guān)鍵信息自動(dòng)識(shí)別,每天預(yù)警分析的資訊量由過(guò)去人工操作的數(shù)十條提高至1 000多條,夯實(shí)了海關(guān)資訊分析工作,能夠?qū)Υ罅课礃?biāo)記海關(guān)資訊文本進(jìn)行自動(dòng)解析/識(shí)別、快速檢索分析和風(fēng)險(xiǎn)預(yù)警,海關(guān)資訊文本分析實(shí)例如圖3所示。模型還不斷進(jìn)行適配性迭代訓(xùn)練升級(jí),其智能化和準(zhǔn)確度也在逐步提升。
3 結(jié)論
本文提出的融合文本提取和分類新算法的模型能夠快速進(jìn)行資訊文本自動(dòng)處理和分析,具有通用性和泛化性。該模型在海關(guān)領(lǐng)域的資訊文本分析應(yīng)用中取得了良好效果。實(shí)踐表明,經(jīng)過(guò)特定領(lǐng)域數(shù)據(jù)集增強(qiáng)訓(xùn)練后,該模型將具有更好的行業(yè)適配性和更高的識(shí)別準(zhǔn)確度。
參考文獻(xiàn)
[1]鄭彥寧,化柏林.數(shù)據(jù)、信息、知識(shí)與情報(bào)轉(zhuǎn)化關(guān)系的探討[J].情報(bào)理論與實(shí)踐,2011,34(7):1-4.
[2]白如江,陳鑫,任前前.基于供需理論的生成式人工智能賦能情報(bào)工作范式模型構(gòu)建與應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2024,47(1):75-83.
[3]李廣建,潘佳立.人工智能技術(shù)賦能情報(bào)工作的歷程與當(dāng)前思考[J].信息資源管理學(xué)報(bào),2024,14(2):4-20.
[4]SUN Y,WANG S H,F(xiàn)ENG S K,et al.ERNIE 3.0:large-scale
knowledge enhanced pre-training for language understanding and generation
[EB/OL].[2021-07-05].https://arxiv.org/abs/2107.02137.pdf.
[5]LU Y J,LIU Q,DAI D,et al.Unified structure generation for universal information extraction[EB/OL].[2022-03-23].https://arxiv.
org/abs/2203.12277.pdf.