阮義彰







摘要:上下位關系獲取對于下游電商至關重要。由于產(chǎn)品更新頻繁,大規(guī)模手動獲取關系是不切實際的。文章主要研究從低資源電商文本中自動獲取下位關系。與開放領域不同,電商領域中標記的上下位詞對是有限的,且電商領域產(chǎn)品描述中的句式特殊,使傳統(tǒng)的基于序列的模型無效。為此,文章提出了基于Transformer的協(xié)同訓練方法,通過理解產(chǎn)品描述探索潛在的高置信度詞模式。實驗結果與最先進的方法相比,F(xiàn)1和召回率顯著提高。
關鍵詞:電商領域;上下位關系;對抗訓練;半監(jiān)督學習;負樣本提取
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)15-0079-03
1 引言
產(chǎn)品與類別上下位關系的自動獲取是電商應用中的一項關鍵任務。上下位詞顯示了通用類別(即上位詞)和它的特定實例(即下位詞)之間的關系,例如電器和冰箱。獲取上下位關系有助于構建產(chǎn)品類別系統(tǒng),本文主要研究如何從產(chǎn)品描述中自動獲取上下位關系。
2 相關背景
現(xiàn)有方法通常利用文本上下文來提取上下位關系,包括基于模式的方法[1-6]和表示學習方法[7-8]。然而,在電商領域,這兩種方法往往是無效的。首先,產(chǎn)品描述通常由形容詞和各種產(chǎn)品屬性組成,而不是實例、動詞和類別或概念等固化模式。表1中商品描述“2019新款冬季男士衣物韓版修身保暖厚羽絨服外套”完全沒有動詞,缺乏清晰的模式使得依賴基于模式的方法無效。其次,可以看到表1中的描述沒有遵循良好的自然語言結構,它們是一組描述產(chǎn)品屬性和銷售特征的短語。因此,基于句子結構特征(如依賴樹和詞典句法路徑)的方法,通常在電商領域無效。再次,表示學習方法依賴于大量訓練樣本,此外,高質(zhì)量負樣本也是必不可少的。傳統(tǒng)的負采樣方法通常是構造低質(zhì)量的樣本,對訓練過程貢獻不大。例如,隨機抽樣的一對(外套、水果)很容易區(qū)分,它們甚至不會一起出現(xiàn)在一個產(chǎn)品描述中。如圖1所示,當隨機采樣的負對數(shù)為258,462時,現(xiàn)實世界的電商文本語料庫(即產(chǎn)品描述)中僅出現(xiàn)200對。因此隨機負樣本會導致很容易識別出很少出現(xiàn)在產(chǎn)品描述中的負樣本。
為了應對上述挑戰(zhàn),提出以下兩點:1)利用Transformer網(wǎng)絡理解中間詞語義,從而獲取嵌入空間中的上下位關系;2)通過設計協(xié)同訓練框架迭代豐富訓練樣本,并使用開發(fā)的基于模式的負樣本進行挖掘。本文將電商下位關系獲取建模為二分類問題,并提出一種半監(jiān)督分類器(Semi-supervised Transformer net,ST)。其輸入是一個詞對和包含該詞對的產(chǎn)品描述,其輸出是1(存在上下位關系)或0(不存在上下位關系)。ST從訓練樣本中學習顯式“路徑”(即中間詞序列)知識和從訓練樣本中學習隱性的“嵌入”(即空間變換)知識。一方面,ST派生的“路徑”知識用于獲得更多高質(zhì)量的訓練樣例(尤其是反例);另一方面,ST學習到的“嵌入”知識用于區(qū)分語義并準確產(chǎn)生分類結果。最后,本文從真實數(shù)據(jù)集中獲得了實驗結果。
3 半監(jiān)督Transformer網(wǎng)絡
3.1 概述
本文將具有高預測置信度的樣本標記為監(jiān)督數(shù)據(jù),并以迭代方式(即使用協(xié)同訓練過程)訓練分類器。首先生成負樣本(即基于模式的負樣本和隨機樣本)以及正樣本。然后根據(jù)預訓練的詞嵌入將這些樣本轉換為向量表示,再分別使用這兩個樣本集訓練兩個Transformer分類器。每次迭代中,從一個分類器中選擇具有高置信度的預測結果作為監(jiān)督,輸入另一個分類器進行進一步訓練。算法1給出了協(xié)同訓練過程。
以下為兩個內(nèi)部分類器的最小化均方誤差函數(shù):[L=12Xx∈X(yx-f(x))2]。其中[yx]表示[x]的真實標簽,[x]是訓練樣本集。
算法1? ?聯(lián)合訓練過程
[輸入:文本語料庫T,預訓練單詞嵌入W,最大迭代次數(shù)I
1. 對T進行數(shù)據(jù)預處理,提取兩類訓練樣本[Xp]和[Xd],前者為基于模式的樣本,后者為隨機樣本;
2. 使用單詞嵌入W將每個訓練樣本轉換為向量表示;
3. [X'p←?] ,[X'd←?], 將? [X'p] 和 [X'd] 表示新標注的訓練樣本集合;
4. for [i=1,2,…,I] do;
5. 用基于詞模式的方法訓練集合[fp]和[fd],將樣本[Xp∪X'p ]和[Xd∪X'd]循環(huán)迭代;
6. 對未標記樣本進行預測,選擇具有高置信度的樣本作為新的訓練樣本來擴展? [X'p] 和 [X'd];
7. 如果 [X'p] 和 [X'd] 都在本次迭代中沒有收到新的標簽樣品,那么停止。 ]
3.2 基于Tansformer的分類器
1)預處理
對于產(chǎn)品描述片段,首先刪除了“\%”“*”和“\&”等特殊字符;然后使用'.''!''?'';'作為分隔符將文本片段分割成一組句子S;然后每個標記都被視為實體的候選標志,并嘗試將標記鏈接到實體。一個句子中兩個鏈接之間的標記列表被視為對應實體之間的單詞模式。本文用[e1,p1,p2,p3…pn-1,pn,e2]來表示鏈接標記和之間的標記,其中[e1]是頭實體,[e2]是后方實體,[p1,p2,p3…pn-1,pn]表示詞模式。
2)嵌入查找
在模型中用向量表示每個標記,為了查找向量表示的單詞模式和實體,使用了帶有負采樣的模型Skip-gram[8]從大型文本語料庫(例如百度百科)中預訓練單詞嵌入[9]。對于詞嵌入,本文將標記[p]轉換為用向量表示的[p], [p=(p1,p2,…,pn)]用[n]表示[p=p1⊕p2⊕p3⊕p4] ,這里[⊕]表示串聯(lián),[p]是單詞模式[p]的最終向量表示。對于一個簡單的訓練樣本[s=(e1,p,e2)],用向量表示為: [s=e1⊕p⊕e2](這里[⊕]表示串聯(lián)操作)。
3)內(nèi)部分類器
如上所述,關鍵詞填充和懸空詞在產(chǎn)品描述中很常見,因此使用基于Tansformer的模型作為內(nèi)部分類器。如圖3所示,把[p]作為第一個輸入,并將位置信息構造成一個矩陣作為第二個輸入。然后,添加第一個和第二個輸入作為嵌入輸入,結果為多頭注意力的輸入。在多頭注意力層中,通過線性變換得到詞向量的序列,鍵向量和值向量的序列為[qi=W1pi], [ki=W2pi], [vi=W3pi],其中[W1,2,3]表示變換矩陣。前饋層是一個全連接網(wǎng)絡,對每個位置向量進行相同的操作,包括線性變換和ReLU激活輸出,再將最后一層與e1 和e2組合經(jīng)過sigmoid,輸出表示為b。當[bi≤0.5]時,標簽預測為0,當[bi>0.5]時,標簽預測為1。
3.3 訓練樣本構建
為了訓練上述分類器,在實踐中,可以很容易收集正訓練樣本。因此,本文主要研究如何在協(xié)同訓練過程中構建負樣本。文章提出兩種負采樣方法,即隨機和基于模式的方法,用于構建負樣本。
1)隨機負采樣
隨機負采樣通過用隨機采樣的實體替換上下位詞對中的一個實體來生成負樣本。例如,可以基于正樣本(蘋果,水果)構造一個負樣本(蘋果,動物),使用負樣本和正樣本,可以收集一組下位實體對,表示為[X={x1,x'1,x2,x'2,x3,x'3,…,(xn,x'n)}]。
2)基于詞模式的負采樣
該方法使用單詞模式作為挖掘負樣本的關鍵,這些模式捕獲了為什么兩個實體沒有下位關系。例如,給定一個否定對(蘋果,動物),從包含這兩個實體的句子中提取一個詞模式:
……動物與蘋果的首字母相同……
本文使用基于隨機的負采樣來生成負對,并排除包含“這”“那”和“一”等的負詞對。與基于隨機的負采樣相同,不僅選擇了下位詞對的集合,而且還選擇了這些對之間的單詞模式。然后將這些對表示為[S={Sx1,x'1,Sx2,x'2,Sx3,x'3,…,S(xn,x'n)}],對之間的路徑表示為[p=(p1,p2,…,pn)]。通過提取這些隨機樣本的單詞模式并匹配訓練數(shù)據(jù)集(即產(chǎn)品描述),通常會獲得更多的負樣本。例如,使用具有相同首字母的路徑,可能會在訓練數(shù)據(jù)集中找到以下負對(火龍果,紫色)。
S=(……火龍果與紫色的首字母相同……)
顯然,實體對(火龍果,紫色)是非同義詞對,反過來可以依靠(火龍果,紫色)來發(fā)現(xiàn)更多的負對及其路徑。本文只考慮路徑的長度(即路徑中的標識數(shù))不超過[102]。
4 實驗
4.1 上下位詞對數(shù)據(jù)集
本文使用開源中文語料庫作為通用領域文本數(shù)據(jù),其中包含超過一百萬個結構良好的中文句子;并使用來自真實電商公司的產(chǎn)品描述,其中包括超過10億個非結構化商品詳細信息。同時還收集了大約200,000個上下位詞對,通過電商產(chǎn)品描述,總共獲得了44,263對電商上下位詞對。具體由以下部分組成。
4.2 實驗設置
將提出的方法與以下方法進行比較。
1)根據(jù)Snow的方法,總結出了一些電商領域的依賴路徑,根據(jù)每個模式訓練一個二元分類器,不同路徑的數(shù)量為7,080。經(jīng)過篩選,選擇了其中5000條具有高可靠性的不同路徑作為訓練樣本。
2)在預處理后,HypeNET用標記模式標記每個不同路徑。結合下位詞和嵌入作為分類器的訓練樣本來確定是否上位詞。
本文還考慮了一些基線,它們的參數(shù)設置如下:
①GBDT二分類模型采用如下參數(shù)設置:樹數(shù):500;收縮率:0.05;采樣率:0.6; 特征比:0.3;最大葉數(shù):32;最小葉樣本數(shù):500;特征分割值最大尺寸:500。
②MLP模型采用如下參數(shù)設置:每層神經(jīng)元數(shù):500,100,2;學習率:0.001;最大迭代輪次:1000;批量大小:100。
③邏輯回歸(LR)模型采用以下參數(shù)設置:最小收斂誤差:0.000001;最大迭代輪次=:1000。
④隨機特征 (R) 僅包括上下位詞對的向量。
⑤半監(jiān)督Transformer(ST,本文提出的方法):Transformer參數(shù)設置:學習率:0.001;單詞輟學=0.2。
4.3 實驗結果
基于模式的負采樣的效果:如圖1所示,隨機抽樣的負對很少出現(xiàn)在產(chǎn)品描述中。基于詞模式的方法不僅強化了負樣本的意義,而且對負樣本的構建也有幫助。如圖2所示,隨著負樣本數(shù)量的增加,隨機詞對的需求呈指數(shù)增長。然而,使用基于詞模式負采樣方法后,所需的隨機詞對的數(shù)量顯著減少。
詞型長度與精度的關系:在數(shù)據(jù)處理過程中,需指定詞對之間的模式長度,原因是一方面需要提高樣本的召回率,另一方面需要保證準確性。圖3中,長度為10時,準確率最高;隨著詞型長度的增加,模型的準確率會逐漸降低。
整體比較:如表3所示,所有模型在通用域數(shù)據(jù)集上的性能都不錯,但在專用數(shù)據(jù)集上的性能變差了,是由電商語料庫的特殊性造成的。而ST方法更擅長對抗特定文本,為了進一步驗證文本復雜度對模型的影響,測試了Snow方法、DNN、LR、GBDT 和 LSTM。結果表明,ST經(jīng)過多次迭代后,在復雜文本中仍能保持良好的分類效果。
案例分析:如表4所示,ST能夠正確提取關系;相比之下,其余的包括Snow方法、HypeNET、MLP、LR和GBDT都無法產(chǎn)生正確的關系預測。這是因為懸空詞和關鍵字填充出現(xiàn)在它們的詞模式中,而本文提出的模型達到了很好的分類效果。
5 結束語
本文提出了協(xié)同訓練框架 ST用于從電商產(chǎn)品描述中獲取上下位關系。基于詞模式的負采樣方法為其帶來了許多有意義的負樣本,且Tansformer模型有助于準確理解產(chǎn)品語義的描述。實驗結果表明ST取得了最先進的性能。
參考文獻:
[1] Carlson A ,Betteridge J,Kisiel B,et al. Toward an Architecture for Never-Ending Language Learning[C].Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10) Toward an Architecture for Never-Ending Language Learning,2011.
[2] Hearst M A.Automatic acquisition of hyponyms from large text corpora[C]. Proceedings of the 14th International Conference on Computational Linguistics,1992:539-545.
[3] Nakashole N,Weikum G,Suchanek F M.PATTY:a taxonomy of relational patterns with semantic types[C]// Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju,2012:1135-1145.
[4] Riedel S,Yao L M,McCallum A,et al.Relation extraction with matrix factorization and universal schemas [C]//Stroudsburg, PA:Proceedings of the 2013 Conference of the North American Chapterof the Association for Computational Linguistics(HLT NAACL 2013),2013:74-84.
[5] Shwartz V,Goldberg Y,Dagan I.Improving hypernymy detection with an integrated path-based and distributional method[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin,Germany.Stroudsburg,PA,USA:Association for Computational Linguistics,2016.
[6] Snow R,Jurafsky D,Ng A.Learning syntactic patterns for automatic hypernym discovery [C]//Vancouver:Advances in Neural Information Processing Systems 17,2004:1297-1304.
[7] Jana A,Goyal P.Network features based co-hyponymy detection [C]//LREC 2018,2018.
[8] LIN D.An Information-Theoretic Definition of Similarity [C]//Proc. international Conf. on Machine Learning,1998.
[9] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space Scottsdale,AZ:Proceedings of the International Conference on Learning Representations (ICLR 2013),2013:1-12.
[10] Mikolov T, Sutskever I, Chen K, et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Advances in Neural Information Processing Systems (NIPS).Massachusetts,USA:MIT Press,2013:3111-3119.
[11] Cheng W W,Hüllermeier E.Combining instance-based learning and logistic regression for multilabel classification[J].Machine Learning,2009,76(2/3):211-225.
[12] Crestan E,Pantel P.Web-scale table census and classification[C]// Hong Kong,China:Proceedings of the fourth ACM international conference on Web search and data mining - WSDM '11.New York:ACM Press,2011.
[13] Shwartz V,Goldberg Y,Dagan I.Improving hypernymy detection with an integrated path-based and distributional method[C]//Berlin,Germany:Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Stroudsburg,PA,USA:Association for Computational Linguistics,2016.
【通聯(lián)編輯:謝媛媛】