宋函宇 歐陽丹彤 葉育鑫



摘要: 針對關系抽取模型規模越來越大、 耗時越來越長的問題,提出一種知識篩選機制,利用篩
選出的正向軟標簽構造輕量級關系抽取模型. 首先,利用知識蒸餾提取出知識并將其存儲在軟標簽中,為避免知識蒸餾中教師與學生間差距大導致的知識難吸收問題,使用教師助手知識蒸餾模式; 其次,使用標簽的余弦相似度篩選出正向軟標簽,在每步蒸餾中都動態賦予正向軟標簽更高的權重,以此削弱知識傳遞中錯誤標簽導致的影響.
在數據集SemEval-2010 Task 8上的實驗結果表明,該模型不僅能完成輕量化關系抽取任務,還能提升抽取精度.
關鍵詞: 輕量級關系抽取; 知識篩選; 正向軟標簽; 知識蒸餾; 余弦相似度
中圖分類號: TP391.1? 文獻標志碼: A? 文章編號: 1671-5489(2023)02-0317-08
Lightweight Relation Extraction Based on Positive Soft Labels
SONG Hanyu1,2,OUYANG Dantong1,3, YE Yuxin1,3
(1. College of Computer Science and Technology,Jilin University,Changchun 130012,China;
2. FAW-Volkswagen Automotive Co.Ltd,Changchun 130011,China;
3. Key Laboratory of Symbolic Computation and Knowledge Engineering ofMinistry of Education,Jilin University,Changchun 130012,China)
收稿日期: 2022-01-04.
第一作者簡介: 宋函宇(1996—),女,漢族,碩士研究生,從事自然語言處理的研究,E-mail: hanyu.song@faw-vw.com.
通信作者簡介: 歐陽丹彤(1968—),女,滿族,博士,教授,博士生導師,從事基于模型診斷和語義網的研究, E-mail: ouyd@jlu.edu.cn.
基金項目: 國家自然科學基金(批準號: 42050103; 62076108; U19A2061).
Abstract: Aiming at? the problem that the scale of relation extraction model was getting larger and larger,and the time consumption was getting longer and longer,
we proposed a knowledge filtering mechanism to construct a lightweight relation extraction model by using the positive soft labels selected.
Firstly,knowledge distillation was used to extract knowledge and store knowledge in soft labels. In order to avoid the problem of
difficult? absorption of knowledge caused by the large gap between? teachers and? students in knowledge distillation,we used teacher assistant knowledge distillation pattern.
Secondly, the cosine similarity of labels was used to filter the positive soft labels and the positive soft labels were dynamically given? higher weight in each step of the distillation,
so as to? weaken the influence caused by? the wrong labels in the knowledge transfer. The experimental results on SemEval
-2010 Task 8 dataset show that the proposed? mode can not only complete the task of lightweight relation extraction,but also improve the extraction accuracy.
Keywords: lightweight relation extraction; knowledge filtering; positive soft label; knowledge distillation; cosine similarity
關系抽取是自然語言處理領域的一個重要分支,是根據兩個實體所在的上下文語義判斷它們之間存在的關系. 近年來,使用深度神經網絡去捕捉語義特征已成為解決關系抽取問題的發展趨勢[1-3]. 為獲得高精度的抽取結果,可利用不同類型的神經網絡組件有機組合在一起,或使用龐大的預訓練語言模型[4-7]通過構造復雜的抽取模型更精準地捕獲語義特征. 例如,文獻[8-9]均使用圖卷積神經網絡結合其他的網絡組件構建模型. 文獻[8]在圖卷積神經網絡的基礎上結合了依賴樹; 文獻[9]用注意力機制結合圖卷積神經網絡,為神經網絡的節點分配權重. Alt等[10]使用微調預訓練模型GPT(generative pre-trained transformer)[11]的方法,利用預訓練語言模型在語言處理中的優勢去挖掘更有價值的語義特征,從而更好地完成關系抽取任務.
雖然近年來關系抽取模型的精度越來越高,但抽取模型的規模呈現越來越大的趨勢,所需要的計算資源和消耗的時間也越來越多. 為解決該問題,人們提出了如剪枝[12-13]、 量化[14]、 知識蒸餾[15]等技術進行模型輕量化,力求構造出輕量級模型. 剪枝是通過改變神經網絡模型的原有結構,舍棄一部分神經元的方式達到輕量化的目的; 量化是將較高精度的數據降低為低精度的形式,從而降低計算成本,但會面臨丟失關鍵數據的風險; 知識蒸餾是基于教師-學生的模式,讓學生模仿教師處理問題的能力,學生不需要改變自身的結構,也不需要改變數據類型.
經典的知識蒸餾[15]方法由一個學生模塊和一個教師模塊組成. 教師模塊通過軟標簽的形式向學生模塊傳授自己的分析結果,學生通過對軟標簽知識的學習模仿教師的行為,力求接近教師的結果. 目前,經典蒸餾策略的改進已有很多,如Fukuda等[16]摒棄單個教師的傳統方法,采用多個教師聯合指導的方式,使學生可以向多個教師進行學習; Mirzadeh等[17]認為教師和學生之間在規模上存在巨大差異,這種差異可能會使學生對知識的吸收與理解不理想,因此引入教師助手的概念,教師首先指導教師助手,在教師助手通過學習知識、 擁有能傳授知識的本領后,讓教師助手直接指導學生. 教師助手在規模上比教師更接近學生,所傳遞的知識更容易被學生吸收,對蒸餾的結果更有益.
使用知識蒸餾的輕量級關系抽取框架的關鍵在于知識的傳遞,知識的質量會影響被指導者能力的提升. 文獻[16-17]均使用原生軟標簽作為知識參與學習. 被提取出的知識代表了教師及教師助手的抽取能力,但教師對實體間關系的判斷也不是完全正確的,也會存在錯誤、 偏差. 原生軟標簽中存儲的知識可能存在與事實相悖的部分. 知識中存在的錯誤會誤導學生學習,阻礙學生進步. 因此,需要一種知識篩選機制,對知識的正確與否進行判斷. 本文在構建輕量級關系抽取模型過程中使用余弦相似度鑒別軟標簽的正確性. 當余弦相似度接近1時,說明軟標簽的正確性很高,可為軟標簽賦予較高的權重,使其能對學生模型產生很大程度的正向影響,本文將具有此正向意義的軟標簽稱為正向軟標簽; 反之,當余弦相似度的值接近于0時,根據相似度更新權重的機制會賦予軟標簽較低的權重,降低其指導作用,避免錯誤標簽的誤導.
1 構建模型
本文結合教師助手的蒸餾模式和知識篩選策略共同構造一種輕量級關系抽取框架,其結構如圖1所示. 該框架主要由教師模塊、 教師助手模塊、 學生模塊和融合知識篩選的蒸餾機制組成. 首先,教師模塊根據樣本數據得出具有經驗知識的教師軟標簽; 其次,教師軟標簽經過知識篩選策略的過濾,區分出與代表事實硬標簽相似度較高的正向軟標簽,從而在正向軟標簽指導教師助手進行訓練時為其分配較高的權重. 教師助手在指導學生模型時也輸出其軟標簽,同理,教師助手軟標簽在進行知識篩選后,根據篩選結果更新指導學生模型訓練時的權重.
本文共使用兩次融合知識篩選的知識蒸餾機制,第一次是教師使用軟標簽中的知識構建一個能力出眾并且規模適中的教師助手; 第二次是由教師產生的教師助手借助其軟標簽將有價值的知識輸送給學生模塊. 兩次知識蒸餾相結合的模式比傳統只用一次蒸餾的方法更能促進知識的吸收. 教師助手作為學生與教師間的橋梁角色具有平穩過渡二者之間差距的作用,可避免一次蒸餾知識吸收率較低的問題.
1.1 教師模塊
教師向學生傳授知識,通過知識指導學生進行優化. 因此,教師模塊(teacher)需具備出色的抽取能力,這樣才能給學生模塊正確的指導. 本文使用R-BERT(bidirectional encoder representation from transformers)關系抽取模型[18]作為教師. 模型中的預處理部分BERT[19]使用基礎的BERT,由12個Transformer[20]編碼器、 12個自注意力頭和768個隱藏單元構成.
2 實驗和結果分析
2.1 數據集和評價指標
本文使用的數據集是SemEval-2010 Task 8[23],其中共有10 717個句子,該數據集被分成兩部分: 8 000個數據作為訓練集,2 717個數據作為測試集. 數據集中的每個句子都包含兩個實體,兩個實體之間對應一種關系. 該數據集共有9種明確的關系和1種Other關系. 當兩個實體的關系不屬于9種關系中的一種時,則將其歸為Other關系.
實驗中考慮關系的方向性問題,例如會區別Message-Topic(e1,e2)與Message-Topic(e2,e1). 本文采用關系抽取經典評價指標F1值作為評價指標.
2.2 參數設置
教師模塊和Att-BiGRU模塊均使用Adadelta算法進行優化,其中教師模塊的學習率為0.000 02,Att-BiGRU模塊的主要參數列于表1. Att-BiGRU模塊使用的詞嵌入是GloVe[24]詞嵌入. 學生模塊(CDNN)的主要參數列于表2.
2.3 實驗結果分析
為避免無關因素對實驗結果的影響,實驗中能在CPU設備上進行的實驗均在同一臺電腦上完成. 對于在CPU上需要較長時間才能完成的實驗,換為1080Ti的GPU設備進行實驗. 本文通過以下3個指標對輕量級框架進行檢驗: 參數數量、 運行時間和抽取精度.
表3列出了輕量級框架中不同模塊的模型參數數量. 蒸餾操作不影響模塊待訓練的參數總數. 由表3可見,教師R-BERT的參數總數遠大于教師助手模塊和學生模塊的參數總數,教師助手模塊和學生模塊的總參數更接近.
模型待訓練的參數數量會影響模型的運行時間,表4列出了各模塊的模型訓練時長和測試所用的時間. 訓練是在GPU設備上完成的,測試是在CPU設備上完成的. 表4中訓練時長是處理一次訓練數據所用時間,測試時長是處理一次測試數據所用時間.
由表4可見,本文使用的知識蒸餾并未耗費很長時間,是一種時間成本較低的構建輕量級關系抽取模型的方法. 教師助手模型的測試時間和訓練時間約是學生模型的4倍和3
倍. 輕量級模型的運行時間與重量級R-BERT模型之間的差距較懸殊,在訓練階段R-BERT的耗時約是其44倍,測試階段R-BERT的耗時約是其2 718倍.
將框架中的各模塊在數據集SemEval-2010 Task 8上進行關系抽取能力的實驗,以F1值作為性能的評價標準,實驗結果列于表5.
由表5可見,教師模型具有出色的關系抽取能力,學生模型的抽取能力遠低于教師模型,Att-BiGRU模型的抽取水平位于二者之間. 知識篩選機制從教師模型中篩選出的有價值的知識供給Att-BiGRU學習,吸收知識從而獲得提升的Att-BiGRU模型成為教師助手模型. 教師助手模型比Att-BiGRU模型的F1值提升了0.23. 教師助手模型負責將教師的知識進行解讀并傳遞下去,所傳遞的知識同樣也要經過軟標簽的篩選,計算出與硬標簽的相似度并以此為依據對不同的軟標簽賦予不同的指導權重,獲得不同權重的知識數據將在后續學生模型的訓練中發揮作用. 學生模型只需使用較低的計算成本處理軟標簽,即能從中學習經驗. 利用教師助手的軟標簽進行學習是一種輕量化的學習方法,對于學生模型,在輕量化操作后,其F1值較之前提升了1.47.
通過分析3種不同類型的實驗數據表明,本文提出的輕量化關系抽取框架能在使用小規模模型并消耗較低的運行時間成本情況下,有效提升關系抽取的性能.綜上所述,針對關系抽取模型規模日趨龐大、 運行時間日逐漸增多的問題,本文使用一種知識篩選機制,并將其用于教師助手知識蒸餾模式中,篩選出的正向軟標簽用于構造輕量級關系抽取模型.? 通過本文輕量級關系抽取框架得到的輕量級模型在計算資源有限、 時間要求較高的場景中具有強大的競爭優勢. 該框架能使重量級的模型在花費較少計算成本的情況下完成輕量化的轉變.
參考文獻
[1] CAN D C,LE H Q,HA Q T,et al. A Richer-but-Smarter Shortest Dependenc
y Path with Attentive Augmentation for Relation Extraction [C]//Proceedings o
f the 2019 Conference of the North American Chapter of the Association for Comp
utation Linguistics: Human Language Technologies. [S.l.]: Association for Computation Linguistics,2019: 2902-2912.
[2] ZHU H,LIN Y K,LIU Z Y,et al. Graph Neural Networks with Generated Parameters for Relation Extraction [EB/OL].
(2019-02-02)[2021-02-01]. https://arxiv.org/abs/1902.00756.
[3] LEE J,SEO S,CHOI Y S. Semantic Relation Classifica
tion via Bidirectional LSTM Networks with Entity-Aware Attention Using Latent Entity Typing [J]. Symmetry,2019,11(6): 785-1-785-9.
[4] LIU Y H,OTT M,GOYAL N,et al. RoBERTa: A Robustly
Optimized BERT Pretraining Approach [EB/OL]. (2019-06-26)[2021-08-18]. http://arxiv.org/abs/1907.11692.
[5] LAN Z Z,CHEN M D,GOODMAN S,et al. ALBERT: A Lite
BERT for Self-supervised Learning of Language Representations [EB/OL]. (2020-02-09)[2021-08-21]. https://arxiv.org/abs/1909.11942.
[6] RAFFEL C,SHAZEER N,ROBERTS A,et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [J]. M
achine Learning,2020,21:? 140-1-140-67.
[7] SONG K,TAN X,QIN T,et al. MASS: Masked Sequence t
o Sequence Pre-training for Language Generation [EB/OL]. (2019-07-21)[2021-03-01]. https://arxiv.org/abs/1905.02450.
[8] ZHANG Y H,QI P,MANNING C D. Graph Convolution over Pruned Dependency Trees Im
proves Relation Extraction [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.
[S.l.]: Association for Computational Linguistics,2018: 2205-2215.
[9] GUO Z J,ZHANG Y,LU W. Attention Guided Graph Convolutional Networks for Relation Extraction [C]//Annual Meeting of the Associat
ion for Computational Linguistics. [S.l.]: Association for Computational Linguistics,2019: 241-251.
[10] ALT C,HüBNER M,HENNIG L. Fine-Tuning Pre-trained Transformer Language Mode
ls to Distantly Supervised Relation Extraction [C]//Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics. [S.l.]: Association for Computational Linguistics,2019: 1388-1398.
[11] RADFORD A,NARASIMHAN K,SALIMANS T,et al. Improving Language Understanding
by Generative Pre-training [J/OL]. (2018-01-01)[2021-08-18]. https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
[12] HASSIBI B,STORK D G. Second Order Derivatives for Network Pruning: Optimal
Brain Surgeon [C]//Advances in Neural Information Processing Systems. New York: ACM,1992: 164-171.
[13] LECUN Y. Optimal Brain Damage [J]. Neural Information Proceeding Systems,1990(2): 598-605.
[14] COURBARIAUX M,BENGIO Y,DAVID J P. Training Deep N
eural Networks with Low Precision Multiplications [EB/OL]. (2015-09-23)[2021-08-11]. https://arxiv.org/abs/1412.7024.
[15] HINTON G,VINYALS O,DEAN J. Distilling the Knowledge in a Neural Network [J]. Computer Science,2015,14(7): 38-39.
[16] FUKUDA T,SUZUKI M,KURATA G,et al. Efficient Know
ledge Distillation from an Ensemble of Teachers [C/OL]. (2017-08-20)[2021-07-21]. https://icia-speech.org/archive_vo/Interspeech_2017/pdfs/0614.PDF.
[17] MIRZADEH S I,FARAJTABAR M,LI A,et al. Improved Knowledge Distillation via
Teacher Assistant [J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4): 5191-5198.
[18] WU S C,HE Y F. Enriching Pre-trained Language Model with Entity Information for Relation Classification [C]//
Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM,2019: 2361-2364.
[19] DEVLIN J,CHANG M,LEE K,et al. BERT: Pre-t
raining of Deep Bidirectional Transformers for Language Understanding [C]//The North American Chapter of
the Association for Computational Linguistics: Human Language Technologies. [S.l.]: Association for Computational Linguistics,2018: 4171-4186.
[20] VASWANI A,SHAZEER N,PARMAR N,et al. Atte
ntion Is All You Need [C]//Annual Conference on Neural Information Processing Systems. New York: ACM,2017: 5998-6008.
[21] PENG Z,WEI S,TIAN J,et al. Attention-Based Bidirectional Long Short-Term
Memory Networks for Relation Classification [C]//Proceedings of the 54th Annua
l Meeting of the Association for Computational Linguistics. [S.l.]: Association for Computational Linguistics,2016: 207-212.
[22] ZENG D J,LIU K,LAI S W,et al. Relation Classification via Convolutional Deep Neural Network [C]//
Proceedings of the 25th International Conference on Computational Linguistics: Technicl. [S.l.]: Association for Computational Linguistics,2014: 2335-2344.
[23] HENDRICKX I,SU N K,KOZAREVA Z,et al. SemEval-2010 Task 8: Multi-way Class
ification of Semantic Relations between Pairs of Nominals [C]//Proceedings of the 5th International Workshop on Semantic Evaluation.
[S.l.]: Association for Computational Linguistics,2010: 33-38.
[24] PENNINGTON J,SOCHER R,MANNING C. Glove: Global Ve
ctors for Word Representation [C]//Conference on Empirical Methods in Natural Language Processing.
[S.l.]: Association for Computational Linguistics,2014: 1532-1543.
(責任編輯: 韓 嘯)