999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習中文命名實體識別研究進展

2023-12-27 14:52:48奚雪峰盛勝利崔志明徐家保
計算機工程與應用 2023年24期
關鍵詞:信息方法模型

李 莉,奚雪峰,3,盛勝利,崔志明,3,徐家保

1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215000

2.蘇州市虛擬現實智能交互應用技術重點實驗室,江蘇 蘇州 215000

3.蘇州科技大學 智慧城市研究院,江蘇 蘇州 215000

4.德州理工大學,美國德克薩斯州 拉伯克市 79401

命名實體識別(named entity recognition,NER)是一項基本的信息提取任務,在自然語言處理(nature language processing,NLP)應用,例如信息檢索[1]、自動文本摘要[2]、智能問答[3]、機器翻譯[4]、知識圖譜[5]中起著至關重要的作用。NER的目標是從句子中提取一些預定義的特定實體,并識別其正確的類型,例如人物、位置、組織。

早期的NER 方法可以分為兩種:基于規則的方法和基于統計的方法。基于規則的方法是根據任務手動設計特定字段的大量規則來匹配命名實體,并將其泛化和限制在其他字段上。因此,基于規則方法很費時費力[6]。基于統計的方法將NER 任務轉換為序列標記任務,并使用人工標記的語料庫進行訓練。由于基于統計的方法的標注成本遠低于設計規則的成本,因此在深度學習爆發之前成為主流方法,比如隱馬爾可夫模型(hidden Markov models,HMM)[7]或條件隨機場(conditional random fields,CRF)[8]。據統計,在CoNLL-2003 大會中,參加比賽的16個NER系統全部采用統計方法[9]。

本文調研了中文NER發展史上有代表性的綜述論文,趙山等人[10]調研了在不同神經網絡架構下最具代表性的晶格結構的中文NER 模型。王穎潔等人[11]從字詞特征融合角度介紹中文NER方法。Liu等人[12]從三層體系結構(字符表示、上下文編碼器、上下文編碼器和標簽譯碼器)總結中文NER的工作。康怡琳等人[13]從深度學習的角度單獨地對中文NER輸入嵌入表示進行了詳細的總結和分析。以上綜述都是集中在扁平中文NER方法的總結和分析上,沒有包含中文嵌套命名實體識別,雖然張汝佳等人[14]介紹了中文嵌套NER,但是沒有詳細地包含中文嵌套NER 的方法,且以上綜述并未對中文小樣本的NER方法進行總結。

本文首先回顧了命名實體識別的發展進程,同時給出了中文NER 的特殊性;其次從中文命名實體識別的特殊性和任務分類出發。分別從扁平實體邊界問題、中文嵌套命名實體識別和中文小樣本問題,這三個方面對目前中文NER 研究工作進行系統性梳理,歸納總結了每一個方面的主流方法和具有代表性的模型以及部分內容的優缺點。再次整合了中文NER中廣泛且常用的數據集和評價標準;最后概述了該領域未來的發展方向。

1 研究現狀

命名實體識別經歷了三大發展階段,基于規則的識別方法,基于統計的機器學習方法和基于深度的學習方法。在命名實體識別中,BiLSTM-CRF的出現拉開了命名實體識別在深度學習的序幕。它的出現使得模型更加簡潔、魯棒,成為解決NER問題的深度學習基準。如圖1 所示展示了基于深度學習的中文命名實體識別的通用架構分為輸入分布式表示層、文本編碼層和標簽解碼層。表示層以字符信息為基礎,在字符信息的基礎上添加部首、字形、詞性、讀音、詞典等信息;文本編碼可利用神經網絡獲取上下文依賴關系。標簽解碼層對輸入序列進行預測并標注。這些模型處理實體時有各自的優缺點,比如CNN可對數據進行并行化處理,因此計算速度較快,但是存在上下文信息記憶缺失的問題。LSTM是RNN的變體,可以有效地學習長距離依賴的信息,不過仍然存在梯度問題。而GNN憑借不斷挖掘圖數據的模型,可以更高效地挖掘實體之間的關系,但是模型結構過于龐大,因此靈活性和拓展性差。Transformer是常常與BERT組合進行預訓練,從而生成深層次的語言特征,但是需要消耗大量算力資源。因此在選擇模型上要根據具體情況分析。

圖1 基于深度學習的中文命名實體識別的通用架構Fig.1 Common architecture for Chinese named entity recognition based on deep learning

字符表征是CNER研究的重點。簡單的外部特征,如詞性、部首和筆畫,包含的信息量較少,在信息量不足的情況下是有效的,在BERT 預訓練模型提出之前,這些特征表現良好。然而,隨著BERT等預訓練語言模型的發展,預訓練字符表示可以抓住漢字的大部分語義信息,因此在使用這些預訓練語言模型時,CNER 模型很難從簡單的外部特征中受益。除此以外,借鑒現有的英文NER方法對于解決中文NER問題是非常必要且有價值的。

1.1 預訓練模型

在NER 的深度學習模型中,詞嵌入是一種常用的數據預處理方法,可以學習到單詞向量表示并捕捉句子相應的語義和句法信息。

Qiu 等人[15]對NLP 的預訓練語言模型(pre-trained language model)進行了全面的綜述,并將PTM 分為預訓練的詞嵌入和預訓練的上下文編碼器。在分類的基礎上,將預訓練的字符嵌入分為靜態嵌入和動態上下文嵌入。靜態嵌入被訓練為查找表,每個字符的嵌入固定在表中,如NNLM、Word2vec、FastText、Glove 等。但由于靜態嵌入的訓練結果是一個固定的詞向量矩陣,不能被動態修改,因此無法解決一詞多義現象和實現真正的文本語義理解。

動態上下文嵌入也被稱為預訓練語言模型,這些模型生成的表示會根據上下文而變化,如ELMo、BERT、ERNIE、ALBERT、NEZHA 等,其中BERT 是最常用的。對于給定的字符,BERT將其字符位置嵌入、句子位置嵌入和字符嵌入作為輸入,然后使用掩碼語言模型(MLM)對輸入的句子進行深度雙向表征的預訓練,獲得魯棒的上下文字符嵌入。由于BERT出色的表現,一些學者開始探索如何在減少訓練資源的情況下獲得相似的效果。因此,基于BERT模型改進的RoBERTa、SpanBERT等模型相繼提出。此類模型限制輸入序列的長度,因而在文本自動摘要等生成式任務上表現不佳。為解決此類問題,XLNet通過應用Transformer-XL 來提取長文本特征。此外,百度提出的ERNIE 模型也更專注于中文領域的詞向量訓練。

1.2 中英文NER之間的關聯性

近年來,深度學習在NLP 領域的優越特性,即可直接從數據中學習特征表示,為該領域帶來了顯著的突破。在英文命名實體識別方面,深度學習模型也已大幅提升了其性能。與此同時,相對于中文命名實體識別技術,英文文本的NER技術由于英語特有的分詞規則,即詞與詞之間存在天然的空格屏障,研究難度更小,起步更早,已經達到相對成熟的階段。因此,近年來,國內外學者開始將英文NER 技術應用到中文命名實體識別中,因為中英文文本都具有明顯的語法和詞匯特征;其次,中文和英文都是上下文重要的語言,實體的上下文信息對實體識別具有重要影響。此外,中文NER 和英文NER 面臨的問題具有相似性,例如,未登錄詞的問題。隨著各領域和大數據時代的發展,會出現大量新實體,但這些新實體在詞典中缺乏統一的命名規范規則。所以,命名實體識別(NER)需要具備強大的上下文推理能力,能夠識別中英文中的嵌套實體,包括外層實體和內層實體。這是當前NER 研究中的熱點之一。同時,中英文NER 都存在文本歧義問題,同一文本在不同位置所代表的實體類型可能不同,因此需要在進行NER之前進行實體消歧的處理。

綜上所述,由于中文語言的特殊性,加上中文NER起步又晚,所以當其中一些的深度學習的方法直接用在中文命名實體識別任務上時并不能取得在英文命名實體識別上一樣的良好的效果。因此中文命名實體識別較為困難。而中文NER的特殊性和難點體現在如下幾點:

(1)中文詞語邊界模糊。和英文文本不同的是,中文文本不具有顯示的分隔符(比如空格)和明顯的詞性變換特征(例如,英文中的地名和人名會首字母大寫)作為邊界標志。因此難以確定分詞邊界。

(2)嵌套實體。實體包含其他實體或被其他實體包含,要同時識別出內部實體和外部實體,是當前的研究熱點之一。

(3)實體歧義。在實體識別的結果中,存有同一個實體可能會有不同的指代,或者存在一詞多義的情況,這會導致實體識別的結果不夠準確且存在歧義。因此,在獲取準確、無歧義的信息之前,需要對實體識別結果進行消歧處理。

(4)低資源的NER。目前對有限的領域和有限的實體類型而言,命名實體識別可以在這些地方取得良好的識別效果,無法遷移到其他特定領域中。

2 基于深度學習的中文命名實體識別

自引入深度學習后,雖然一些深度學習模型在英文命名實體識別任務上取得了較好的性能提升,但是中文NER的處理有一些獨特的困難,例如,漢語句子中的每個漢字之間沒有明顯的分割邊界、實體存在嵌套問題和中文低資源領域的問題。從處理中文命名實體識別的角度出發,將這些深度學習的方法分為扁平實體邊界問題、中文嵌套命名實體識別和中文小樣本問題。圖2為基于深度學習的中文NER 方法分類圖,也體現了本文的寫作思路和文章結構。

圖2 基于深度學習的中文NER方法分類Fig.2 Chinese NER classification based on deep learning

2.1 扁平實體邊界問題

命名實體識別過程通常包括兩個部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。因此確定實體邊界對于命名實體識別來說有著舉足輕重的作用。ENER 實體通常可以通過一些明顯的形式標志來識別,比如地點或人名實體的單詞首字母大寫。因此,在英文中,實體的邊界識別相對來說比較容易。但是,與英文相比,中文命名實體識別任務更為復雜。這是因為中文中的實體往往沒有明顯的形式標志,而且實體的構成也更加復雜。與實體類別標注子任務相比,實體邊界的識別在中文NER 任務中更加困難。因此,在中文NER任務中,需要采用更加復雜和精細的算法來進行實體識別和邊界識別,以達到更高的準確率和召回率。先前有研究者用基于字符的方式解決CNER,雖然取得了較好的性能,但不能利用詞邊界和詞序信息確定實體邊界。近年來,隨著深度學習的引入,CNER的研究主要是針對中文詞之間沒有明確的邊界這一特點進行展開,在研究的過程中發現,對于沒有完全基于詞的中文命名實體識別模型而言,外部資源的引入,可以為詞匯提供邊界信息,從而提升模型性能,這被視為提升模型性能的其中一種輔助工具。因此在確定實體邊界方法上大致可以總結為分詞和中文字詞特征融合兩個角度。

2.1.1 分詞

在中文NER中,分詞是一個必要的前置任務,因為中文是以字符為基本單位的,而不像英文等語言有空格作為單詞的分隔符。因此,分詞的質量會對NER 任務的性能產生很大的影響。在分詞方面,有兩種主要的方法:管道分詞和聯合訓練。下面將詳細介紹管道分詞方法和聯合訓練方法。

(1)管道分詞

管道分詞是指將分詞和NER分為兩個獨立的階段進行處理,即先對輸入文本進行分詞,然后再進行NER標注,如圖3所示。

圖3 分詞流水線模型示例Fig.3 Example of participle pipeline model

給定句子“上海市長江醫院醫生王剛”經過中文分詞(CWS)系統后劃分了相應的單詞分為“上海市,長江,醫院,醫生,王剛”然后在輸入到基于單詞的NER模型[16]中進行實體識別。但是不同的分詞系統或工具[17-18]會有不同的分詞結果,比如會分成“上海,市長……”等情況。管道分詞的方法簡單有效,易于擴展,但無法處理錯誤分割造成的誤差傳播問題,同時忽略NER 對分詞的輔助標注問題[19]。目前常見的分詞工具如表1 所示。列出了常用的比較成熟的中文NER分詞工具。此外,圖4列出了不同分詞工具在不同語料庫上的分詞結果準確性。

表1 常用的中文NER分詞工具Table 1 Commonly used Chinese NER segmentation tools

圖4 不同的分詞工具在WEIBO和MSRA數據集上的準確度結果Fig.4 Accuracy of different word segmentation tools on WEIBO and MSRA datasets

(2)聯合訓練

聯合訓練是將分詞和實體識別任務視為一個整體任務,通過共享底層的神經網絡來完成。圖5給出了聯合訓練的架構圖,這種方法可以利用分詞和實體識別任務之間的相關性,提高整體模型的準確性和泛化能力。

圖5 聯合訓練的架構圖Fig.5 Architecture of multitasking training

Peng 等人[20]率先提出聯合訓練中文NER 和中文分詞(CWS)模型,一方面采用單向的LSTM網絡用于分詞模塊,另一方面使用基于特征的對數雙線性鏈CRF作為NER 的特征提取器;具有線性鏈特性的CRF 既可以用于NER 的特征提取又可以訪問LSTM 模塊產生的分詞特征,它將嵌入和LSTM 的隱藏向量作為變量,因此可以將梯度傳播回LSTM 中以調整參數。最終分詞和神經網絡訓練共享LSTM的所有參數,實現參數共享獲得5%的性能提升。

為了獲取局部字特征,Wu等人[21]利用CNN捕捉本地上下文,同時聯合訓練了中文NER和CWS模型以提升CNER模型預測實體邊界的能力。但是,文獻[20-21]提出的模型只關注中文NER和CWS之間共享的信息,卻忽略每個任務的特定信息帶來的噪音。為此,Cao等人[22]提出整合共享任務詞邊界信息的對抗性遷移學習框架,利用對抗訓練確保中文NER 任務僅使用共享的詞邊界信息,由此可以過濾特定信息產生的噪音。此外,Tang等人[23]構建了一個多任務BERT-BiLSTM-AM-CRF智能處理模型,利用BERT提取結合上下文信息的動態詞向量,通過BiLSTM 模塊進一步訓練后將結果輸入CRF層進行解碼。經過注意機制網絡后,該模型可以在兩個中文數據集上共同學習,最后通過CRF對觀測注釋序列進行分類提取,得到最終的結果。在MSRA數據集中的F1得分顯著提高0.55%。

Zhu等人[24]利用多種任務中學習實體共享的邊界信息的方式,將詞邊界信息和語義信息結合起來。通過對抗學習方法,從中文分詞(CWS)、詞性標注(POS)和實體識別學習特定任務的單詞語義信息,并將所學到的邊界信息與語義信息結合起來。在Resume數據集上達到了95.70%的效果。由于現有的基于Transformer的CNER模型常常忽略Transformer底層捕獲的信息以及Transformer每個頭投影的子空間的重要性,于是Wang 等人[25]提出了多任務標簽智能Transformer(MTLWT),從全局的角度,將實體邊界預測(EBP)和實體類型預測(ETP)任務分配給前兩層,并為每個注意力機制頭提供一個特定的焦點,使得頭部投射成為一個重要的子空間。實驗表明MTLWT在MSRA數據集上的性能優于其他框架。

綜上所述,聯合分詞和中文NER 共同訓練的模型雖然可以共享分詞和NER 任務中相同的語義信息,但是聯合模型必須依賴于CWS 和NER 任務標注的數據集,同時還需要在不同的切分標準下進行注釋。這顯然增加了模型的復雜度和訓練時間。在本文,對管道訓練和聯合訓練兩種方法進行了比較分析,如表2所示。

表2 管道訓練和聯合訓練方法比較Table 2 Comparison of pipeline training and combined training methods

2.1.2 中文字詞特征融合

中文NER 通常采用基于字符級別的模型,因為中文需要分詞,分詞不準確會影響基于詞的模型的性能。但是,是否充分利用詞匯信息有助于基于字符的NER模型更好地確定實體邊界。因此,如何在字符級別的模型中引入詞匯信息成為中文NER領域的研究重點。

融合字詞特征方法是一種利用自動構建的詞典的技術,該詞典是對大規模自動分段文本進行預訓練得到的。這種方法通過使用詞典中單詞的邊界信息和預訓練的單詞嵌入的語義信息來提高中文NER 模型的性能。相較于聯合方法,融合方法更易于獲取且不需要其他標注好的分詞數據集。根據融合模型架構是否具有可移植性進行分類,可以大致分為自適應基礎架構、基于圖結構模型和自適應嵌入三大類。其中,自適應基礎架構和基于圖結構模型屬于動態結構的范疇,即需要設計合適的模型結構來整合詞匯信息。

(1)自適應的基礎架構

自適應的基礎架構也可以稱為序列建模層。它利用現有的神經網絡模型對輸入序列進行建模。主要的神經網絡模型有基于RNN及其變體的網絡模型LSTM[26],基于CNN 的模型[27-28]和基于Transformer 的模型。在序列建模層中自適應的融合詞匯信息。

Zhang等人[29]率先將詞典信息融合到中文命名實體識別中,設計了Lattice LSTM 模型,其結構如圖6 所示。該模型將輸入的字符序列與自動構建的詞典中的所有潛在詞組成一個Lattice(有向無環圖),相鄰字符之間的邊連接起來,同時潛在詞的首尾字符也進行連接,以充分利用單詞邊界信息和語義信息,從而避免了分詞帶來的誤差傳播。然而,Lattice LSTM 也存在一些缺點,因為它只能考慮以每個字符為結尾的潛在詞,會出現潛在詞沖突和引入噪聲的問題;例如圖3中的“市長”和“長江”就是典型的潛在詞沖突,需要全局語義才能解決。此外,Lattice LSTM 本質上仍然是一個LSTM 結構,因此存在難以并行化,缺乏可遷移性,并且運行速度較慢的缺點。

圖6 Lattice LSTM模型結構Fig.6 Lattice LSTM model structure

為了解決Lattice 結構中的潛在詞沖突問題,Gui 等人[27]提出了LR-CNN 模型。該模型采用CNN 進行特征提取,每層引入Attention機制來融合對應字數的詞匯信息;同時,采用Rethinking機制解決詞匯沖突問題,將高層特征作為輸入,并通過注意力調整每一層的詞匯特征。LR-CNN 使用并行化方法進行特征提取,相較于Lattice LSTM模型加速了3倍左右。同樣,WC-LSTM[28]也對Lattice LSTM進行了改進,采用四種不同的策略將單詞信息編碼為固定大小的向量,以便可以分批訓練。

為了更好地利用Lattice結構中有效的詞信息,Xue等人[30]提出了基于自注意力機制的PLTE模型。該模型將相對位置關系編碼和每兩個非相鄰令牌共享的樞紐融入到Lattice 結構中,以增強自我注意力機制,從而大大提高了運算效率,并在MSRA等數據集上取得了良好的實驗結果。

Li 等人[31]提出了一種基于Transformer 的FLAT 模型,如圖7 所示,用于處理序列中長距離依賴關系。該模型使用完全連接的自注意力機制,并改進了原始Transformer的絕對位置編碼,設計新的相對位置編碼表達Lattice 結構。模型為每個字符和詞匯分配了兩個位置索引:頭部位置和尾部位置,通過這兩個位置索引,可以從一組標記中重構原有的Lattice結構,并實現字符與所有匹配詞匯信息間的交互。FLAT 模型運行效率很高,在性能上優于其他結合字典的模型,其中,使用BERT在大型數據集的性能改進尤其明顯。

圖7 FLAT模型結構Fig.7 FLAT model structure

相比于FLAT 模型使用詞嵌入和設計新的Transformer 層,Zhu 等人[32]提出了Lex-BERT,它直接將詞典信息整合到中文BERT中,用于命名實體識別任務。在Ontonotes4.0和ZhCrossNER上的實驗表明,Lex-BERT的模型遠遠優于FLAT模型。Yan等人[33]提出了基于自適應Transformer的TENER模型。在TENER中,Transformer編碼器不僅用于提取單詞級別的上下文信息,還用于對單詞中字符級別的信息進行編碼。并且TENER模型的實驗表明,TENER的性能優于當前基于BiLSTM的模型。

但FLAT 和TENER 模型需要在確定實體邊界時學習詞匯中單詞的其他嵌入。這就帶來一個缺點,即如果詞典得到更新,那么模型必須重新訓練,同時詞典還會引入過多的匹配噪聲。為了克服這些缺點,Wang等人[34]提出了DyLex,這是一種用于基于BERT 的序列標記任務的插件詞典合并方法。與傳統方法不同,DyLex采用了一種有效的監督詞匯的方法來消除匹配噪聲。在WEIBO 數據集上的實驗表明,即使使用非常大規模的詞典,DyLex框架也實現了SOTA水平。Liu等人[35]則是在詞典信息中引入了詞的字符位置,以更好地理解字符的含義。為了融合字符、字和字位置信息,他們對鍵值存儲網絡進行了改進,提出了一種TFM 模塊。這個模塊不僅可以簡單地串聯使用,還可以與一般的序列標記模型兼容。

(2)基于圖結構模型

近年來,圖神經網絡在處理圖數據時具有許多優勢,比如可以忽略節點的輸入順序、不受鄰居節點的影響等。這些特性使得圖神經網絡成為了當前研究的熱點。常見的圖神經網絡包括圖卷積神經網絡[36]、圖注意力網絡[37]以及門控圖神經網絡[38]等。這些網絡模型可以用于實體邊界的識別等任務。同時,一些學者也將圖結構和詞典信息結合起來,以解決實體邊界識別等問題,取得了不錯的效果。

Sui 等人[39]在中文NER 任務中首次引入了GAT 網絡和自動構造的語義圖,如圖8 所示,并提出了CGN 網絡(collaborate graph network)。該網絡通過構造三種不同的圖結構來獲取詞語的多角度、全方位信息,并在融合層進行合并。相較于傳統的方法,該模型不僅提高了中文NER 任務的準確率,而且極大地降低了計算時間成本。該研究成果為中文NER任務的深度學習方法提供了一種新思路,并對后續研究產生了積極的推動作用。然而,該模型沒有區分不同的詞邊緣,容易混淆字符和單詞之間的信息流。于是,Zhao等人[40]提出了一個多通道圖注意網絡MCGAT,它由三個詞修改的圖注意網絡組成。該網絡利用字符與單詞之間的相對位置關系,并結合詞頻統計信息和逐點互信息,以進一步提高模型的性能。此外,Gui 等人[41]引入一個具有全局語義的基于詞典的圖神經網絡LGN。該網絡使用GNN構造構成字與詞之間的關系,打破了基于RNN 的鏈式結構。LGN通過不斷地遞歸聚合實現節點與連接邊的信息更新,從而提升了模型性能。為了更好地捕獲對長距離依賴性能,Tang 等人[42]提出了一種新穎的詞字符級圖卷積網絡WC-GCN(word-character graph convolution network)。該網絡通過引入全局注意GCN 塊來學習以全局上下文為條件的節點表示。

圖8 CGN網絡架構圖Fig.8 CGN network architecture diagram

由于分詞之間的依賴關系可以幫助確定實體邊界,因此利用與句法依賴關系相關的信息來提高NER性能也是一個新思路。一些研究者采用了圖神經網絡來學習句法依賴圖的信息,并將學習到的信息合并到經典的雙向長短期記憶(BiLSTM)條件隨機場(CRF)NER方案中,這種方法取得了不錯的效果。例如,Zhu 等人[43]和Zhang等人[44]都利用了圖注意網絡來建立具有句法依存信息的單詞之間的依賴關系。Zhang等人[44]提出了一種名為MCSN(multi-graph collaborative semantic network)的方法,該方法利用漢語單詞的依賴關系,不僅克服了詞典的不足,而且更好地捕獲了漢語單詞的語義信息。

Wang等人[45]提出了一種多態圖注意力網絡(PGAT),旨在捕捉字符與匹配詞之間的動態相關性。該模型將每個字符映射到四個位置,即B(開始)、M(中間)、E(結束)和S(單個詞)。通過使用基于圖注意力網絡(GAT)的語義融合單元,可以動態地調節每個位置上匹配詞和字符之間的注意力,從而可以顯式地捕捉每個位置上字符和匹配詞之間的細粒度相關性。在醫學領域,中文NER 也是一個重要的課題。Xiong 等人[46]利用多源知識,將詞典與中國臨床NER(CNER)的邊界結合在一起,提出了一種基于關系圖卷積網絡(RGCN)的新方法。對于任何句子,都會構建基于每個知識源中的單詞或概念的關系圖。其中將出現在句子中的詞典單詞或知識圖概念進行標記,該標記具有詞典單詞或知識圖概念的邊界信息,這種方法有效地確定醫學文本中的實體邊界。

(3)自適應嵌入

自適應嵌入是一種將詞典匹配信息直接添加到字符表示中的方法。與傳統的嵌入方法不同的是,自適應嵌入不涉及編碼層,而僅僅對嵌入層的表示進行修改。這種方法可以提高嵌入層的效率,并且可以更好地適應特定任務的需求。

為了引入字典信息,Lattice LSTM在輸入序列中非相鄰字符之間增加了多條附加邊,這大大降低了訓練和推理的速度。為了解決這些問題,Ma 等人[47]提出了SoftLexicon模型,一種更簡單的方法來實現Lattice LSTM的思想。該模型在不修改上下文編碼器的情況下,為具有固定長度向量的字符表示添加了詞典信息。SoftLexicon將句子與字典相匹配,并對于每個字符找到包含它的所有單詞。然后,將這些單詞分為四個類別(BMES),并將它們映射到四個類別的向量中。最后將這四個向量與字符表示相連接,使邊界信息和詞義信息同時添加到輸入表示層中。該方法避免了設計復雜的序列建模體系結構,可以快速適應任意合適的神經網絡NER模型,并具有可遷移性。

為了捕獲融合字詞信息空間中的細粒度相關性,Zhao 等人[48]提出了DCSAN。DCSAN 是一個動態的交叉和Self-Lattice 注意網絡,將Cross-Lattice 注意模塊和Self-Lattice注意模塊與門限詞-字符語義融合單元相結合。Cross-Lattice注意模塊和Self-Lattice注意模塊分別用于捕獲輸入特征空間之間的相關性和動態融合單詞特征。這些模塊能夠有效地解決中文NER中存在的多義性和嵌套實體的問題。此外,DCSAN 能夠建立任意兩個字符之間的直接聯系,因此即使字符之間的距離很遠,也能夠識別出它們是否屬于同一個實體。該研究為中文NER 任務的深度學習方法提供了一種新思路,并在實驗中取得了良好的效果。這兩者結合可以有效地顯式捕獲不同空間之間的細粒度關系。Huang等人[49]也利用Lattice結構來引入詞典信息,但是在此基礎上使用外部無標簽數據對詞頻進行計數,并利用改進的交互信息來表示單詞的權重。此外,該方法為詞典信息的每個部分動態分配權重,注意力機制也針對詞典信息進行了處理。在這種方法中,字符和詞典信息的融合在輸入層之前進行處理,使其具有更快的訓練速度和更好的通用性。

BERT模型[50]通過掩詞模型和相鄰句預測兩個方法完成文本字詞特征的預訓練。掩碼語言模型和相鄰句預測是常用的自監督學習方法,可以通過大量無標簽數據進行預訓練,然后在有標簽數據上進行微調,從而提高中文命名實體識別的性能。這些方法不需要對模型進行太多修改,因此受到了該領域的廣泛關注。掩碼語言模型通過將單詞掩蓋并學習其上下文內容特征來預測被掩蓋的單詞,相鄰句預測則通過學習句子間關系特征來預測兩個句子的位置是否相鄰。為了更好地發揮詞典信息和預訓練模型BERT各自的優勢,更深層次的將詞典信息集成到BERT底層中,有很多研究者聚焦在詞典適配器上,利用自匹配的詞典特征完成字詞融合。Liu 等人[51]提出了用于中文序列標記的詞典增強BERT(LEBERT),如圖9所示,該模型通過詞典適配器層將外部詞典知識直接集成到BERT層中,并且在中文數據集取得了較好的結果。Sun等人[52]在BERT結構中加入詞典適配器將詞典信息引入,有效地獲取了實體邊界和單詞信息。值得一提的是Guo 等人[53]同時引入了指針網絡的序列對,將序列標記任務轉化為序列生成任務從而獲取全局語義特征。

圖9 LEBERT架構圖Fig.9 LEBERT schematic diagram

此外,由于漢字的復雜和特殊性,在引入詞信息過程中同時會融合漢字字形、拼音、部首和筆畫等特征。比如,如圖10 所示,Wu 等人[54]在中文命名實體識別中引入了漢字的結構信息,并提出了一種新型的交叉Transformer模型,名為MECT。該模型通過將漢字特征和部首級嵌入集成在一起,能夠更好地捕獲漢字的語義信息。與其他模型相比,MECT 能夠有效地提高中文NER的準確性。在Wu等人[54]的基礎上,Zhang等人[55]額外引入漢字拼音特征,提出Visphone模型。該模型使用兩個相同的交叉轉換器編碼器,將輸入字符的部首和語音特征與文本嵌入相融合。并使用一個選擇性融合模塊被用來得到最終的特征。在OntoNotes4.0、MSRA、Resume和WEIBO上進行了實驗,F1值比MECT模型分別提高了0.79%、0.32%、0.39%和3.47%。Mai 等人[56]通過加入漢字語音特征,解決了實體邊界潛在詞歧義問題。筆畫信息是漢字書寫的最基本單位。

圖10 MECT架構圖Fig.10 MECT architecture diagram

盡管單個筆畫本身沒有特定含義,但是在字符書寫的過程中,筆畫的順序和組合會包含一定的語義信息。Luo等人[57]在研究中提出了一種基于筆畫和ELMO[58]的中文電子病歷實體識別方法。實驗結果表明,通過對語言模型進行預訓練,筆畫ELMO能夠學習到大量漢字的內部結構信息,并取得了比隨機字符ELMO更好的效果。

漢字的字形信息源于甲骨文模仿實物形狀的方式而來,且通常使用卷積網絡來對漢字的圖像進行信息和語義提取。Xuan 等人[59]提出了一種結合了滑動窗口和注意機制的方法,來將每個字符的BERT表征和字形表征融合起來。實驗證明,這種方法可以獲得漢字上下文和字形之間潛在的交互知識。還有一些中文命名實體識別模型引入了多粒度嵌入的方法。比如,Zhang 等人[60]結合了中文筆畫、漢字部首和漢字特征,使用卷積網絡提取漢字筆畫信息,并將其與字詞信息相結合,有效地豐富了語義信息和實體邊界信息。Huang等人[61]提出了三種關系,包括字符之間的相鄰關系、潛在單詞之間的字符共現關系和令牌之間的依賴關系,并設計了一種掩蓋的自我注意機制來合并潛在單詞本地上下文信息。為了避免詞典和依賴關系等外部知識引入噪聲,他們提出了一種門控信息控制器來解決這個問題。實驗證明,這種方法是有效的。

2.1.3 模型總結

表3列舉了近年來,基于深度學習方法解決扁平實體邊界問題的模型在四個常見的中文數據集上的F1-score結果對比。并且直觀地列出模型采用的字符嵌入的方式和引入何種外部資源。從表格中不難發現加入預訓練模型BERT 之后的性能都顯著提高,尤其是LRCNN 在WEIBO 上的F1-score 值顯著提升了7 個百分點,雖然使用BERT可以提高識別的準確率,但是BERT需要大型數據集,并且BERT 內部參數過多,在訓練時會導致內存不足和訓練時間過長等缺點;并且還會發現確定實體邊界的主體的方法依然是BiLSTM+CRF,使用Transformer 方法的性能,往往要受到是否引入預訓練模型BERT的影響;此外還可以看出加入詞典和額外的外部資源后對于性能提升是有效的,但是在實際應用中,構建詞典是費時費力的,而且還會伴隨著由錯誤數據的影響。

表3 扁平實體邊界模型的F1-score結果分析Table 3 F1-score analysis of flat entity boundary model

聯合訓練的方法模型,比如ZH-NER 和MTLWT等,挖掘共享底層網絡信息,從共享分詞和NER任務中語義信息,提取更多的字符和詞特征,有效地提高分詞和實體識別任務之間的相關性。但是聯合模型必須依賴于CWS和NER任務標注的數據集,這顯然增加了模型的復雜度和訓練時間。

自適應的基礎框架模型,如CNN 堆疊編碼結構的LR-CNN、WC-LSTM和具有晶格結構的Lattice,以及具有Transformer結構的PLTE、FLAT等。這些自適應的基礎架構都是從模型輸入層的角度優化中文命名實體識別性能;這類模型通過設計相應的結構以融合詞匯信息。但是模型不具有移植性的特點。晶格結構有效地解決了因為分詞帶來的誤差傳播了的影響,并且有效地融入詞典信息。CNN堆疊編碼模型則解決了詞匯沖突的問題,在數據集上達到了不錯的效果。但是這兩者無法有效地捕獲長距離依賴的問題,存在一定程度上的信息損失。基于Transformer 的深度學習網絡模型,如DyLex等,克服了文本長距離依賴問題以及減少了捕獲句子中單詞之間關系的計算成本,從而提升了模型的性能,但是在實際的應用場景中,Transformer 模型所需的模型參數往往較多,網絡結構復雜,所以還是一定程度上影響了模型性能。

基于圖結構模型,如MCGAT、LGN、SDI、PGAT等,將NER 任務轉化為node 分類任務;一方面挖掘文本內部的圖結構信息,另一方面在圖結構中融入詞典信息,從而提取更多的局部特征。比如PGAT[46]同時在MSRA、WEIBO、OntoNotes4.0 三個數據集上的表現效果極佳,在OntoNotes4.0 上實現了81.87%的結果,超出了基于Transformer 模型的SOTA 結果。此外,SDI 則引入句法依存圖結構有效提升文本上下文語義信息,但是仍然面臨圖數據帶來的模型結構復雜的問題。

自適應嵌入模型中,如LEBERT、MECT、Visphone、PDMD等通過只修改表示層的操作,引入預訓練模型和外部資源特征比如具有部首、讀音、筆畫、詞頻等增強漢字語義特征,實現了可移植的效果。比如,Mai 等人將讀音與詞邊界信息融合,得到了更好的嵌入表示,有效地解決了邊界歧義問題,在OntoNotes4.0中文數據集上達到了83.14%的極佳效果;同樣Huang 將詞頻加入到表示層嵌入中,利用常用的BILSTM+CRF 編碼器,在Resume上達到了96.73%的最好效果。

總的來說,在確定實體邊界的問題上,可以從引入外部資源、模型結構、輸入層的表征三個方面進行優化。即引入詞典獲取更豐富的語義信息和漢字的相關特征,在輸入層引入預訓練好的語言模型,同時結合多個深度學習網絡,取長補短地獲取適合相應任務的模型。而這種思路逐漸成為確定實體邊界提升CNER 任務的主要思路。

2.2 中文嵌套命名實體識別

在許多實際應用中,命名實體是具有嵌套結構。具體來說,一個實體可以包含其他實體或成為其他實體的一部分,如圖11“南京市紅十字會”是一個ORG 類型的實體,它包含兩個內部實體,即“[南京市]LOC”,“[紅十字會]ORG”。由于一般模型的序列標注特性和單標簽分類特性,往往只能識別一個大實體“南京市紅十字會”或者兩個小實體“紅十字會”和“南京”。難以將這三個實體同時全部識別出來。嵌套命名實體需要豐富的實體及其之間的關系,因此,對嵌套命名實體的識別已成為重要的研究方向。

圖11 中文嵌套命名實體識別示例Fig.11 Example of nested named entity recognition in Chinese

對于嵌套NER 的研究,研究者大多集中在英文嵌套命名實體識別(English nested named entity recognition,ENNER)任務上,從模型體系結構的角度來看,目前基于深度學習解決ENNER的方法可以分為以下幾種主流:基于分層的、基于過渡、基于區域的、基于超圖的方法和其他模型方法[62]。然而,由于中文文本的復雜性,針對中文嵌套命名實體識別需要在上述幾種主流的方法的基礎上進行改進。下文將詳細介紹這幾種主流方法在中文嵌套實體識別上的應用。

2.2.1 基于分層的方法

基于分層的方法通常將嵌套的NER任務視為多個扁平命名實體識別(flat name entity recognition)任務。該方法先提取內部實體,然后將其送到下一層提取外部實體,同時遵循級聯結構,對層模塊進行串聯連接。然而,該模型存在明顯的層與層之間的誤差傳播問題。

圖12展示了基于分層的兩種具有代表性的一般體系結構;圖12(a)的分層結構包括編碼器-解碼器模塊,其中每一層包含一個編碼器層和一個解碼器層,較高層的編碼器可以從較低層的編碼器獲取實體信息。例如Ju 等人[63]首次提出了一種以內向外的方式動態地堆疊平面NER層的模型,即Layered-BiLSTM-CRF模型。該模型將編碼器的輸出合并到當前的平面NER 層中,以構建檢測到的實體的新表示,并隨后將新表示饋送到下一個平面NER層。這種策略允許模型通過利用其對應的內部實體的知識來識別外部實體,其中堆疊層的數量取決于輸入序列中的實體嵌套級別。此外,張汝佳等人[64]在文獻[63]的基礎上添加了分割注意力模塊和邊界生成模塊,進行邊界增強,有效地捕獲潛在的分詞信息和相鄰字符之間的語義關系。

圖12 基于分層的兩種具有代表性的一般體系結構Fig.12 Two representative general architectures based on layering

圖12(b)僅包含解碼器模塊,在這個體系結構中只有一個共享的編碼器層和多個解碼器層來捕獲來自不同層的實體。比如,Wang 等人[65]提出了一種新型的嵌套命名實體識別分層模型,即金字塔模型。該模型采用由內而外的方式處理嵌套的NER 任務。具體而言,金字塔模型由一系列相互連接的層組成,每一層都預測一定長度的文本區域是否為實體。此外,還設計了一個反金字塔,以允許相鄰層之間的雙向相互作用。這樣,該模型將根據命名實體的長度來識別,避免了層迷失和錯誤傳播的問題,實現了更加精準的命名實體識別。相比之下,Shibuya等人[66]提出了一種基于CRF的解碼方法,可以從外到內的方式迭代識別實體,避免結構歧義。首先,使用BiLSTM 模型對輸入語句進行編碼,并利用最后一個隱藏層的輸出來表示語句中的令牌。然后,對于每個命名實體類別,構造一個CRF進行解碼,提取最外層實體和內部實體,而無需重新編碼。對于每個實體類別,對應的CRF解碼整個句子的標簽序列,以提取最外層的實體。然后,該模型在先前提取的實體的基礎上進一步遞歸地提取內部實體,直到每個區域都沒有檢測到多令牌實體。同樣,金彥亮等人[67]也采用分層機制,但是在每一層之間加入一個自注意力機制模塊聯合多層序列標記模型,更有效將較低層實體中的隱藏語義送到更高層的實體中。在人民日報的數據集上良好的結果證明了加入自注意力機制的有效性。

2.2.2 基于區域方法

基于區域的方法一般將嵌套命名實體識別任務視為多類分類問題,并采用各種策略在分類之前獲取潛在區域(即子序列)的表示。根據進展策略的不同,現有的基于區域的方法可以分為兩類,分別為基于枚舉的策略和基于邊界的策略。具體來說,基于枚舉的策略是指從輸入句子中學習所有枚舉區域的表示,并將它們歸入相應的實體類別。而基于邊界的策略則是通過利用邊界信息建立候選區域(可能是實體)的表示,然后完成實體分類。兩種策略的體系結構如圖13和圖14所示。

圖13 基于枚舉策略Fig.13 Enumeration based policy

圖14 基于邊界策略Fig.14 boundary based policy

在基于枚舉的策略中,Sun 等人[68]提出了一種端到端的基于區域的TCSF模型,該模型能夠同時學習句子中的令牌上下文信息和區域特征。為了實現任務,模型通過從上下文標記級序列中枚舉所有可能的區域表示來進行訓練。在Transformer 的啟發下,模型進一步設計了一個區域關系網絡,對句子中的所有可能的區域表示進行建模,以產生每個區域的關系表示。這種方法使得模型能夠更好地捕捉上下文信息,從而在中文嵌套命名實體識別任務中取得了很好的效果。Long 等人[69]提出了一種分層區域學習框架,能夠自動生成候選區域的樹狀層次結構,并將結構信息納入區域表示,以幫助更好地分類。此外,還引入了基于詞的相干測度來進行層次區域生成,測度值越高表示相鄰詞之間的相干程度越高。

相較于枚舉策略,基于邊界策略的最大優勢是不需要再對一個句子中的所有區域進行枚舉。雖然文獻[68-69]具有處理嵌套命名實體識別的能力,但也同時面臨著計算代價過大、忽略了邊界細節、不充分利用與實體部分匹配的大跨度和多體識別難度過高等問題。為處理這種情況,Shen等人[70]給出了一種二層次的實體標識符模型。這種模型首先利用了對種子跨度的濾波和邊界回歸得到了長度建議,并確定了實體,進而把經過邊界調整后的長度建議標識成了具體的類別。該方法在訓練過程中,合理地使用了實體的邊界信息以及部分匹配的跨度。同時利用了邊界回歸,在理論上能夠覆蓋任何長的實體,從而增強了對長實體的辨識能力。而且,在第一階段過濾掉了許多低質量種子跨度,從而減少了推理的時間復雜性。在嵌套的命名實體識別數據集上的實驗表明,提出的方法在ACE2005 的數據集上達到了86.67%的F1 值。但是,這兩個階段的方法仍然存在忽略跨度邊界、長實體識別困難和誤差傳播的問題。于是,Huang 等人[71]提出了一種新的NER 框架,稱為Extract-Select。該框架采用了一種跨度選擇策略,讓提取器能夠準確地提取嵌套實體,有效避免以往的兩階段方法中的錯誤傳播。在推理階段,訓練好的提取器會選擇特定實體類別的最終結果。此外,該模型還使用了一種混合選擇策略,結合了跨度邊界和內容,提高了對長實體的識別能力。為了評估抽取結果,該模型還設計了一個判別器,并使用生成對抗訓練方法對提取器和判別器進行訓練。該方法顯著減輕了數據集大小的壓力,并在ACE2005數據集上實現了87.76%的F1值,表明該方法的有效性。為了學習更好的跨度表示和提高分類性能,Yuan 等人[72]提出了一種三仿射機制(triaffine mechanism)。該機制在跨度結構中集成了內部標記、邊界和標簽等一些異構因素。三仿射注意力使用邊界和標簽作為查詢,并使用內部標記和相關的跨度作為跨度表示的鍵和值;而三仿射評分則與分類的邊界和跨度表征相互作用。實驗表明,該機制在KBP2017 數據集上取得了最先進的F1成績。為了解決嵌套數據中存在大量重疊的問題,Wan等人[73]提出了一種在跨度層中基于圖相似度的全局構建實體-實體圖和跨度-實體圖的方法。他們將相似鄰居實體的信息集成到Span 表示中,從而連接跨層和訓練數據中的實體關系。這樣,可以更好地處理實體之間的關聯信息,提高嵌套實體識別的準確性和效率。Chen等人[74]在BA(boundary assembling)模型的基礎上進行改造,使模型能夠通過在外部資源中預先訓練的詞嵌入來捕捉句子的語義信息,有效解決由于特征稀疏而導致識別性能差的問題。

總的來說,跨度模型通常是解決嵌套問題的常用模型,但是該模型在劃分實體區域時,常常由于沒有充分考慮整體上下文信息而存在負樣本過多、在邊界檢測中未能充分利用實體部分匹配的跨度以及時空復雜度較高等問題。

2.2.3 基于過渡方法

基于過渡的嵌套NER方法主要受基于過渡的解析器的啟發,這種方法從左到右解析一個句子,基于一次貪婪地解碼一個動作來構建一棵樹。但當實體嵌套層數很高時,狀態轉移的規則變得非常復雜,導致模型的性能下降。Wang等人[75]提出了一個可擴展的基于過渡的模型。如圖15 所示,該模型將句子映射到一個森林結構中,其中每個實體對應于森林的一個組成部分。然后模型學習了通過一個動作序列,以自下而上的方式構建森林結構的方法。這種方法可以有效地處理嵌套實體,提高嵌套實體識別的準確性和可擴展性。在生物醫學領域,Dai 等人[76]提出了一種基于端到端過渡的模型。該模型使用了通用的神經網絡進行編碼,并采用特定的動作和注意力機制,以確定跨度是否是不連續提及的一部分。在三個生物醫學數據集上測試,證明該模型可以有效地識別不連續提及,而不會失去連續提及的準確性。

圖15 基于過渡方法示例Fig.15 Example of transition based method

2.2.4 基于超圖方法

基于超圖的方法利用超圖來表示句子中實體的嵌套結構,同時利用基于圖的全局優化策略來完成邊界檢測和類別預測,并能利用超圖中的hyperarc在屬于不同命名實體的一個句子中精確標記令牌。Wang等人[77]提出了一種無結構歧義的超圖表示。該模型使用分段超圖來表示句子中潛在重疊提及的情況。通過重新設計節點,使得模型更好地探索不連續命名實體的各種跨度組合,從而提取局部特征。同時,使用一種廣義的內外式消息傳遞算法,將子節點的特征有效地總結到父節點上,實現對超圖結構上的推理。同樣,Luo等人[78]也針對圖結構歧義的問題,提出捕捉超圖層之間的雙向信息交互結構,有效地從Graph模塊中學習更豐富的含有內部實體依賴關系的表示形式,從而提升最外部實體的預測性能。Yu 等人[79]則提出了一種利用圖的依賴思想的方法。他們使用biaffine模型對句子中的開始和結束標記對進行評分,并通過探索所有跨度來精確預測命名實體。這種方法為模型提供了對輸入的全局視圖,從而提高了命名嵌套實體識別的準確性。總的來說基于超圖的模型需要消耗大量的人力資源來設計超圖;并且在訓練和推理期間時間復雜度高,并且容易出現圖結構歧義問題。

2.2.5 其他模型

由于嵌套實體也是屬于命名實體識別中的一部分,因此,人們對依托基于機器閱讀理解的解決方法,用統一模型同時解決扁平NER 和嵌套NER 越來越感興趣。Li 等人[80]提出了一種將嵌套命名實體識別轉換為機器閱讀理解(MRC)任務的方法。該方法以BERT為基礎,并針對需要識別的實體構造了一系列問題,從而轉換帶注釋的命名實體識別數據集為一組{問題,答案,上下文}元組。最后,利用兩個二進制分類器,一個用于預測每個令牌是否是實體的開始,另一個用于預測每個令牌是否是實體的結束,來完成嵌套命名實體識別任務。然而,這項工作在很大程度上依賴于訓練數據的大小且容易忽略了內容信息。Li等人[81]提出了一種名為W2NER的模型,將NER 問題統一建模為詞-詞關系分類問題。該架構通過有效地建模具有Next-Neighboring-Word 和Tail-Head-Word關系的實體詞之間的相鄰關系來解決統一NER的核心瓶頸。此外,Zhang等人[82]用生成模型的方式統一解決Flat NER、Nested NER 和Discontinuous NER 問題,并且實驗證明了生成模型有助于提升NER性能。

目前常見的中文嵌套NER的數據集有《人民日報》、ACE2004[83]、ACE2005中文[84]、IEER-99新聞[85]、MET2測試[86]等。這些都是公開數據集,同時還有一些在特定領域的隱私數據集。比如Xu 等人[87]的中醫藥數據集,他們在自己建立的中國傳統的醫學記錄數據集上利用兩層序列標注,對多個扁平命名實體模型進行堆疊,每一層分別識別不同粒度大小的實體,最終達到85.91%的召回率。以及電子病歷數據集[88]。

綜上所述,以上幾種嵌套NER方法各有所長,也各有所短。研究者充分利用各種算法的優勢,進一步提升實體識別的性能。上述幾種方法的相關比較如表4所示。

表4 基于分層、區域、過渡和超圖方法的嵌套NER比較Table 4 Nested NER comparisons based on hierarchical,region,transition,and hypergraph methods

2.2.6 模型總結

表5 給出了中文嵌套命名實體識別利用深度學習的網絡在常用數據集ACE2005 中文、ACE2004 和人民日報上F1-score值的對比分析結果。從表5中不難發現中文嵌套命名實體識別的分數普遍不高,在基于分層模型中金字塔模型在Layered-BiLSTM-CRF 模型的基礎上引入邊界和注意力模塊機制后,在ACE2005上的性能提高了7.17個百分點;Highway-Multihead和Multi-layer+Self-Attention+CRF 在每一層都采用序列標注的方式,雖然在人民日報的數據集上分別達到了91.41%和92.9%的好結果,但是序列標注會帶來無法并行訓練的和存在層與層之間的錯誤傳播。而基于區域的模型可以避免層層誤差傳播問題,從表5 中可以看出,區域模型的整體效果比分層模型要好。其中Locate-Label、Extract-Select 和Triaffine+AlBERT 的表現尤為明顯,這三個方法大都采用兩階段的方式,在區域方法中設置,相應的邊界檢索模塊,有效地識別到嵌套實體。此外統一扁平和嵌套NER 模型效果也相對較好,比如BERT-MRC 達到了86.88%的F1值。

表5 嵌套模型的F1-score值對比Table 5 Comparison of F1-score values for nested models

基于分層的方法,如Pyramid、BERT+FLAIR 和Highway 等,因為其不考慮層與層之間的相關性,并且當前層的輸出結果可能與前層的一部分結果無關,從而在使用先前層結果的輸入來引入噪聲,從而導致分類器的結果較差。

基于區域的方法,如基于枚舉策略的TCSF、Hierarchical等和基于邊界策略的Extract-Select、Triaffine 等。基于枚舉策略的區域方法通過確定命名實體的起始和結束位置來識別實體,枚舉所有可能的嵌套實體來確定嵌套層次,因此能夠在一定程度上提高識別的準確性。但是枚舉策略需要事先定義好所有的實體類型,因此對于未知的實體類型,則存在負樣本多的缺點。對于邊界策略的區域方法,充分挖掘區域最優子結構性質,考慮上下文信息,逐步確定實體邊界從而確定嵌套層次。因此識別效率相對較高。但是對于邊界標注要求較高,如果標注不準確則會影響識別結果的準確性。

基于超圖的方法,如BiFlaG、Biaffine 等,因為其通過學習超圖結構的性質捕捉是實體類型的共性和差異性,因此在一定程度上可以處理未知實體的問題。但是超圖方法需要將所有實體與實體之間的嵌套關系表示為超圖,并通過圖解算法求最優嵌套關系,因此計算復雜度較高。

其他方法,如BERT-MRC、W2NER 等,基于機器閱讀理解的方法通過預訓練模型自動學習特征,不需要手動設計特征工程,提高了模型的泛化能力。但是也因此需要大量的訓練數據和計算資源,并且該模型通常采用黑盒模式,因此其可解釋性較差。

總的來說,現如今利用區域模型的方法和基于機器閱讀理解的方式統一地解決扁平和嵌套的中文命名實體識別任務的主要思路。

2.3 中文NER小樣本問題處理

由于基于深度學習的NER模型通常需要大規模的標記數據來更好地訓練模型。當標簽數據不足時,基于深度學習的中文NER模型不能充分發現數據的隱藏特征,從而大大降低了基于深度學習的中文NER 模型的性能。同時,中文NER 的任務主要用于信息專業化的領域,各領域之間的相關性不大,可移植性不高。因此,很難將現有的標簽數據和深度學習模型移植到資源貧乏的領域。

針對中文命名實體識別中的小樣本問題,可以采取一些方法來緩解針對上述問題,目前主要有以下幾種方法:基于遷移學習的方法、基于半監督學習的方法、基于知識蒸餾的方法和基于提示學習的方法。

2.3.1 基于遷移學習的方法

基于遷移學習的方法是通過將已有的大規模數據集中的知識遷移到低資源數據集中,一方面遷移學習根據其對數據和標簽依賴性小的優點,放松獨立和相同的分布約束使其成為解決資源貧乏的NER 的主要選擇。另一方面基于轉移學習的NER方法在源域中使用大量的標簽數據和預訓練模型,能夠提高目標域的學習性能,更重要的是它能夠將源域模型的部分參數或特征表示遷移到目標域模型,而不需要額外的對齊信息,實現跨域中文NER遷移任務。目前基于深度遷移學習解決低資源的中文命名實體識別的方法可以分為三類:數據遷移的方法、基于模型遷移的方法和基于對抗網絡遷移方式。如圖16所示展示了遷移學習的原理圖。

圖16 遷移學習的原理圖Fig.16 Schematic diagram of transfer learning

數據遷移的基本思路是將高資源的標注數據通過一些對齊信息(文本翻譯和標簽映射等)手段轉換成低資源的標注數據,然后基于這些數據進行訓練CNER模型[89-90]。Akbik 等人[91]提出了一種結合字向量和詞向量的遷移學習模型。該模型對稱地將低資源數據轉換為高資源數據,以提高低注釋深度學習模型的性能。Peng等人[92]提出了一種結合有限標記數據遷移學習技術的深度學習模型(TL-NER),可以應用于少量的標簽數據和大量的未標記文本數據,完成中文NER的任務。Sheng等人[93]為了提高深度學習方法在實體識別任務中缺乏實體標注標記數據時的性能,減少跨域分詞和標簽映射中的錯誤率,提出了結合字符為單詞的遷移學習方案。在BiLSTM網絡的域中執行特征傳遞和參數共享任務,實現零資源標注。

模型遷移不需要學習高資源信息的特征,直接在源語言的標注數據上訓練CNER,將源模型的部分參數或者特征表示遷移到目標模型上。Yao等人[94]提出了一種基于對稱輕量級深度多網絡協作(ALBERT-AttBiLSTMCRF)和主動學習的模型遷移(MTAL)的方法,使用主動學習優化遷移模型效果,解決了標記域數據稀缺的問題,比遷移前的效果高出3.55%的改進。多語言BERT(multilingual BERT,mBERT)是一種在大型多語言語料庫上進行預訓練的語言模型,在zero-shot和跨語言模型傳輸方面表現上最為出色,Chen等人[95]提出了一種基于注意機制的特征聚合模塊,并融于mBERT 中以獲取不同層次的信息。在四個zero-shot 跨語言傳遞數據集上證明了有效性。但是模型遷移可能會出現領域差異過大的問題,微調過程需要重新訓練一部分模型,需要大量的計算資源。

對抗網絡遷移是受到生成對抗網絡(GAN)的啟發,學習目標域與源域無關的特征,實現源域知識到目標域的遷移,有效緩解非對抗網絡遷移方法帶來的負遷移的問題。近年來,隨著生成對抗網絡(GAN)的興起,將GAN 引入遷移學習已成為大多數NER 研究者的追求。對于具有少量注釋數據的中文NER 任務,可以利用中文分詞任務完成注釋任務。然而,中文分詞既沒有保留詞的特定信息,也沒有利用詞的邊界信息。針對這一問題,Wen等人[96]提出了一種基于跨域對抗學習(CDAL)的中文命名實體識別方法,構建一個基本預訓練的框架單元并對大量未標記數據的遷移學習進行預訓練,有效地預測了目標域中的結果提出了一種基于跨域對抗學習(CDAL)的中文命名實體識別方法,構建一個基本預訓練的框架單元并對大量未標記數據的遷移學習進行預訓練,有效地預測了目標域中的結果。同時該框架可以利用漢語NER和漢語分詞中兩個任務共享的詞邊界特征,防止特定信息的丟失。在電子病歷領域,Dong等人[97]將多任務BiLSTM模型與遷移學習相結合,提出了一種新的遷移學習模型。該模型從一般領域的漢語語料庫中獲取潛在知識,并將其應用于NER 中醫學術語挖掘任務中。對實際數據集的實驗評估結果表明,該方法可以作為一種在有限數據下提高NER性能的解決方案。

Hu等人[98]同時利用來自多個領域(微博和新聞)和多個任務(NER和CWS)的信息構建了一個雙重對抗網絡。通過不同任務、不同領域的聯合訓練,學習領域共享信息和任務共享信息。最后,利用共享的信息來提高網絡環境在特定領域特定任務中的效果。

2.3.2 基于半監督深度學習的方法

基于半監督深度學習的中文命名實體小樣本方法主要通過利用未標記數據和標記數據之間的關系,來提高在小樣本情況下的CNER 性能。該方法通過在已有的標記數據上進行訓練,學習一個初始模型,然后使用未標記數據進行半監督訓練,進一步優化模型。

He 等人[99]提出一個包含跨域學習和半監督學習的統一模型,既可以用跨域學習函數學習域外語料庫,又可以通過半監督自我訓練學習域內未注釋文本,有效地提高了中文社交媒體NER的性能。Chen等人[100]提出了一個魯棒的半監督NER方法ROSE-NER來解決醫學領域噪聲數據對CNER 模型的穩健性產生負面影響。作者引入兩步半監督模型,用大量預測的偽標記數據擴展少量的標記數據。在醫學數據集上的實驗表明,該方法減少了對大量標記數據的依賴,實驗證明該方法優于其他方法。

為了在半監督環境下有效地融合多模態命名實體識別(MNER)的文本和圖像特征,Zhou 等人[101]在半監督設置下利用未標記數據的有用信息,提出了一種新的基于跨度的多模態變分自動編碼器(SMVAE)模型。該方法利用特定模態的VAE對文本和圖像的潛在特征進行建模,并利用專家產品獲取多模態特征。有效地解決了在社交媒體上對命名實體進行注釋需要付出大量的人力的問題。Hao 等人[102]將半監督的深度學習于跨領域的遷移學習相結合,提出了一個半監督的框架可轉移的NER,其中解除領域不變的潛在變量和領域特定的潛在變量。在所提出的框架中,通過使用領域預測器將領域特定的信息與領域特定的潛變量集成。使用三個互信息正則化項將領域特定和領域不變潛變量進行分離,即最大化領域特定潛變量與原始嵌入之間的互信息,最大化領域不變潛變量與原始嵌入之間的互信息,以及最小化領域特定和領域不變潛變量之間的互信息。

2.3.3 基于知識蒸餾的方法

基于知識蒸餾的小樣本學習方法旨在通過使用大型預訓練模型(教師模型)的知識來指導小型模型(學生模型)的學習,以提高其在小樣本情況下的性能。具體來說,該方法首先使用大量的未標注數據對教師模型進行預訓練,然后將教師模型的輸出用作學生模型的輔助目標。其常采用的方式包括軟標簽蒸餾和特征蒸餾。Zhou等人[103]借鑒了知識蒸餾(knowledge distillation,KD)的軟標簽蒸餾,利用k-best 維特比算法建立替代標簽,從教師模式中提取知識。此外為了最大程度地讓學生模式吸收知識,提出了一個多粒度精餾方案,該方案綜合了條件隨機域和模糊學習中的交叉熵。在MSRA、WEIBO、OntoNotes4.0 上分別達到了92.99%、71.62%、76.05%的好成績。

Wang等人[104]提出了一種提取方法(Distil-AER),將大規模標記的全標準地址數據集中的知識轉移到口語對話情景下的細粒度地址實體識別任務中。利用特征蒸餾,將教師模型的隱藏層表示用作學生模型的輔助目標,進而能夠更好地捕捉輸入的關鍵特征。

在中文零資源語言中由于源語言和目標語言在特征分布上的差異,教師網絡無法有效地學習跨語言共享的獨立于語言的知識。學生網絡在教師網絡獲取所有知識的過程中忽略了目標語言特定知識的學習。為了解決以上問題,Ge 等人[105]出了一種無監督原型知識蒸餾網絡(ProKD)模型。ProKD 采用基于對比學習的原型對齊方法,通過調整源語言和目標語言中原型之間的距離,提高教師網絡獲取與語言無關知識的能力,實現類特征對齊。此外,ProKD還引入了一種原型自訓練方法,通過利用樣本與原型的距離信息重新訓練學生網絡對目標數據進行學習,從而提高學生網絡獲取特定語言知識的能力。在生物醫學領域內,由于BioBERT[106]規模太大,速度太慢,為此Hu等人[107]提出一種基于知識蒸餾的快速生物醫學實體識別模型FastBioNER,FastBioNER使用動態知識精餾對BioBERT模型進行壓縮。采用動態權重函數模擬真實的學習行為,調整訓練過程中各部分損失函數的重要性。從而將動態知識提取將訓練好的BioBERT壓縮成一個小的學生模型。

基于知識蒸餾的小樣本學習方法相較于半監督學習,不需要額外的未標注數據,可以使用現有的標注數據和預訓練模型來進行訓練;相較于遷移學習,知識蒸餾可以在不同的任務和數據集上重復使用預訓練模型的知識,實現知識的遷移。但是知識蒸餾的性能受到教師模型的影響,如果教師模型質量不好,學生模型的性能也會受到影響,并且如果教師模型的任務和數據集與當前任務和數據集不匹配,可能無法實現良好的遷移。更重要的是知識蒸餾的訓練過程比傳統的訓練過程要復雜,需要調整很多參數,需要花費更多的時間和精力。

2.3.4 基于提示學習的方法

提示學習是一種不需要改變預訓練語言模型結構和參數,通過改造下游任務、增加提示信息和專家知識,使任務輸入和輸出適合原始語言模型的一種方式,從而在零樣本或少樣本的場景中獲得良好的任務效果。近年來有很多學者利用提示學習的新思路去解決英文小樣本NER 的問題,比如在2021 年Cui 等人[108]提出了一種基于模板的NER模型,使用BART模板枚舉文本跨度并考慮每個文本的生成概率,在手動制作的模板中輸入。該方法證明了提示學習可以有效解決英文小樣本NER 的問題。基于模板提示的方法需要枚舉所有可能的候選實體,存在較高的計算復雜度問題,因此,Ma 等人[109]提出一種在小樣本場景下無模板構建的提示方法,該方法采用預訓練任務中的單詞預測范式,將NER 任務轉化成將實體位置的詞預測為標簽詞的任務。該方法能減少預訓練和微調之間的差距并且解碼速度比基線方法快1 930.12倍。

在中文少鏡頭(Few-shot)或零鏡頭(Zero-shot)數據集上實現良好的性能一直是CNER面臨的挑戰。為此,Lai 等人[110]提出基于提示學習的父母和孩子的BERT(PCBERT),在中文的小樣本NER 中取得的優異的效果。該方法在源數據集上訓練注釋模型,在低資源數據集上搜索隱式標簽。同時設計標簽擴展策略來實現高資源數據集的標簽傳輸。在微博等中文數據集上證明了提示學習在中文少鏡頭學習中的有效性。Huang 等人[111]結合距離度量學習測量對象語義相似度方法和提示學習的模板,提出了對比學習與提示指導的少鏡頭NER(COPNER)。該方法引入提示組成的類別特定的詞COPNER 作為監督信號進行對比學習,以優化實體令牌表示。Kan 等人[112]為了提高數據稀缺場景中事件抽取的泛化能力,提出了新的可組合的基于提示的生成框架。該框架將信息抽取任務轉化為確定提示語語義一致性的任務,并重新制定在預先設計的特定類型提示中填充空格的形式。實驗證明了,在數據豐富和數據稀缺的情況下,該方法優于中午數據集上的比較基線。此外,Huang等人[113]提出了基于提示性的自我訓練兩階段的框架。該框架在第一階段,引入了一種自我訓練的方法,通過提示信息調整來提高模型的性能,以減輕噪聲偽標簽的錯誤傳播。在第二階段,針對高置信度偽標簽和原始標簽對BERT 模型進行了微調。在五個標簽的OntoNotes5.0數據集上達到了73.46%成績。總的來說,提示學習在低資源場景的CNER 任務上得到了初步嘗試,未來會有更多復雜的方法來增強提示,并應用于低資源場景下的許多任務中。

在小樣本問題上,基于遷移學習方法、基于半監督深度學習、基于知識蒸餾的方法和基于提示學習的方法這四種方法進行了比較分析,具體如表6所示。

表6 CNER小樣本問題處理方法比較Table 6 Comparison of CNER small sample problem processing methods

3 數據集與評估標準

本章將介紹在中文命名實體識別中常用的數據集,以及評估標準。

3.1 數據集

數據集在模型性能評估環節中舉足輕重的地位,尤其是經過高質量標注的數據集。

表7 列舉了8 個CNER 中常用的數據集,并從其類型、實體類型、文本來源等進行說明。這些數據集的來源廣泛,有常用的學術基準公開數據集,例如MSRA、WEIBO、RESUME、OntoNotes;有私有數據集適用于特定領域,比如公司提供的BosonNLP中文語料庫和電子商務領域的E-commerce NER。此外還有用于競賽的數據,但是競賽數據是不對外公開的,需要報名參賽才能獲取,比如常用于醫療競賽的數據CCKS2020和CHIP2020。

表7 常見中文命名實體識別數據集列表Table 7 LIST of common Chinese named entity recognition datasets

MSRA[114]:微軟注的新聞領域的實體識別數據集。包含5萬多條中文實體識別標注數據,實體類別分為人名(Person)、位置(Location)和組織(Organization)三類實體。

WEIBO[115]:根據新浪微博2013 年11 月至2014 年12 月間歷史數據篩選過濾生成。包含1 890 條微博消息,實體類別分為人名(Person)、位置(Location)、組織(Organization)和地區名(GPE)四類實體。

RESUME:根據新浪財經網上市公司的高級經理人的簡歷摘要數據篩選過濾和人工標注生成的。該數據集包含1 027份簡歷摘要,實體類別分為人名(Person)、國籍(Country)、位置(Location)、種族(Race)、專業(Profession)、學位(Education)、機構(Organization)、職稱(Title)8個類別。

OntoNotes Release 5.0[116]:根據大型手工注釋語料庫得來。有五個版本從1.0~5.0,包含實體類別分別為人名(Person)、位置(Location)和組織(Organization)等18個實體類型。

CLUENER2020[117]:根據清華大學開源的文本分類數據集THUCNEWS篩選過濾、實體標注生成。該數據集包含實體類別分別為組織(Organization)、人名(Person)、地址(Address)、公司(Company)、政府(Government)、書籍(Book)、游戲(Game)、電影(Movie)、職位(Position)、景點(Scene)10個實體類別,且實體類別分布較為均衡,并且有望在未來成為通用的CNER數據集。

E-commerce NER[118]:人工標注的電商領域數據集。包括品牌(Brand)和產品(Product)兩種類型實體。數據集規模較小,數據質量較低。

BosonNLP:根據公司提供得數據標注而來。包含組織(Organization)、人名(Person)、位置(Location)、公司(Company)、產品(Product)、時間(Time)六類實體。

People’s Daily:根據人民日報、新聞稿篩選標注而來。包含組織(Organization)、人名(Person)、政治(Geo-political)、日期(Date)四類實體。

有許多不同的注釋模式可以用于不同的數據集。一般來說,常用的注釋方法有BIO、BIOES、BMEWO等。目前,BIOES是最常用的命名實體注釋模式。在一些實體密集的地區,選擇BIOES模式可以更好地識別這些實體。注釋系統越復雜,精度越高,但相應的訓練時間增加。因此,應該根據實際情況選擇適當的注釋系統。

3.2 評估標準

在CNER 任務中 常用精確匹配的模式進行評估,只有同時識別到正確的實體邊界和類型,實體才能被判定是被正確識別。同時該任務通常采用F1 值來評估模型性能計算公式如(1)~(3),TP(true positives)、FP(false positives)以及FN(false negatives),用這三個參數來計算Precision、Recall和F1-score。Precision精確率指模型識別實體中被正確識別的實體的百分比;Recall召回率,指所有標注實體中被模型正確識別的實體的概率。

4 未來展望

基于深度學習的方法被廣泛地應用在命名實體識別中,但是由于中文語言的特殊性,比如語義歧義、詞邊界不明確、語義結構復雜等,使得建模技術仍需進一步提高。除此之外,中文語言的復雜性使得其語料庫較大,同時存在各式語言表達方式,比如詞語的縮寫、同音詞等,因此如何將這些多樣化信息進行數據表示是CNER的重要挑戰。為此,該領域的未來發展方向在以下幾個方向。

(1)數據表示

根據具體任務使用不同的字符表征,在字符表征中引入更多的外部特征。對于有規則實體的任務,可以引入基于規則的詞匯信息和詞性信息;對于有許多新實體的任務,可以引入基于字符特征的信息,如字形信息、筆畫信息、拼音信息和部首信息等。

引入跨語言信息從而加強數據表示。如將漢語翻譯成英語,然后識別英語中的實體,最后將這些實體重新翻譯成漢語。例如,Wu 等人[119]提出了一種師生學習方法,其中源語言中的NER模型被用作教師,在目標語言中的未標記數據上訓練學生模型。該方法解決了現有跨語言NER方法在源語言中的標記數據不可用或與目標語言中的未標記數據不對應時不適用的局限性。這樣,公共知識就可以從一種語言轉移到另一種語言,而不需要成對語料庫。

引入高質量的數據集,高質量的數據集對于模型學習和評估是必不可少的。與ENER數據集的相比,CNER數據集在質量和數量上仍顯不足。開展嵌套CNER、細粒度CNER或命名實體消歧的研究,首先要解決這些任務缺乏高質量數據集的問題。Ding提出的Night-Nerd,這是一個大規模的人工注釋的少鏡頭NER 數據集,具有8 個粗粒度和66 個細粒度實體類型的層次結構。弱監督和無監督學習由于語料庫標注的人力成本較高,因此開發弱監督和無監督算法來實現基于少標注或無標注語料庫的CNER具有重要意義。

(2)建模技術

建立更有效的模型,雖然最近的工作引入了大量的外部信息,取得了很好的效果,但在現有的模型框架下,CNER的性能遇到了瓶頸。通過設計更有效的模型,可以更好地利用外部信息。比如,引入多模態網絡架構,通過多模態CNER 網絡融合文本信息和視覺信息和語音信息,利用關聯圖像更好地識別文本中包含的具有多義詞的命名實體。利用語音發音信息可以將具有歧義的信息規避掉,比如“長江(chang)”和“市長(zhang)”。此外,Li等人為NER提出了統一的MRC框架。該模型把NER看作一個序列標記問題,而是把它描述成一個機器閱讀理解(MRC)任務,并用SOTA 模型獲得了競爭結果。該方法是對更好模型的有效嘗試。

(3)分類器

標記解碼器使用編碼的上下文信息來預測令牌的標記,是NER 模型的最后階段。目前有兩種主要的實現形式分別是將序列標注任務將轉換為多類分類任務的MLP+Softmax和對標記序列內部依賴關系進行建模的CRF。此外,可針對標注方案中存在的數據稀疏和錯誤傳播問題,采用多任務學習范式的多標注學習方法[120]。該方法分別標注實體及其對應的實體類型的分割信息,對原有的PLE模型進行了改進,將不同的標注序列作為不同的任務來緩解這些問題。該方法是對更好的分類效果的有效嘗試。

5 結束語

本文從中文命名實體識別的難點和分類角度出發,回顧了中文命名實體識別的研究背景、傳統方式和近幾年來的研究成果。本文整合了常見的中文命名實體識別數據集和評估標準。其次進行分類別的介紹在解決中文命名實體識別難點的詳細方法,并做出了性能比較分析。目前的中文命名實體識別在解決嵌套實體和低資源的實體識別效果不佳。未來研究可以針對數據集的自動標注、細粒度的識別、提升模型魯棒性和輕量級等方向進行探究。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产另类乱子伦精品免费女| 成人综合久久综合| 免费国产高清视频| 色AV色 综合网站| 国产成人AV男人的天堂| 老司机午夜精品网站在线观看 | 亚洲综合精品第一页| 91精品人妻互换| 91精品国产情侣高潮露脸| 亚洲妓女综合网995久久| 亚洲精品国偷自产在线91正片| 亚洲无码免费黄色网址| 在线国产91| 天堂久久久久久中文字幕| 国产69精品久久| 99在线观看视频免费| 亚洲婷婷在线视频| 伊人精品视频免费在线| 亚洲视频免费在线看| 亚洲高清中文字幕在线看不卡| 亚洲欧洲一区二区三区| 日韩午夜伦| 免费人成网站在线观看欧美| 国产主播在线一区| 免费人成网站在线高清| 亚洲区欧美区| 青青草原偷拍视频| 国产精品亚洲欧美日韩久久| 99热这里只有免费国产精品| 日韩在线第三页| 91系列在线观看| 四虎成人精品| 欧美曰批视频免费播放免费| 国产乱子伦无码精品小说| 欧美性天天| 国产美女91视频| 国产女人在线观看| 欧美黄网站免费观看| 久久这里只有精品免费| 国产99视频在线| 欧美一级视频免费| 日韩欧美中文在线| 亚洲欧洲日产国码无码av喷潮| 国产91精品调教在线播放| 欧美日韩成人| 91精选国产大片| 国产欧美日韩免费| 人人爱天天做夜夜爽| 色婷婷亚洲十月十月色天| 久久五月天国产自| 在线免费无码视频| 91无码网站| 国产精品自在线拍国产电影| 亚洲综合第一页| 国产精品女同一区三区五区| AV老司机AV天堂| 在线观看视频一区二区| 99这里只有精品6| v天堂中文在线| 无码网站免费观看| 亚洲人成电影在线播放| 欧美三級片黃色三級片黃色1| 国产精品偷伦视频免费观看国产| 91久久夜色精品国产网站| 免费三A级毛片视频| 亚洲免费人成影院| 狼友视频一区二区三区| 最新亚洲av女人的天堂| 久草青青在线视频| 黄色网页在线播放| 在线一级毛片| 欧美日韩一区二区在线免费观看| 午夜福利亚洲精品| 国产一级小视频| 久久婷婷色综合老司机| 99免费在线观看视频| 国产精品成人AⅤ在线一二三四| 特级aaaaaaaaa毛片免费视频| 亚洲欧美日本国产综合在线 | 国产美女久久久久不卡| 国产女人爽到高潮的免费视频| 中文字幕人成乱码熟女免费|