999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平行語料庫的雙語協同中文關系抽取

2017-06-27 08:10:42馮旭鵬劉利軍黃青松
計算機應用 2017年4期
關鍵詞:英文特征

郭 勃,馮旭鵬,劉利軍,黃青松,3

1.昆明理工大學 信息工程與自動化學院,昆明 650500; 2.昆明理工大學 教育技術與網絡中心,昆明 650500;3.云南省計算機技術應用重點實驗室(昆明理工大學),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

基于平行語料庫的雙語協同中文關系抽取

郭 勃1,馮旭鵬2,劉利軍1,黃青松1,3*

1.昆明理工大學 信息工程與自動化學院,昆明 650500; 2.昆明理工大學 教育技術與網絡中心,昆明 650500;3.云南省計算機技術應用重點實驗室(昆明理工大學),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

針對在中文資源的關系抽取中,由于中文長句句式復雜,句法特征提取難度大、準確度低等問題,提出了一種基于平行語料庫的雙語協同中文關系抽取方法。首先在中英雙語平行語料庫中的英文語料上利用英文成熟的句法分析工具,將得到依存句法特征用于英文關系抽取分類器的訓練,然后與利用適合中文的n-gram特征在中文語料上訓練的中文關系抽取分類器構成雙語視圖,最后再依靠標注映射后的平行語料庫,將彼此高可靠性的語料加入對方訓練語料進行雙語協同訓練,最終得到一個性能更好的中文關系抽取分類模型。通過對中文測試語料進行實驗,結果表明該方法提高了基于弱監督方法的中文關系抽取性能,其F值提高了3.9個百分點。

弱監督學習;關系抽取;n-gram;平行語料庫;雙語協同訓練

0 引言

隨著網絡數據的飛速增長,如何使人們更方便更快捷地準確獲取到需要的信息也變得更加重要。由于網絡上的信息大部分屬于非結構化和半結構化的信息,信息抽取就是從這些異構數據源中獲取結構化知識的技術,這項技術被用在了構建知識圖譜[1]、自動問答系統、語義精準搜索等多個領域。關系抽取屬于信息抽取的一個子任務,當實體抽取完成后,得到了一系列離散的命名實體,如何將這些實體關聯起來,找出實體之間的語義關系就是關系抽取所要解決的問題。

現有的關系抽取的方法可以分為基于模式匹配[2]的方法、基于詞典驅動的方法[3]和基于機器學習的方法[4-5]等,其中基于機器學習的方法是目前主流的關系抽取方法。基于機器學習的方法又可以分為有監督的方法、無監督的方法和弱監督的方法。有監督的方法需要人工標記大量的訓練語料,費事費力且移植性差;而現階段無監督的方法在準確率和召回率都比較低。在這種情況下,人們提出了基于弱監督的關系抽取方法[6],弱監督的關系抽取方法在少量人工標記語料的基礎上通過自舉(boostrapping)的學習方法,不斷自動擴充訓練語料,有效減少了人工參與,并且獲得了不錯的性能。

利用機器學習的方法進行關系抽取時,又可分為基于特征向量的方法[7-8]和基于核函數的方法[9]。核函數的方法在學習和訓練的速度上都相對較慢[10],而基于特征向量的方法在各方面表現比較優秀。基于特征向量的方法中特征項的選擇十分重要,首先特征項不僅需要能夠體現較多的語義信息,而且要能夠準確區分不同的語義關系。特征項的好壞直接影響著關系抽取的性能高低。一般特征的選擇有詞法特征和語法特征。詞法特征為句子中的詞序列,單純基于詞法特征會導致數據的稀疏性,限制分類性能。語法特征從句子的依存關系路徑中獲取,Miller等[11]研究表明,語法特征可以較好地體現句子中的語義關系,將語法特征作為關系抽取的特征向量,對實體關系抽取的性能有很大幫助。陳立瑋等[12]指出中文由于結構復雜,特別是在對中長句子的句法分析上,現有句法分析工具性能明顯下降。然而英文的句法分析工具經過較長時間發展,已經比較成熟,基本可以完成英語句子的句法分析。本文使用了協同訓練的方法[13],在中文視圖的特征選擇上面,n-gram特征相對來說是一個較好的選擇,它不依賴句法分析工具,且不存在詞法特征的稀疏性問題,同時還體現了相鄰詞語之間的序列關系,但它在英文上與句法特征相比處于劣勢[12]。

通過利用一種語言的優勢去提升另一種語言的關系抽取性能是一個可行的辦法,Kim等[14]將英語豐富的語料作為源訓練數據用來提升語料資源貧乏的韓語關系抽取性能上面。如今大量的弱監督關系抽取主要集中在以英語為主的文本上面,現有的句法分析工具在中文長句的分析效果上可能會出現較大波動,對關系抽取模型的分類性能產生較大的影響。

本文提出一種基于平行語料庫的雙語協同訓練方法,在中英平行語料庫中,利用英文的句法分析工具對英文進行句法分析,對英文和中文語料使用適合各自語言的不同特征,同時訓練中文分類器和英文分類器,采用自舉的學習方法,在中文分類器和英文分類器中提取出可靠度較高的關系實例,將一種語言中可靠度較高的關系實例通過標注映射的平行語料庫,找到平行語料庫中對應的關系實例,加入到另一種語言的訓練語料中,通過不斷的迭代,提升了訓練語料的質量,從而得到性能更佳的中文關系抽取分類模型。實驗結果表明,基于平行語料的雙語協同訓練可以提升中文的關系抽取性能。

1 弱監督關系抽取框架

1.1 自舉的弱監督關系抽取方法

弱監督關系抽取的方法最早出現在對文獻中蛋白質和基因的關系抽取中,后來人們對其進行了大量的改進和優化[15]。基于自舉方式的弱監督關系抽取以少量的種子集合為基礎,種子集合為已標注的實例集,將種子集作為訓練語料,利用種子集合訓練出一個分類器,然后對未標注的大量可靠文本語料通過分類器進行分類,將可信度較高的候選實例結果加入到種子集合中再進行訓練。這樣一方面解決了初始訓練語料不足的問題,對訓練語料進行了優化;另一方面減少了人工手工標注的工作量。一般關系抽取使用的分類模型有最大熵模型和支持向量機(Support Vector Machine,SVM)。研究表明[16],支持向量機略優于最大熵,所以本文使用支持向量機SVM作為分類器。SVM可以輸出某一關系實例在各個關系類別上的概率值,通過計算概率分布的熵值來判斷候選實例的可信度,熵值越小的候選實例其可信度越高。熵值的計算公式如下:

(1)

其中:K表示一共的關系類別個數;Pi表示關系實例屬于第i種關系類別的概率值。

1.2 弱監督關系抽取的特征選取

一個好的特征對于分類器的效果影響十分重要,常用的特征有詞法特征、句法特征還有n-gram特征。詞法特征由詞序列和詞性序列構成,單獨使用詞法特征會導致數據稀疏性的問題,所以一般將詞法特征與其他特征相結合一起使用。句法特征一般從句子的句法依存路徑中獲取,基于英語的依存句法分析工具已比較成熟,可以準確地得到句子的句法依存關系結果,而中文的依存句法分析工具在中長句上效果較差。n-gram特征利用設定窗口大小去獲取文本中連續的詞組序列,一定程度上體現了語法關系,它的優點是不需要依賴具體的現存在的工具,并且不存在數據稀疏的問題,可用在中文句子語料上面。文獻[12]提出的一種新的n-gram特征,它是基于詞語和它的詞性標注的n-gram特征。本文在英語訓練語料上選擇可靠度較高分析工具的詞法特征加語法特征,中文訓練語料上選擇比較適合中文句子的n-gram特征。詞法特征、句法特征和本文所用的基于詞語和詞性標注的n-gram特征分別舉例如下:

詞法特征舉例:〈PER〉比爾蓋茨,出生于西雅圖〈ORG〉,PER NR PU VV P ORG NS。

句法特征舉例:〈PER〉 ->出生/VV<-于/P<-〈ORG〉。

n-gram特征舉例(詞語和詞性標注組合):〈PER〉 出生/VV 于/P 〈ORG〉。

2 基于平行語料庫的雙語協同訓練

2.1 雙語協同訓練

協同訓練是一種基于半監督的學習框架,它也是一種基于boostrapping思想的半監督學習框架。它使用兩種不同的獨立的特征下的視圖去訓練兩個分類器,兩個分類器各自對自己的數據進行分類,將各自分類結果中置信度最高的前n個數據加入到對方的訓練語料中去。

本文使用中英雙語平行語料庫,利用小規模的標注的雙語語料分別選擇詞法特征加句法特征和n-gram特征,分別對其中的具有語義關系的英語語料和中文語料進行訓練,得到兩個不同的分類器,記為Me(英文分類器)和Mc(中文分類器)。再對未標注的中英雙語平行語料進行分類,得到新的英文和中文的帶標簽的實例,通過標注映射,找到平行語料庫中對應的實例,分別加入到中文和英文分類器的訓練語料中,然后再繼續進行訓練,不斷迭代進行,直到所有實例迭代完成為止,最后得到了兩個協同訓練后的中文分類器SVMc和英文分類器SVMe。具體算法過程如下:

輸入:有標注的英文訓練數據集Le和中文訓練數據集Lc,無標注的英文數據集Ue和無標注的中文數據集Uc。

輸出:訓練后的中文關系抽取模型SMVc和英文關系抽取模型SVMe。

Step1 使用Le訓練一個英文數據分類器Me,使用Lc訓練一個中文分類器Mc。

Step2 迭代循環t次:

Step2.1 從Ue中取出部分數據集記為Ue′,使用Me對Ue′中的數據進行分類。

Step2.2 將置信度較高的前n個實例記為Ee,在已經標注映射好的平行語料庫中找到它們對應的實例記為Eec。

Step2.3 將Ee和Eec分別加入到Le和Lc中。

Step2.4 從Uc中取出部分數據集記為Uc′,使用Mc對Uc′中的數據進行分類。

Step2.5 將置信度較高的前n個實例記為Ec,在已經標注映射好的平行語料庫中找到它們對應的實例記為Ece。

Step2.6 將Ec和Ece分別加入到Lc和Le中。

Step2.7 從Ue′和Uc′中刪除已經添加到訓練集中的數據,并且從Ue和Uc中再取出部分數據集加入到Ue′和Uc′中。

整個流程框架如圖1所示。

圖1 協同訓練框架圖

2.2 標注

當獲得中英文兩個分類器中得出的可信度較高的關系實例后,在加入到彼此的訓練語料中之前,首先需要通過對平行語料庫對其進行標注映射處理,以找到英文句子中的關系實例與中文句子中的關系實例的對應關系。標注映射的第一步就是標注。首先通過命名實體識別技術在平行雙語文本的英文句子中找出存在的一系列實體,每兩個實體組成一個實體對,一般稱為實例。然后對實例進行標注。接下來在每兩個實體之間探測它們存在的語義上的關系,然后對實體之間存在的語義關系進行標注。以上工作主要利用現有的工具幫助檢測并標注出在平行雙語文本中英語句子中的實例和實例之間的關系。標注的結果如圖2所示,圖2中為中英雙語平行語料庫中的一對句子的標注映射結果,微軟公司和比爾蓋茨兩個實體構成了一個實例,表現了人名和組織機構名之間的創建關系。

2.3 映射

在完成中英平行語料庫中英文句子的標注任務后,需要將標注的內容映射到相對應的另一種語言(中文)中,本文是從英文到中文進行映射。本文使用單詞對齊的方法完成從英文到中文的標注映射的任務,單詞對齊就是在雙語文本中找到詞匯級的對譯關系,這樣就可以找到英文句子中實例和實例間關系在中文句子中對應的詞。單詞對齊的算法有很多,比如Brown等[17]提出的IBM模型,這些算法已經被成功地運用在機器翻譯等自然語言處理任務方面。本文使用的單詞對齊工具為GIZA++,該工具在中英文上都可以使用,并已廣泛應用于機器翻譯等領域,其單詞對齊效果可以滿足大多數情況下的需求。經過單詞對齊之后,識別出中英雙語文本中具有平移關系的每個詞,由此形成了一個二分圖,圖中的無向邊將英文句子中代表實體和關系的詞和中文中對應的詞連接起來。本文首先完成實體之間的映射,再完成實體之間關系的映射。經過上面的步驟,使可以將實體和實體關系從英文句子中映射到漢語句子中。如圖2所示,“billgates”和“Microsoft”映射到了它們在中文句子中對應的實例比爾蓋茨和微軟公司。

基于單詞對齊的實體和關系映射可能由于工具的原因產生一些錯誤的映射,進一步將影響實驗的訓練語料的質量,因此需要制定一些啟發式的規則去提高實體映射的準確度,盡量減少由錯誤映射得到的關系實例加入到訓練語料中去。本文定制的啟發式規則如下:

1)英文中每個實體指稱只對應中文中一個實體指稱。

2)對于英文中連續多個詞構成的實體指稱在中文中也必須是連續多個詞構成,中間不能有間隔。

3)對齊實體的詞性必須相同。

除以上的啟發式的方法外,本文還提出了一種基于翻譯工具的實體映射檢查策略。該策略如下:將在平行雙語語料中的英文句子中的實例通過翻譯工具進行翻譯,得到多個近似的對應的中文詞匯,然后在平行雙語語料中對應的中文句子中匹配最大長度相似的詞匯,如果找到相同的詞匯且只有一處,那么將英文句子中的實例映射到中文中找到的相同或相似的那個實例。

通過以上兩種方法,過濾了一些不合格的關系實例映射,使得標注映射的準確率得到了一定程度的提高。

圖2 中英平行語句標注映射圖

3 實驗與分析

3.1 實驗設置

本文所使用的中英平行語料庫為哈爾濱工業大學信息檢索研究室的英漢雙語語料庫,它包括10萬對句子對齊的雙語句子對。本文選取其中的5萬對平行句子對作為正式語料。首先對其中的英文句子進行命名實體識別、依存關系分析等預處理操作,完成對英文句子的標注任務;然后通過文中上述方法對語料庫進行標注映射,最終有24 127個對齊的實例。在其中選取含有語義關系與不含語義關系的5 600個實例作為最后的實驗語料集合。本實驗選取其中1/6作為測試集,在剩余的實例中選取1/20作為已經標注的數據集,剩下的作為未標注的數據集。由于基礎的SVM分類器為2類分類器,所以本文選取改進的SVMLIB作為本實驗的分類器。實驗最后結果取平均值。實驗結果的評價包括準確率、召回率和F1指數。

中文的句法分析工具使用Mate Parser[18],英文句子的預處理工具使用斯坦福大學的自然語言處理工具[19-20]。

3.2 實驗結果和分析

1)首先用不同的方法對中文測試語料進行測試分析,選取的方法有未采取協同訓練的弱監督自舉SVM中文關系抽取,記為LLS;單語(中文)協同訓練方法,記為LLCB;雙語(中英文)協同訓練方法,記為DLCB。其中單語和雙語協同訓練算法中每次選取實例數n為20,也就是SVMc和SVMe每次各加入20個實例。取最高性能為其實驗結果值。

表1 不同算法性能比較 %

從表1可以看出雙語協同訓練要比未采取協同訓練的關系抽取方法在性能上得到了提升,而雙語協同訓練又在單語協同訓練的基礎上進一步提升了性能。

2)雙語協同訓練時英文的分類特征為從依存語法中獲得的語法特征,中文使用的是基于詞語與詞性的n-gram特征。下面將比較雙語協同訓練時中英文特征的選擇對關系抽取結果的影響。中英文的特征選取分別為詞法加語法特征(lex+syn)、詞法加n-gram特征(lex+ng),結果如表2所示。

表2 雙語協同訓練不同特征選取性能比較 %

從表2可以看出,中英雙語協同訓練時的特征選取對抽取結果產生了影響,其中英文選取詞法加句法特征,中文選取詞法加n-gram特征取得了最好的效果,在英文上選取n-gram特征沒有取得更好的效果,反而有略微下降,主要還是因為在中文長難句的語法分析效果上沒有英文的好,而英文的語法分析工具已經比較成熟。n-gram特征對中文的關系抽取提供了很好的補充,優于傳統的語法特征??傮w來看協同訓練提高了關系抽取的性能,以英文的句法特征為特征向量的分類器得到的實例很好地補充了中文關系抽取分類器的訓練語料集。

3)協同訓練時,不同的迭代次數會對最終分類模型的性能造成不同的影響,接下來對不同迭代次數下協同訓練的性能進行比較。這次取n的值為100進行迭代。如圖3所示。

圖3 DLCB算法迭代次數對F1值的影響

由圖3可以看出,隨著迭代次數的上升,一開始模型性能呈現出上升的趨勢,但是隨著迭代次數的繼續增加,其性能出現了下滑,據此可知,迭代次數在中間的一個合適值時,模型的性能達到了最優的狀態。其原因還是因為隨著迭代次數的增加,由于標注映射錯誤等產生的一些低質量訓練語料被加入訓練語料的概率增加,降低了關系抽取模型的性能。

3.3 算法性能分析

雙語協同訓練時,影響其性能的方面主要有訓練語料的影響和協同訓練策略的影響。除此之外,本文還計算了SVM分類算法用于此關系抽取方法的時間復雜度。

由于本文采取的是簡單的詞對齊的方法對中英文語料庫進行映射,雖然采取了啟發式的方法和基于翻譯工具的實體映射檢查策略,但不能避免地會存在錯誤映射的實例對,在協同訓練中,一旦錯誤的映射被加入到可信的訓練語料中去,這個錯誤將被繼續學習和加強,最終對關系抽取分類器的性能造成極大的影響。在應用級的大規模的語料中,很難人工檢查修正未正確映射的關系實體,因此需要對對齊率進行評估,在側面將反映出協同訓練最終得到中文關系抽取模型的好壞。本文隨機抽取1 000對經過單詞對齊后的中英文,手動計算關系實例對齊率。一共進行5次計算,最后計算平均值,作為整體的對其率。經過人工對比,發現對其率達到了78.4%,在一定程度上適用于雙語協同訓練。

除了訓練語料的影響,協同訓練本身參數的設置也會對本文的關系抽取模型性能造成影響,本文在這里重點研究的參數為協同訓練時特征的選取和迭代次數對其的影響。結果已經在上面的實驗中進行了測試。

本文計算分析了利用SVM進行自舉訓練時的算法時間復雜度,其時間復雜度如下:O(n2*M2*d)。其中:M代表未標注語料的大??;d為所取特征的維度,取所有詞中tf-idf最高的前10 000個詞作為分類特征,這里選取詞法特征作為實驗;n為所分種類數。M和n取不同值時算法執行的時間如表3所示。

表3 算法執行時間分析

通過對算法各個方面進行的分析來看,由映射錯誤和SVM效率等問題,使得算法的性能遭受了一定的影響。

4 結語

本文提出了一種基于平行語料庫的雙語協同訓練方法用于提升中文關系抽取的性能,針對中文關系抽取時依然句法分析工具,而長難句句法分析準確性會大幅下降的問題,使用適合各自語言的特征在平行語料庫中的中英文同時進行訓練,將彼此可信度高的且標注好的實例映射到彼此的訓練語料中,提升了訓練語料的質量。實驗結果表明,選取英文的句法特征和中文的n-gram通過協同訓練得到的中文分類器很好地改善了中文的關系抽取性能,優于基于弱監督的純中文自舉訓練的方法,這種方法適用于多語言的關系抽取,具有較強的魯棒性。

后續工作中:一方面將繼續對平行語料庫的標注映射工作進行優化,使其更加準確;另一方面,在現實應用中,可以使用的雙語語料庫畢竟有限,且質量不一定能滿足關系抽取的需求,因而尋找更加適合中文關系抽取的特征是今后深入研究的方向。

)

[1] 劉嶠, 李楊, 段宏.知識圖譜構建技術綜述[J]. 計算機研究與發展, 2016, 53(3):582-600.(LIUQ,LIY,DUANH.Knowledgegraphconstructiontechniques[J].JournalofComputerResearchandDevelopment, 2016, 53(3):582-600.)

[2]APPELTDE,HOBBSJR,BEARJ,etal.SRIinternationalFASTUSsystem:MUC-6testresultsandanalysis[C]//MUC6 1995:Proceedingsofthe6thConferenceonMessageUnderstanding.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 1995:237-248.

[3]AONEC,RAMOS-SANTAM.REES:alarge-scalerelationandeventextractionsystem[C]//ANLC2000:ProceedingsoftheSixthConferenceonAppliedNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:76-83.

[4]ZHANGY,ZHOUJF.AtrainablemethodforextractingChineseentitynamesandtheirrelations[C]//CLPW2000:ProceedingsoftheSecondWorkshoponChineseLanguageProcessing:HeldinConjunctionwiththe38thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000, 12: 66-72.

[5]ZHANGZ.Weakly-supervisedrelationclassificationforinformationextraction[C]//CIKM2004:ProceedingsoftheThirteenthACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM, 2004:581-588.

[6]CRAVENM,KUMLIENJ.Constructingbiologicalknowledgebasesbyextractinginformationfromtextsources[C]//ProceedingsoftheSeventhInternationalConferenceonIntelligentSystemsforMolecularBiology.MenloPark,CA:AAAIPress, 1999:77-86.

[7]ZHAOS,GRISHMANR.Extractingrelationswithintegratedinformationusingkernelmethods[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005: 419-426.

[8]ZHOUG,SUJ,ZHANGJ,etal.Exploringvariousknowledgeinrelationextraction[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:427-434.

[9]ZELENCOD,AONEC,RICHARDELLAA.Kernelmethodsforrelationextraction[J].JournalofMachineLearningResearch, 2003, 3(6):1083-1106.

[10]SHAWE-TAYLORJ,CRISTIANININ.Kernelmethodsforpatternanalysis[M].NewYork:CambridgeUniversityPress, 2004:25-45.

[11]MILLERS,FOXH,RAMSHAWL,etal.Anoveluseofstatisticalparsingtoextractinformationfromtext[C]//NAACL2000:Proceedingsofthe1stNorthAmericanChapteroftheAssociationforComputationalLinguisticsConference.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:226-233.

[12] 陳立瑋, 馮巖松, 趙東巖.基于弱監督學習的海量網絡數據關系抽取[J]. 計算機研究與發展, 2013, 50(9):1825-1835.(CHENLW,FENGYS,ZHAODY.ExtractingrelationsfromtheWebviaweaklysupervisedlearning[J].JournalofComputerResearchandDevelopment, 2013, 50(9):1825-1835.)

[13]BLUMA,MITCHELLT.Combininglabeledandunlabeleddatawithco-training[C]//COLT1998:ProceedingsoftheEleventhAnnualConferenceonComputationalLearningTheory.NewYork:ACM, 1998:92-100.

[14]KIMS,JEONGM,LEEJ,etal.Across-lingualannotationprojectionapproachforrelationdetection[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2010:564-571.

[15]RIEDELS,YAOL,MCCALLUMA.Modelingrelationsandtheirmentionswithoutlabeledtext[C]//ECMLPKDD2010:Proceedingsofthe2010EuropeanConferenceonMachineLearningandKnowledgeDiscoveryinDatabases,PartIII,LNCS6323.Berlin:Springer, 2010:148-163.

[16]WANGT,LIY,BONTOHEVAK,etal.Automaticextractionofhierarchicalrelationsfromtext[C]//ESWC2006:Proceedingsofthe3rdEuropeanConferenceontheSemanticWeb:ResearchandApplications.Berlin:Springer, 2006: 215-229.

[17]BROWNPF,PIETRAVJD,PIETRASAD,etal.Themathematicsofstatisticalmachinetranslation:parameterestimation[J].ComputationalLinguistics, 1993, 19(2):263-311.

[18]BOHNETB.Topaccuracyandfastdependencyparsingisnotacontradiction[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics, 2010:89-97.

[19]MAMEFFEM,MACCARTNEYB,MANNINGC.Generatingtypeddependencyparsesfromphrasestructureparses[EB/OL]. [2016- 03- 10].http://www.lrec-conf.org/proceedings/lrec2006/pdf/440_pdf.pdf.

[20]FINKELJR,GRENAGERT,MANNINGC.Incorporatingnon-localinformationintoinformationextractionsystemsbyGibbssampling[C]//ACL2005Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:363-370.

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(81360230, 81560296).

GUO Bo, born in 1992, M. S. candidate. His research interests include machine learning, natural language processing.

FENG Xupeng, born in 1986, M. S., experimentalist. His research interests include information retrieval.

LIU Lijun, born in 1978,M. S., lecturer. His research interests include medical information service.

HUANG Qingsong, born in 1962, professor. His research interests include intelligent information system, information retrieval.

Bilingual collaborative Chinese relation extraction based on parallel corpus

GUO Bo1, FENG Xupeng2, LIU Lijun1, HUANG Qingsong1,3*

(1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming Yunnan 650500, China;2. Educational Technology and Network Center, Kunming University of Science and Technology, Kunming Yunnan 650500, China;3. Yunnan Provincial Key Laboratory of Computer Technology Applications (Kunming University of Science and Technology), Kunming Yunnan 650500, China)

In the relation extraction of Chinese resources, the long Chinese sentence style is complex, the syntactic feature extraction is very difficult, and its accuracy is low. A bilingual cooperative relation extraction method based on a parallel corpus was proposed to resolve these above problems. In a Chinese and English bilingual parallel corpus, the English relation extraction classification was trained by dependency syntactic features which obtained by mature syntax analytic tools of English, the Chinese relation extraction classification was trained by n-gram feature which is suitable for Chinese, then they constituted bilingual view. Finally, based on the annotated and mapped parallel corpus, the training corpus with high reliability of both classifications were added to each other for bilingual collaborative training, and a Chinese relation extraction classification model with better performance was acquired. Experimental results on Chinese test corpus show that the proposed method improves the performance of Chinese relation extraction method based on weak supervision, itsFvalue is increased by 3.9 percentage points.

weakly-supervised learning; relation extraction; n-gram; parallel corpus; bilingual collaborative training

2016- 09- 26;

2016- 12- 21。 基金項目:國家自然科學基金資助項目(81360230,81560296)。

郭勃(1992—),男,山西晉城人,碩士研究生,主要研究方向:機器學習、自然語言處理; 馮旭鵬(1986—),男,河南鄭州人,實驗師,碩士,主要研究方向:信息檢索; 劉利軍(1978—),男,河南新鄉人,講師,碩士,主要研究方向:醫療信息服務; 黃青松(1962—),男,湖南長沙人,教授,主要研究方向:智能信息系統、信息檢索。

1001- 9081(2017)04- 1051- 05

10.11772/j.issn.1001- 9081.2017.04.1051

TP391.1

A

猜你喜歡
英文特征
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
英文摘要
鄱陽湖學刊(2016年6期)2017-01-16 13:05:41
英文摘要
英文摘要
財經(2016年19期)2016-08-11 08:17:03
英文摘要
英文摘要
主站蜘蛛池模板: 亚洲色图欧美一区| 欧美a在线视频| 国产特级毛片aaaaaaa高清| 亚洲男人的天堂久久精品| 天天色综网| 精品在线免费播放| 全午夜免费一级毛片| 在线精品视频成人网| 91精品综合| 97综合久久| 中文无码精品A∨在线观看不卡 | 91久久性奴调教国产免费| 久久国产高清视频| 国产av无码日韩av无码网站| 一本久道久久综合多人| 视频二区中文无码| 青青青视频91在线 | 成人午夜在线播放| 亚洲AⅤ综合在线欧美一区| 91成人在线观看视频| 国产精品999在线| 亚洲欧美国产视频| 精品午夜国产福利观看| 亚洲国产AV无码综合原创| 国产成人1024精品下载| 永久成人无码激情视频免费| 伊人中文网| 免费看美女自慰的网站| 欧美性精品不卡在线观看| vvvv98国产成人综合青青| 国产理论一区| 青青青视频免费一区二区| 狠狠干欧美| 亚洲91精品视频| 成人亚洲国产| 欧美一区日韩一区中文字幕页| 国产成人91精品免费网址在线| 国产三区二区| 久久国产成人精品国产成人亚洲| 狠狠ⅴ日韩v欧美v天堂| 美女亚洲一区| 韩国自拍偷自拍亚洲精品| 97视频免费在线观看| 香蕉精品在线| 国产成人免费观看在线视频| 精品国产91爱| 九色综合伊人久久富二代| 91久久夜色精品国产网站| 亚洲色图在线观看| 青青极品在线| 欧美午夜在线观看| 国产香蕉97碰碰视频VA碰碰看| 日韩一区二区三免费高清| 国产欧美综合在线观看第七页| 欧美一道本| 国产亚洲视频播放9000| 91福利国产成人精品导航| 999精品免费视频| 重口调教一区二区视频| 亚洲欧洲日韩国产综合在线二区| 亚洲欧美日韩成人高清在线一区| 久久久久中文字幕精品视频| 日本五区在线不卡精品| 国产精品jizz在线观看软件| 2024av在线无码中文最新| 亚洲欧美成人在线视频| 国产精品成人不卡在线观看| AV无码国产在线看岛国岛| 亚洲精品国产日韩无码AV永久免费网| 青青青国产精品国产精品美女| 国产欧美日韩综合一区在线播放| 色老头综合网| 久久精品丝袜| 国产超碰在线观看| 全色黄大色大片免费久久老太| 91久久夜色精品国产网站| 精品无码一区二区在线观看| 手机精品视频在线观看免费| 波多野结衣国产精品| 麻豆精品视频在线原创| 91系列在线观看| 亚洲日韩高清无码|