999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法語義特征的中文實體關系抽取

2017-03-03 01:50:47周舜哲
北方文學·下旬 2016年10期
關鍵詞:句法語義特征

周舜哲

摘要:實體關系特征的選擇是實體關系抽取的核心問題。在以前的研究主要要是以實體原始特征和詞法特征來體現實體關系,在一定程度上來說很難再將抽取效果進一步提高。本文在傳統的研究基礎之上,闡述一種以語義和句法為主要特征進行抽取的新方法,并且融入了謂詞、句法和語義等一些角色,將SVM作為輔助工具,將真實的新聞消息進行試驗。

關鍵詞:句法語義特征;關系抽取

相對而言,由于中文語言結構的獨特性和語義的復雜性,中文實體關系抽取研究整體上與國外的研究還存在一定差距,常用的基于淺層語法分析獲取特征的方法已經達到瓶頸。本文也將采用 SVM模型訓練語料,但于以往不同的是,該方法擴展了實體關系特征的選擇范圍,除了傳統的詞法特征、實體原始特征外,又選擇了句法特征、語義特征等作為實體關系特征,主要包 括語義 角 色標注、依存 句法關系、核心謂詞特征等,并依據中文的語法特點對這些特征進行有機整合,得到二元實體對之間的豐富關系特征,最后交由SVM 進行訓練和測試。

一、本文的主要研究方法

(一)SVM的實體關系與句法語義特征抽取方法過程

研究方法依據LTP-Cloud對原始語料進行簡單的初步處理,利用LTP-Cloud對原始語料的詞、句法作為分析結果的基礎,之后生成二元實體對,將實體對的特征數據采集起來,轉化成訓練文本,然后再將訓練文本交給SVM進行強化訓練。這不僅是本文的創新內容還是最主要的核心部分,因為LTP-Cloud主要以單個句子為研究對象,這就需要我們獲取命名實體信息,將實體句子相互結合,形成實體對,假如說只有一個實體或者是沒有實體,那就說明不存在真正的實體關系,就需要我們將其去掉。

(二)實體關系的基本特征

常規的實體關系特征主要從詞法分析結果來獲取,以往的研究已經表明了這些特征的有效性。面向句子中所有實體組成的二元實體對,本文選擇的基本實體關系主要特征如下:

1.實體種類。目前LTP-Cloud能夠識別的實體種類有人名、地名、組織機構名。

2.實體長度。根據命名實體結果的標識信息中,獲取多詞實體的邊界,并根據其首尾詞的位置來計算實體長度。

3.實體內容。這里采用詞袋機制將實體內容由字符轉換為數字。

4.實體中各詞的詞性標注。

5.實體的上下文環境。包括實體前后兩個詞的內容以及詞性標注信息。

(三)句法語義的主要特征

本方法對處理結果再進一步的深入研究,可以得到更多的句法語義特征。

1.句法依存關系。將獲取實體對中每一個實體在原句中所屬的句法依存關系值。

2.實體與核心謂詞的距離。根據實體首詞在句中的位置和核心謂詞的位置,計算出每一個實體與核心謂詞的距離。

3.語義角色標注。LTP-Cloud的初步結果中包含了針對所有謂詞的語義角色標注結果,但是只有基于核心謂詞的語義角色標注的覆蓋度是最廣的,所以這里也僅選擇基于核心謂詞的語義角色標注結果作為這一特征來源,獲取實體對中每一個實體所屬的語義角色成分,將其作為實體關系的一種特征。

每組實體對的實際特征個數會隨著實體長度的不同而不同;這些特征之間的相對位置并不是任意的,需要根據一定的規律合理安排。

二、試驗方法與結果分析

(一)實驗結果評價標準

預設了4種實體關系種類:人名實體與組織機構實體之間的雇傭關系、組織機構實體與地名實體之間的位于關系、屬于同一種實體類型的 同 類 關 系和 無 關 系。由于本文亦將實 體關 系抽取過程看作是分類的過程,所以這里的評價方式也采用常規的準確率、召回率和F1值。

因為分類標注問題不同于信息檢索問題,所以應計算所有實體關系種類的準確率和召回率的平均值,以此作為整體抽取結果的準確率和召回率,并由此得出整體F1值。

(二)實驗設計思路

本方法用1998年1月份的《人民日報》所有版面內容作為語料,共含有4萬多個中文句子。由于LTP-Cloud需要以句子為基本處理對象,所以還需采用基于規則的方法將語料內容進行分句。將上述語料通過LTP-Cloud處理后,可得到含有約8.5萬個唯一實體的處理結果,由此可得到約3.6億個二元實體對,將其中的80%作為訓練語料,20% 作為測試語料,進一步分析出實體對中句法語義特征數據,并人工添加實體關系分類標注,最終形成訓練語料。采用libSVM作為輔助工具,在SVM的訓練過程中,選擇RBF作為核函數,采用交叉驗證法,得到最優參數c=2.0, g=0.5, CV rate=73.1905。實驗程序采用Python語言編寫實現。

(三)實驗結果分析

為了與傳統研究方法進行比較,對比組選取傳統的基本特征,實驗組在原有傳統基本特征的基礎之上加入句法語義特征。

通過以上的統計結果研究顯示,實驗組的抽取效果很明顯的優越于對照組。同時位于關系、同類關系和無關系的效果更加明顯一些,所以說本研究方法是有一定的實際意義的。

但是其中也存在一個明顯的問題,從局部來看,部分實體關系抽取的效果相對較差,例如,人名實體與組織機構實體之間的雇傭關系。在實體對中,并不是只要存在一個人名實體與一個組織機構實體,就應認定他們之間存在雇傭關系,只是在句中的位置、具體的詞不同,所以這就容易導致分類錯誤。

三、結束語

本文提出了一種基于句法語義特征的實體關系抽取方法,與以往的實體關系抽取方法相比,本文新增了句法分析結果和語義分析結果作為為實體關系的特征,實驗結果表明此方法效果明顯。另外,本方法以句子為處理單位,缺少篇章處理的視野,未來將在上述方面繼續做深入研究。

參考文獻:

[1]徐健,張智雄,吳振新.實體關系抽取的技術方法綜述[J].現代圖書情報技術,2014,24(08):18-23.

猜你喜歡
句法語義特征
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲性影院| 亚洲aⅴ天堂| a毛片在线| 国产Av无码精品色午夜| 超清无码一区二区三区| 中文字幕亚洲专区第19页| 亚欧成人无码AV在线播放| 精品人妻系列无码专区久久| 国产美女91视频| 国产日本欧美亚洲精品视| 国产精品亚洲精品爽爽| 日本在线视频免费| 伊人AV天堂| 丁香婷婷激情网| 麻豆精品久久久久久久99蜜桃| 国产va欧美va在线观看| 精品久久久久久久久久久| 精品视频第一页| 天天综合色天天综合网| 国产a v无码专区亚洲av| 久久精品女人天堂aaa| 成人精品区| 精品久久国产综合精麻豆| 亚洲欧洲日产国产无码AV| 色久综合在线| a毛片基地免费大全| 好紧好深好大乳无码中文字幕| 精品国产污污免费网站| 五月婷婷导航| 91视频青青草| 久久久久久高潮白浆| 中文字幕乱妇无码AV在线| 日韩欧美91| 人妻一区二区三区无码精品一区| 真实国产乱子伦视频| 欧美激情视频二区三区| 成人午夜福利视频| 欧美国产综合色视频| 久久综合干| 色欲不卡无码一区二区| 99视频免费观看| 黄色三级毛片网站| 日本欧美成人免费| 日本亚洲最大的色成网站www| 国产乱人伦精品一区二区| 婷婷综合在线观看丁香| 国产一级毛片yw| 四虎成人精品在永久免费| 日韩成人午夜| 香蕉视频在线精品| 伊人久久婷婷五月综合97色 | 99久久精品国产综合婷婷| 国产成人亚洲综合a∨婷婷| 国产一区免费在线观看| 欧美a在线看| 91无码人妻精品一区| 亚洲一区二区三区香蕉| 久精品色妇丰满人妻| 日韩欧美中文| 日韩欧美一区在线观看| 久久国语对白| 欧美国产菊爆免费观看| 秘书高跟黑色丝袜国产91在线 | 国产成人精品第一区二区| 五月天丁香婷婷综合久久| 日韩精品无码不卡无码| 国产精品自在拍首页视频8| 亚洲女同欧美在线| 一级毛片不卡片免费观看| 国产午夜福利片在线观看| 国产理论精品| 午夜人性色福利无码视频在线观看| 亚洲色欲色欲www在线观看| 亚洲永久色| 亚洲AV无码久久精品色欲| 91在线激情在线观看| 欧美成人午夜在线全部免费| 国产色网站| 欧美一区二区人人喊爽| 另类欧美日韩| 亚洲精品在线91| 日韩福利在线视频|