999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法分析的實體關系抽取

2018-05-14 09:39:00李真張優敏夏冬梅靳沖
科技風 2018年15期

李真 張優敏 夏冬梅 靳沖

摘 要:針對領域本體構建中實體關系種類不明確,以及中文文本中多出現復雜句式,復雜句子中實體關系的獲取比較難的問題,提出基于句子語法分析的實體關系獲取方法,通過對句法結構的分析,加入句法特征。以旅游領域的實體關系獲取為模型分別進行二組實驗。實驗表明,基于SVM關系抽取實驗中,加入了句法特征的那組實驗結果的F值提高了15個百分點,證明句法特征對基于SVM的實體關系獲取的有效性。

關鍵詞:實體關系;句法特征;支持向量機

中圖分類號:TP391文獻標識碼:A

國內外對實體關系的抽取都做了相關的研究,蔡鴻博[1]采用挖掘頻繁項集關聯性與分析詞結構信息相結合的方法來自動挖掘上位詞之間的上位關系,達到了較好的層次化效果;郭劍毅[2]提出一種改進的徑向基核函數融合多項式核函數及卷積樹核函數。本文前期也做過基于SVM(支持向量機)的概念、屬性及屬性值的對應關系獲取[3],但都沒有考慮復雜句式的問題,句法分析在處理復雜句式時有明顯的優勢,因此,本文在進行關系抽取時,通過對句法結構的分析,加入句法特征。以云南旅游領域實體關系獲取進行試驗驗證,結果表明該方法具有良好的可行性。

1 基于句法分析的實體關系抽取

特征的選擇。

在使用SVM進行實體關系獲取時,最核心的步驟就是構造特征向量,特征向量的構造需要選取合適的特征,特征選取不合適會直接影響到實驗的結果。由于中文文本中特征具有多樣性,在考慮到常用的詞特征、實體類型特征等的基礎上,引入一種句法特征。下面重點介紹一下句法特征。

(a)父類成分特征。父類特征主要表示在同一個句子中,兩個實體在句法分析樹中的結點是在哪個句法位置處顯示的。本文主要考慮五個句法成分:pp,np,zj,dj,vp。從離兩個實體最近的父結點開始,依次向上搜索,如果出現最近的公共句法成分為pp,np,zj,dj,vp中任一個,則其為父類特征。其中pp,np,zj,dj,vp在句法成分中分別表示動詞短信、名詞短語、整句、單句句型和介詞短語。

(b)兩個實體間的路徑特征。兩個實體在句法分析樹中的路徑,由兩個實體對應的結點間的句法成分構成。例如句子“滇池位于云南省昆明市的西南?!彼木浞錇閇jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下圖所示,兩實體之間的路徑為np+dj-vp-sp。

(c)中心詞之間以及中心詞到實體之間的路徑。在分析了“云南省昆明市的西南”和“滇池”這兩個實體在語法分析樹中充當的成分后,發現它們都和動詞“位于”的關系比較密切,從句子的語義角色這方面來看,“云南省昆明市的西南”是“ 位于”的受動者,“滇池”是“位于”的施事者, 同時本文發現句子中的大部分關系都有這樣的一個角色依賴關系和中心詞。因此,本文在原有特征的基礎上加了兩個新特征:兩個實體分別到中心詞的句法分析路徑特征和中心詞特征。中心詞為“位于”,實體E1到中心詞的路徑為:np+dj-vp,實體E2到中心詞的路徑為:vp-sp。

2 試驗數據以及結果分析

(1)試驗數據以及評價指標。

為了證明SVM在實體語義關系抽取上具有可行性和有效性,本文分別設計了兩組相關的實驗室,其中第一組實驗是只有基礎特征實體關系抽取實驗;第二組是不斷加入句法特征的基于SVM的實體關系抽取實驗。由于本文在做實體關系抽取的實驗時,缺乏相關的權威語料,本文利用網絡爬蟲工具從互聯網上搜集了相關旅游領域的語料,主要包括酒店、景點、文化、小吃四類,文檔3000余篇,其中有2000篇是作為訓練語料,其余1000篇則作為測試語料。

在對實驗結果的評測中,本文采用信息抽取任務中比較權威的評測標準。即用召回率(R)來反映實驗結果的查全率,用準確率(P)來反映實體關系抽取的精度,用F值來表示實驗結果的最終性能指標,即:

(2)結果及分析。

由下表可知,每次加入的句法特征都起到了改進系統性能的作用,其中父類成分以及中心詞和實體距中心詞的路徑兩個特征對實驗的結果有很大的影響,提高了實體關系抽取的性能。

3 結論

實體關系的獲取是近年來文本信息處理領域的一個研究熱點。本文通過對兩個實體在句法結構樹中的位置進行分析,獲取實體之間的依存特征,在基于SVM的實體關系抽取中不斷地加入這些句子結構特征,實驗證明,句法分析對基于SVM的實體語義關系抽取具有顯著的效果。

參考文獻:

[1]蔡鴻博.基于上位詞的中文實體關系圖譜構建[D].哈爾濱工業大學,2014.

[2]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領域實體關系抽取[J].中文信息學報,2016,30(01):24-29.

[3]郭劍毅,李真,余正濤,等.領域本體概念實例、屬性和屬性值的抽取及關系預測[J].南京大學學報(自然科學版),2012,48(04):383-389.

[4]付瑞吉.開放域命名實體識別及其層次化類別獲取[D].哈爾濱工業大學,2014.

作者簡介:李真(1983-),女,碩士,講師,高級工程師,研究方向為信息抽取。

主站蜘蛛池模板: 无码福利视频| 国产91久久久久久| 国产精品99久久久| 亚洲欧美另类视频| 欧美国产日本高清不卡| 丁香五月婷婷激情基地| 99视频在线观看免费| 99久久精品国产精品亚洲 | 亚洲第一视频区| 亚洲精品无码AV电影在线播放| 日本三级欧美三级| 日本道综合一本久久久88| 激情五月婷婷综合网| 精品無碼一區在線觀看 | 国产一区二区三区免费观看| 国产另类乱子伦精品免费女| 尤物成AV人片在线观看| 亚洲自偷自拍另类小说| 日韩午夜片| 黄色片中文字幕| 大学生久久香蕉国产线观看| 久草热视频在线| 亚洲成人高清无码| 国模私拍一区二区| 男女精品视频| 国产人碰人摸人爱免费视频| 久草热视频在线| 国产精品主播| www.99在线观看| 99久久精品视香蕉蕉| 国产美女久久久久不卡| 久久精品电影| 亚洲色图另类| 福利国产微拍广场一区视频在线| 欧美色伊人| 亚洲精品国产首次亮相| 国产av无码日韩av无码网站| 亚洲男人的天堂在线| 欧美成人二区| 国产一在线观看| 亚洲精品中文字幕午夜| 综合社区亚洲熟妇p| 香蕉久久国产超碰青草| 国产呦视频免费视频在线观看| 亚洲男人天堂2020| 免费AV在线播放观看18禁强制| 2021精品国产自在现线看| 亚洲无码37.| 中字无码av在线电影| 午夜不卡视频| 亚洲成av人无码综合在线观看| 久久综合九色综合97网| 国产青青草视频| 欧美性久久久久| 97狠狠操| 国产大片喷水在线在线视频| 欧美黄网在线| 亚洲va在线∨a天堂va欧美va| 2020精品极品国产色在线观看 | 91福利国产成人精品导航| 日本不卡视频在线| 久草视频福利在线观看| 91精品国产自产91精品资源| 亚洲人成日本在线观看| 国产xxxxx免费视频| 亚洲精品第1页| 一级片一区| 这里只有精品在线播放| 国产成人综合亚洲欧美在| 欧美激情视频二区| 青青青伊人色综合久久| 欧美精品在线免费| 亚洲国产中文精品va在线播放| 天天躁日日躁狠狠躁中文字幕| 色偷偷男人的天堂亚洲av| 国产XXXX做受性欧美88| 夜夜操天天摸| 国产人成在线视频| 波多野结衣在线se| 亚洲欧美精品一中文字幕| 国产女人18毛片水真多1| 五月天香蕉视频国产亚|