肖德華
【摘要】 物聯網實體關系抽取是研究物聯網智慧交互的關鍵問題之一,針對物聯網中的自然語言,當前基于樹核函數的關系抽取方法因可選擇不同的樹結構與核函數而被廣泛應用,但其尚未很好地利用語義特征導致召回率不高。為解決此問題,本文提出了一種基于語義角色標注的關系抽取模型。實驗結果表明,使用語義角色標注有助于提高關系抽取的性能。
【關鍵字】 關系抽取 語義角色 卷積樹核函數
一、引言
智慧物聯網的關鍵是實現智慧交互,發現其實體間的交互關系便成為關鍵問題之一,而目前物聯網對自然語言信息研究不足。因此本文通過研究語義實體關系抽取來進一步地增加物聯網的智慧性。
目前Collins的卷積樹核函數較其他樹核函數更能效捕獲結構化特征,具有較高的準確率和召回率,因此在關系抽取及自然語言處理的其它任務中獲得了廣泛的應用[1]。但是其存在一個關鍵問題,即其未能充分使用語義信息。Liu等通過加入知網或同義詞信息的手段利用了語義信息,但此方法對于一詞多義等情況無法處理。基于上述問題,本文提出了一種基于語義角色標注的卷積樹核模型。
二、一種基于語義角色標注的卷積樹核模型
本文提出的基于語義角色標注的卷積樹核模型工作流程為:首先,對經過初步分詞標注等處理后的語料進行語義角色標注,生成優化后的SPT解析樹;然后,使用卷積樹核函數計算,最后將計算結果提交給分類器訓練并進行抽取測試,如圖1所示。
2.1語義角色標注
語義角色標注(Semantic Role labeling)是指對句子中謂詞所支配的詞語進行語義成分分析,并自動標注各成分所扮演的語義角色。
如圖2所示,語義角色標注主要包括三個任務:
1)識別出句子中的謂詞(一般為動詞);
2)對識別出的謂詞進行語義的判定(如圖2中“打人”、“打游戲”中的“打”具有不同的語義);
3)識別謂詞支配詞(論元),并對其的角色做出判定(施事、受事、時間、方式……)。
同樣是使用語義信息的方法,加入《同義詞詞林》或者《知網》的語義特征處理辦法只有在標注同義詞或者近義詞時才能取得效果,但在圖2的例句中,兩個句子里的謂詞“打”在字面上沒有任何區別,所以依靠同義詞標注不能準確的標注出兩句的差異,而語義角色標注卻能很高效且準確地解決這一類問題,通過對打字做謂詞語義的判定即可區分出兩個句子中實體關系的不同。
2.2最短路徑包含樹的改進方法
最短路徑包含樹(SPT)雖然含有豐富的結構化信息,但其含有較多的噪聲信息并且存在結構化信息不完整的情況,本文在SPT基礎上提出了一種最短路徑包含樹的改進方法。
本文主要使用刪除無用修飾結構的方法來切割掉冗余實例結構。冗余修飾結構是指實體的修飾語如形容詞、冠詞等,由于這些修飾結構距離實體很近,在生成SPT時會留下部分修飾語結構,如果句子的主干比較完整,這些修飾信息對實體關系抽取幾乎沒有正面影響,反而使分類器的性能降低,所以要將SPT中對實體的修飾結構進行刪除。
謂語動詞是非常重要的語義元素,很多交互關系可以依靠謂語動詞體現。但是初始的SPT算法會在很多情況下切割掉本來有用的動詞結構。此外,如果沒有謂詞結構則語義角色標記就無法進行,所以要恢復被誤刪的謂詞,使得語義角色可以順利標注。
三、實驗結果
本文的實驗數據使用“搜狗實驗室”語料精簡版,擇取其中700篇文章,其中600篇作為訓練語料,100篇作為測試語料;數據經過百度NLPC平臺進行預處理;選擇libSVM作為SVM分類器。
針對本文提出的卷積樹核關系抽取模型,主要通過準確率(P),召回率(R)和綜合評價指標(F-Measure:準確率和召回率加權調和平均)來驗證關系抽取的性能。本文的實驗主要為卷積樹核模型引入同義詞信息和語義角色后的關系抽取性能驗證;
表1 添加語義角色和同義詞信息的性能比較如表1所示,本文設計的卷積核樹模型在進行語義角色標注后,準確率和召回率較加入同義詞信息的方法均有提升,證明在利用語義信息的方法上,語義角色性能強于同義詞信息。
四、總結與展望
本文在智慧物聯的背景下提出一種基于語義角色標注的關系抽取方法,充分利用了角色語義信息,提升了卷積樹核模型的性能。不過該模型依然有待改進之處:在生成最短路徑包含樹時,有動詞會被誤刪,所以后續會進一步優化最短路徑樹算法。
參 考 文 獻
[1] Collins M, Duffy N. Convolution kernels for natural language[C].Advances in neural information processing systems. 2001: 625-632.
[2]徐靖. 基于特征的中文名詞性謂詞語義角色標注研究[D]. 蘇州大學, 2011.