劉利
(瀘州職業技術學院信息工程系,四川 瀘州 646005)
基于多特性融合的代詞消解方法研究
劉利
(瀘州職業技術學院信息工程系,四川 瀘州 646005)
互聯網已成為一個海量的開放式知識庫,其中包含著許多有價值的信息,而網頁是互聯網信息承載的載體,將信息結構化成為知識庫構建的基礎。網頁信息不僅包含許多指代詞,還含有自身的標題。指代詞消解是信息結構化的前提,綜合網頁信息具有的一般性和特殊性的特點,本文提出基于多特性融合的代詞消解方法研究,能更好地適應網頁信息代詞的消解,提高網頁信息代詞消解的準確率。
多特性;標題;代詞消解;信息結構化
互聯網信息具有規模龐大、樣式多樣、信息散亂等特點。而網頁是互聯網信息承載的載體,利用互聯網構建知識庫,成了對海量網頁信息的抽取及結構化的過程。網頁信息結構化的前提是代詞消解,代詞消解的結構直接影響到信息結構化的準確率。當前,絕大多數的網頁信息都具有標題,對標題的描述包含在信息正文中,網頁文本信息抽取模塊將充分考慮網頁信息的特征,建立適合它的文本信息抽取方法。
目前常見的代詞指代消解方法有王智強等[1]人提出了基于決策樹的漢語共指消解方法;龐寧等[2]人提出的利用最大熵來訓練模型的方法;李國臣等人[3]結合龐寧等人的方法后提出了基于語料庫的決策樹機器學習算法;董國志等人[4]總結了基于規則和基于統計方法的缺點,提出基于規則預處理與最大熵模型相互結合的方法,在準確率和召回率上有所提高。
上述常用的指代消解方法不能很好地適應網頁正文信息,比如:百度百科中有關李彥宏的介紹,標題為“李彥宏_百度百科”,有一段話為:“他要參戰!在美國一批搜索引擎公司已崛起,而他選擇了回國創業。他回憶這段人生抉擇時說,‘我小時候有很強的不服輸心理,越是大家不看好的事,我越是要做成。’”,其中并沒有出現過他的名字。如果用董國志等人的方法,則在這段話的代詞消解上不能實現。本文結合董國志等人的指代消解方法和網頁的特性提出基于多特性融合的代詞消解方法研究,能很好地適應上述情況。
網頁信息抽取模塊產生的大量文本信息有其特殊性,比如抽取信息涉及主題范圍廣、絕大數網頁都有標題或者子標題等。經統計發現標題中通常包含有該文本信息描述的命名實體,這個特征來源于網頁正文信息和標題的關系。因此在命名實體識別方面,本文利用西南交大中文分詞系統[5]對網頁的標題以及網頁內容進行分詞,然后利用統計的方法,統計出標題的實體詞頻數最高的兩個詞(下面簡稱FWord和SWord),實驗表明這兩個詞最有可能是文章的主旨詞。
采用的評價標準是正確率(P1),具體公式如下:

本文選取體育類、財經類、人物類等領域各200個網頁和大規模網頁集中的200個網頁,用公式(1)計算主旨詞提取的正確率,其結果如表1所示。

表1 標題詞頻統計實驗
在醫藥招商類信息的正確率較低,究其原因在于標題里面含有的噪聲信息太多,導致統計詞頻確定主旨詞時定位在噪聲信息上。從財經類和體育類的詞頻統計結果來看,它們的標題有些采用比喻的手法,導致在確定標題主旨詞時定位出錯。不過在整體上的正確率還是較高的,說明通過標題的詞頻統計能反映出文章的主旨。
本文對網頁信息代詞消解具體流程,如圖1所示。

圖1 指代消解流程
先用西南交大分詞[5]對網頁文本信息進行分詞,提取信息里面所有的代詞,再用算法消解代詞。
在算法消解代詞過程中,采取以下規則:
規則1:如果人稱代詞是單數,則找到表示人并且是單數概念的名詞。如果人稱代詞是復數,則找到連詞(比如“和”、“同”等)連接的并列結構或有復數概念的詞。
規則2:如果指代詞是指男性概念的,比如他、他的等,則在候選消解詞中找到語義類相同并且性別相同的詞進行消解。同理,如果代詞為“她”或者“她的”,則需要找相應性別的人進行消解。
規則3:指代詞和候選消解詞之間的語義類要相同,比如對于表人的代詞,候選消解詞語義也要表“人”。同理,對于表物的代詞,候選消解詞也要表“物”,比如公司、地點、組織等都表示為物的。在判斷實體詞的語義方面,本文用的是“知網”中文語義庫識別的[6,7]。
規則4:在選取候選消解詞時限制在指代詞所在位置的前兩句以內,在計算時設定一個句子的距離值為1,也就是限制距離為3的范圍以內。并且距離指代詞越近則該候選消解詞的權重越大。
規則5:如果指代詞是第一人稱代詞,那么在該句子內搜索語義為“人”并且后面緊跟動詞的詞,若滿足條件則,用該詞進行消解。否則,不予消解。比如:“小明說:‘我想...’。”的形式出現就符合規則5。
再采取基于統計的指代消解方法,主要是從語義一致性、同位語一致性和距離屬性三個特征屬性著手。
(1)語義一致性
比較候選消解詞同待消解指代詞的語義是否屬于同類,如果是則設置公式(2)中的特征函數為1,否則為0。

其中,x表示文本信息中命名實體或名詞,y表示文本信息中的代詞。
(2)同位語一致性
比較候選消解詞和待消解指代詞是否為同位語,如果是則設置公式(3)的值為1,否則設置為0。

其中,x和y同上述函數一致。比如“小明/nr、/w小紅/ nr還有/v我/rr,/w我們/rr一起/s打球/vi”,其中“小明、小紅、我”和“我們”是同位語。
(3)距離屬性
比較消候選消解詞和待消解指代詞是否在同一句,如果是則設置公式(4)的值為3;如果相差一句則設置公式值為2;如果相差兩句,則特征函數值為1;其他情況為0。公式如下:

其中,x和y同上述函數一致。

通過上面公式計算后,再用下面的權重公式進行計算,如公式(6):

若p的值大于或等于5時,則進行消解,否則不進行消解。
自然語言處理的三個評測指標,即準確率、召回率。各個指標定義如下公式所示:


其中,P為準確率,R為召回率。
同其他消解方法的對比試驗結果如表2所示:

表2 代詞消解結果對比
上述結果表明,較其他方法,本文方法能更好地適應網頁信息代詞消解。
本文結合代詞消解的常用方法,找到一種適應網頁代詞消解的方法,為網頁信息結構化提供基礎,但網頁信息結構化還需要更高的準確率,后期可結合句法分析方法提高代詞消解的準確率。
[1]王智強,李蕾,王樅.基于決策樹的漢語代詞共指消解[J].北京郵電大學學報,2 0 0 6,2 9(4):1-5.
[2]龐寧,楊爾弘.基于統計模型與規則的指代消解研究[J].太原科技,2 0 0 7,16 0(5):6 1-6 2.
[3]李國臣,羅云飛.采用優先選擇策略的中文人稱代詞的指代消解[J].中文信息學報,2 0 0 5,19(4):2 4-3 0.
[4]董國志,朱玉全,程顯毅.中文人稱代詞指代消解的研究[J].計算機應用研究,2 0 11,2 8(5):17 74-17 79.
[5]西南交大中文分詞與智能問答系統[EB/O L].h t t p://i c s.s w j t u. e d u.c n/i n d e x.j s p
[6]知網庫和講解地址[EB/O L].h t t p://w w w.k e e n a g e.c o m/h t m l/ c_i n d e x.h t m l
[7]董振東,董強,郝長伶.知網的理論發現[J].中文信息學報,2 0 0 7,2 1(4):3-9.
Research on the Method of PronounsAnaphora Resolution Based on Heterogeneous Features Fusion
Liu Li
(Luzhou Vocational and Technical College,Luzhou 646005,Sichuan)
The Internet has become a mass of open knowledge base,which contains much valuable information.Web pages are the carriers of information,and the foundation of knowledge base construction.Web information contains many pronouns and titles. The pronouns anaphora resolution is the premise of information structure.The integrated web page information has general and special characteristics.This paper proposes a method of pronouns anaphora resolution based on heterogeneous features fusion,which can better adapt to the web information pronouns anaphora resolution and improve the accuracy.
heterogeneous features;title;pronouns anaphora resolution;information structure
TP391.1
A
1008-6609(2016)11-0042-03
劉利(19 8 8-),男,四川瀘州人,碩士研究生,研究方向為人工智能、數據挖掘。