999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特性融合的代詞消解方法研究

2016-02-06 05:44:48劉利
電腦與電信 2016年11期
關鍵詞:語義信息方法

劉利

(瀘州職業技術學院信息工程系,四川 瀘州 646005)

基于多特性融合的代詞消解方法研究

劉利

(瀘州職業技術學院信息工程系,四川 瀘州 646005)

互聯網已成為一個海量的開放式知識庫,其中包含著許多有價值的信息,而網頁是互聯網信息承載的載體,將信息結構化成為知識庫構建的基礎。網頁信息不僅包含許多指代詞,還含有自身的標題。指代詞消解是信息結構化的前提,綜合網頁信息具有的一般性和特殊性的特點,本文提出基于多特性融合的代詞消解方法研究,能更好地適應網頁信息代詞的消解,提高網頁信息代詞消解的準確率。

多特性;標題;代詞消解;信息結構化

1 引言

互聯網信息具有規模龐大、樣式多樣、信息散亂等特點。而網頁是互聯網信息承載的載體,利用互聯網構建知識庫,成了對海量網頁信息的抽取及結構化的過程。網頁信息結構化的前提是代詞消解,代詞消解的結構直接影響到信息結構化的準確率。當前,絕大多數的網頁信息都具有標題,對標題的描述包含在信息正文中,網頁文本信息抽取模塊將充分考慮網頁信息的特征,建立適合它的文本信息抽取方法。

目前常見的代詞指代消解方法有王智強等[1]人提出了基于決策樹的漢語共指消解方法;龐寧等[2]人提出的利用最大熵來訓練模型的方法;李國臣等人[3]結合龐寧等人的方法后提出了基于語料庫的決策樹機器學習算法;董國志等人[4]總結了基于規則和基于統計方法的缺點,提出基于規則預處理與最大熵模型相互結合的方法,在準確率和召回率上有所提高。

上述常用的指代消解方法不能很好地適應網頁正文信息,比如:百度百科中有關李彥宏的介紹,標題為“李彥宏_百度百科”,有一段話為:“他要參戰!在美國一批搜索引擎公司已崛起,而他選擇了回國創業。他回憶這段人生抉擇時說,‘我小時候有很強的不服輸心理,越是大家不看好的事,我越是要做成。’”,其中并沒有出現過他的名字。如果用董國志等人的方法,則在這段話的代詞消解上不能實現。本文結合董國志等人的指代消解方法和網頁的特性提出基于多特性融合的代詞消解方法研究,能很好地適應上述情況。

2 標題統計分析

網頁信息抽取模塊產生的大量文本信息有其特殊性,比如抽取信息涉及主題范圍廣、絕大數網頁都有標題或者子標題等。經統計發現標題中通常包含有該文本信息描述的命名實體,這個特征來源于網頁正文信息和標題的關系。因此在命名實體識別方面,本文利用西南交大中文分詞系統[5]對網頁的標題以及網頁內容進行分詞,然后利用統計的方法,統計出標題的實體詞頻數最高的兩個詞(下面簡稱FWord和SWord),實驗表明這兩個詞最有可能是文章的主旨詞。

采用的評價標準是正確率(P1),具體公式如下:

本文選取體育類、財經類、人物類等領域各200個網頁和大規模網頁集中的200個網頁,用公式(1)計算主旨詞提取的正確率,其結果如表1所示。

表1 標題詞頻統計實驗

在醫藥招商類信息的正確率較低,究其原因在于標題里面含有的噪聲信息太多,導致統計詞頻確定主旨詞時定位在噪聲信息上。從財經類和體育類的詞頻統計結果來看,它們的標題有些采用比喻的手法,導致在確定標題主旨詞時定位出錯。不過在整體上的正確率還是較高的,說明通過標題的詞頻統計能反映出文章的主旨。

3 算法描述

本文對網頁信息代詞消解具體流程,如圖1所示。

圖1 指代消解流程

先用西南交大分詞[5]對網頁文本信息進行分詞,提取信息里面所有的代詞,再用算法消解代詞。

在算法消解代詞過程中,采取以下規則:

規則1:如果人稱代詞是單數,則找到表示人并且是單數概念的名詞。如果人稱代詞是復數,則找到連詞(比如“和”、“同”等)連接的并列結構或有復數概念的詞。

規則2:如果指代詞是指男性概念的,比如他、他的等,則在候選消解詞中找到語義類相同并且性別相同的詞進行消解。同理,如果代詞為“她”或者“她的”,則需要找相應性別的人進行消解。

規則3:指代詞和候選消解詞之間的語義類要相同,比如對于表人的代詞,候選消解詞語義也要表“人”。同理,對于表物的代詞,候選消解詞也要表“物”,比如公司、地點、組織等都表示為物的。在判斷實體詞的語義方面,本文用的是“知網”中文語義庫識別的[6,7]。

規則4:在選取候選消解詞時限制在指代詞所在位置的前兩句以內,在計算時設定一個句子的距離值為1,也就是限制距離為3的范圍以內。并且距離指代詞越近則該候選消解詞的權重越大。

規則5:如果指代詞是第一人稱代詞,那么在該句子內搜索語義為“人”并且后面緊跟動詞的詞,若滿足條件則,用該詞進行消解。否則,不予消解。比如:“小明說:‘我想...’。”的形式出現就符合規則5。

再采取基于統計的指代消解方法,主要是從語義一致性、同位語一致性和距離屬性三個特征屬性著手。

(1)語義一致性

比較候選消解詞同待消解指代詞的語義是否屬于同類,如果是則設置公式(2)中的特征函數為1,否則為0。

其中,x表示文本信息中命名實體或名詞,y表示文本信息中的代詞。

(2)同位語一致性

比較候選消解詞和待消解指代詞是否為同位語,如果是則設置公式(3)的值為1,否則設置為0。

其中,x和y同上述函數一致。比如“小明/nr、/w小紅/ nr還有/v我/rr,/w我們/rr一起/s打球/vi”,其中“小明、小紅、我”和“我們”是同位語。

(3)距離屬性

比較消候選消解詞和待消解指代詞是否在同一句,如果是則設置公式(4)的值為3;如果相差一句則設置公式值為2;如果相差兩句,則特征函數值為1;其他情況為0。公式如下:

其中,x和y同上述函數一致。

通過上面公式計算后,再用下面的權重公式進行計算,如公式(6):

若p的值大于或等于5時,則進行消解,否則不進行消解。

4 實驗過程和結果分析

自然語言處理的三個評測指標,即準確率、召回率。各個指標定義如下公式所示:

其中,P為準確率,R為召回率。

同其他消解方法的對比試驗結果如表2所示:

表2 代詞消解結果對比

上述結果表明,較其他方法,本文方法能更好地適應網頁信息代詞消解。

5 結語

本文結合代詞消解的常用方法,找到一種適應網頁代詞消解的方法,為網頁信息結構化提供基礎,但網頁信息結構化還需要更高的準確率,后期可結合句法分析方法提高代詞消解的準確率。

[1]王智強,李蕾,王樅.基于決策樹的漢語代詞共指消解[J].北京郵電大學學報,2 0 0 6,2 9(4):1-5.

[2]龐寧,楊爾弘.基于統計模型與規則的指代消解研究[J].太原科技,2 0 0 7,16 0(5):6 1-6 2.

[3]李國臣,羅云飛.采用優先選擇策略的中文人稱代詞的指代消解[J].中文信息學報,2 0 0 5,19(4):2 4-3 0.

[4]董國志,朱玉全,程顯毅.中文人稱代詞指代消解的研究[J].計算機應用研究,2 0 11,2 8(5):17 74-17 79.

[5]西南交大中文分詞與智能問答系統[EB/O L].h t t p://i c s.s w j t u. e d u.c n/i n d e x.j s p

[6]知網庫和講解地址[EB/O L].h t t p://w w w.k e e n a g e.c o m/h t m l/ c_i n d e x.h t m l

[7]董振東,董強,郝長伶.知網的理論發現[J].中文信息學報,2 0 0 7,2 1(4):3-9.

Research on the Method of PronounsAnaphora Resolution Based on Heterogeneous Features Fusion

Liu Li
(Luzhou Vocational and Technical College,Luzhou 646005,Sichuan)

The Internet has become a mass of open knowledge base,which contains much valuable information.Web pages are the carriers of information,and the foundation of knowledge base construction.Web information contains many pronouns and titles. The pronouns anaphora resolution is the premise of information structure.The integrated web page information has general and special characteristics.This paper proposes a method of pronouns anaphora resolution based on heterogeneous features fusion,which can better adapt to the web information pronouns anaphora resolution and improve the accuracy.

heterogeneous features;title;pronouns anaphora resolution;information structure

TP391.1

A

1008-6609(2016)11-0042-03

劉利(19 8 8-),男,四川瀘州人,碩士研究生,研究方向為人工智能、數據挖掘。

猜你喜歡
語義信息方法
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲国语自产一区第二页| 四虎成人精品在永久免费| 欧美日韩精品综合在线一区| 中文字幕在线播放不卡| 国产网站黄| 激情五月婷婷综合网| 久久黄色一级片| 另类重口100页在线播放| av在线手机播放| 91久久夜色精品国产网站| 国产精品永久在线| 国产又色又刺激高潮免费看| 日韩无码视频专区| 少妇精品在线| 国产乱子伦精品视频| 国产精品无码久久久久久| 免费看的一级毛片| 亚洲综合精品第一页| 久久女人网| 日韩不卡高清视频| 国产熟睡乱子伦视频网站| 免费无码AV片在线观看国产| 国产成人精品亚洲77美色| 精品国产福利在线| 久久久久九九精品影院| www.亚洲色图.com| 免费xxxxx在线观看网站| 亚洲全网成人资源在线观看| 91啦中文字幕| 91九色国产porny| 欧美亚洲综合免费精品高清在线观看 | 国产一区二区三区在线观看视频| 五月天香蕉视频国产亚| www.狠狠| 青青热久麻豆精品视频在线观看| 精品福利视频网| 黄色网站在线观看无码| 欧美成人a∨视频免费观看| 国产你懂得| 在线观看国产精美视频| 国模视频一区二区| 在线观看亚洲精品福利片| 2020国产免费久久精品99| 亚洲动漫h| 国产99欧美精品久久精品久久| 91视频首页| 久久大香伊蕉在人线观看热2| 秋霞国产在线| 专干老肥熟女视频网站| 四虎免费视频网站| 亚洲欧美成aⅴ人在线观看| 91精品国产自产91精品资源| 五月天丁香婷婷综合久久| 欧美成一级| 亚洲AV无码不卡无码| 任我操在线视频| 亚洲国产清纯| 国产成本人片免费a∨短片| 国产精品成人一区二区不卡 | 国产成人av大片在线播放| 谁有在线观看日韩亚洲最新视频| 国产欧美在线观看视频| 国产91丝袜| 日本高清视频在线www色| 国产成人无码AV在线播放动漫| 人人澡人人爽欧美一区| 91麻豆久久久| 欧美在线国产| 四虎亚洲国产成人久久精品| 国产内射一区亚洲| 欧美精品v欧洲精品| 国产好痛疼轻点好爽的视频| 极品性荡少妇一区二区色欲| 成人在线不卡| 亚洲第一区精品日韩在线播放| 久久福利片| www精品久久| 亚洲欧美在线看片AI| 日韩色图区| 免费无码在线观看| 国产三级精品三级在线观看| 国产精品黄色片|