999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多知識源的語義搭配知識庫的構建及應用

2013-09-08 10:18:34張仰森
計算機工程與設計 2013年6期
關鍵詞:語義規則

管 君,謝 瑋,張仰森

(北京信息科技大學 計算機學院智能信息處理研究所,北京100192)

0 引 言

語義搭配的研究是研究文本語義的一種重要手段,目前其應用領域很多,本文主要通過構建語義搭配知識庫來解決文本查錯問題。我們曾在文獻[2]中提出了利用 《知網》中的義原屬性構建語義搭配詞典來進行語義查錯的方法,該方法取得了一定的實驗效果,然而,其構建的語義搭配詞典在語義轉化過程中未進行選擇,而是將所有詞語搭配直接轉化為語義搭配,這樣得到的語義級搭配泛化過于嚴重,有可能會將原本不應轉化為語義搭配的詞語搭配轉化為了語義搭配。

本文利用北京大學計算語言學研究所標注的 《人民日報》語料提取詞語搭配,融合 《知網》中的義原屬性與《語義詞典》中的語義類屬性形成義原類,提出了限散度的概念,以控制語義泛化詞語的范圍。通過計算限散度構建出詞語級、半語義級及語義級三層體系結構的語義搭配知識庫,最終應用該知識庫實現中文文本的語義錯誤偵測。

1 語義知識庫的設計

在中文文本語義查錯時,將詞語級搭配通過語義泛化為語義級搭配,可以彌補語料庫較小這一缺陷。然而泛化后所涉及搭配的范圍勢必大于或者等于原本純字詞級搭配的范圍,如果不加限制的將所有提取的詞語級搭配全部直接泛化為語義級搭配,將會有許多未證實搭配的存在,從而出現本來不應轉化的搭配而被轉化為相應的語義級搭配的情況。為了解決這一問題,本文提出構建三層體系結構知識庫并以限散度來確定可以泛化為語義級搭配的詞語范圍。

1.1 義原類知識庫的構建

《知網》是一個被廣泛應用于中文信息處理的詞匯語義知識庫,它提出的義原是用來表征最基本的、不易分割的意義的最小單位。《語義詞典》也是一部面向中文信息處理的詞匯語義知識庫,《語義詞典》中描述了每一個詞語所屬的語義類。

義原和語義類雖從屬于不同的詞典,但是它們在表述詞語語義方面有許多相似之處。首先,它們都描述了詞語的詳細語義信息。其次,兩者結構清晰并且類似,其中語義類體系是標準的樹狀結構;而義原為稍微復雜的網狀結構,可以近似的看成樹狀結構,兩者都準確的描述了不同詞語的語義歸屬,不同詞語分布于以語義類或者義原所形成的語義樹上。因此,本文將義原與語義類結合,構建了一個義原類屬性。

義原類由義原和語義類組成。對于義原部分,動詞和形容詞只取其詞語概念即義項中的主義原,而名詞需分別取其義項中的主義原以及5個常見的輔助義原:PartPosition、domain、whole、host和modifier義原;語義類部分為從 《語義詞典》提取的語義類屬性。由此構建的義原類表如圖1所示。

圖1 義原類表

其中,如動詞 “掂斤播兩”的義原類,由義項中的主義原 “計算”和語義類 “其他行為”組成;名詞 “滇紅”由其主義原和5個輔助義原加語義類構成,其中若義項中沒有我們選取的輔助義原或該詞語在 《語義詞典》中沒有對應的語義類,則以 “-”替代。

1.2 搭配知識庫的層次結構體系

本搭配知識庫分為三層,12個子庫。

第一層為字詞級搭配庫,該層搭配是由北京大學的《人民日報》語料根據相應的提取規則提取而來,由名動(NV)、動名 (VN)、形名 (AN)3個子庫構成;

第二層為半語義級搭配庫,由名動轉義動詞 (NV_V)、名動轉義名詞 (N_NV)、動名轉義動詞 (V_VN)、動名轉義名詞 (VN_N)、形名轉義形容詞 (A_AN)和形名轉義名詞 (AN_N)6個子庫構成;

第三層為完全語義級搭配庫,由名動全義原類 (N_NV_V)、動名全義原類 (V_VN_N)和形名全義原類(A_AN_N)3個子庫構成。

整個搭配知識庫的體系結構如圖2所示。

圖2 搭配知識庫的體系結構

1.3 限散度的定義

很多研究者越來越認識到搭配對自然語言處理的作用,而搭配的語義知識存儲是對搭配的最有效存儲。然而,是不是所有詞都適合轉換為相應的語義知識呢?答案顯然是否定的。比如 “戴+帽子”這個搭配,轉化為相應的義原類為:“穿戴 身體活動+衣物 頭 人---衣物”,然而 “佩帶”、“披掛”等詞也可以轉化為 “穿戴 身體活動”,而它們顯然不能與帽子搭配,由此可見,如果不加任何限制的將詞語搭配轉化為語義級搭配,將會出現很多錯誤搭配被誤判為正常搭配的情況,導致召回率較低。

因此,本文提出限散度的概念,以限定可以轉化為語義級搭配的詞的范圍。

定義1 可以與詞語j搭配且與詞語i同義原的詞語,同所有與i義原相同的詞語的比值,稱為限散度。

限散度公式如式 (1)和式 (2)所示

(其中i為被轉化詞;j為i的搭配詞)

其中,SUMi為人民日報語料中與i義原類相同的詞語的總數;為人民日報中,所有與j搭配、且義原類與i的義原類相同的搭配的總數。若W=1,則證明所有與i的義原類相同的詞都可以與j搭配;W值越接近1,則表示用該語義搭配代替詞語搭配的準確率越高;反之,則表示與該詞語i同義原的詞語大部分不能與j搭配。

2 語義知識庫的構建

2.1 字詞級搭配庫的構建

本文選用2000年12個月的 《人民日報》標注語料為訓練語料庫,根據大量觀察和統計,結合漢語的語法規律和特點,制定出動名、名動和形名搭配的提取規則。其規則如下:

動名、名動搭配規則[2]:

規則1:若名詞位于當前動詞之后,提取與該動詞距離最遠的名詞,作為其搭配名詞;

規則2:若名詞位于當前動詞之前,提取與該動詞距離最近的名詞,作為其搭配名詞。

規則3:在規則1、2的前提下,若名詞之間有連詞或其它標識并列關系的詞語或標點,如 “和”、“并且”,則將這幾個并列的名詞分別抽取出來作為與該動詞搭配的名詞。

形名搭配規則:

規則1:對于當前形容詞,若同時存在前名詞與后名詞,取后名詞為搭配詞;

規則2:對于當前形容詞,若只存在前名詞,則取距離該形容詞最近的前名詞為搭配詞;

規則3:對于當前形容詞,若該形容詞后面為 “的”,則取 “的”后面連續名詞的最后一個名詞為搭配詞;否則,則取距離形容詞最近的一個名詞為搭配詞;

規則4:對于規則2、3,若形容詞之間有連詞或其它標識并列關系的詞語或標點,如 “和”、“并且”,則分別取每個形容詞與名詞相搭配。

根據以上規則,提取的搭配如圖3所示。

圖3 詞語級搭配庫

2.2 半語義級搭配庫的構建

半語義級搭配庫,轉化方法以動名搭配為例。先以動詞為轉化詞,名詞為搭配詞進行半語義級的轉化,然后根據限散度公式計算限散值。由于語料庫規模問題,抽取的搭配只是所有詞語搭配很小的一部分,所以導致W值較小,因此本文選取0.1為閾值,大于0.1的搭配,將其轉化為動名轉義動詞 (V_VN)的半語義知識庫。之后再將動詞作為搭配詞、名詞為轉化詞,重復以上過程,提取動名轉義名詞 (VN_N)的半語義級知識庫。

提取的半語義級搭配庫如圖4所示。

圖4 半語義級搭配庫

2.3 語義級搭配庫的構建

同樣以動名搭配為例。由于半語義級搭配已經將其中一個詞轉化為義原類,所以語義級搭配只需要轉化另一半即可,即將已轉化為義原類的詞看做搭配詞,未轉化的詞作為轉化詞,同樣選取0.1為閾值,轉化為語義級搭配庫(N_NV_V),提取的語義級搭配庫如圖5所示。

2.4 語義知識庫的構建

根據查錯算法的需要,為了降低算法的重復率,本文將已轉化為語義級和半語義級的搭配分別從半語義級和詞語級搭配庫中刪除,得到最終的語義知識庫。

3 語義錯誤自動查錯算法及實現

在三層語義搭配知識庫的基礎上,設計語義錯誤自動查錯算法見算法1。

算法1

步驟1 利用分詞模塊將實際測試語料進行標注。

步驟2 按照名動、動名、形名的提取規則,文本逐句掃描,提取搭配對;

步驟3 將提取的搭配轉化為全義原類搭配,查找知識庫中的語義級搭配庫,如找到該搭配,則此搭配正確,否則,轉入步驟4;

步驟4 將搭配分別轉化為半義原類搭配庫1(前詞轉化)和半義原類搭配庫2(后詞轉化),查找知識庫中的半語義級搭配庫,如找到,則該搭配正確,否則,轉入步驟5;

步驟5 查找知識庫中的詞語級搭配庫,如找到,則該搭配正確,否則,該搭配錯誤,加入錯誤列表wronglist;

步驟6 判斷是否為最后一句,如果是則轉入步驟7;否則,轉入步驟2;

步驟7 將wronglist依次讀出并標紅,轉入步驟8;

步驟8 結束。

圖5 語義級搭配庫

4 實驗結果與分析

根據上文提出的文本語義錯誤查錯算法,本文從小學生語文病句題目中選取了324個病句作為測試語料,其中除了56個語義搭配錯誤外,還包括了字詞級和語法級的錯誤。我們利用 Visual Studio 2010和SQL Server2005開發了一個智能信息處理平臺,啟動語義查錯功能,得到的實驗結果如圖6所示,其中錯誤詞語用紅色加粗標識。

通過對實驗結果進行統計,我們得到如表1所示的統計結果。

有人曾只使用 《知網》,且未使用分層結構篩選可以進行語義轉化的詞語,其查錯結果為:召回率35%,精確率82.3%。通過對比發現,本方法在錯誤的召回率方面有較大提高,精準率上稍有下降。

圖6 實驗結果

表1 實驗結果統計

通過對實驗結果分析,造成精確率低的原因主要有兩個:

(1)知識庫較小,且涉及領域主要為政治類,較為單一;

(2)分詞軟件標注錯誤。

下面,我通過幾個例句來詳細分析。

例4:“六一”節那天,學生都穿著鮮艷的衣服和紅領巾,參加慶祝活動。

分詞結果:六一/m ”/w 節/n 那天/t,/w 學生/n 都/d 穿/v著/uz鮮艷/a 的/uj衣服/n 和/c 紅領巾/n ,/w 參加/v 慶祝/vn活動/vn。/w

其中,“學生 穿”其實在日常生活中是一個較為常用的搭配,然而,在政治類語料中,此搭配較少,結果就導致 “學生 穿”被標紅,而 “鮮艷 衣服”也是這個原因。

例5:公園新設了由兩個英國援建的游樂項目。

分詞結果:公園/n 新/d 設/v 了/ul由/p 兩/n個/q 英國/ns援建/v 的/uj游樂/vn項目/n 。/w

其中,“兩”本來應該為數詞,而在此處卻被標記為名詞,所以造成 “設”和 “援建”被標紅。

另外,提取搭配的規則還較為粗糙,搭配庫的提取方法還有待進一步細化。

盡管如此,我們仍可以看出,義原類及其構建的三層結構語義知識庫可以用于文本查錯,同時,它也為今后語義錯誤偵測的研究提出了一個可行的方向。

5 結束語

本文從文本查錯應用出發,結合語義學知識,詳細介紹了義原類及三層結構知識庫的構建,利用該知識庫實現的文本查錯算法,取得了較好的實驗效果。今后會繼續擴大語料庫的規模與范圍,使其能夠涵蓋更多的領域。另外,對于復合語句或句子成分殘缺的語句,因為句子結構較復雜,會影響到查錯的準確率,因此,加強句法分析的研究將是今后文本錯誤偵測工作的一項重要內容。

[1]LI Jingning.The semantics collocation theory and english teaching [J].Science & Technology Information,2010 (36):150(in Chinese).[李經寧.淺析語義學的搭配理論與英語教學[J].科技信息,2010 (36):150.]

[2]GUO Chong,ZHANG Yangsen.Study of semantic automatic error-detecting for Chinese text based on sememe matching of HowNet.Computer Engineering and Design,2010,31 (17):3924-3928 (in Chinese).[郭充,張仰森.基于 《知網》義原搭配的中文文本語義級自動查錯研究 [J].計算機工程與設計,2010,31 (17):3924-3928.]

[3]ZHENG Fengqiang,LIN Lei,LIU Bingquan,et al.A research on the application of HowNet in named entity recognition [J].Journal of Chinese Information Processing,2008,22 (5):97-101(in Chinese).[鄭逢強,林磊,劉秉權,等.《知網》在命名實體識別中的應用研究 [J].中文信息學報,2008,22(5):97-101.]

[4]WU Yunfang,JIN Peng,GUO Tao.Coarse-grained word sense disambiguation using features described in the lexicon [J].Journal of Chinese Information Processing,2007,21 (2):3-8(in Chinese).[吳云芳,金澎,郭濤.基于詞典屬性特征的粗粒度詞義消歧 [J].中文信息學報,2007,21 (2):3-8.]

[5]WANG Xueling.On the correlation between generative semantics and structuralism linguistics [J].Journal of Jilin Agricultural Science and Technology College,2009,18 (1):88-89 (in Chinese).[王雪玲.生成語義學與結構主義語言學發展的關聯性研究 [J].吉林農業科技學院學報,2009,18 (1):88-89.]

[6]WANG Suge,YANG Junling,ZHANG Wu.Automatic acquisition of chinese collocation [J].Journal of Chinese Information Processing,2006,20 (6):31-37 (in Chinese).[王素格,楊軍玲,張武.自動獲取漢語詞語搭配 [J].中文信息學報,2006,20 (6):31-37.]

[7]YANG Shouxun.Machine learning for collocation identification[C]//Beijing:IEEE International Conference on Natural Language Processing and Knowledge Engineering,2003:315-320.

[8]DANG H T.The role of semantic roles in disambiguating verb senses [C]//Proceedings of the 43th Annual Meeting of the ACL,2005.

[9]CHEN Jia,LUO Zhensheng.An approach to Chinese word sense disambiguation based on collocation [J].Microcomputer Information,2008,24 (3):187-188 (in Chinese). [陳佳,羅振聲.一種基于語義搭配的漢語詞義消歧方法 [J].微計算機信息.2008,24 (3):187-188.]

[10]TANG Yi,ZHOU Changle,LIAN Ruiting.Chinese semantic dependency analysis using HowNet [J].Mind and Computation,2010,4 (2):109-116 (in Chinese). [唐怡,周昌樂,練睿婷.基于HowNet的中文語義依存分析 [J].心智與計算,2010,4 (2):109-116.]

猜你喜歡
語義規則
撐竿跳規則的制定
數獨的規則和演變
語言與語義
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
搜索新規則
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 2022精品国偷自产免费观看| 国产高清色视频免费看的网址| 一本综合久久| 四虎综合网| 亚洲一区二区三区中文字幕5566| 亚洲成人动漫在线| 亚洲人成日本在线观看| 国产91九色在线播放| 欧美成人日韩| 中文无码毛片又爽又刺激| 高清无码一本到东京热| 亚洲欧美成人在线视频| 综合久久五月天| 国产成人欧美| 国产sm重味一区二区三区| 国产一在线观看| 久久婷婷综合色一区二区| 在线观看欧美精品二区| 精品国产成人三级在线观看| 日韩大乳视频中文字幕 | 国产va免费精品观看| 欧美亚洲激情| 国产中文一区a级毛片视频| 国产一区二区视频在线| 国产视频久久久久| 亚洲无码高清一区| 国产97区一区二区三区无码| 亚洲一级毛片在线播放| 天天综合色网| 亚欧成人无码AV在线播放| 日韩精品亚洲精品第一页| 欧美性天天| 国产成人喷潮在线观看| 国产中文一区二区苍井空| 欧美a级在线| 国产高清不卡视频| 99re热精品视频国产免费| 国产成人久视频免费| 欧美高清国产| 成人福利在线观看| 四虎永久在线视频| 国产男人的天堂| 亚洲综合一区国产精品| 国产精品福利导航| AV在线天堂进入| 九九久久精品免费观看| 久久国产热| 免费人成在线观看视频色| 国产精品久久自在自线观看| 无码中文字幕精品推荐| 亚洲侵犯无码网址在线观看| 亚洲精品卡2卡3卡4卡5卡区| 日本高清在线看免费观看| 国产精品亚洲一区二区三区在线观看| 色天堂无毒不卡| 亚洲香蕉在线| 亚洲国模精品一区| 亚洲动漫h| 日本欧美午夜| 欧美亚洲第一页| 欧美综合激情| 色噜噜中文网| 精品国产免费观看| 国产成人精品视频一区视频二区| 国产在线日本| 成年午夜精品久久精品| 久青草免费在线视频| 欧美五月婷婷| 日韩在线视频网站| 亚洲成人网在线观看| 欧美啪啪一区| 无码人中文字幕| 夜精品a一区二区三区| a级毛片免费网站| 女同国产精品一区二区| 538国产在线| 国产区免费精品视频| 第一区免费在线观看| 日韩成人在线一区二区| av在线无码浏览| 欧美成人精品在线| 亚欧乱色视频网站大全|