999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Perl的詞義消岐方法研究與設計

2009-04-29 00:00:00史海峰
電腦知識與技術 2009年24期

摘要:該文介紹了一種基于Linux環境使用Perl語言實現的詞義消岐小系統,算法主要由預處理、計算詞向量和上下文向量多義詞向量幾個過程。通過計算某一義項與目標項的義項詞語所具有相似性,比指示其他義項詞語具有更強的相似性,以此為基礎來完成多義詞詞義的消歧工作.并對語料進行實驗得出結果分析不足,待進一步研究。

關鍵詞:消岐;義項;向量

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)24-6765-01

The Research and Design ofWord Sense Disambiguation Based on Perl Programming

SHI Hai-feng1,3,SHI Jing2

(1.SuzhowUniversity College of Computer Sciences and Technology,Suzhou 215006,China; 2.Changzhou College of Information Technical, Changzhou 213164, China; 3.Jiangsu Polytechnic University,Changzhou 213164, China)

Abstract: The paper presents a smart system by Perl Programming based on Linux.The algorithm contents pretreatment, word vector computuing and sense vector computing. By Similarity Analysis between one sense and target item, finding the stronger Similarity than other words. And completing the word sense disambiguation. The results of testing the corpus shows the shortage, and there will be a further studing.

Key words: disambiguation; sense; vector

語言文字是信息的首要載體。隨著計算機和因特網的推廣應用,由數據處理、信息處理發展到知識處理,對語言文字處理要求的深度和廣度越來越高,可以認為一個國家的語言文字的信息處理水平和處理量基本上代表了這個國家進入信息社會的程度,其語言文字信息處理能力直接關系到它在網絡社會和網絡經濟中的國際競爭能力。

本質上說,利用計算機進行自然語言處理是一個不斷消歧的過程。詞義歧義就是自然語言處理中很典型的一類歧義問題。自然語言處理過程中,在特定的上下文中的某一個詞匯具有多個詞義時,就可能出現詞的歧義現象。

1 Perl語言

Perl被稱為\"駱駝\"語言。發明perl的Larry Wall就說過:“Perl可能不好看或者不好聞,但是它能完成任務”。Perl的應用功能有很多,包括網絡編程、系統管理和Web腳本編寫語言等,此次主要關注的Perl的文本處理功能,其實Perl最初就是為了這個目的設計的。

2 算法分析與設計

本設計的基本思想是: 在上下文環境分布上,多義詞某一義項與指求項的義項詞語所具有相似性,比指示其他義項詞語具有更強的相似性,以此為基礎來完成多義詞詞義的消歧工作。具體過程如圖1所示。

第一階段: 把所用語料去除停用詞,如的,地,標點等等。其中詞用停表是在網上下載的。

第二階段:形成詞向量 (1)統計詞數,詞數大于80作為特征詞。(2)二維詞向量:每個特征詞為一行,每個歧義詞的一列,形成一個二維向量表,計算過程是如果一段包括歧義詞,把這段出現的特征詞詞頻在二維表中加一。把二維表中的每個詞頻作為特征詞的消歧權重。其中語料是第一,三部分。

第三階段:上下文向量 (1)從第一,三部分語料中抽取訓練樣例,條件是包括歧義詞切詞數大于60的一段上下文。(2)訓練樣例中詞映射到詞向量中形成上下文二維向量表。

第四階段:計算詞義向量(1)計算上下文的相似度,目前用的是最大相似度,計算每對上下文共同出現特征詞的權重。(2)用聚類的算法聚成二類.目前已用的聚類算法是Average Link Clustering aka McQuitty’s Similarity Analysis。形成詞義向量,詞義向量=權重*上下文出數某特征詞的次數/某一類的總上下文數總數

第五階段:算法評估:(1)用到的是語料第二部分,抽取測試樣例包括歧義詞的一段上下文詞數大于80。(2)映射到二個詞義向量中,相加權重,分類。(3)計算正確率

其中語料來自東北大學網站上下載的1998年一~三月份的人民日報文章。已分過詞,詞與詞中間用空格分開。單詞數近300萬,大小為20M。語料分為三部分,我們用其中的第一三部分作為訓練語料,第二部分作為測試語料

程序運行時間:在一分鐘之內。

3 實驗結果與展望

目前僅測試是三個歧義詞:發表,健康,保守。正確率是:79.3%

下一步工作是用新的特征抽取方法:tf.idf,信息增益。和聚類算法EM。采用魯松,白碩,黃雄在《基于向量空間模型中義項詞語的無導詞義消歧》提出的基于義項詞語擴展歧義詞表,也就是用相同的歧義詞表。

參考文獻:

[1] 魯松,白碩,黃雄.基于向量空間模型中義項詞語的無導詞義消歧[J].軟件學報,2002,13(6).

[2] Schutze.h, Automatic word sense discrimination, Computational Linguistics,1998,24(1):97-124.

[3] Richard O.Duda Peter E.Hart.模式分類[M].2版.北京:機械工業出版社,2006:415-454.

主站蜘蛛池模板: 真实国产乱子伦视频| 亚洲国产综合精品一区| 国产美女视频黄a视频全免费网站| 日本一区二区三区精品视频| 精品夜恋影院亚洲欧洲| 日韩欧美网址| 成年人国产视频| 欧美亚洲中文精品三区| 91亚洲免费视频| 久久公开视频| 亚洲成人黄色在线观看| 秋霞一区二区三区| 亚洲综合片| 亚洲精品午夜无码电影网| 国产成年女人特黄特色毛片免 | 中文字幕亚洲另类天堂| 97国内精品久久久久不卡| 91久久偷偷做嫩草影院电| 午夜在线不卡| 亚洲第一成人在线| 国产在线精品网址你懂的 | 精品视频一区二区观看| 亚洲精品视频免费看| 国产精品自拍合集| 国产在线观看成人91| 91久久青青草原精品国产| 国产网站免费| 久久亚洲精少妇毛片午夜无码| 五月婷婷亚洲综合| 五月激情婷婷综合| 色悠久久久| 呦视频在线一区二区三区| 国产精品亚洲天堂| 欧美国产菊爆免费观看| 日韩AV手机在线观看蜜芽| 亚洲一区二区成人| 国产精品亚洲αv天堂无码| 99re热精品视频国产免费| 幺女国产一级毛片| 亚洲中文字幕23页在线| 欧美日韩中文国产| 亚洲男人的天堂网| 天天综合网站| 精品视频在线一区| 亚洲无码日韩一区| 国产91视频观看| 亚洲日韩精品伊甸| 久青草免费视频| AV无码国产在线看岛国岛| 国产无码精品在线| 好久久免费视频高清| 三级欧美在线| 欧美午夜网| 亚洲av无码久久无遮挡| 无码中文字幕精品推荐| 国产成人精品一区二区秒拍1o| 成人午夜精品一级毛片| 亚洲an第二区国产精品| 高清精品美女在线播放| 无码中文AⅤ在线观看| 91毛片网| 国产裸舞福利在线视频合集| 成人av专区精品无码国产| 国产区精品高清在线观看| 亚洲国产成人久久精品软件| 亚洲国产成人自拍| 97久久精品人人| 精品午夜国产福利观看| 无码福利日韩神码福利片| 国产精品尤物在线| 在线观看无码av免费不卡网站| 永久免费无码日韩视频| 欧美黄网在线| 天堂成人在线| 尤物特级无码毛片免费| 青青国产成人免费精品视频| 亚洲婷婷丁香| 欧美一区中文字幕| 波多野吉衣一区二区三区av| 国产精品分类视频分类一区| 国产综合亚洲欧洲区精品无码| 欧美日韩福利|