一種基于Ｐｅｒｌ的詞義消岐方法研究與設計

2009-04-29 00:00:00史海峰施靜

電腦知識與技術 2009年24期

摘要:該文介紹了一種基于Linux環境使用Perl語言實現的詞義消岐小系統，算法主要由預處理、計算詞向量和上下文向量多義詞向量幾個過程。通過計算某一義項與目標項的義項詞語所具有相似性，比指示其他義項詞語具有更強的相似性，以此為基礎來完成多義詞詞義的消歧工作.并對語料進行實驗得出結果分析不足，待進一步研究。

關鍵詞:消岐;義項;向量

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)24-6765-01

The Research and Design ofWord Sense Disambiguation Based on Perl Programming

SHI Hai-feng1，3，SHI Jing2

(1.SuzhowUniversity College of Computer Sciences and Technology，Suzhou 215006，China; 2.Changzhou College of Information Technical， Changzhou 213164， China; 3.Jiangsu Polytechnic University，Changzhou 213164， China)

Abstract: The paper presents a smart system by Perl Programming based on Linux.The algorithm contents pretreatment， word vector computuing and sense vector computing. By Similarity Analysis between one sense and target item， finding the stronger Similarity than other words. And completing the word sense disambiguation. The results of testing the corpus shows the shortage， and there will be a further studing.

Key words: disambiguation; sense; vector

語言文字是信息的首要載體。隨著計算機和因特網的推廣應用，由數據處理、信息處理發展到知識處理，對語言文字處理要求的深度和廣度越來越高，可以認為一個國家的語言文字的信息處理水平和處理量基本上代表了這個國家進入信息社會的程度，其語言文字信息處理能力直接關系到它在網絡社會和網絡經濟中的國際競爭能力。

本質上說，利用計算機進行自然語言處理是一個不斷消歧的過程。詞義歧義就是自然語言處理中很典型的一類歧義問題。自然語言處理過程中，在特定的上下文中的某一個詞匯具有多個詞義時，就可能出現詞的歧義現象。

1 Perl語言

Perl被稱為\"駱駝\"語言。發明perl的Larry Wall就說過:“Perl可能不好看或者不好聞，但是它能完成任務”。Perl的應用功能有很多，包括網絡編程、系統管理和Web腳本編寫語言等，此次主要關注的Perl的文本處理功能，其實Perl最初就是為了這個目的設計的。

2 算法分析與設計

本設計的基本思想是: 在上下文環境分布上，多義詞某一義項與指求項的義項詞語所具有相似性，比指示其他義項詞語具有更強的相似性，以此為基礎來完成多義詞詞義的消歧工作。具體過程如圖1所示。

第一階段: 把所用語料去除停用詞，如的，地，標點等等。其中詞用停表是在網上下載的。

第二階段:形成詞向量 (1)統計詞數，詞數大于80作為特征詞。(2)二維詞向量:每個特征詞為一行，每個歧義詞的一列，形成一個二維向量表，計算過程是如果一段包括歧義詞，把這段出現的特征詞詞頻在二維表中加一。把二維表中的每個詞頻作為特征詞的消歧權重。其中語料是第一，三部分。

第三階段:上下文向量 (1)從第一，三部分語料中抽取訓練樣例，條件是包括歧義詞切詞數大于60的一段上下文。(2)訓練樣例中詞映射到詞向量中形成上下文二維向量表。

第四階段:計算詞義向量(1)計算上下文的相似度，目前用的是最大相似度，計算每對上下文共同出現特征詞的權重。(2)用聚類的算法聚成二類.目前已用的聚類算法是Average Link Clustering aka McQuitty’s Similarity Analysis。形成詞義向量，詞義向量=權重*上下文出數某特征詞的次數/某一類的總上下文數總數

第五階段:算法評估:(1)用到的是語料第二部分，抽取測試樣例包括歧義詞的一段上下文詞數大于80。(2)映射到二個詞義向量中，相加權重，分類。(3)計算正確率

其中語料來自東北大學網站上下載的1998年一～三月份的人民日報文章。已分過詞，詞與詞中間用空格分開。單詞數近300萬，大小為20M。語料分為三部分，我們用其中的第一三部分作為訓練語料，第二部分作為測試語料

程序運行時間:在一分鐘之內。

3 實驗結果與展望

目前僅測試是三個歧義詞:發表，健康，保守。正確率是:79.3%

下一步工作是用新的特征抽取方法:tf.idf，信息增益。和聚類算法EM。采用魯松，白碩，黃雄在《基于向量空間模型中義項詞語的無導詞義消歧》提出的基于義項詞語擴展歧義詞表，也就是用相同的歧義詞表。

參考文獻:

[1] 魯松，白碩，黃雄.基于向量空間模型中義項詞語的無導詞義消歧[J].軟件學報，2002，13(6).

[2] Schutze.h， Automatic word sense discrimination， Computational Linguistics，1998，24(1):97-124.

[3] Richard O.Duda Peter E.Hart.模式分類[M].2版.北京:機械工業出版社，2006:415-454.

電腦知識與技術2009年24期

電腦知識與技術的其它文章: 基于Ｐｅｔｒｉ網的復合ＷｅｂＳｅｒｖｉｃｅ構造與分析; 嵌入式系統概述; 如何維護和管理單位互聯網絡; 關于ＲＡＤＩＵＳ協議擴展屬性的研究; 淺談網頁設計中的布局工具; ＶＢＡ編程實現ｅｘｃｅｌ數據管理的閱卷