999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

維吾爾語多詞領域術語的自動抽取

2015-04-21 09:26:47田生偉
中文信息學報 2015年2期
關鍵詞:實驗方法

田生偉, 鐘 軍,禹 龍

(1. 新疆大學 軟件學院,新疆 烏魯木齊 830008;2. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;3. 新疆大學 網絡中心,新疆 烏魯木齊 830046)

?

維吾爾語多詞領域術語的自動抽取

田生偉1, 鐘 軍2,禹 龍3

(1. 新疆大學 軟件學院,新疆 烏魯木齊 830008;2. 新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;3. 新疆大學 網絡中心,新疆 烏魯木齊 830046)

多詞領域術語抽取是自然語言處理技術中的一個重點和難點問題, 結合維吾爾語語言特征,該文提出了一種基于規則和統計相結合的維吾爾語多詞領域術語的自動抽取方法。該方法分為四個階段: ①語料預處理, 包括停用詞過濾和詞性標注; ② 對字串取N元子串, 利用改進的互信息算法和對數似然比率計算子串內部的聯合強度, 結合詞性構成規則, 構建候選維吾爾語多詞領域術語集; ③ 利用相對詞頻差值, 得到盡可能多的維吾爾語多詞領域術語; ④ 結合C_value值獲取最終領域術語并作后處理。實驗結果準確率為85.08%, 召回率為 73.19%, 驗證了該文提出的方法在維吾爾語多詞領域術語抽取上的有效性。

維吾爾語;多詞領域術語;互信息;對數似然比率;相對詞頻差值

1 引言

領域術語是人類科學知識在自然語言中的結晶,人類科學探索的成果都要以領域術語的形式在自然語言中記錄下來[1]。領域術語的變化在一定程度上反映了一個科學領域的發展變化。現階段在基于開放語料的術語抽取實驗中,三字及三字以上領域術語的抽取精度只有 66.63%。所以多詞領域術語,包括維吾爾語多詞領域術語,其抽取成了自動術語抽取(Automatic Term Extraction,ATE)的一個亟待解決的難點問題。

維吾爾語是我國語言組成的重要部分,使用人數眾多。維吾爾語多詞領域術語的抽取將在一定程度上有助于維吾爾語領域術語標準化工作的開展,對整個維吾爾語文化事業的發展將起到一定的推動作用。

為了便于讀者閱讀,現說明本文的組織結構如下: 文章第2節介紹術語的特征和主流抽取方法;對于維吾爾語多詞領域術語抽取面臨的困難和解決方向將在第3節進行詳細說明;本文提出的維吾爾語多詞領域術語抽取方法將放在第4節予以介紹;第5節將對方法進行全面說明;實驗結果與分析會在第6節全面展開;最后在第7節將總結本文的工作,提出下一步的研究方向。

2 領域術語抽取的相關研究

2.1 領域術語的特征 領域術語是各學科中的專門用語。領域術語具有以下兩個特征: 一是具有領域性。領域術語是表達各個特殊概念的專業用語。領域術語一般只在一個或幾個特定的領域中流通,只被該特定領域的文章使用;二是具有語言完備性。作為領域文本的構成單元,領域術語也是一種語言符號,其符合語言學中的語法、語義、語用等方面的規律。

2.2 術語自動抽取的方法

對術語現象最早進行研究的是英國的Firth等人。Firth在1957年提出了上下文理論,強調上下文信息對術語的重要性。隨后由于自然語言處理技術(Natural Language Process,NLP)的迅猛發展,很多術語抽取方法和系統被開發出來,這其中包括基于詞典的方法。該方法主要利用領域專家編纂好的詞典進行匹配,但是由于詞典的更新速度較慢,并且對于詞語的分類沒有完全統一的標準。所以,當前用得較多且技術成熟的是以下三種方法。

2.2.1 基于規則的方法

基于規則的方法通過人們總結的術語特定的語言結構和模式完成對術語的抽取。其主要利用詞法、句法信息識別術語,人工構造規則模板實現術語的識別與抽取。基于規則的方法實現比較簡單,尤其是對低頻術語的抽取效果較好[2-3]。但這種方法需要的成本較大,耗時耗力,維護更新慢,并且規則的完備性和合理性較難得到保證。

2.2.2 基于統計的方法

基于統計的方法又分為兩種: (1) 基于統計量度的方法。該方法主要思想是利用術語內部各組成成分之間較高的關聯程度以及術語的領域特征信息來抽取術語。詞語的互信息(Mutual Information,MI)[4]和對數似然比率(Log_likelihood Ratio,LLR)[5]是比較常用的統計方法。(2)基于機器學習的方法。即構建訓練語料,根據某種機器學習算法對訓練語料學習生成模型,采用模型對測試語料進行術語抽取實驗。

2.2.3 基于規則和統計混合的方法

為了更好地利用規則和統計方法各自的優點,有學者在自動術語抽取中將語言學規則和統計方法結合使用,稱為混合方法。該方法一般先將語料分詞、詞性標注、語言學準則過濾、停用詞過濾等獲取候選領域術語,再采用統計方法計算參數,設置閾值得到最終的領域術語[4,6-9]。

3 領域術語抽取面臨的困難和解決方向

3.1 維吾爾語特點 維吾爾語(簡稱維語)從親屬關系上看屬于阿爾泰語系突厥語族語言,從結構特點上來看,屬于黏著語。現代維吾爾語文字是以阿拉伯文字母為基礎的拼音文字,大部分發音與阿拉伯語相似,并在哲學用語和日常用語中大量借用了阿拉伯語單詞。所以,在一定程度上,維吾爾語文字和阿拉伯語文字有很大的共通性。

3.2 維吾爾語多詞領域術語抽取存在的難題

目前,維吾爾語多詞領域術語(Multi-Word Of Uyghur Domain Term)的抽取面臨以下幾個顯著問題: (1)維吾爾語沒有如同英語的Wordnet,漢語的Hownet等已經建立好的語義網或者標準類別語料庫;(2)維吾爾語的語法形式都是通過在單詞原形后面或前面附加一定的構形附加成分來完成的。找出真實文本中維吾爾語單詞的原形(維吾爾語的“詞干提取”),對維吾爾語多詞領域術語的抽取顯得比較困難;(3)在自然語言處理中,尤其對多詞領域術語的自動抽取,還存在正確率和召回率不高等明顯問題,維吾爾語多詞領域術語的抽取也不例外。

3.3 阿拉伯語術語抽取的方法

研究和分析阿拉伯語術語抽取的相關文獻,易發現基于規則和統計混合的方法依然占據主導地位。Boulaknadel[10]通過基于詞性標注的模型選取阿拉伯語候選術語,再運用統計值對候選術語進行排名獲取最終領域術語。Bounhas和Slimani[11]也提出了一種規則和統計相結合的方法來提取文檔中的阿拉伯語術語,但是他們更關注名詞性的術語.上述方法對我們進行維吾爾語多詞領域術語的自動抽取,會有一定的啟發。

4 維吾爾語多詞領域術語的自動抽取

4.1 多詞領域術語自動抽取的相關定義 通過研究領域術語抽取的相關方法,尤其是3.3節所介紹的阿拉伯語術語抽取的典型方法,結合維吾爾語自身的特點,本文提出了一種基于規則和統計相結合的維吾爾語多詞領域術語的自動抽取方法。為了使該方法的說明更具有可讀性,先明確以下定義。

定義1 維吾爾語多詞領域術語: 由兩個或兩個以上的維吾爾語單詞構成,且這些單詞表現出極強的統計學共生現象(詞匯共現)和語義的非組合性。

定義2 子串/母串: 給定字符串集合,如果字符串S1包含字符串S2,則稱S2是S1的子串,S1是S2的母串。

定義3 串分割: 字符串S=w1w2…wi(i≥4),則S有i-1個2元子串:w1w2,w2w3,…,wi-1wi; 有i-2個3元子串:w1w2w3,w2w3w4,…,wi-2wi-1wi;有i-3個4元子串:w1w2w3w4,w2w3w4w5,…,wi -3wi -2wi -1wi; 有2個最大長度為i-1元子串:w1w2w3…wi -1,w2w3w4…wi。

定義4 嵌套串: 如果字符串S是術語,且S又是其他術語的子串,則稱S為嵌套串。

4.2 維吾爾語多詞領域術語自動抽取過程

本文提出的基于規則和統計相結合的維吾爾語多詞領域術語的自動抽取方法具體過程如下。

步驟1 對獲取的語料進行預處理,依次進行文本去噪、粗切分、詞性標注 (POS)和停用詞過濾 (Stop Words Filtering);

步驟 2 串分割和改進的MI值、LLR值計算;

步驟3 根據維吾爾語多詞領域術語詞性構成規則(模式)、MI與LLR聯合閾值獲取候選維吾爾語多詞領域術語;

步驟4 計算候選維吾爾語多詞領域術語的相對詞頻差值RFD,根據計算值進行排位,獲取盡可能多的維吾爾語多詞領域術語;

步驟 5 計算多詞術語的C_value值,處理嵌套串和單詞附加成分的分離,得到真正的維吾爾語多詞領域術語。示例流程如圖1所示。

圖1 維吾爾語多詞領域術語抽取流程

5 自動抽取算法說明

5.1 語料的預處理 因為缺乏維吾爾語標準類別語料庫,所以實驗將網頁語料作為領域語料和背景語料的來源,經規范化處理后,僅保留維吾爾語文本并將其轉化成Unicode標準編碼;然后按照維吾爾語句子邊界符號 (主要有:- ,。,《,》,‘,: ,! ,?,;)將文本切割成句子并保存;而后對語料進行自動詞性標注,經人工修正后,詞性標注正確率在97%以上,達到了實驗要求水平。

停用詞(Stop Words)一定程度上相當于過濾詞(Filter Words),但是過濾詞的范圍更大一些。本文實驗使用的停用詞分兩類: (1) 絕對停用詞: 即普通的停用詞集合,包括代詞、虛詞等無實際意義的詞語。(2) 相對停用詞: 指在Web文本語料庫中,未登錄詞和統計得出的特定高頻詞集合。實驗中,我們共整理出810個停用詞用于實驗。停用詞過濾后的文本將用于字符串分割。

5.2 字符串分割

分析發現,維吾爾語多詞領域術語主要是2-4元詞的領域術語。根據定義3可以得到字符串所有的2~4元子串。假設一個句子共有10個維吾爾語單詞,依據定義,我們將得到九個2元子串,八個3元子串,七個4元子串。切分時依次記錄子串出現的頻率、位置等信息,得到句子的N元子串集合。

5.3 互信息和對數似然比率計算

為了從子串短語中剔除結構不穩定的短語,確保被抽取領域術語的語言完備性,本文主要采用詞匯共現模型來獲取結構穩定的短語。詞匯共現模型是建立在這樣一個基本的假設上: 如果大規模語料(領域語料)中,兩個詞經常出現在同一個窗口(共現)中,則認為這兩個詞在意義上是相互聯系的。共現的頻率越高,其相互間的關聯就越緊密。基于這樣一個假定,通過對語料的統計,計算詞與詞之間的互信息,則可以將詞與詞之間的關聯性進行量化比較。詞與詞之間的互信息MI可以計算如下:

(1)

(2)

(3)

基本定義的MI計算公式只能反映兩個單詞之間的相關性,而無法滿足對一個短語相關性的精準界定。實驗已經將目標術語設定為2-4元詞的維吾爾語短語,為了更好的反映術語之間的相關性和術語前后邊界的隔離性,將互信息計算公式變換如下:

(4)

(5)

但是,MI最大的不足就是對臨界特征的概率比較敏感,即對于統計概率相差太大的特征來說,它們的MI值不具有可比性,為此本文利用LLR來彌補MI計算的不足。

LLR[8]雖然是一個簡單的比值,但可以表達出一個假設的可能性比其他假設大多少。對數似然比率方法適合于稀疏數據計算,對于那些很少相鄰出現的詞,其值很高,因此該方法對抽取時漏掉的一些低頻詞串比較有效。用對數似然比率來判斷子串是否可以作為一個擁有語言完備性的術語。其計算如式(6)所示。

Loglike=2·(logl(pf1,kf1,nf1)+

logl(pf2,kf2,nf2)-logl(pf,kf1,nf1)-

(6)

上式中各個參數的計算如下所示:

(7)

(8)

(9)

(10)

(11)

(12)

其中,f(w1…wi)是字串w1…wn(n=2,3,4)在語料庫中出現的次數,N是語料庫中單詞的個數。依次計算公式即可求解Loglike值。

由于語料存在著不確定性,單獨運用MI或是LLR可能漏掉一些真正的多詞領域術語。如果一個多詞子串是一個潛在的領域術語,其MI值比較低。但LLR值較高,則可以通過我們構造的評分函數MI_LOG(w1w2…wn)將其保留下來,反之亦然。評分函數計算如式(13)所示。

(13)

評分函數有類似評價指標F值的作用,它能兼顧MI和LLR值,為實驗找到一個比較合理的閾值用于術語抽取。

5.4 維吾爾語多詞領域術語詞性構成規則確定

針對維吾爾語多詞領域術語抽取,詞性構成模式是其可利用的一個重要特征。每個多詞領域術語都有自己固定的詞性構成模式。例如,一個維吾爾語多詞領域術語第一個單詞是名詞,第二個單詞是動詞,則其詞性構成模式為:N+V。通過反復實驗和分析,可知多詞術語中相當一部分是基本名詞短語,但也有例外。為此,我們進行預研實驗,手動挑選了137個2~4元維吾爾語多詞領域術語,對其詞性標注,發現真正的維吾爾語多詞術語有以下的詞性構成特點: ①術語中至少含有一個動詞、名詞或名詞性成分; ②術語第一個詞不為連詞、助詞、介詞、量詞或后接成分; ③術語最后一個詞為動詞、名詞或名詞性成分; ④術語中沒有代詞、語氣詞和模擬詞。

基于以上的多詞術語詞性構成特點,本文制定了維吾爾語多詞領域術語的詞性構成規則模式庫.結合5.3節中MI_LOG(w1w2…wn)評分函數和維吾爾語多詞領域術語詞性構成規則,我們可以設置最佳驗證閾值,構建候選維吾爾語多詞領域術語集。表1是部分多詞領域術語詞性構成規則模式。

表1 N元領域術語詞性構成模式

5.5 相對詞頻差值(RFD)值計算

候選維吾爾語多詞領域術語集中,有很大一部分非領域多詞子串被納入其中。為了確保抽取的多詞領域術語擁有完整的領域性,本文采用相對詞頻差值來剔除非領域多詞字串。

領域術語一般只在一個或幾個特定的領域流通,所以領域術語在領域語料和背景語料(多個領域語料的集合)中出現的概率差異很大。本文將采用領域語料和背景語料的相對詞頻差值來抽取維吾爾語多詞領域術語。計算方法扼要說明如下。

設定候選維吾爾語多詞領域術語為w1w2…wn(n=2,3,4,…),語料為x,語料x的總詞數(即由x生成的詞典規模)為Vx,fx(w1w2…wn)為候選維吾爾語多詞領域術語w1w2…wn在語料x上出現的概率,cx(w1w2…wn)為候選維吾爾語多詞領域術語在語料x上出現的頻率。那么,fx(w1w2…wn)可以通過式(14)計算得到。

(14)

候選維吾爾語多詞領域術語fx(w1w2…wn)在領域語料xd和背景語料xb上的相對詞頻差值Δf(w1w2…wn)可以通過式(15)計算得到。

(15)

相對詞頻差值反映出了候選維吾爾語多詞領域術語w1w2…wn在領域語料xd與背景語料xb中出現頻率的差異性。如果相對詞頻差值接近于零,則表示w1w2…wn可能是一個普通詞匯,其在領域語料xd與背景語料xb中都出現的頻率相差不大; 如果相對頻率差值過大則表示w1w2…wn可能是領域語料xd中的領域詞匯或者術語。

5.6C_value值計算與術語后處理

領域術語是能夠獨立表達一定含義的短語,具有獨立存在的能力。當子串和母串短語同時被納入候選領域術語集時,即存在嵌套串,則可以計算其在語料中的C_value值來判斷其是否為真正的術語。

C_value算法是一種領域獨立(Domain-Independent)的多詞術語抽取方法,它是針對術語詞頻計算的一種改進,可以增進嵌套多詞術語(NestedMulti-WordTerms)的抽取,排除一些非術語詞匯的干擾。C_value算法主要界定以下兩種情況: (1)如果一個多詞字串經常在多個長的多詞術語中出現,那么此多詞字串就有可能是術語; (2)如果一個長的多詞字串和短的多詞字串擁有相同的詞頻,那么長多詞字串更有可能是術語。C_value值計算如式(16)所示。

(16)

其中t(w1…wn)(n=2,3,4,...)是在 (已經被抽取出來)候選維吾爾語多詞領域術語中出現的頻率,c(w1…wn)是候選維吾爾語多詞領域術語數。

6 實驗準備和結果分析

6.1 實驗語料獲取和標注 實驗語料來源于網絡(如天山網、昆侖網等維吾爾語版網站)。實驗利用網頁爬蟲下載維吾爾語網站的頁面,處理后僅保留維語文本并將其轉換成Unicode標準編碼作為實驗語料。維吾爾語語料現階段人工處理代價高昂,本文以維吾爾語哲學類多詞領域術語為目標術語進行實驗。領域語料總計 1 895個txt文本,205 196個維吾爾語單詞。在實驗開始前,我們將人工標記在文本中與哲學類相關的所有2~4元詞領域術語。為了保證所挑選出來的哲學類多詞領域術語具有可靠性和說服力,我們請了三位資深維吾爾語語言學專家進行維吾爾語多詞領域術語的標注。如果有兩位或兩位以上的專家將某個多詞字串標記為領域術語,則將該多詞字串作為最終的領域術語予以標記。實驗前,專家共標出262個2元術語,207個3元術語,154個4元術語,總計623個維吾爾語哲學領域術語。

實驗的背景語料同樣來源于網絡,但是涵蓋的

領域不僅包括哲學領域,還有教育、體育、餐飲和旅游等眾多領域,各領域語料規模大小處于平衡狀態。背景語料總計6 918個txt文本,951 874個維吾爾語單詞。

6.2 實驗評價指標

本文采用以下三個指標對領域術語抽取結果進行評價,即術語抽取的準確率Precision(P)、術語抽取的召回率Recall(R)、術語抽取的F1_measure(F)。

6.3 實驗結果與分析

6.3.1 實驗的最終結果與分析

實驗按照第4節介紹的流程進行,詳細結果如圖2所示。從圖2中我們可以看出,本文提出的方法對于2-4詞的領域術語有非常好的抽取效果。實驗的準確率都在80%以上,尤其是對于2元領域術語,準確率更是高達88.85%,召回率達81.94%。因為對于2元領域術語,術語簡單緊湊,術語內部結構穩定,而且可以選擇出現頻繁的詞性構成模式作為抽取規則。

圖2 不同長度領域術語的抽取結果

從圖2中也可以看出,對于3元領域術語,抽取的準確率和召回率同2元和4元領域術語相比,其結果要低大約6個百分點。其原因在于,維吾爾語多詞領域術語在詞數上幾乎都是偶數的,且3元領域術語在文本中出現的頻率相對要小于2元和4元領域術語,從而導致3元領域術語的數據稀疏性更嚴重。如果僅僅利用統計方法,對3元領域術語左右邊界進行識別,其準確率沒有2元和4元領域術語高。再加上3元領域術語的詞性構成模式結構比較松散,在詞性模式的選擇上會有缺失,這些原因都導致了3元領域術語抽取的準確率相對較低.對于4元領域術語,由于詞串內部的凝聚力下降,結構變化相應增多,而且在數量上不及2元和3元領域術語,所以抽取的結果不及2元領域術語。從整體效果來看,本文提出的方法取得了令人滿意的效果,達到了我們實驗的預期目的。

6.3.2 改進的互信息實驗結果與分析

實驗中,我們也利用式(1)對語料中的維吾爾語單詞進行互信息對比實驗,得到某個單詞與前后單詞的互信息值。再根據實際互信息值的高低,設置最佳驗證閾值,將某幾個單詞作為一個候選多詞領域術語抽取出來。其余實驗算法和流程不變,實驗結果如表2所示。

從表2我們可以清楚地看出,使用一般的互信息算法,也取得了不錯的效果。但是一般的互信息算法沒有全面的考慮一個多詞字串詞與詞之間的整體關聯程度,而僅僅依賴于窗口(句子)中單詞之間單一的依附程度做出判斷。而改進的互信息算法則克服了這個缺陷,尤其對于3元和4元術語,其全面計算了多詞字串詞與詞之間的相關性,給出了綜合客觀的評價,實驗達到了令人滿意的效果。2元術語在公式計算上沒有本質變化,因而實驗結果無明顯改變。

表2 改進的互信息實驗結果對比

6.3.3 評分函數實驗結果與分析

在以往的術語抽取實驗中,基于統計規則設置閾值時,一般都簡單地對單個統計值設置獨立的閾值,雖然比較清晰直觀,但缺乏對統計數據的有效把握。本文在實驗時,也分別對互信息和對數似然比率設置最佳閾值,將實驗結果與使用評分函數設立閾值的實驗結果進行對比。實驗結果如表3和表4所示。

從表3和表4我們可以清楚地看出,因為互信息對臨界特征的概率比較敏感,對于統計概率相差太大的特征,它們的互信息值不具有可比性。對數似然比率在語料較少時效果最好,但對于規模較大語料其性能開始降低。二者單獨使用,致使術語抽取的準確率和召回率有所下降,不及使用評分函數時的實驗效果。

表3 單獨使用MI值實驗結果對比

表4 單獨使用LLR值實驗結果對比

6.3.4 相對詞頻差值實驗結果與分析

相對詞頻差值(RFD),是反映一個術語領域性強弱的重要標準。在本文的算法中,維吾爾語多詞領域術語的領域性幾乎靠相對詞頻差值來衡量。本文給出的背景語料規模較大,在實驗中可以將相對詞頻差值的功能最大化的發揮出來。依據相對詞頻差值,我們可以將非領域短語盡可能過濾掉。實驗對比如表5所示,從表中可以清晰地看出,如果采用相對詞頻差值對多詞領域術語進行領域性度量,實驗的準確率和召回率都會大大提高。尤其是對于3元領域術語,準確率提高了8.74個百分點。

6.3.5 C_value的實驗對比與分析

由于本文提出的方法主要是針對維吾爾語多詞領域術語, 因此在實驗中我們就要盡可能多獲取一

表5 相對詞頻差值實驗結果對比

些長的領域術語。C_value算法的作用就是在術語互相嵌套的情況下,保證嵌套多詞術語的抽取,更重要的是將正確的較長母串術語最大化的抽取出來。具體的實驗結果如表6所示。

在表6中,可以看出它對2元維吾爾語領域術語的作用不是很明顯,但是對于3元和4元維吾爾語領域術語的抽取效果顯著。使用C_value算法后,實驗的準確率和召回率都提高了將近4個百分點,達到了實驗的預期效果,排除了非術語多詞字串的干擾。

表6 C_value實驗結果對比

6.3.6 本文算法和其他語種實驗結果的對比分析

由于條件有限,我們實驗組現階段缺乏阿拉伯語語言專家,阿拉伯語語料獲取也比較困難。所以,我們并沒有將本文算法應用于阿拉伯語術語抽取。但將本文的實驗結果和其學者在阿拉伯語術語抽取上的實驗結果做一個對照,雖可比性不強,卻可以給讀者提供一些有用的信息。術語抽取技術在漢語和英語等語種上已經比較成熟,本文總結近年來其他人在這些語言上的術語抽取實驗結果[5,10-15]列舉如下,僅供參考。

表7 其他語種術語抽取實驗對比

從表7我們可以清楚地看出,其他學者在術語抽取實驗中,最高的準確率和召回率已經分別達到92.50%和95.00%。出現這一情況的原因在于,漢語和英語等語種有眾多學者進行研究,語言實驗資源豐富,而維吾爾語的研究起步較晚,諸多硬性條件還不具備,知識積淀不及其他語種的研究人員,這些原因在一定程度上影響了我們實驗結果的精準性。

7 結論和展望

領域術語的抽取是自然語言處理的一個重要課題。在全面分析維吾爾語語言特征,考慮維吾爾語術語抽取可能遇到的諸多難題,借鑒阿拉伯語術語抽取算法的基礎上,本文提出了基于規則和統計相結合維吾爾語多詞領域術語的自動抽取方法。在該方法中,我們首次利用改進的MI、LLR和詞性構成模式來考察多詞領域術語的語言完備性,首次利用相對詞頻差值對維吾爾語領域術語進行領域識別,建立了維吾爾語多詞語領域術語的詞性構成規則庫,總結出了維吾爾語附加成分(詞綴)集,實驗對2-4元維吾爾語多詞領域術語的抽取取得了良好的效果。實驗的準確率達到85.08%,召回率達到73.19%,驗證了該方法的有效性和實用性。通過和其他人的實驗對照,本文方法的實驗結果也達到了令人比較滿意的程度。

本研究的下一步工作主要包括: 在實驗閾值選擇上尋找一種更為科學的方法,降低閾值選擇的偶然性; 找到一種對語料規模依賴較小的算法,降低實驗的難度; 改進算法,力爭降低算法的時間和空間復雜度等。

[1] Pazienza M T, Pennacchiotti M, Zanzotto F M. Terminology extraction: an analysis of linguistic and statistical approaches[J]. Knowledge Mining, 2005, 185: 255-279.

[2] Wendt M, Buscher C, Herta C. Extracting domain terminologies from the world wide web[C]//Proceedings of the Fifth Web as Corpus Workshop (WAC5). San Sebastian, Basque Country, Spain. 2009.

[3] Justeson J S, Katz S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural Language Engineering, 1995, 1(1): 9-27.

[4] 梁穎紅, 張文靜, 周德富. 基于混合策略的高精度長術語自動抽取[J]. 中文信息學報, 2009, 23(6): 26-30.

[5] Gelbukh A, Sidorov G. Automatic term extraction using log-likelihood based comparison with ge- neral reference corpus[C]//Proceedings of Natural Language Processing and Information Systems, 15th International Conference on Applications of Natural Language to Information Systems, Cardiff, UK, 2010.

[6] Okamoto M, Kikuchi M, Watanabe N. Semi- automatic evaluation system for supporting term extraction application development[C]//Proceedings of the 2011 Fifth IEEE International Conference on Semantic Computing, Palo Alto, California, USA, IEEE, 2011.

[7] Saneifar H, Bonniol S, Laurent A, et al. Terminology extraction from log files[C]//Proceedings of the 20th International Conference on Database and Expert Systems Applications, Linz, Austria, IEEE, 2009.

[8] DorjiT C, Atlam E, Yata S, et al. Extraction, selection and ranking of field association(FA) terms from domain-special corpo- ra for building a comprehensive FA terms dictionary[J]. Knowledge and Information Systems. 2011, 27(1): 141-161.

[9] 游宏梁, 張巍, 沈鈞毅, 劉挺. 一種基于加權投票的術語自動識別方法[J]. 中文信息學報, 2011, 25(3): 9-16.

[10] Boulaknadel S, Daille B, Aboutajdine D. A multi-word term extraction program for Arabic language[C]//Proceedings of the the 6th International Conference on Language Resources and Evaluation (LREC), Marrakech, Morocco, 2008.

[11] Bounhas I, Slimani Y. A hybrid approach for Arabic multi-Word term extraction[C]//Proceedings of the Natural Language Processing and Knowledge Engineering, Dalian, China, IEEE, 2009.

[12] Attia M, Toral A, Tounsi L, et al. Automatic extraction of Arabic multiword expre- ssions[C]//Proceedings of the 7th Conference on Language Re- sources and Evaluation (LREC), Malta, Valletta, 2010.

[13] Chen Ji-Song, Chung-Hsing Yeh, R Chau. A multi-word term extraction system[C]//Proceedings of the Trends in artificial intelligence, Lecture Notes in Computer Science, Springer, Berlin, 2006.

[14] Sui Zhi-Fang, Hu Yong-Wei, Zhang Hong. An interactive approach to term relation extraction and term extraction[J]. Journal of Computational Information Systems, 2010, 6(1): 229-235.

[15] Koeva S. Multi-word term extraction for Bulgarian[C]//Proceedings of the Workshop on Balto- Slavonic Natural Language Processing, Prague, Czechoslovakia, 2007.

Automatic Extraction of Multi-Word Domain Term in Uyghur Texts

TIAN Shengwei1, ZHONG Jun2, YU Long3

(1. School of Software, Xinjiang University, Urumqi, Xinjiang 830008, China; 2. Information Science and Engineering Technology Institute, Xinjiang University, Urumqi, Xinjiang 830046, China; 3. Net Center, Xinjiang University, Urumqi, Xinjiang 830046, China)

Multi-word domain term extraction is an important issue in natural language processing. Combining the language features of Uyghur, a method of Uyghur multi-word domain terms extraction based on rules and statistics is proposed. The method is divided into four phases: ①corpora pre-processing, including the stop words filtering and part-of-speech(POS) tagging; ②obtaining N-gram substrings as the term candidates, by POS information and calculating internal associative strength via according to the modified mutual information and log likelihood ratio; ③enlarging the term candidates by utilizing the relative frequency difference; ④decide the final terms by C_value. The experimental results show the efficiency of the proposed method with a 85.08% precision and 73.19% recallin Uyghur multi-word domain terms extraction.

Uyghur, multi-word domain term; mutual information(MI); log_likelihood ratio(LLR); relative frequency difference(RFD)

田生偉(1973—),博士,教授,碩士生導師,主要研究領域為計算機智能技術、云計算和自然語言處理等。E?mail:tianshengwei@163.com鐘軍(1988—),碩士研究生,主要研究領域為自然語言處理、話題識別與跟蹤和事件挖掘技術等。E?mail:zjbrilliant@126.com禹龍(1974—),博士,教授,碩士生導師,主要研究領域為計算機智能技術和計算機網絡技術等。E?mail:yulxju@163.com

1003-0077(2015)02-0133-09

2012-10-13 定稿日期: 2012-12-19

國家自然科學基金(60963017,60963018,61262064), 國家社科基金(10BTQ045,11XTQ007),國家自然科學基金(61331011)。

TP

A

猜你喜歡
實驗方法
記一次有趣的實驗
微型實驗里看“燃燒”
做個怪怪長實驗
學習方法
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧洲欧美人成免费全部视频 | 精品伊人久久久久7777人| 中文字幕调教一区二区视频| 99久久亚洲综合精品TS| 亚洲国产91人成在线| 无码 在线 在线| 国产在线八区| 最新国产高清在线| 国产精品太粉嫩高中在线观看| 亚洲,国产,日韩,综合一区| 久久无码av三级| 亚洲福利网址| 在线观看国产网址你懂的| 国产第二十一页| 四虎精品黑人视频| 毛片网站在线看| 午夜国产小视频| 成人综合在线观看| 国产精品亚洲综合久久小说| 欧美日韩北条麻妃一区二区| 免费看久久精品99| 最新亚洲人成无码网站欣赏网| 亚洲男人的天堂久久香蕉网| 亚洲性一区| 精品久久高清| 四虎永久在线视频| 成人免费网站久久久| 欧美人与动牲交a欧美精品| 伊人久久婷婷| 超碰精品无码一区二区| 蜜臀AV在线播放| 呦女精品网站| 97人人做人人爽香蕉精品| 成人午夜网址| 狠狠做深爱婷婷综合一区| 亚洲天堂网站在线| 狠狠色婷婷丁香综合久久韩国| 九九九久久国产精品| 一区二区欧美日韩高清免费| 亚洲男人的天堂久久香蕉 | 欧美在线中文字幕| 亚洲天堂久久新| 无码中字出轨中文人妻中文中| 久久天天躁狠狠躁夜夜2020一| 国产玖玖玖精品视频| 欧美α片免费观看| 波多野结衣一二三| 国产亚洲欧美另类一区二区| 免费高清毛片| 丁香婷婷久久| 成人国产一区二区三区| 高清无码手机在线观看| 亚洲va在线∨a天堂va欧美va| 久热这里只有精品6| 日韩成人免费网站| 欧美中文字幕无线码视频| 中文字幕在线日本| 一级高清毛片免费a级高清毛片| 日韩小视频在线观看| 亚洲国产精品久久久久秋霞影院| 亚洲欧美自拍一区| 亚洲综合极品香蕉久久网| 最近最新中文字幕在线第一页| 一边摸一边做爽的视频17国产| 一区二区日韩国产精久久| 日韩毛片基地| 91视频精品| 国产成人91精品免费网址在线| 久久久亚洲国产美女国产盗摄| 久久永久视频| 99精品久久精品| 国产av无码日韩av无码网站| 在线免费亚洲无码视频| 亚洲人成网站在线观看播放不卡| 国模在线视频一区二区三区| 午夜一级做a爰片久久毛片| 免费国产黄线在线观看| 中文字幕免费在线视频| 亚洲日本韩在线观看| 亚洲高清无在码在线无弹窗| 99久久国产自偷自偷免费一区| 国产av色站网站|