基于分布的詞匯級語義相關度計算綜述

2014-04-29 12:39:54孫叔琦楊沐昀

智能計算機與應用 2014年5期

孫叔琦　楊沐昀

摘要：在數字化智能信息處理領域，詞匯級語言對象在語義上的相關關系可以為多種研究問題提供有效的特征線索。語義相關度計算是語義相關關系的量化手段，而基于分布相似度的計算方法是一類最典型的方法。這類方法將語言對象被轉化為語義空間上的一個分布，通過分布的相似性評估對應語言對象的語義相關度。本文詳細介紹了基于上下文分布、基于知識資源元素分布兩種形式的代表性方法，并從基礎資源的規模、質量、可擴展性三個角度，對這些方法進行了總結。

關鍵詞：語義相關度；詞匯級；知識資源；分布相似度

中圖法分類號：TP391 文獻標識碼：A 文章編號：2095-2163（2014）05-

A Survey of Word-level Semantic Relatedness Computation based on Distribution

SUN Shuqi， YANG Muyun

（School of Computer Science and Technology，Harbin Institute of Technology，Harbin 150001，China）

Abstract：In the domain of digital intelligent information processing， the semantic relationship between word-level objects provides effective evidences for a variety of research questions. Semantic relatedness computation is the quantification manner of semantic relationships， among which the typical one is the distribution based approach. It converts linguistic objects to distributions over a semantic space， and evaluates two objects semantic relatedness by examining the similarity between their corresponding distributions. This paper introduces in detail two representative approaches， such as the method based on context distribution， and knowledge resource element distribution， therefore summarizes them from the viewpoints of their fundamental resources scale， quality and expandability.

Keywords：Semantic Relatedness； Word Level； Knowledge Source； Distribution Similarity

0 引言

在數字化智能信息處理領域，詞匯級語言對象在語義上的相關關系可以為多種研究問題提供有效的特征線索。這里的“詞匯級語言對象”包括詞匯，以及詞匯在知識資源中對應的條目，如WordNet義項、維基百科詞條，等等。自然語言處理研究直接涉及到詞匯級語言對象之間的比較，因此也是詞匯級語義相關度計算最自然、最直接的應用熱點之一。而與其切實相關的自然語言處理任務則主要包括了詞義消歧、詞法替換、復述、辭典構建、語言模型估計，等等方面，由此對其開展深度研究即有著重要的學術價值和實際意義。

語義相關度計算是語義相關關系的量化手段，而在既有研究工作中，堪稱典型的一類計算則是基于分布相似度的方法。在基于分布相似度的語義相關度計算中，語義相關關系即指語言對象在一些特定方面上的相似性。此時，語言對象將轉化為一個多維度的定量指標表示，并可視作語義空間上的一個分布。而且，語言對象對應的分布越相近，語義相關度就會越高。

語義空間及空間上分布的形式就是此類相關度計算算法的主要區分標志之一。現有研究工作中，典型的分布形式包含兩種：（1）上下文分布；（2）知識資源元素分布。其中，基于上下文分布的方法主要針對于詞匯，使用詞匯的上下文統計信息對其加以表示，所處上下文較相近的詞匯在語義上就會呈現較大相關。而基于知識資源元素分布的方法則既可以計算知識資源條目之間的語義相關度，也可以計算與這些條目對應的詞匯之間的語義相關度。此類方法使用知識資源條目本身的特定元素（如關鍵詞、關鍵短語、超鏈接，甚至條目本身）表示語言對象，兩個語言對象在知識層面上重疊越多，語義上就越相關。

本文分別在第1、2節綜述了基于上下文分布與基于知識資源元素分布的典型計算方法。最后，在第3節，本文從基礎資源的規模、質量、可擴展性三個角度，對這些方法進行了分析和討論。

1基于上下文分布的方法

上下文分布一般用于計算詞匯之間的語義相關度。這一類方法的理論基礎是Firth在文獻[1]提出的上下文假設：詞匯的語義可以由其伴生上下文環境而實現等價代表。詞匯的上下文環境體現的是人們在實際語言交流中使用該詞匯的具體途徑，并且兩個詞匯的使用方式越接近，在語義上就越相關。通過在大規模語料中統計詞匯所處的上下文環境，可以得到每個詞匯的上下文分布，而兩個詞匯的語義相關度則可通過比較二者對應的上下文分布并綜合后得出最終結果。在既有研究工作中，常見的上下文環境包括文本窗口共現型上下文、句法依存關系型上下文兩種。下面將依次給出其分析及論述。

1.1 基于文本窗口共現型上下文的方法

基于1987-1989年的華爾街日報語料（約4050萬詞），Dagan等人使用了二元文法（相當于長度為2的單側文本窗口）概率分布列P（W|wi）作為詞匯wi的上下文，并使用K-L距離計算兩個詞匯的分布相似度[2]。與wi分布相似的詞匯用于估計語料中未觀察到的bigram概率Punseen（wj|wi）。Schütze和Pederson則使用長度為40的文本窗口，在TipsterB類語料[3]（約45萬獨立詞匯）上統計了各詞匯的文本窗口共現型上下文，并通過兩次聚類和一次奇異值分解（SVD），將每個詞匯的上下文分布轉化為一個20維的實數向量，進而將其應用于文檔檢索[4]。Rapp還使用長度為3和5的文本窗口，在不列顛國家語料（BNC，約1億詞）[5]上統計了每個詞匯wi的上下文分布{（w1， Ai1），...，（wN， AiN）}，其中N為語料中的獨立詞匯個數，而共現強度Aij即是在原始共現頻率的基礎上加入了一個基于熵的變換，具體計算可如式（1）所示[6]。

（1）

其中，fij表示詞匯wi、wj的共現頻率，cj表示wj在語料中的頻率。

共現詞匯分布在經過奇異值分解并降至300維后，Rapp再次使用了對應分布之間的余弦相似度和曼哈頓距離兩個度量而計算了兩個詞匯的語義相關度。Agirre等人又在更大的語料（10億網頁，約1.6×1012詞）上統計了詞匯的上下文分布（窗口長度從2到8不等）、使用χ2檢驗以確定兩個詞匯的共現強度，而且同樣以兩個詞匯上下文分布的余弦相似度作為二者的語義相關度[7]。此外，除了文本窗口中的詞匯，文本窗口本身也可作為詞匯的上下文。Agirre即使用了以詞匯w為中心、左右長度各N個詞（1≤N≤7）的文本窗口作為w的上下文，由此取得了比使用窗口中詞匯作為上下文更好的相關度計算效果[7]。Reisinger和Monney也使用了類似的方法，獨特之處則在于研究對相似的文本窗口進行了聚類[8]。

1.2基于句法依存關系型上下文的方法

句法依存關系型上下文考察的是一個詞匯在依存句法結構中的支配詞或從屬詞。基于句法分析結果，一個詞匯的句法依存關系型上下文主要由包含該詞匯的所有依存關系三元組構成。例如句子“習近平就加快發展職業教育作出重要指示”中，“指示”的上下文即為dobj（作出，指示）和amod-1（重要，指示），具體地dobj表示直接賓語，amod-1表示被形容詞修飾。

一些研究者集中針對名詞與動詞之間的依存關系展開了有關工作。Hindle就以1987年美聯社語料（約600萬詞）為基礎，并根據名詞與動詞之間的主謂關系和謂賓關系（即obj（Verb，Noun）和subj（Verb，Noun）形式的上下文）計算了名詞之間的語義相關度[9]，具體則如式（10）所示。

（2）

名詞n1、n2的語義相關度由關于動詞v的賓語相關度robj和主語相關度rsubj構成并聯合確定，二者的定義形式類似。現以賓語相關度robj為例，定義可見于式（3）。

（3）

其中，Iobj（v，n）為名詞n與動詞v在謂賓關系下的點互信息，詳細計算如式（4）所示，式中星號表示所有動詞（或名詞）。

（4）

接下來，Dagan等人和Lee則從其早期的工作[2]出發，將基于bigram的上下文統計及分布相似度計算方法應用到動詞、名詞的謂賓結構上[10-11]：與名詞n在謂語上相似的其他名詞用于估計在語料中未觀察到的謂賓關系概率Punseen（v|n）。而基于這種概率預測方式，Lee又在偽詞義消歧問題（通過名詞選擇搭配動詞）上比較了多種分布相似度指標的平均錯誤率，并提出了一個新的分布相似度指標：α-skew差異，這樣就達到了顯著優于其他指標的出色效果[11]。

另一些研究者則并不限定依存關系的類型。Lin在文獻[9]的基礎上擴展了依存關系的覆蓋范圍（考察句子中全部的依存關系r），進而提出了一種改進的分布相似度計算指標[12]，計算過程如式（5）所示，其中Ir（w′，w）表示w′、w在依存關系r下的點互信息，Tr（w）={w′：Ir（w，w′）>0}。

（5）

由于引入了全部依存關系，式（5）支持任意詞匯之間的語義相關度計算；同時，相對于式（2），式（5）通過引入分母懲罰了那些在大量關系中、與大量詞匯的點互信息都較高的詞匯。Lin 在共計約 6 400 萬詞的華爾街日報、圣何塞信使報和美聯社新聞語料上統計、計算了詞匯語義相關度，并將其與Hindle 的算法[9]進行了對比研究。而在Lin之前，Grefenstette也引入了所有依存關系以統計詞匯的上下文分布[13]。但不同之處在于，Grefenstette是以集合的形式表示上下文分布（無權重），再使用上下文集合之間的Tanimoto距離[14]來計算語義相關度的。

此外，還有一些研究者嘗試使用更長的依存路徑，即多個連續依存關系的疊加表示詞匯的上下文。雖然長路徑的表達能力強于單一的依存關系，但顯然面臨著數據稀疏的問題——越長的路徑，在語料中出現的次數就越少。為了解決數據稀疏問題，研究者們對依存路徑進行了各種類型的簡化。基于不列顛國家語料，Padó和Lapata在對路徑經過的詞性與依存關系的類型加以限制的情況下，使用了終點相同，但長度不限的依存路徑構成詞匯上下文[15-16]。所有終點相同的依存路徑將視為等價，因此一個詞匯的上下文分布最終轉化為關于路徑終點詞匯一個向量。Padó和Lapata又使用了1 000個高頻詞匯作為可能的路徑終點，并使用了余弦相似度和α-skew差異比較兩個詞匯對應的1 000維向量，由此而獲取語義相關度。Agirre等人則選擇忽略依存路徑上的具體依存關系，只使用支配詞、從屬詞的序列表示詞匯的上下文[7]。一個詞匯的上下文由其在依存路徑上的最多三個支配詞和最多一個從屬詞而共同構成。Thater等人更在Gigaword語料上集中考察了長度為2的依存路徑，即以詞匯w的二階依存關系r′（w′′，w′）?r（w′，w）作為其上下文[17-18]。為了緩解數據稀疏問題，Thater等人選擇忽略第二層依存關系中的關系詞w′，而在分布權重的計算中也對應地將其邊緣化，量化計算可如式（6）所示。

（6）

其中，R、W分別為依存關系、詞匯的全集，Ir（w′，w）表示w′、w在依存關系r下的點互信息，er，r′，w′′為w上下文分布的基向量，即使用依存路徑上的兩個依存關系和終點詞匯作為w的上下文。

2基于知識資源元素分布的方法

在基于知識資源元素分布的方法中，語言對象的表達形式不再是其使用方式（上下文分布），而是其對應于知識資源中的條目（如WordNet義項）或條目中的一些關鍵元素（如在線百科文章中的超鏈接）的分布。兩個語言對象共享的知識資源元素越多，也就具有更大相關性。

知識資源條目的內容作為一種最直接的可利用元素，一般用來計算條目本身之間的語義相關度。Lesk通過比較WordNet義項釋義（gloss）中的詞匯分布獲得兩個義項之間的語義相關度——重疊的詞匯越多，二者就越相關[19]。Banerjee和Pedersen從兩個方面改進了Lesk的方法[20]：

（1）對于長度為n的連續重疊部分，設定其對相關度的貢獻為n2而非Lesk方法中的n，因為n較為罕見；

（2）不但考慮目標義項s1、s2本身的重疊，也考慮其相關義項r（s1）、r（s2）之間的重疊，其計算結果如式（7）所示。其中，RELPAIRS表示一組預先選定的 WordNet關系對（設義項s與其本身之間有 gloss 關系：gloss（s） = s），score表示兩個義項的重疊分數。

（15）

Ho?art等人提出了KORE（keyphraseoverlaprelatedness）算法，根據詞條中關鍵短語分布計算了維基百科詞條（原始文獻中稱之為實體）之間的語義相關度[21]。對詞條e，關鍵短語集合Pe來自于其中的連接錨文本以及參考文獻的標題，關鍵短語p∈Pe本身以及短語中的每個詞匯w∈p均有關于e的權重?e（p）和γe（w），并將其分別定義為p、e的互信息以及w關于e的tf-idf。兩個詞條e、f之間語義相關度的計算方法則如式（8）所示。

（8）

其中，PO（p，q）表示關鍵短語p、q的重疊程度，定義為二者對應詞匯集合之間的帶權Jaccard系數，其計算實現可如式（9）所示。

（9）

在超鏈接豐富的知識資源，如在線百科全書中，超鏈接的分布也是一種語義表示形式。Turdakov和Velikhov使用與其他詞條之間的超鏈接（包括出鏈和入鏈）分布表示維基百科詞條，不同種類的超鏈接權重也將有所不同，如“seealso”連接的權重較高，而與日期、時間詞條之間鏈接的權重最低。最后，詞條之間的語義相關度使用鏈接分布之間的Dice系數計算[22]。Milne和Witten在文獻[23]中即主要考慮維基百科詞條的入鏈，并提出了兩個詞條語義相關度計算方法。第一個方法使用入鏈的分布表示詞條，而與文獻[22]不同的是，入鏈的權重是自動計算的，并定義為idf，兩個詞條的語義相關度隨之將定義為對應入鏈分布的余弦相似度。第二個方法使用所有入鏈e的集合（不考慮權重）Ie表示e，兩個詞條e、f之間的語義相關度則定義為對應詞條之間的谷歌距離，如式（10）所示，其中N表示維基百科中詞條總數。

（10）

Milne和Witten的實驗顯示第二個方法在預測詞匯語義相關度時效果明顯好于第一個方法，而兩個方法的結合還可更進一步地提高最終效果。

知識資源條目本身也可以作為一個整體參與語義表示。Hughes和Ramage[24]，以及Agirre等人[7]將WordNet中的義項與詞匯轉化為圖狀互聯結構，并通過以目標詞匯為起點的隨機漫步算法獲取一個關于義項的概率分布作為該詞匯的語義表示。特別地，在比較兩個詞匯的義項分布時，Hughes和Ramage提出了Zero-KL指標。該指標是α-skew差異的變體，其效果在實驗中好于后者，以及余弦相似度等指標。在維基百科上，Gabrilovich和Markovitch有、又相應提出了顯語義分析（explicitsemanticanalysis）方法，以支持任意粒度的文本語義相關度計算[25]。Gabrilovich和Markovitch使用維基百科詞條全集{c1，c2，...，cN}的分布?dj?表示文本T，而且將兩段文本的語義相關度定義為對應分布的余弦相似度。設向量?vi?中，vi為wi在T={wi}上的tf-idf，而?kj?為wi的倒排向量，表示wi在維基百科詞條cj∈{c1，c2，...，cN}上的tf-idf，則詞條cj在T對應的分布中的權重為。除以上研究外，Yazdani和Popescu-Belis還結合了隨機漫步算法和顯語義分析的理念，再通過隨機漫步獲取維基百科詞條之間的相關度，又借助了遷移學習的方式將文本片段表示成詞條的分布，并計算得到語義相關度[26]。

3結束語

從資源上看，基于分布相似度的詞匯級語義相關度計算方法依賴的資源主要分為兩大類：結構化的知識資源，以及非結構化的文本資源。其中，基于結構化知識資源的方法以專家資源、（高級）用戶生成內容為依據，知識資源在構建時遵循的設計規則將直接作為此類方法的指導信息。基于非結構化文本資源的方法則以語言對象在實際使用時的相互聯系作為依據，指導信息間接體現在對詞法、句法等語言現象中。

從規模上講，限于人力，知識資源對語言對象的覆蓋率不會太高，尤其是對傳統的詞法網絡，如WordNet而言。借助用戶群體力量維護與擴充的在線百科全書以及對應的知識庫資源雖在一定程度上緩解了人力上的局限，但依舊沒有改變其對高質量領域知識的內在需求。相比之下，非結構文本資源是人類語言在信息系統中的自然產物，不需要有目的性地加以構建與整理，規模上也遠大于結構化的知識資源。

從質量上講，知識資源無疑要好于多數文本資源，但文本資源的規模彌補了其質量的不足。在語義相關度計算問題上，基于知識資源的方法在效果上也并無絕對優勢[7]，再加上對覆蓋率的考慮，綜合而論，基于文本資源的方法實際上的可用性將更強。

從可擴展性上講，知識資源在不同領域上的豐富度與質量是不同的，但很大程度上取決于構建者的主觀選擇。領域上的差異影響了算法的通用性，而在真正需要特定領域內的語義相關度的時候，強領域相關的知識資源又不易構建。相形之下，文本資源在不同領域上的豐富度雖然也不盡相同，但由于普通文本是語言、知識在數字化系統中最基本的表達形式，當面臨新領域（包括新語言）上的新問題時，文本資源就將是最先可用，并應最先嘗試使用的有效資源。

總結起來，由于當前大規模文本語料越來越容易獲取，基于文本資源的語義相關度計算方法擁有一定的優勢。但是另一方面，知識資源中的一些特殊元素（如超鏈接、引用關系等）卻為語義相關度計算提供了獨具特色的特征線索。已有一些研究工作正嘗試著將這兩類方法結合使用[7]，這在未來即成為一個值得研究的重要方向。

參考文獻：

[1] Firth J R. A Synopsis of Linguistic Theory 1930-55[M]. Studies in Linguistic Analysis （special volume of the Philological Society）. Oxford： The PhilologicalSociety， 1957，1952-59：1–32.

[2] DAGAN I， PEREIRA F， LEE L. Similarity-based estimation of Word cooccurrence probabilities[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics. Stroudsburg， PA， USA： Association for Computational Linguistics，1994：272–278.

[3] HARMAN D. Overview of the First TREC Conference[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York， NY， USA： ACM， 1993：36–47.

[4] SCHUTZE H， PEDERSEN J O. A cooccurrence-based thesaurus and two applications to information retrieval[J]. Inf. Process. Manage.， 1997， 33（3）：307–318.

[5] The British National Corpus， version 3 （BNC XML Edition）[EB/OL]. [2014-05-27]. http：//www.natcorp.ox.ac.uk/.

[6] RAPP R. Word sense discovery based on sense descriptor dissimilarity[C]//Proceedings of the Ninth Machine Translation Summit. East Stroudsburg， PA， USA： AMTA，2003：315–322.

[7] AGIRRE E， ALFONSECA E， HALL K， et al. A study on similarity and relatedness using distributional and Wordnet-based approaches[C]//Proceedings of Human LanguageTechnologies： The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg， PA， USA： Association for Computational Linguistics， 2009：19–27.

[8] REISINGER J， MOONEY R J. Multi-prototype vector-space models of Word meaning[C]//Human Language Technologies： The 2010 Annual Conference of the NorthAmerican Chapter of the Association for Computational Linguistics. Stroudsburg，PA， USA： Association for Computational Linguistics， 2010：109–117.

[9] HINDLE D. Noun classification from predicate-argument structures[C]//Proceedings of the 28th Annual Meeting on Association for Computational Linguistics. Stroudsburg，PA， USA： Association for Computational Linguistics， 1990：268–275.

[10] DAGAN I， LEE L， PEREIRA F C N. Similarity-based models of Word cooccurrence probabilities[J]. Mach. Learn.， 1999， 34（1-3）：43–69.

[11] LEE L. Measures of distributional similarity[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics. Stroudsburg， PA， USA： Association for Computational Linguistics，1999：25–32.

[12] LIN D. Automatic retrieval and clustering of similar Words[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics - Volume 2. Stroudsburg，PA， USA： Association for Computational Linguistics， 1998：768–774.

[13] GREFENSTETTE G. SEXTANT： Exploring unexplored contexts for semantic extraction from syntactic analysis[C]//Proceedings of the 30th Annual Meeting on Association for Computational Linguistics. Stroudsburg， PA， USA： Association forComputational Linguistics， 1992：324–326.

[14] ROGERS D J， TANIMOTO T T. A computer program for classifying plants[J]. Science， 1960， 132（3434）：1115–1118.

[15] PADó S， LAPATA M. Constructing semantic space models from parsed corpora[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1. Stroudsburg， PA， USA： Association for Computational Linguistics，2003：128–135.

[16] PADó S， LAPATA M. Dependency-based construction of semantic space models[J].Comput. Linguist.， 2007， 33（2）：161–199.

[17] THATER S， DINU G， PINKAL M. Ranking paraphrases in context[C]//Proceedings of the 2009 Workshop on Applied Textual Inference. Stroudsburg， PA， USA： Associationfor Computational Linguistics， 2009：44–47.

[18] THATER S， F¨uRSTENAU H， PINKAL M. Contextualizing Semantic Representations UsingSyntactically Enriched Vector Models[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： Association for Computational Linguistics， 2010：948–957.

[19] LESK M. Automatic sense disambiguation using machine readable dictionaries：how to tell a pine cone from an ice cream cone[C]//Proceedings of the 5th Annual International Conference on Systems Documentation. New York， NY， USA： ACM，1986：24–26.

[20] BANERJEE S， PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence.San Francisco， CA， USA： Morgan Kaufmann Publishers Inc.， 2003：805–810.

[21] HOFFART J， SEUFERT S， NGUYEN D B， et al. KORE： Keyphrase overlap relatedness for entity disambiguation[C]//Proceedings of the 21st ACM International Conferenceon Information and Knowledge Management. New York， NY， USA： ACM，2012：545–554.

[22] TURDAKOV D， VELIKHOV P. Semantic relatedness metric for Wikipedia concepts based on link analysis and its application to Word sense disambiguation[C]//KUZNETSOV S D， PLESHACHKOV P， NOVIKOV B， et al. Proceedings of the Spring Young Researchers Colloquium On Database and Information Systems， SYRCoDIS08.Saint-Petersburg， Russia： CEUR-WS.org， 2008.

[23] MILNE D， WITTEN I H. An effective， low-cost measure of semantic relatedness obtained from Wikipedia links[C]// //Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence： an Evolving Synergy. Palo Alto， California， USA： AAAI Press， 2008：25–30.

[24] HUGHES T， RAMAGE D. Lexical semantic relatedness with random graph walks[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in NaturalLanguage Processing and Computational Natural Language Learning （EMNLPCoNLL）.Stroudsburg， PA， USA： Association for Computational Linguistics，2007：581–589.

[25] GABRILOVICH E， MARKOVITCH S. Computing semantic relatedness using Wikipedia based explicit semantic analysis[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence. San Francisco， CA， USA： Morgan Kaufmann Publishers Inc.， 2007：1606–1611.

[26] YAZDANI M， POPESCU-BELIS A. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia[J]. Artif. Intell.， 2013， 194：176–202.

[27] BARONI M， LENCI A. Distributional memory： a general framework for corpus based semantics[J]. Comput. Linguist.， 2010， 36（4）：673–721.

[28] HALAWI G， DROR G， GABRILOVICH E， et al. Large-scale learning of word relatedness with constraints[C]//Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. New York， NY， USA： ACM，2012：1406–1414.

[29] JAIN A， PENNACCHIOTTI M. Open entity extraction from Web search query logs[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Stroudsburg， PA， USA： Association for Computational Linguistics， 2010：510–518.

智能計算機與應用2014年5期

智能計算機與應用的其它文章: C語言詞法語法分析工具CParser的設計與實現; 基于C#的Excel數據導入導出研究與實現; 白光LED無線光通信傳輸系統的設計與實現; 基于譜聚類的網上閱卷質量控制研究; 基于多尺度時長音頻特征的暴力音頻事件檢測; VB環境下基于內存共享技術的串行通訊程序設計