短文本理解研究

2016-07-31 23:32:01王仲遠程健鵬王海勛文繼榮

計算機研究與發展 2016年2期

王仲遠程健鵬王海勛文繼榮

1（中國人民大學信息學院北京 100872）2（微軟亞洲研究院北京 100080）3（牛津大學計算機科學學院英國牛津 OX1 3QD）4（Facebook 美國加利福尼亞州門洛帕克市 94025）（zhy．wang＠microsoft．com）

短文本理解研究

王仲遠1，2程健鵬2，3王海勛4文繼榮1

短文本理解是一項對于機器智能至關重要但又充滿挑戰的任務．這項任務有益于眾多應用場景，如搜索引擎、自動問答、廣告和推薦系統．完成這些應用的首要步驟是將輸入文本轉化為機器可以詮釋的形式，即幫助機器“理解”短文本的含義．基于這一目標，許多方法利用外來知識源來解決短文本中語境信息不足的問題．通過總結短文本理解領域的相關工作，介紹了基于向量的短文本理解框架．同時，探討了短文本理解領域未來的研究方向．

知識挖掘；短文本理解；概念化；語義計算

短文本理解是一項對于機器智能至關重要的任務．其在知識挖掘領域有很多潛在應用，如網頁搜索、在線廣告、智能問答等．為了完成這些任務，先前的研究往往使用一些知識庫系統，如Freebase，Yago等為機器“裝備”知識．這些知識庫大多包含大量實體以及與之相關的事實．基于這些事實，機器可以通過查詢的方式獲取輸入問題的答案．然而，如圖1所示，在機器回答問題前，首先需要解決的是“理解”問題，這也是這一過程中的最大挑戰．

Fig．1 Question－answering with knowledge requires understanding．圖1 基于知識的問答過程

對于人類而言，理解問題十分簡單．這是由于人類具有“思維”，能夠積累知識并做出推斷．例如，給出2個查詢語句“band for wedding”和“wedding band”，人類可以清楚地判斷前者指的是一項“婚禮樂隊服務”，而后者是“結婚戒指”．

然而，自動化的短文本理解是一項充滿挑戰的任務．與長文本不同，短文本通常不遵循語法規則，并且長度短、沒有足夠的信息量來進行統計推斷，機器很難在有限的語境中進行準確的推斷．此外，由于短文本常常不遵循語法，自然語言處理技術（如詞性標注和句法解析等）難以直接應用于短文本分析．

傳統的基于短文本的應用常通過枚舉和關鍵詞匹配的方式避免“理解”這一任務．例如，在自動問答系統中，一個關于問題和答案匹配的列表可被事先構建，這樣在線查詢時只需對列表中的條目進行匹配．隨著近年來自然語言處理技術的發展，主流的搜索引擎正逐漸從基于關鍵詞的搜索向文本理解過度．例如，給出“apple ipad”這個短文本，機器需要明白“apple”所指為品牌名而不是水果．

許多相關工作［1－3］證明，自動化的短文本理解需要依賴額外的知識．這些知識可以幫助機器充分挖掘短文本中詞與詞之間的聯系，如語義相關性．例如，在英文查詢“premiere Lincoln”中，“premiere”是一個重要的信息，表明“Lincoln”在這里指的是“電影”；同樣，在“watch harry potter”中，正因為“watch”的出現，“harry potter”的含義可被鑒定為“電影”或“DVD”，而不是“書籍”．但是，這些關于詞匯的知識（例如“watch”的對象通常是“電影”）并沒有在短文本中明確表示出來，因而需要通過額外的知識源獲取．

本文根據所需知識源的屬性，將短文本理解模型分為3類：隱性（implicit）語義模型、半顯性（semi－explicit）語義模型和顯性（explicit）語義模型．其中，隱形和半顯性模型試圖從大量文本數據中挖掘出詞與詞之間的聯系，從而應用于短文本理解．相比之下，顯性模型使用人工構建的大規模知識庫和詞典輔助短文本理解．

從另一個角度而言，短文本理解模型在文本分析上的粒度也有差異．部分方法直接模擬短文本的表示方式，因此本文將其歸為“文本”粒度．其余大多方法則以詞為基礎．這些方法首先推出每個詞的表示，然后使用額外的合成方式推出短文本的表示．本文將這些方法歸為“詞”粒度．圖2展示了所有短文本理解方法在知識源屬性和粒度的二維坐標軸中對應的位置．這些方法將被逐一討論．

Fig．2 Models viewed on type－granularity graph．圖2 不同模型的屬性和粒度

1 短文本理解方法

1．1 隱性（implicit）語義模型

隱性語義模型產生的短文本通常表示為映射在一個語義空間上的隱性向量．這個向量的每個維度所代表的含義人們無法解釋，只能用于機器計算．以下將介紹4種代表性的隱性語義模型．

1）隱性語義分析模型．最早的基于隱性語義的文本理解框架為隱性語義分析（latent semantic analysis，LSA）［1］，也被稱為latent semantic indexing（LSI）．LSA旨在用統計方法分析大量文本，從而推出詞與文本的含義表示．其思想核心是在相同語境下出現的詞具有較高的語義相關性．具體而言，LSA構建一個龐大的詞與文本的共現矩陣．對于每個詞向量，它的每個維度都代表一個文本；對于每個文本向量，其每個維度代表一個詞．通常，矩陣每項的輸入是經過平滑或轉化的共現次數．常用的轉化方法為TF－IDF．最終，LSA通過奇異值分解（SVD）的方法將原始矩陣降維．在短文本的情境下，LSA有2種使用方式：首先，在語料足夠多的離線任務上，LSA可以直接構建一個詞與短文本的共現矩陣，從而推出每個短文本的表示；其次，在訓練數據較小的情境下，或針對線上任務（針對測試數據），可以事先通過標準的LSA方法得到每個詞向量，然后使用額外的語義合成方式獲取短文本向量．

2）超空間模擬語言模型．一個與LSA類似的模型是超空間模擬語言模型（hyperspace analogue to language model，HAL）［4］．HAL與LSA的主要區別在于前者是更加純粹的“詞模型”．HAL旨在構建一個詞與詞的共現矩陣．對于每個詞向量，它的每個維度代表一個“語境詞”．模型統計目標詞匯與語境詞匯的共現次數，并經過相應的平滑或轉換（如TF－IDF，pointwise mutual information等）得到矩陣中每個輸入的值．通常，語境詞的選取有較大的靈活性．例如，語境詞可被選為整個詞匯，或者除停止詞外的高頻詞［5］．類比LSA，在HAL中可以根據原始向量的維度和任務要求選擇是否對原始向量進行降維．由于HAL的產出僅僅為詞向量，在短文本理解這一任務中需采用額外的合成方式（如向量相加）來推出短文本向量．

3）神經網絡語言模型．近年來，隨著神經網絡和特征學習的發展，傳統的HAL逐漸被神經網絡語言模型（neural language model，NLM）［6－9］取代．與HAL通過明確共現統計構建詞向量的思想不同，NLM旨在將詞向量當成待學習的模型參數，并通過神經網絡在大規模非結構化文本的訓練來更新這些參數以得到最優的詞語義編碼（常被稱作word embedding）．

最早的概率性NLM由Bengio等人提出［6］，其模型使用前向神經網絡（feedforward neural network）根據語境預測下一個詞出現的概率．通過對訓練文本中每個詞的極大似然估計，模型參數（包括詞向量和神經網絡參數）可使用誤差反向傳播算法（BP）進行更新．此模型的一個缺點在于僅僅使用了有限的語境．后來，Mikolov等人［7］提出使用遞歸神經網絡（recurrent neural network）來代替前向神經網絡，從而模擬較長的語境．此外，原始NLM的計算復雜度很高，這主要是由于網絡中大量參數和非線性轉換所致．針對這一問題，Mikolov等人［8］提出2種簡化（去掉神經網絡權重和非線性轉換）的NLM，即continuous bag of words（CBOW）和Skip－gram．前者通過窗口語境預測目標詞出現的概率，而后者使用目標詞預測窗口中的每個語境詞出現的概率．

另一類非概率性的神經網絡以Collobert和Weston的工作［9］為代表．其模型Senna考慮文本中的n元組．對每個n元組中某個位置的詞（例如中間詞），模型選取隨機詞來代替該詞，從而產生若干新的n元組作為負樣本．在訓練中，通過一個簡單的神經網絡為n元組打分，訓練目標為正樣本得分s＋與負樣本得分s－間的最大間隔排序損失（max－margin ranking loss），如式（1）所示：

總而言之，NLM同HAL相似，所得到的詞向量并不能直接用于短文本理解，而需要額外的合成模型依據詞向量得到短文本向量．

4）段向量．段向量（paragraph vector，PV）［10］是另一種基于神經網絡的隱性短文本理解模型．PV可被視作文獻［8］中CBOW和Skip－gram的延伸，可直接應用于短文本向量的學習．PV的核心思想是將短文本向量當作“語境”，用于輔助推理（例如根據當前詞預測語境詞）．在極大似然的估計過程中，文本向量亦被作為模型參數更新．PV的產出是詞向量和文本向量．對于（線上任務中的）測試短文本，PV需要使用額外的推理獲取其向量．圖3比較了CBOW、Skip－gram和2種PV的異同．

Fig．3 CBOW，Skip－gram and two variations of PV．圖3 CBOW，Skip－gram和2種PV

1．2 半顯性（semi－explicit）語義模型

半顯性語義模型產生的短文本表示方法，也是一種映射在語義空間里的向量．與隱性語義模型不同的是，半顯性語義模型的向量的每一個維度是一個“主題（topic）”．這個主題通常是一組詞的聚類．人們可以通過這個主題猜測這個維度所代表的含義；但是這個維度的語義仍然不是明確的、可解釋的．半顯性語義模型的代表性工作是主題模型（topic models）．

LSA嘗試通過線性代數（奇異值分解）的處理方式發現文本中的隱藏語義結構，從而得到詞和文本的特征表示；而主題模型則嘗試從概率生成模型（generative model）的角度分析文本語義結構，模擬“主題”這一隱藏參數，從而解釋詞與文本的共現關系．

最早的主題模型PLSA（probabilistic LSA）為LSA的延伸，由Hofmann提出［11］．PLSA假設文本具有主題分布，而文本中的詞從主題對應的詞分布中抽取．以d表示文本，w表示詞，z表示主題（隱藏參數），文本和詞的聯系概率p（d，w）的生成過程可被表示為：

雖然PLSA可以模擬每個文本的主題分布，然而其沒有假設主題的先驗分布（每個訓練文本的主題分布相對獨立），它的參數隨訓練文本的個數呈線性增長，且無法應用于測試文本．

一個更加完善的主題模型為LDA（latent Dirichlet allocation）［12］．LDA從貝葉斯的角度為2個多項式分布添加了狄利克雷先驗分布，從而解決了PLSA中存在的問題．在LDA中，每個文本的主題分布為多項式分布Mult（θ），其中θ從狄利克雷先驗Dir（α）抽?。?，對于主題的詞分布Mult（φ），其參數φ從狄利克雷先驗Dir（β）獲取．圖4對比了PLSA和LDA的盤子表示法（plate notation）．

總之，通過采用主題模型對短文本進行訓練，最終可以獲取每個短文本的主題分布，以作為其表示方式．這種表示方法將短文本轉為了機器可以用于計算的向量．

1．3 顯性（explicit）語義模型

Fig．4 Plate notations of PLSA and LDA in comparison．圖4 PLSA和LDA盤子表示法比較

Fig．5 LSA，HAL，ESA，LDA in comparison．圖5 LSA，HAL，ESA，LDA比較

近年來，隨著大規模知識庫系統的出現（如Wikipedia，Freebase，Probase等），越來越多的研究關注于如何將短文本轉化成人和機器都可以理解的表示方法．這類模型稱之為顯性語義模型．與前2類模型相比，顯性語義模型最大的特點就是它所產生的短文本向量表示不僅是可用于機器計算的，也是人類可以理解的，每一個維度都有明確的含義，通常是一個明確的“概念（concept）”．這意味著機器將短文本轉為顯性語義向量后，人們很容易就可以判斷這個向量的質量，發現其中的問題，從而方便進一步的模型調整與優化．

1）顯性語義分析模型．在基于隱性語義的模型中，向量的每個維度并沒有明確的含義標注．與之相對的是顯性語義模型，向量空間的構建由知識庫輔助完成．顯性語義分析模型（explicit semantic analysis，ESA）［13］同LSA的構建思路一致，旨在構建一個龐大的詞與文本的共現矩陣．在這個矩陣中，每個輸入為詞與文本的TF－IDF．然而，在ESA中詞向量的每個維度代表一個明確的知識庫文本，例如Wikipedia文章（或標題）．此外，原始的ESA模型沒有對共現矩陣進行降維處理，因而產生的詞向量具有較高維度．在短文本理解這一任務中，需使用額外的語義合成方法推導出短文本向量．圖5比較了LSA，HAL，ESA和LDA在本質上的區別與聯系．

2）概念化．另一類基于顯性語義的短文本理解方法為概念化（conceptualization）［2－3，14－15］．概念化旨在借助知識庫推出短文本中每個詞的概念分布，即將詞按語境映射到一個以概念為維度的向量上．在這一任務中，每個詞的候選概念可從知識庫中明確獲?。纾ㄟ^知識庫Probase［16］，機器可獲悉apple這個詞有“水果”和“公司”這2個概念．當apple出現在“apple ipad”這個短文本中，通過概念化可分析得出apple有較高的概率屬于“公司”這個概念．

最早的概念化方法由Song等人提出［2］．其模型使用知識庫Probase，獲取短文本中每個詞與概念間的條件概率p（concept｜word）和p（word｜concept），從而通過樸素貝葉斯的方法推出每個短文本的概念分布．這一單純基于概率的模型無法處理由語義相關但概念不同的詞組成的短文本（如“apple ipad”）．為解決無法識別語境的問題，Kim等人［14］對Song的模型做出了改進．新的模型使用LDA主題模型，分析整條短文本的主題分布，進而計算p（concept｜word，topic）．

另一個基于Probase的短文本理解框架為Hua等人提出的LexSA（lexical semantic analysis）［15］．LexSA將短文本理解系統化為分詞、詞性標注和概念識別3個步驟，并在每個步驟使用新的模型消除歧義．在分詞和詞性標注環節，作者分別使用圖模型推出短文本的最優分詞方式和詞的詞性；在概念識別環節，每個詞被表示成以概念為維度的向量．為了進一強調LexSA中各環節的相互作用關系，Wang等人［3］提出為短文本構建統一的候選詞關系圖，并使用隨機漫步（random walk）的方法推導出最優的分詞、詞性和詞的概念．

2 模型粒度分析

本節將深入討論第1節的短文本理解模型在文本分析粒度上的差異，并從應用層面論證不同方法的適用性．

2．1 文本粒度模型

首先，文本粒度的模型包含LSA，LDA和PV．這些模型均嘗試直接推導出短文本的向量表示作為模型的輸出．在LSA中，通過構建一個詞與文本的共現矩陣，每個文本可用以詞為維度的向量表示．類似地，LDA試圖模擬文本的生成過程．作為結果，可得到每個文本的主題分布．PV通過神經網絡推測（inference）的方式獲取文本向量的最優參數．上述模型所得的文本向量均可以直接用于與這些文本相關的任務，如文本分類［17－18］、聚類［19］、摘要生成［20］．值得注意的是，LSA同時輸出詞向量．因而在短文本數量不足的情況下，可以先采用基于大量完整文本的LSA獲取詞向量，再通過額外的合成方法獲取短文本向量．對于LDA和PV而言，其模型亦可以通過額外的文本訓練，然后應用于短文本．

2．2 詞粒度模型

同LSA，LDA和PV相比，其他模型（LSA，NLM，ESA等）均屬于詞粒度的模型．這是由于這些模型的產出僅為詞向量．針對短文本理解這一任務，必須使用額外的合成手段來推出短文本的表示．例如，在文獻［21－25］工作中，作者均利用詞向量推導出文本表示，并用于后續的文本相似度判斷、文本復述、情感分析等任務．這里的一個特例為概念化模型．由于概念化可以直接基于語境推出短文本中每個詞的概念，這樣的輸出方式已經可以滿足機器短文本理解的需求．因而概念化雖屬于詞粒度的模型但并不需要額外的文本合成．

2．3 文本合成

如何通過詞向量獲取任意長度的文本向量（包括短文本）是時下流行的一個研究領域．根據復雜度的不同，文本合成方法可被大致分為代數向量模型［5，21－23，25］、張量模型［26－28］和神經網絡模型［7，24，29－32］．

1）代數運算模型．最早的合成模型由Mitchell和Lapata［21］提出．其模型使用逐點的（point－wise）向量相加的方式從詞向量推出文本向量．雖然這一基于“詞袋”的方法忽略了句子中的詞序（“cat eats fish”和“fish eats cat”將有相同的表示），事實表明其在很多自然語言處理任務上有著不錯的效果，且其常常被用作復雜模型的基準［23］．類似的代數運算模型還有逐點的向量乘積［5，21－22］以及乘法與加法的結合運算［24］．

2）張量模型．張量模型［26－27］為代數運算模型的延伸．其試圖強調不同詞性的詞在語義合成中的不同角色．例如在“red car”這個詞組中，形容詞“red”對名詞“car”起修飾作用；而在“eat apple”中，動詞“eat”的角色好比作用于“apple”的函數．從這個角度而言，將不同詞性的詞均表示為同等維度的向量過于簡化．因而，在張量模型中，不同詞性的詞被表示為不同維度的張量，整個句子的表示方式以張量乘法的形式獲?。壳?，張量模型的最大挑戰是如何獲取向量與張量的映射關系［28］．

3）神經網絡模型．時下最為流行的文本合成模型為基于神經網絡的模型，如recursive neural network（RecNN）［2930］，recurrent neural network（RNN）［5］，convolutional neural network（CNN）［31－32］等．在這些模型中，最基本的合成單元為神經網絡．通常的形式為神經網絡根據輸入向量x1，x2推出其組合向量y：

其中，W和b為神經網絡參數，［x1：x2］為2個輸入向量相連，f為非線性轉換．

在具體的文本合成中，不同的神經網絡模型的構造不同．例如，RecNN依賴于語法樹開展逐層的語義合成，它無法被用于短文本．相比之下，RNN（序列合成）和CNN（卷積合成）都可以快速通過詞向量推導出短文本向量．

3 未來的研究展望

短文本理解是對機器智能至關重要的一項任務．針對機器智能的特質，自動化的短文本理解可定義為：將文本轉化為任何機器可以獲取其含義并進行進一步計算的編碼形式．基于此，大量先前工作（如LSA，NLM，LDA等）通過挖掘文本數據中的隱藏信息，獲取詞與詞、詞與文本之間的聯系，從而獲取短文本編碼．與此同時，另一方向的研究（ESA、概念化）使用知識庫來獲取明確的詞匯語義知識，從而輔助短文本理解．盡管，何為最有效的短文本解釋方式仍有待探索，本文將嘗試從2個方面討論短文本理解領域的未來工作．

3．1 語義知識網

知識對短文本的理解不可或缺．傳統的知識庫（如WordNet，Freebase，Yago等）往往包含大量與實體相關的事實，但機器無法直接根據這些非黑即白的事實進行線上推測．針對這個問題，未來的一個趨勢是探索概率性的語義知識網在短文本理解上的應用．

語義知識網旨在幫助機器“理解”人類的交流方式，而不僅僅是記錄事實片段．例如，NELL，Probase等新興的知識庫均屬于語義網．這些網絡以自然語言為導向，且通常包含大量的統計信息，如詞與詞的共現關系．下文將以Probase為例簡述語義網在短文本理解任務上的作用．

Probase基于16．8億網頁構建，它包含了大量基于Hearst模式獲取的isA關系，例如“Obama”isA“president”，“China”isA“developing country”等．與傳統的知識庫不同，Probase的語義網記載了實體與概念之間的概率．因此，在基于Probase的短文本理解工作中，機器可以通過語義網中的概率進行在線推導．

目前，雖然已經有一些基于語義知識網來進行短文理解的工作［2－3，14－15］，但這些工作仍然比較初步，多是基于一些觀察所構建的模型，缺乏系統性理論支持．未來工作可深入探索語義網在解讀短文本工作上的應用，構建一套完備的理論模型．

3．2 顯性知識和隱性知識的結合

從另一個角度而言，如上文所述，機器可獲取的知識包含了顯性知識和隱性知識．未來工作應著重探索二者的結合以完善短文本含義的表示方式．

1）顯性知識改進隱性模型

顯性的知識庫可以用來完善隱性的空間向量．換言之，向量應以某種方式反應知識庫中實體間的關系．例如，Bian等人的工作［33］使用WordNet中的詞匯關系作為限制來輔助NLM的訓練，使得這些詞匯關系（如同義詞關系）能夠在訓練所得的詞向量中得以體現．

2）隱性知識改進顯性模型

隱性的空間向量可以幫助提高概念化的準確性．例如，Cheng等人［34］使用改進的NLM將Probase的實體和概念以及文本中的其他詞均映射至統一的向量空間．在這樣的設置下，對于某一實體詞，其語境詞與概念的相關性可以很容易地使用空間距離度量．這一結合語境判斷概念的方法有潛力提升概念化的效果．

如圖6所示，未來工作應圍繞強調顯性和隱性知識的聯系，構建能夠更準確體現真實的詞與概念語義的向量空間，提升圖1中理解（即通過短文本推導出機器內部表示）這一環節的準確性．

Fig．6 Combining explicit and implicit knowledge in short text understanding in the future．圖6 未來結合顯性和隱性知識輔助短文本理解

4 結束語

綜上所述，隨著短文本數據迅猛增長，短文本理解研究是近年來一個研究熱點，這也是基于關鍵字的搜索技術達到一定瓶頸之后的必然選擇．本文從隱性模型、半顯性模型以及顯性模型的角度，介紹了目前比較流行的短文本理解語義模型，并深入闡述了它們之間的關聯與不同．基于這些分析，本文嘗試提出了未來在短文本理解上的2種研究方向，供相關研究人員參考．

［1］Deerwester S C，Dumais S T，Landauer T K，et al．Indexing by latent semantic analysis［J］．Journal of the Association of Information Sience，1990，41（6）：391 407

［2］Song Y，Wang H，Wang Z，et al．Short text conceptualization using aprobabilistic knowledgebase［C］?? Proc of the 22nd Int Joint Conf on Artificial Intelligence（IJCAI）．Palo Alto，CA：AAAI，2011：2330 2336

［3］Wang Z，Zhao K，Wang H，et al．Query understanding through knowledge－based conceptualization［C］??Proc of the 24th Int Joint Conf on Artificial Intelligence（IJCAI）．Palo Alto，CA：AAAI，2015：3264 3270

［4］Lund K，Burgess C．Producing high－dimensional semantic spaces from lexical co－occurrence［J］．Behavior Research Methods，Instruments，＆Computers，1996，28（2）：203 208

［5］Turney P D，Pantel P．From frequency to meaning：Vector space models of semantics［J］．Journal of Artificial Intelligence Research，2010，37（1）：141 188

［6］Bengio Y，Ducharme R，Vincent P，et al．A neural probabilistic language model［J］．The Journal of Machine Learning Research，2003，3（2）：1137 1155

［7］Mikolov T，Karafiát M，Burget L，et al．Recurrent neural network based language model［C］??Proc of the 11th Annual Conf of the Int Speech Communication Association．New York：ACM，2010：1045 1048

［8］Mikolov T，Chen K，Corrado G，et al．Efficient estimation of word representations in vector space［J］．Computing Research Repository，2013［2015－12－30］．http：??arxiv．org? pdf?1301．3781．pdf

［9］Collobert R，Weston J．A unified architecture for natural language processing：Deep neural networks with multitask learning［C］??Proc of the 25th Int Conf on Machine Learning（ICML）．New York：ACM，2008：160 167

［10］Le Q V，Mikolov T．Distributed representations of sentences and documents［C］??Proc of the 31st Int Conf on Machine Learning（ICML）．Palo Alto，CA：AAAI，2014：1188 1196

［11］Hofmann T．Probabilistic latent semantic indexing［C］?? Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval．New York：ACM，1999：50 57

［12］Blei D M，Ng A Y，Jordan M I．Latent Dirichlet allocation［J］．The Journal of Machine Learning Research，2003，3（1）：993 1022

［13］Gabrilovich E，Markovitch S．Computing semantic relatedness using Wikipedia－based explicit semantic analysis［C］??Proc of the 20th Int Joint Conf on Artificial Intelligence（IJCAI）．San Francisco，CA：Morgan Kaufmann，2007：1606 1611

［14］Kim D，Wang H，Oh A．Context－dependent conceptualization［C］??Proc of the 23rd Int Joint Conf on Artificial Intelligence（IJCAI）．Palo Alto，CA：AAAI，2013：2654 2661

［15］Hua W，Wang Z，Wang H，et al．Short text understanding through lexical－semantic analysis［C］??Proc of the 31st Int Conf on Data Engineering（ICDE）．Piscataway，NJ：IEEE，2015：495 506

［16］Wu W，Li H，Wang H，et al．Probase：A probabilistic taxonomy for text understanding［C］??Proc of the 2012 ACM Int Conf on Management of Data（SIGMOD）．New York：ACM，2012：481 492

［17］Sebastiani F．Machine learning in automated text categorization［J］．ACM Computing Surveys（CSUR），2002，34（1）：1 47

［18］Salton G，Wong A，Yang C S．A vector space model for automatic indexing［J］．Communications of the ACM，1975，18（11）：613 620

［19］Xu W，Liu X，Gong Y．Document clustering based on nonnegative matrix factorization［C］??Proc of the 26th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval．New York：ACM，2003：267 273

［20］Geiss J．Latent semantic sentence clustering for multidocument summarization［D］．Cambridge，UK：University of Cambridge，2011

［21］Mitchell J，Lapata M．Vector－based models of semantic composition［C］??Proc of the 46th Annual Meeting of the Association for Computational Linguistics．Stroudsburg，PA：ACL，2008：236 244

［22］Erk K，PadóS．A structured vector space model for word meaning in context［C］??Proc of the 2008Conf on Empirical Methods in Natural Language Processing．Stroudsburg，PA：ACL，2008：897 906

［23］Blacoe W，Lapata M．A comparison of vector－based representations for semantic composition［C］??Proc of the 2012Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning．Stroudsburg，PA：ACL，2012：546 556

［24］Hermann K M，Blunsom P．The role of syntax in vector space models of compositional semantics［C］??Proc of the 51st Annual Meeting of the Association for Computational Linguistics．Stroudsburg，PA：ACL，2013：894 904

［25］Fyshe A，Talukdar P，Murphy B，et al．Documents and dependencies：An exploration of vector space models for semantic composition［C］??Proc of the 17th Conf on Computational Natural Language Learning．Stroudsburg，PA：ACL，2013：84 93

［26］Coecke B，Sadrzadeh M，Clark S．Mathematical foundations for distributed compositional model of meaning［J］．Linguistic Analysis，2010，36：345 384

［27］Baroni M，Zamparelli R．Nouns are vectors，adjectives are matrices：Representing adjective－noun constructions in semantic space［C］??Proc of the 2010Conf on Empirical Methods in Natural Language Processing．Association for Computational Linguistics．Stroudsburg，PA：ACL，2010：1183 1193

［28］Kartsaklis D．Compositional operators in distributional semantics［J］．Springer Science Reviews，2014，2（1?2）：161 177

［29］Socher R，Lin C C，Manning C，et al．Parsing natural scenes and natural language with recursive neural networks［C］?? Proc of the 28th Int Conf on Machine Learning（ICML）．Madison，WI：Omnipress，2011：129 136

［30］Socher R，Perelygin A，Wu J Y，et al．Recursive deep models for semantic compositionality over a sentiment treebank［C］??Proc of the Conf on Empirical Methods in Natural Language Processing．Stroudsburg，PA：ACL，2013：1631 1642

［31］Kalchbrenner N，Grefenstette E，Blunsom P．A convolutional neural network for modelling sentences［C］?? Proc of the 52nd Annual Meeting of the Association for Computational Linguistics．Stroudsburg，PA：ACL，2014：655 665

［32］Kim Y．Convolutional neural networks for sentence classification［C］??Proc of the 2014Conf on Empirical Methods in Natural Language Processing．Stroudsburg，PA：ACL，2014：1746 1751

［33］Bian J，Gao B，Liu T Y．Knowledge－powered deep learning for word embedding［M］??Machine Learning and Knowledge Discovery in Databases．Berlin：Springer，2014：132 148

［34］Cheng J，Wang Z，Wen J，et al．Contextual text understanding in distributional semantic space［C］??Proc of the 24th ACM Int Conf on Information and Knowledge Management．New York：ACM，2015：133 142

Wang Zhongyuan，born in 1985．PhD．Researcher at the Microsoft Research Asia．His research interests include short text understanding，knowledgebase，NLP，and machine learning．

Cheng Jianpeng，born in 1990．PhD candidate of Oxford University．His main research interests include machine learning and natural language understanding．

Wang Haixun，born in 1972．Research scientist at Facebook．Before he joined Facebook，he was research scientist at Google Research and senior researcher at Microsoft Research Asia．His main research interests include text analytics，NLP，knowledgebase，and graph data management．

Wen Jirong，born in 1972．Professor at the Renmin University of China．His main research interests include big data management ＆analytics，information retrieval，data mining and machine learning．

Short Text Understanding：A Survey

Wang Zhongyuan1，2，Cheng Jianpeng2，3，Wang Haixun4，and Wen Jirong11（School of Information，Renmin University of China，Beijing100872）2（Microsoft Research Asia，Beijing100080）3（Department of Computer Science，Oxford University，OXford，UK OX1 3QD）4（Facebook，Menlo Park，CA，USA94025）

Short text understanding is an important but challenging task relevant for machine intelligence．The task can potentially benefit various online applications，such as search engines，automatic question－answering，online advertising and recommendation systems．In all these applications，the necessary first step is to transform an input text into a machine－interpretable representation，namely to“understand”the short text．To achieve this goal，various approaches have been proposed to leverage external knowledge sources as a complement to the inadequate contextual information accompanying short texts．This survey reviews current progress in short text understanding with a focus on the vector based approaches，which aim to derive the vectorial encoding for a short text．We also explore a few potential research topics in the field of short text understanding．

knowledge mining；short text understanding；conceptualization；semantic computing

TP391

2015－08－10；

2015－11－19

國家“九七三”基礎研究發展計劃基金項目（2014CB340403）；中央高?；究蒲袠I務費專項資金（14XNLF05）This work was supported by the National Basic Research Program of China（973Program）（2014CB340403）and the Fundamental Research Funds for the Central Universities（14XNLF05）．