面向閱讀理解的句子組合模型

2017-09-03 10:23:54王元龍

計算機應用 2017年6期

關鍵詞：語義方法模型

王元龍

(山西大學計算機與信息技術學院，太原030006)

面向閱讀理解的句子組合模型

王元龍*

(山西大學計算機與信息技術學院，太原030006)

(*通信作者電子郵箱ylwang@sxu.edu.cn)

閱讀理解任務需要綜合運用文本的表示、理解、推理等自然語言處理技術。針對高考語文中文學作品閱讀理解的選項題問題，提出了基于分層組合模式的句子組合模型，用來實現句子級的語義一致性計算。首先，通過單個詞和短語向量組成的三元組來訓練一個神經網絡模型;然后,通過訓練好的神經網絡模型來組合句子向量(兩種組合方法：一種為遞歸方法；另一種為循環方法)，得到句子的分布式向量表示。句子間的一致性利用兩個句子向量之間的余弦相似度來表示。為了驗證所提方法，收集了769篇模擬材料+13篇北京高考語文試卷材料(包括原文與選擇題)作為測試集。實驗結果表明，與傳統最優的基于知網語義方法相比，循環方法準確率在高考材料中提高了7.8個百分點，在模擬材料中提高了2.7個百分點。

自然語言理解；句子組合模型；閱讀理解；語義相似度計算

0 引言

閱讀理解(Reading Comprehension, RC)的任務是能夠讀懂單篇文檔，理解文中的意思且作適當的處理用于回答設計的問題，它是自然語言處理和知識表示的一個重要應用領域，驅動著該領域相關技術的發展[1-2]。近年來，隨著人工智能的浪潮，閱讀理解技術也越來越受到了眾多自然語言處理研究機構及人工智能研究機構的關注[1]。中文閱讀理解中選擇題的目標在于理解單篇文檔，選出最符合文意的選項。閱讀理解中選擇題求解歸結為語義一致性分析任務，它注重的是背景材料與選項的語義一致性分析，因此語義一致性分析成為了解決中文閱讀理解中選擇題的關鍵技術。

閱讀理解中選擇題可形式化的描述為：給定選項C和背景材料D={S1,S2,…,Sn}，首先檢索選項C在背景材料中相關的句子Si?D，進一步對選項和選項相關句的語義一致性進行分析。例如：

選項為：朋友為小說《白鹿原》沒有寫老腔的筆墨而感到遺憾，作者對此深有同感。

檢索到的兩個相關句為：Si=“后來, 有作家朋友看過老腔的演出，不無遺憾地對我說過這樣的話，你的小說《白鹿原》是寫關中大地的，要是有一筆老腔的畫面就好了”；Sj=“朋友跟我說老腔如何如何，我卻很難產生驚詫之類的反應”。

答案的選擇需要分析選項與檢索相關句的一致性。本文重點關注句子的組合模型，且采用句子向量的相似度計算進行語義的一致性分析，句子相似度為Sim(Sc，Sr)。其中：Sc表示選項的句子分布式向量表示，Sr表示從原文中檢索到的相關句句子分布式向量表示。

詞匯的分布式向量表示是基于在語料庫中相似的詞有相似上下文的思想，通過在語料庫中預測詞共現來構建的表示模型[3]。詞匯間的語義相似度可以通過詞匯的分布式表示計算得到，更深層次的短語或句子語義理解，還需要對短語及句子進行分布式表示，組合句子的分布式向量表示在自然語言處理方面的各個領域越來越受到重視。目前存在兩種詞匯語義的句子組合形式：一種是基于語義元素操作的組合形式，如函數組合、形態組合等[4]；另一種是基于語義分布式向量空間的組合形式[5-17]。前者通常依據已有的語義詞典或標注語料，而后者基于依賴專業語料訓練獲得的分布式表示空間。基于語義分布式向量空間的組合形式首先需要采用分布式向量表示每個詞，即給定兩個單個詞的詞向量v1、v2。然后通過語義組合方法，把兩個單個詞的詞向量組合成一個新的短語向量v3。再把短語向量當作詞向量和另外一個詞組合成向量，直到組合成整個句子的分布式向量，其中合成規則直接影響計算語義合成性質的好壞。向量加[6]和點乘方法[7]組合規則較簡單，容易造成精度下降問題。向量矩陣模型[13-16]局限于動詞與名詞、形容詞與名詞的合成語義表示，對其他組合詞的合成沒有涉及。深度學習方法[17]需要大量的訓練數據集訓練大規模的參數，在數據量較小的情況下容易出現過擬合。對于中文閱讀理解材料，目前缺乏句子組合的訓練集。本文針對中文閱讀理解材料提出了基于神經網絡的短語組合模型，通過詞共現的方法在訓練材料中構建訓練數據集，詳細過程見第3章。該方法有以下優點：1)方便自動構造訓練集；2)訓練參數相對較少，適合小規模訓練數據集。

基于短語組合模型，針對高考語文閱讀理解中選擇題的選項一致性分析，提出了兩種計算句子語義組合方法：一種為遞歸方法；另一種為循環的方法。首先，采用了基于詞頻-逆向文件頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)的方法計算原文中和每個選項最相關的句子集；然后通過本文所提計算句子語義合成方法分別計算選項和相關句的句子分布式向量；最后通過比較每個選項與其句子間的余弦值判斷選擇題的答案。本文收集了769篇閱讀理解+13篇北京高考語文試卷材料(包括原文與選擇題)作為測試集，在該測試集中相比于Baseline方法，本文方法能夠獲得更優的結果。

1 相關研究

目前，很多研究人員越來越關注如何組合詞匯，獲得短語及句子的分布式向量表示。下面介紹基于語義分布式向量空間的組合方法。

1)向量加方法。

向量加方法在Widdows[6]的論文中有詳細的描述。該方法組合短語向量v3的值是通過單個詞的詞向量對應值相加獲得：v3i=v2i+v1i。

2)點乘方法。

Mitchell等[7]提出了用點乘的方法組合詞向量，該方法采用單個詞向量對應值相乘來計算組合短語向量中相應的元素值：v3i=v2i×v1i。該方法在語義相似度計算任務上優于向量加方法[6]。

向量加和點乘方法簡單易用，且在一些任務中效果明顯[8]，但也存在由于詞序造成的精度下降問題，如無法區分“如果/沒有”和“沒有/如果”這類短語。

文獻[9-12]把結構編碼的操作應用到相鄰兩個詞向量加的組合方法中，避免了相鄰兩個詞詞序不同造成的組合精度影響。該方法對于組合短語級的向量效果明顯，但組合句子組的向量還是無法避免詞序的影響。Socher等[13]提出一種采用遞歸神經網絡訓練每個詞匯的向量-矩陣表示方法，通過句法分析樹來組合句子向量。該方法每個詞匯都用一個向量和一個功能矩陣表示，如果一個詞匯在句子不是功能詞匯，那么該詞匯的功能矩陣為單位矩陣，如果詞匯在句子中作為主要的功能，如形容詞“非常”，那么該詞匯自身的向量接近零向量，而相應的功能矩陣發揮著重要的作用。組合短語采用的方法為：p=fA,B(a,b)=f(Ba,Ab)。Guevara[14]提出了一種計算形容詞-名詞組合分布式向量表示的偏最小二乘回歸模型，他們用回歸模型估計形容詞和名詞的組合系數。Baroni 等[15]把形容詞當作一個功能函數用矩陣表示，名詞用向量表示，用形容詞功能矩陣和名詞向量的乘積來獲取形容詞-名詞的組合分布式向量表示。Paperno等[16]對文獻[13-15]功能矩陣作了進一步完善，功能矩陣的功能分為：主語、賓語、名詞、形容詞、副詞等。每個詞匯采用1個向量和n個矩陣表示。該方法采用組合短語方法為：{〈a,A1,A2,…,An,…,An+k〉,〈b,B1,B2,…,Bn〉} ?{〈a+An+k*b,A1+B1,A2+B2,…,An+Bn,…〉}。該方法組合短語及句子效果非常好，但消耗的存儲量以及計算量均無法滿足實用的要求；且由于該方法采用句法樹分析句子結構，組合句子采用相鄰節點組合方法，因此對于任意長的句子，組合的效果就有所下降。

針對組合任意長度句子的問題，Tai等[17]在長短時記憶網(LongShort-TermMemoryNetwork,LSTM)[18]的基礎上，提出了樹結構的LSTM。該論文提出兩種樹結構LSTM(Child-SumTree-LSTM,N-aryTree-LSTM)。具體形式如圖1所示。其中：cj表示記憶單元；hj表示隱層節點的狀態；fj表示激活函數；ij、oj分別表示輸入和輸出門。

圖1 樹結構LSTM示意圖 [17]Fig. 1 Schematic diagram of tree structure LSTM[17]

本文受到文獻[17]的啟發，提出利用兩種中文句子的組合方式來獲取句子的分布式向量表示，在閱讀理解任務上實驗驗證了本文方法的效果。

2 句子組合模型及句子間的一致性分析

2.1 句子組合模型

構造句子分布式表示向量的基本思想是：組合兩個詞的分布式向量成為短語向量，再把短語向量當作詞向量和另外一個詞組合成向量，直到組合成整個句子的分布式向量表示。本文所指的短語并非嚴格意義上的短語，是指兩個詞經常一塊組合使用的組合詞，例如“沒有/那么”“告訴/我們”“坐/下來”“過/會兒”“天地/間”等，組合短語向量采用神經網絡模型。

2.1.1 神經網絡模型

為了達到理解單篇文檔，選出最符合文意選項的閱讀理解目標，訓練模型共分為兩個階段：離線預訓練階段和在線調整階段。首先采用從6 117篇文學作品語料中抽取短語集合來離線訓練組合短語向量的模型，該階段的模型屬于整體模型；然后針對具體的測試文檔細微的調整該整體模型，如圖2所示。對于單篇文檔，采用的抽取短語集方法為：去掉停用詞后的詞前后兩兩組合。

圖2 訓練短語向量示意圖

組合短語向量模型采用三層的神經網絡模型，如圖3所示。神經網絡模型的核心是組合短語的分布式表示，具體描述如下：

(1)

(2)

其中：X是中間層結果；p表示短語向量；U、V為需要訓練的權值矩陣；b為對應偏置向量。神經網絡在本質上是一種輸入到輸出的映射，它能夠學習大量的輸入與輸出之間的映射關系。因此，本文的樣本集為(輸入向量、理想的輸出向量)，即上文提到的三元組M(w1,w2,p)。

圖3 神經網絡模型

2.1.2 句子組合模型

本文通過訓練好的神經網絡模型采用兩種方法來組合句子向量，分別是遞歸的方法和循環的方法，如圖4所示。

1)遞歸的方法。如圖4(a)所示，該方法從句子中的詞開始按順序每兩個詞通過訓練好的神經網絡組合得到上一層節點的分布式表示，同樣的方法逐層計算各節點的分布式表示，直到計算得到頂層的根節點的分布式表示作為句子的分布式向量表示。如果詞的個數是單數，最后一個詞自動被當作上一層的節點。具體計算式如下：

(3)

圖4 組合句子向量示意圖

2)循環的方法。該方法從句子中的第一個詞開始逐步組合其后的每個詞。與LSTM類似，本文方法在組合過程中加入細胞狀態(如圖4(b)上cell層)，cell層水平線在圖4上方貫穿運行。細胞狀態類似于傳送帶，直接在整個鏈上運行，信息在上面流傳保持不變會很容易。具體過程如下所示：

(4)

(5)

其中:h0為整個句子的開始向量，因此h0通過w0和w1計算獲得;V、U、b為已訓練好的權值矩陣。

本文循環的方法與傳統LSTM[17-18]方法的不同之處在于，循環的方法采用2.1.1節訓練好的神經網絡去組合兩個向量而不是直接訓練句子組合模型，有效地緩解了缺乏訓練數據情況下訓練大規模參數的困境。

2.2 句子間的語義一致性分析

利用句子的分布式表示，可以快速計算句子間的語義相似度，這對于閱讀理解中的很多任務具有重要的意義。與文獻[19]類似，閱讀理解中選擇題的方案首先要解決的問題也是答案句的檢索，與問答不同的是，選擇題是通過選項檢索答案句。

具體來講，選擇題通過選項檢索原文中和選項相關的部分(可能是句子集、段落或全文的主線等)，然后再計算選項與相關部分的相似度，得到最終的答案項。

(6)

3 實驗結果與分析

本文實驗所用的閱讀理解語料由山西大學中文信息處理課題組收集，來自全國高中語文模擬試卷(共6 104篇)以及近13年的北京高考語文試卷材料。其中，769篇閱讀理解語料包含選擇題，每一篇包含一道選擇題。測試所用語料包括769篇模擬材料+13篇北京高考語文試卷材料，選擇題共782道(單項選擇題46個，雙項選擇題729個)。為了測試模型的泛化能力，訓練所用語料去掉測試所用的769篇語料，共5 335篇閱讀理解語料的原文用來構建訓練數據集。本文利用詞共現的方法獲得訓練神經網絡所需的三元組，具體做法為在閱讀理解語料的原文中搜索兩個詞的共現次數，如果共現次數大于30次，就認為其適合組成短語。本文采用詞共現的方法收集了2 531對短語，短語和單個詞共同構成了三元組M作為神經網絡的訓練數據。

3.1 訓練單個詞和短語向量

詞匯的分布式表示在自然語言處理領域中得到廣泛的應用起源于Mikolov等[20]提出的兩個模型(連續詞袋(ContinuousBagofWords,CBOW)模型, 連續Skip-gram模型)。利用這兩個模型訓練詞匯的分布式向量表示能夠捕捉到詞匯之間的某種隱含語義關系。本文采用CBOW模型來訓練詞向量和短語向量。首先，將文學作品經過分詞作為語料，獲得單個詞的詞向量；然后，把短語中的兩個詞作為一個整體，再用CBOW模型進行訓練，獲得短語向量。

3.2 實驗設置

為了驗證本文基于句子分布式向量表示在漢語閱讀理解選擇題中的有效性，實驗設置了相關句檢索和句子相似度計算(即答案選擇)兩個階段。

相關句檢索階段，本文采用TF-IDF方法從原文中檢索與每個選項相關的句子。對于原文，按句子劃分成句子集。對于選項，計算其中每個詞在原文中每一句子的TF-IDF值。選TF-IDF值最大的兩個句子作為選項相關的句子，用于下一個階段句子相似度計算。

句子相似度計算階段，為了驗證本文組合句子分布式向量表示方法的優勢，實驗設置了相關文獻中常用方法的比較分析，包括：

1)基于詞袋模型方法[21]。

(7)

2)向量加方法[6]。

3)點乘方法[7]。

與向量加方法相比，點乘方法將關鍵詞的詞向量加運算改為點乘運算，其他操作與向量加方法相同。

4)基于知網語義(HowNet Semantics, HNS)的方法[22]。

(8)

3.3 結果分析

3.3.1 相關句檢索

本文采用TF-IDF方法從原文中檢索與每個選項相關的句子，綜合考慮了選項中的每個詞在文檔中的重要性和整個文檔中的區分能力。對于原文，按句子劃分成句子集，具體計算如下：

(9)

其中：n為選項Sch中去掉停用詞后的關鍵詞個數；TFi為選項Sch中與原文中句子Ssi匹配的詞數，采用式(10)計算原文中每個詞的IDF值。

(10)

實驗中發現使用TOP-2作為檢索的相關句，就可以很好地覆蓋整個選項。例如，運用TF-IDF方法在2016年北京高考語文閱讀理解選擇題中進行相關句檢索結果實例：

[′A′,′作者′,′產生′,′神秘感′,′的′,′原因′,′是′,′看見′,′演唱′,′老腔′,′白發′,′白眉′,′老漢′,′等′,′一′,′群′,′關中′,′農民′]

我在入座時也看見了白發白眉老漢和他跟前的十多個人，一眼就能看出他們都是地道的關中鄉村人，也就能想到他們是某個劇種的民間演出班社，也未太注意，趙季平重新歸位坐定，便很鄭重地對我介紹說，這是華陰縣的老腔演出班社，老腔是了不得的一種唱法，尤其是那個白眉老漢…老腔能得到趙季平的賞識，我對老腔便刮目相看了，再看白發白眉老漢，安靜地在臺角下坐著，我突然生出神秘感來

屁股剛挨著椅子，他忽然站起，匆匆離席趕到舞臺左側的臺下，和蹲在那兒的一位白頭發白眉毛的老漢握手拍肩，異常熱乎，又與白發白眉老漢周圍的一群人逐個握手問好，想必是打過交道的熟人了

[′B′,′演員′,′以′,′木磚′,′連續′,′敲擊′,′長條′,′板凳′,′發出′,′的′,′響聲′,′經常′,′掩蓋′,′了′,′觀眾′,′掌聲′,′與′,′叫好聲′]

觀眾頓時沸騰起來

然而，令人驚訝的一幕出現了，站在最后的一位穿著粗布對門襟的半大老漢找著長條板凳走到臺前，左手拎起長凳一頭，另一頭支在舞臺上，用右手握著的一塊木磚，隨著樂器的節奏和演員的合唱連續敲擊長條板凳，任誰也意料不及的這種舉動，竟然把臺下的掌聲和好聲震啞了，出現了鴉雀無聲的靜場，短暫的靜默之后，掌聲和歡呼聲驟然爆響，經久不息

[′C′,′朋友′,′為′,′小說′,′《′,′白鹿原′,′》′,′沒有′,′寫′,′老腔′,′的′,′筆墨′,′而′,′感到′,′遺憾′,′，′,′作者′,′對′,′此′,′深′,′有′,′同感′]

后來，有作家朋友看過老腔的演出，不無遺憾地對我說過這樣的話，你的小說《白鹿原》是寫關中大地的，要是有一筆老腔的畫面就好了

朋友跟我說老腔如何如何，我卻很難產生驚詫之類的反應

[′D′,′老腔′,′從′,′宋代′,′唱′,′到′,′現在′,′，′,′鄉野′,′音樂廳′,′說明′,′這種′,′表演′,′形式′,′一直′,′很′,′流行′]

朋友跟我說老腔如何如何，我卻很難產生驚詫之類的反應

我第一次看老腔演出，是前兩三年的事

從上面的例子可以發現選項ABCD檢索到的相關句均可以蘊含選項。如選項A，“作者產生神秘感的原因”能夠從相關句“老腔能得到趙季平的賞識，我對老腔便刮目相看了，再看白發白眉老漢，安靜地在臺角下坐著，我突然生出神秘感來”中找到。

3.3.2 答案生成

考慮到高考語文題比模擬題更加規范，且本文主要針對北京高考語文閱讀理解所提的解決方案，因此對高考材料和模擬材料分開進行測試。

由于選擇題有準確的答案，因此本文采用的評價指標為準確率：

(11)

其中：CorrectAnswer(k)表示k個選擇題中正確的答案數目，對于雙項選擇題通常認為只對一項答案情況時，正確答案數目加0.5。表1分別給出了本文兩種方法(方法1：遞歸的方法；方法2：循環的方法)與相關方法在高考材料和模擬材料兩個數據集上的準確率比較。

從表1中可以看出，與傳統最優的基于知網語義方法相比，本文兩種方法在高考題和模擬題兩個數據集上的準確率均有所提高，方法2在高考材料中提高了7.8個百分點，在模擬材料中提高了2.7個百分點，但在高考題上的準確率略高于模擬題上的準確率，可能的原因是高考題比模擬題更加規范。本文方法2與方法1相比，在組合句子向量時有所改進，從實驗結果也可以看出，改進后的方法2在高考題數據集上的準確率提高了近4個百分點。

表1 不同方法的準確率比較 %

3.3.3 錯誤分析

錯誤原因主要集中于分布相似性到語義相似性的差距，語義理解仍然是閱讀理解最困難的技術。一方面，選項與相關句子的分布式表示非常相似，但由于句子中一個詞語義相反，本文方法無法檢測到其語義不相似，如2015年北京高考語文閱讀理解選擇題：

“B.文中那位意大利人對梅花有很好的藝術感受力，作者期待他寫出“梅花四弄”。”

其檢索到的相關句為：“第三個問的是意大利人，是搞音樂的，我想這人是有藝術感受力的，反正他沒見過梅花，就信口開河起來”。

兩個句子的分布式表示非常相似，但由于“期待”與“信口開河”其語義無法檢測，此題結果錯誤。

另一方面，選項與相關句子的分布式表示非常相似，但僅僅從相關句中無法理解其選項的本意，如2014年北京高考語文閱讀理解選擇題：

“A. 作者寫作本文的目的之一是糾正《現代漢語詞典》中對“廢墟”這一語詞的錯誤理解。”

理解選項中“本文的目的”需要理解全文或了解全文的主旨才能做到。

總之，對于選項分析除了相關句起主要作用，其他因素也會影響準確率，如全文主旨、段落主題以及情感分析等。采用更好的融合模型可以降低分布相似性到語義相似性的差距，這也是下一步的工作方向。

4 結語

句子的分布式向量表示在自然語言處理中的各個領域越來越受到重視。針對漢語閱讀理解中選擇題的特點，本文提出了一種新的句子組合模型應用到選擇題的解決方案。本文采用TF-IDF方法檢索與選項相關的相關句，實驗結果發現使用TOP-2作為檢索的相關句，可以很好地覆蓋整個選項。對于句子分布式向量的組合本文提出兩種方法，一種是遞歸的方法，另一種是循環的方法。與Baseline方法相比，本文兩種方法的準確率均有所提高，其中循環的方法在高考題數據集上的準確率可以達到57.8%。下一步的工作將考慮全文主旨、段落主題以及情感要素的分布式向量表示，并將其融合到本文算法中，進一步減小分布式表示與語義理解的差距。

)

[1]CHENDQ,BOLTONJ,MANINGCD.AthoroughexaminationoftheCNN/DailyMailreadingcomprehensiontask[C] //Proceedingofthe2016 54thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2016: 2359-2367.

[2] 劉知遠，孫茂松，林衍凱，等.知識表示學習研究進展[J].計算機研究與發展,2016,53(2):247-261.(LIUZY,SUNMS,LINYK,etal.Knowledgerepresentationlearning:areview[J].JournalofComputerResearchandDevelopment, 2016, 53(2): 247-261.)

[3]TURNEYPD,PANTELP.Fromfrequencytomeaning:vectorspacemodelsofsemantics[J].JournalofArtificialIntelligenceResearch, 2010, 37(1): 141-188.

[4]WIDDOWSD.Semanticvectorproducts:someinitialinvestigations[C/OL]//Proceedingsofthe2008SecondAAAISymposiumonQuantumInteraction. [2016- 10- 09].http://www.puttypeg.net/papers/semantic-vector-products.pdf.

[5]MARELLIM,BENTIVOGLIL,BARONIM,etal.Semeval- 2014Task1:evaluationofcompositionaldistributionalsemanticmodelsonfullsentencesthroughsemanticrelatednessandtextualentailment[C]//Proceedingsofthe2014 8thInternationalWorkshoponSemanticEvaluation.Stroudsburg,PA:ACL, 2014: 1-8.

[6]WIDDOWSD.GeometryandMeaning[M].Stanford,CA:CSLIPublications, 2004: 23-28.

[7]MITCHELLJ,LAPATAM.Vectorbasedmodelsofsemanticcomposition[C] //Proceedingsofthe2008AnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2008: 236-244.

[8]BLACOEW,LAPATAM.Acomparisonofvector-basedrepresentationsforsemanticcomposition[C]//Proceedingofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.Stroudsburg,PA:ACL, 2012: 546-556.

[9]GUEVARAE.Aregressionmodelofadjective-nouncompositionalityindistributionalsemantics[C]//Proceedingsofthe2010WorkshoponGEometricalModelsofNaturalLanguageSemantics.Stroudsburg,PA:ACL, 2010: 33-37.

[10]MITCHELLJ,LAPATAM.Compositionindistributionalmodelsofsemantics[J].CognitiveScience, 2010, 34(8): 1388-1429.

[11]SOCHERR,HUANGE,PENNINGTONJ,etal.Dynamicpoolingandunfoldingrecursiveautoencodersforparaphrasedetection[C]//Proceedingsofthe2011InternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2011: 801-809.

[12]ZANZOTTOFM,KORKONTZELOSI,FALLUCCHIF,etal.Estimatinglinearmodelsforcompositionaldistributionalsemantics[C]//Proceedingsofthe2010 23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:ACL, 2010: 1263-1271.

[13]SOCHERR,HUVALB,MANNINGCD,etal.Semanticcompositionalitythroughrecursivematrix-vectorspaces[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturallanguageProcessingandComputationalNaturalLanguageLearning.Stroudsburg,PA:ACL, 2012: 1201-1211.

[14]GUEVARAE.Aregressionmodelofadjective-nouncompositionalityindistributionalsemantics[C]//Proceedingsofthe2010WorkshoponGEometricalModelsofNaturalLanguageSemantics.Stroudsburg,PA:ACL, 2010: 33-37.

[15]BARONIM,ZAMPARELLIR.Nounsarevectors,adjectivesarematrices:representingadjective-nounconstructionsinsemanticspace[C]//Proceedingsthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2010: 1183-1193.

[16]PAPERNOD,PHAMN,BARONIM.Apracticalandlinguistically-motivatedapproachtocompositionaldistributionalsemantics[C]//Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2014: 90-99.

[17]TAIKS,SOCHERR,MANNINGCD.Improvedsemanticrepresentationsfromtree-structuredlongshort-termmemorynetworks[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2015: 1556-1566.

[18]ZAREMBAW,SUTSKEVERI.Learningtoexecute[EB/OL]. [2016- 10- 09].http://www.cs.nyu.edu/～zaremba/docs/Learning%20to%20Execute.pdf.

[19] 王智強，李茹，梁吉業，等.基于漢語篇章框架語義分析的閱讀理解問答研究[J].計算機學報,2016,39(4):795-807.(WANGZQ,LIR,LIANGJY,etal.ResearchonquestionansweringforreadingcomprehensionbasedonChinesediscourseframesemanticparsing[J].ChineseJournalofComputers, 2016, 39(4): 795-807.)

[20]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[EB/OL]. [2016- 10- 09].https://core.ac.uk/download/pdf/24794691.pdf.

[21] 張志昌，張宇，劉挺,等.基于淺層語義樹核的閱讀理解答案句抽取[J].中文信息學報,2008,22(1):80-86.(ZHANGZC,ZHANGY,LIUT,etal.Answersentenceextractionofreadingcomprehensionbasedonshallowsemantictreekernel[J].JournalofChineseInformationProcessing, 2008, 22(1): 80-86.)

[22] 朱征宇,孫俊華.改進的基于《知網》的詞匯語義相似度計算[J].計算機應用,2013,33(8):2276-2279.(ZHUZY,SUNJH.ImprovedvocabularysemanticsimilaritycalculationbasedonHowNet[J].JournalofComputerApplications, 2013, 33(8): 2276-2279.)

ThisworkispartiallysupportedbytheNationalHighTechnologyResearchandDevelopmentProgram(863Program)ofChina(2015AA015407),theNaturalScienceFoundationofShanxiProvince(201601D102030).

WANG Yuanlong, born in 1983, Ph. D., lecturer. His research interests include virtual reality, natural language processing, high performance computing.

Sentence composition model for reading comprehension

WANG Yuanlong*

(SchoolofComputerandInformationTechnology,ShanxiUniversity,TaiyuanShanxi030006,China)

The reading comprehension of document in Natural Language Processing (NLP) requires the technologies such as representation, understanding and reasoning on the document. Aiming at the choice questions of literature reading comprehension in college entrance examination, a sentence composition model based on the hierarchical composition model was proposed, which could achieve the semantic consistency measure at the sentence level. Firstly, a neural network model was trained by the triple consisted of single word and phrase vector. Then, the sentence vectors were combined by the trained neural network model (two composition methods: the recursion method and the recurrent method) to obtain the distributed vector of sentence. The similarity between sentences was presented by the cosine similarity between the two sentence vectors. In order to verify the proposed method, the 769 simulation materials and 13 Beijing college entrance examination materials (including the source text and the choice question) were collected as the test set. The experimental results show that, compared with the traditional optimal method based on HowNet semantics, the precision of the proposed recurrent method is improved by 7.8 percentage points in college entrance examination materials and 2.7 percentage points in simulation materials respectively.

natural language comprehension; sentence composition model; reading comprehension; semantic similarity computation

2016- 11- 21;

2017- 02- 06。

國家863計劃項目(2015AA015407)；山西省自然科學基金資助項目(201601D102030)。

王元龍(1983—)，男，山西大同人，講師，博士，CCF會員，主要研究方向：虛擬現實、自然語言處理、高性能計算。

1001- 9081(2017)06- 1741- 06

10.11772/j.issn.1001- 9081.2017.06.1741

TP391.1