問答系統(tǒng)中問句相似度研究

2020-07-26 14:23:53宋文闖劉亮亮張再躍

軟件導刊 2020年7期

宋文闖劉亮亮張再躍

摘要：百度知道中用戶提出問題較短，采用常規(guī)基于空間向量的TF-IDF句子相似度計算、基于語義依存關系的句子相似度計算等方法往往很難較好完成其相似度計算。鑒于此，基于長度較短問句的特點，引入問題元和詞模思想，對用戶問題進行分解，并與傳統(tǒng)相似度計算方法相融合，提出新的相似度計算方法。對于長度低于20個詞的問句，與傳統(tǒng)TF-IDF方法相比，F(xiàn)1值提高了12%。

關鍵詞：問題元;關鍵字擴展;TF-IDF;句子相似度;問答系統(tǒng)

DOI：10. 11907/rjdk. 191544 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP391文獻標識碼：A 文章編號：1672-7800（2020）007-0148-05

Study on the Similarity of Question Sentences in Question and Answer System

SONG Wen-chuang1， LIU Liang-liang2， ZHANG Zai-yue1

（1. School of Computer Science， Jiangsu University of Science and Technology， Zhenjiang 212003，China;

2. School of Statistics and Information， Shanghai University of International Business and Economics， Shanghai 201620，China）

Abstract：In view of the short length of questions raised by Baidu users， the conventional space vector-based TF-IDF sentence similarity calculation and the semantic similarity-based sentence similarity calculation are often difficult to perform good similarity calculation. To this end， this paper introduces the idea of problem element and lexical model for the characteristics of short-length question， decomposes the users problems and then combines with the traditional similarity calculation method， and proposes a new similarity calculation method. For questions with a length of less than 20 words， the F1 value is increased by 12% compared to the traditional TF-IDF method.

Key Words： question element; keyword expansion; TF-IDF; sentence similarity; question and answer system

0 引言

隨著信息技術的快速發(fā)展，各行各業(yè)的數(shù)據(jù)開始出現(xiàn)爆發(fā)式增長，如何從海量數(shù)據(jù)中獲取有效信息成為當前重要的研究課題。傳統(tǒng)搜索引擎依據(jù)關鍵詞和關鍵字的組合進行文檔檢索，但是這種檢索存在諸多弊端。如不能準確反映用戶意圖，返回結果是網(wǎng)頁列表，用戶需要篩選才能獲取信息[1]。對于某個用戶的搜索，在沒有獲得滿意的搜索結果時，用戶通常會不斷更換關鍵詞進行檢索，傳統(tǒng)搜索引擎并沒有考慮到短時間內用戶問題的相關性[2]。針對搜索引擎存在的諸多弊端，問答系統(tǒng)成為當今學術界的一個研究熱點。第一批問答系統(tǒng)出現(xiàn)于20世紀60年代，BasaBall能夠回答美國籃球聯(lián)賽相關問題[3]。隨著技術的不斷發(fā)展，出現(xiàn)了各種問答系統(tǒng)，主要分為閑聊對話型問答系統(tǒng)、計算機視覺問答系統(tǒng)以及社區(qū)問答系統(tǒng)等。

目前，相似度計算大體可以分為3個方面。一是基于詞語粒度的相似度計算方法，例如基于詞語重疊的方法[4]、空間向量的方法[5]、詞語語義的方法[6-7]。其中，基于詞語重疊的方法采用共現(xiàn)詞的個數(shù)占整個句子的比例進行計算;基于空間向量的方法采用傳統(tǒng)的TF-IDF或者Word2vec訓練出詞向量之后計算余弦相似度;基于詞語語義的方法，一般需要借助外部知網(wǎng)、同義詞詞林、本體等技術進行計算。二是以句法為特征的相似度計算，例如，李彬等[8]將漢語的依存關系句法信息融入到問句分析中;Chang等[9]將長句子切分成短句，再進行問句分析。三是融合上述兩種方法的混合算法，例如周艷平等[10]提出一種基于同義詞詞林的句子語義相似度方法，通過對詞形、詞序、語義依存相似度加權結合獲得句子之間的最終相似度。這些方法雖然取得了一定效果，但仍然受到問答系統(tǒng)性能的影響，不能保持較高計算精準度。針對這些問題，結合百度知道問句的特點，本文引入問題和詞模的思想，對句子進行分解，進而計算句子相似度，并使用該方法在問答系統(tǒng)中應用，驗證了該方法的合理性。

1 相關技術

一個傳統(tǒng)的問答系統(tǒng)，包括對問句的基本處理，如問句的分詞、詞性標注、去停用詞等操作。

1.1 中文分詞

中文分詞是計算機對文本進行后續(xù)處理的基礎[11]。中文不同于英文，詞與詞之間沒有空格，故對中文問句的分詞是有別于英文的普通的字符串分割。目前，針對中文的分詞算法大體可以分為3類：第一類是基于字符串匹配的算法，主要包括正向匹配、逆向匹配、最長匹配以及最短匹配[12]，為了提升效率，一般以索引表或者Tire樹進行存儲;第二類是基于統(tǒng)計的方法，其主要思想是根據(jù)相鄰字的緊密程度進行文本分詞，一般可以通過N-gram模型[13]和最大熵模型[14]實現(xiàn);第三類是基于語義理解的分詞，其模擬人對句子的理解過程，此種方法需要大量的語言學知識，鑒于漢語知識的錯綜復雜，目前很難將各種語言直接組織成機器可以直接讀取的形式。

1.2 詞性標注

詞性是詞匯的一個重要屬性，是每個詞所屬的詞類。詞類是根據(jù)詞匯意義和語法特點對詞進行的分類，如名詞、動詞、形容詞等。詞性標注就是確定每個詞是名詞、動詞、形容詞或其它詞性，并賦予合適的標記，為后續(xù)分析提供基本信息。詞性標注一般采用序列化標注模型，目前比較常見的算法有最大熵模型、HMM模型、CRF模型等[15]。

1.3 停用詞處理

停用詞指文檔中高頻出現(xiàn)但是區(qū)分度非常低的詞語。停用詞的存在不僅占存儲空間，也降低了文本中關鍵詞的價值。停用詞不僅包括常見的語氣詞，還包括問答系統(tǒng)中用戶提問的客氣用語等。

停用詞的選擇采用基于詞頻的選擇方法[16]，其處理過程為統(tǒng)計各詞在文檔中的詞頻，然后根據(jù)詞頻和逆文檔頻率進行降序排列，選擇排名較高的若干個詞作為停用詞。

1.4 中文文本表示模型（空間向量模型）

空間向量模型首先假設文本為一個出現(xiàn)于文本中的詞條所組成的集合，所有詞兩兩獨立。在建模過程中，通過分詞將文本中的每個詞條作為特征空間中的一個維度，利用這樣形成的特征空間將每篇文本表示為一個向量。具體實現(xiàn)流程如下：

設分詞后所有文檔中詞構成的集合為[T={t1，t2，？tN}]，所有文檔構成的文檔集合為[D={d1，d2，？dM}]。則文檔[di∈D]可通過一個[N]維向量表示為[（wi1，wi2，？wiN）]。其中[wik][（1kN）]為詞條[tk]在文檔[di]中的權值，權值一般表示為某詞條在文檔集中出現(xiàn)頻率的函數(shù)，主要計算方法有TF-IDF函數(shù)、布爾函數(shù)等，最廣為人知的當屬TF-IDF函數(shù)。

TF-IDF中TF為詞頻，表示某一詞條在某一文檔中出現(xiàn)的總次數(shù)，詞條[tk]在文檔[di]中的詞頻表示為[freqk，i]。IDF為文檔總數(shù)[n]與包含詞條[tk]的文章數(shù)量[nk]比值的對數(shù)。對于文檔中的詞條[tk]，其對應的TF-IDF值[tf-idf（tk）] 如式（1）所示。

其中，[tf-idf（tk）]表示某詞條對于這篇文檔的重要程度。

1.5 詞的分布式表達

詞的分布式表達即為詞向量，就是用多個分量表達文檔中每個詞條的意義。其基本思想為：首先獲取大規(guī)模的語料，通過對語料的訓練將語料中的每個詞語表示為一個定長向量。常見的詞向量工具包括Google的Word2vec和Facebook的FastText。

Word2vec是Google在2013年開源的一款將詞表征為實數(shù)值向量的高效工具，利用深度學習思想，通過訓練將對文本內容的處理簡化為 K 維向量空間中的向量運算，而向量空間上的相似度可以用來表示文本語義上的相似度[17]。

FastText是facebook開源的一個詞向量與文本分類工具，在2016年開源，典型應用場景是“帶監(jiān)督的文本分類問題”。提供簡單而高效的文本分類和表征學習的方法，性能比肩深度學習而且速度更快[18]。

2 相似度計算

文本相似度計算是實現(xiàn)問答系統(tǒng)的重要一步，通過計算用戶輸入的問句與知識庫中每一條知識所對應問題的相似度，返回相似度排名中較為靠前的知識，從而確保答案更加精準。計算語句相似度的方法有很多，包括基于統(tǒng)計的句子相似度計算、基于語義的句子相似度計算，以及基于依存關系的句子相似度計算。

2.1 基于統(tǒng)計的句子相似度計算

基于統(tǒng)計的句子相似度計算一般采用基于向量空間的TF-IDF句子相似度計算[19]。依據(jù)上述空間向量模型，將每個句子表示成一個空間向量，通過計算兩個句子之間空間向量的余弦值，判斷句子是否相似。

其中，[xi]為句子1中的某個特征詞的詞向量，[yi]為句子2中某個特征詞的詞向量。

2.2 基于語義的相似度計算

在問句中，有的詞具有同義詞或近義詞。因此采用基于語義的方法，可以識別出問句中詞的同義詞或近義詞。使用《同義詞詞林》可以對通用詞匯的同義詞進行擴展[20]。

詞典中的每個詞均用8位編碼表示。兩個詞的相似度按照如下規(guī)則計算。

如果兩個詞編碼的前k-1（k<7）位相同，但第k位編碼不同，則兩個詞之間的相似度計算如式（3）所示。

如果兩個詞編碼的第8位都是“#”并且前7位編碼相同，則兩個詞的相似度如式（4）所示。

如果兩個詞編碼的第8位為“=”或者“@”，而前7位編碼相同，則兩個詞的相似度如式（5）所示。

計算兩個詞之間的相似度，便可進一步計算句子間的相似度。假設S是用戶提問的句子，[S']是常用問題集中的句子，S中包含的詞分別為[W1W2，？，Wm]，[S']中包含的詞分別為[W1'W2'，？，Wn']，則可用[sWi，Wj']表示詞[Wi]和[Wj']之間的相似度。句子[S]和[S']的相似度如式（6）所示。

2.3 基于依存句法的句子相似度計算

句法分析是自然語言處理中的關鍵技術之一，其基本任務是確定句子的句法結構或者句子中詞匯之間的依存關系[21]。句子各成分之間的依存關系是使用依存句法計算相似度的要點。在使用詞方法時，為確保簡單和高效，只需計算有效配對數(shù)之間的相似度。有效配對指全句核心詞和直接依存于它的有效詞組成的搭配對，名詞、動詞和形容詞均為有效詞。如式（7）所示。

其中，[i=1nWi]為句子[S1]、[S2]有效配對匹配的總權重，[PairCount1]、[PairCount2]分別為句子[S1]、[S2]有效搭配對總數(shù)。

3 基于詞模與問題元的問句分析

3.1 概述

通過對爬取的百度知道用戶問題進行研究發(fā)現(xiàn)，用戶提出的問題往往符合特定規(guī)范和格式。通過對其進行分析，可以將用戶的問句進行分解。

針對長問句，其句子結構比較復雜，復雜原因歸于兩點：①有描述性現(xiàn)象，回答這種問句需要精確理解這些現(xiàn)象;②有比較復雜的事件，這些事件有前因、后果，以及不同的經(jīng)過，因此其答案也較為復雜[22]。

用戶的長問題還有以下特點：①問句長度較長，包含的信息量較大，采用同義詞相似度計算等方法精度會較高;②“現(xiàn)象”和“事件”多種多樣，不能窮舉，但“現(xiàn)象”和“事件”的類別卻是有限并可以總結的，可對這些類型加以識別。

3.2 相關概念

針對用戶的短問題，結合本體和問題元，將比較常見的問題進行規(guī)范化。為此，引入相關定義及相關解釋。

（1）問題元。可以窮舉的通用的標準化短問句，一般位于咨詢尾部，其含有一定的變元，所有用戶問題必與一個問題元相結合，如表1所示。

（2）中心詞。一個事物在句子中處于意思中心的位置，中心詞所涉事件是一個本體結構，有自己的屬性或相關事項，咨詢中也常出現(xiàn)中心詞的一些屬性或相關事項。

（3）中心事件現(xiàn)象關鍵詞。事件是一個復雜的過程，但可以將事件進行細粒度的類別劃分，這種事件也是一個本體結構，有發(fā)生的原因、所涉及的對象和事情的結果等。

（4）關系屬性詞。中心詞或中心事件的屬性或相關事項（如事物的部分、做某事等）。

中心詞本體詞模：中心詞為一個事物，該事物對就一個本體，利用該本體自動產生詞模。比較常用的詞模形式為：以事物名為必選項，其屬性為可性項。

（5）中心事件現(xiàn)象關鍵詞本體詞模。將事件或現(xiàn)象劃分成不同的細粒度的類后，也要為這些類建立本體。由這些本體生成的詞模稱為中心事件現(xiàn)象關鍵詞本體詞模[23]。

通過整理歸納百度知道爬取的問題，對句子模式進行歸納，超過80%的用戶問句符合如表2所示問句模式。

4 基于詞模與問題元的問句算法實現(xiàn)

4.1 問題元識別與擴展

針對上述思想提出了問題元識別方法。問題元特點：①一般位于句子末尾;②含有一定的變元;③是標準化的段語句，也即出現(xiàn)的概率偏大。

算法1：問題元識別和擴展算法

1. 分析每個問句的特點，總結出通用的問題元;

2. 對用戶的問句進行分詞，詞性標注以及依存關系分析;

3. 對分詞后的結果，以及依存關系的分析，獲取可能存在的搭配對;

4. 通過大量文本，對可能的搭配對，采用Word2Vec工具，得到搭配對的向量化表示;

5. 返回相似的問題元，作為問題元候選;

6. 將候選問題元與用戶提問的問題元進行相似度計算，大于一定閾值的問題元作為最終候選問題元。

問答系統(tǒng)中的問句分類一直是一個較復雜的問題，分類粒度的好壞將直接影響對不同類別采取的策略。一般的分類算法僅僅是將問句分為時間、地點、人物、時間、數(shù)值、原因、定義、比較等類別，但是這種類別本身其實并沒有任何實質性的作用。采用問題元方式，可對細粒度的對語料進行總結歸納。

當用戶的問句沒有匹配到問題元時，采用算法1進行問題元擴充，進而作后續(xù)處理。

4.2 中心詞識別

正確識別出中心詞，對于確定問句的主體至關重要。通過分析問句可知，中心詞與其位置有著密切關系，在中文問題中，中心詞的語法結構較靈活。中文問題里中心詞的語義角色可能為：①疑問詞的修飾語;②當疑問詞包含在賓語中時，整個問句的主語是中心詞;③當疑問詞包含在主語中時，整個問句的賓語是中心詞。

中心詞的選取準則：①中心詞不能是停用詞;②中心詞不能是疑問詞;③高頻詞優(yōu)先、名詞優(yōu)先。

算法2：中心詞識別算法

輸入：用戶的問句[Si={x1，x2，？，xN}]

輸出：中心詞集合

過程：

1. 構建疑問詞詞典，停用詞詞典;

2. 用戶輸入問句，系統(tǒng)將輸入問句進行去除標點符號、去除停用詞和分詞處理;

3. 對問句進行詞性標注;

4. 遍歷詞性為N的詞語作為中心語候選;

5. 過濾掉疑問詞和停用詞;

6. 計算該詞語的TF-IDF值，返回上述TF-IDF值較大的候選詞作為中心詞，如果是比較問題，則返回的是中心詞集合。

4.3 中心詞擴展

由于漢語語言的復雜性，一個類似的含義往往可以有多種表達，而中心詞可以采用《同義詞詞林》進行中心詞擴展，這樣可以提高匹配結果[24]。

算法3：中心詞擴展

1. 利用《同義詞詞林》擴展板得到初始查詢中心詞[Ti]的同義詞集合為[Ti（ti1，ti2，？，tin）];

2. 利用基于《知網(wǎng)》詞語相似度算法計算出初始查詢術語[ti]和集合[Ti]中每個[tij]的詞語相似度[Sim（ti，tij）]。選擇相似度大于閾值[α]的詞語作為[ti]的同義詞，小于閾值[α]的詞語直接刪除，將符合條件的[tij]組成集合[Ti']（0.7<=[α]<-1）;

3. 最后得到集合[Ti'={t'i1，t'i2，？，t'im}]， [Ti']即為選取的中心詞[ti]的同義擴展詞的集合。

4.4 改進后的相似度計算

最后對上述算法進行整合，提出與傳統(tǒng)相似度算法相結合的算法。

算法4：多相似度計算算法融合

1. 首先對問句進行問題元識別，如果識別到問題元，則轉向3;

2. 采用算法1，對問題元進行擴展;

3. 采用算法2，對中心詞進行識別;

4. 采用算法4，對中心詞進行擴展;

5.相似度計算，[Sim（S1，S2）=λ1*Sim1（S1，S2）+λ2*Sim2（S1，][S2）+λ3*Sim3（S1，S2）]

其中，[λ1+λ2+λ3=1]，[Sim1（S1，S2）]是采用基于向量空間的TF-IDF句子相似度計算，[Sim2（S1，S2）]是采用詞向量計算問題元之間的相似度，[Sim3（S1，S2）]采用同義詞詞林計算句子相似度。

5 實驗

本文采用的數(shù)據(jù)集為百度問答公開的數(shù)據(jù)集以及通過爬取百度知道擴展的問題答案對，共包括16 843個問題答案對。

5.1 知識庫建立

網(wǎng)絡爬蟲是按照一定規(guī)則，自動抓取萬維網(wǎng)信息的程序或腳本。實現(xiàn)原理為：深度遍歷網(wǎng)站資源，分析網(wǎng)站的URL并提交Http請求，然后將網(wǎng)頁抓取到本地，生成本地文件及相應的日志信息等。常用的開源網(wǎng)絡爬蟲有Nutch、Larbin和Heritrix。將文檔進行xPath解析，得到問題答案對，存入知識庫中。

5.2 知識庫解析

對上述爬取的問題答案對，在保留問題答案對的同時，將問題依據(jù)上文詞模方法進行解析，分解成問題元、中心詞、關系詞等。

例如：{‘A_問題：‘鈦精礦含量可不可能達到72%，求解答？，

--中心詞：鈦精礦關系詞：含量問題元：是否能達到比例（*%）

{‘A_問題：‘我的手機是波導i800的，又個java還有個至尊寶3g平臺，不是安卓的，可以刷機嗎？，

--中心詞：手機{波導i800、java、3g、非安卓系統(tǒng)} 問題元：是否可以（手機，刷機）

{‘A_問題：‘求幾本好的武俠小說，要類似金庸的，

--中心詞：武俠小說{類似金庸} 問題元：請求介紹

5.3 數(shù)據(jù)查詢

對上述問題模式及其構成進行識別后，查詢相關知識庫，如表3所示。

5.4 評估標準

5.4.1 查詢率（Precision）

[S]表示知識問答對，[TN（S）]表示問答系統(tǒng)返回知識中正確答案的個數(shù)，[RN（S）]表示問答系統(tǒng)返回所有答案的個數(shù)。問答系統(tǒng)查準率如式（8）所示。

5.4.2 查全率（Recall）

[S]表示知識庫問答對，[TN（S）]表示問答系統(tǒng)返回知識中正確答案的個數(shù)，[AN（S）]表示問答系統(tǒng)中所有正確答案的個數(shù)。問答系統(tǒng)查全率如式（9）所示。

5.4.3 F1-Measure

[P（S）]表示問答系統(tǒng)的查準率，[R（S）]表示問答系統(tǒng)的查全率。問答系統(tǒng)F1-Measure如式（10）所示。

用戶在系統(tǒng)內輸入所要搜索的問題，問答系統(tǒng)將用戶輸入的問句與知識庫中的問句進行相似度計算，并將相似度大于閾值的知識庫問句對應的答案返回給用戶，由用戶判斷返回答案中正確答案的個數(shù)，匹配相似度最高的3個問句。

5.5 實驗結果及分析

通過對比表4實驗結果發(fā)現(xiàn)，對于短文本的用戶問題，本文方法相對于傳統(tǒng)TF-IDF空間向量模型有一定提升。但是隨著問句長度的增加，問句中包含的信息量越來越大，在性能上差距會越來越小。

本文通過爬取“百度知道”真實的問題和答案對，構建數(shù)據(jù)集，并對其中的問題模式進行研究，引入問題元和本體相關概念。一個短的問題往往是中心詞加上問題元，一個長的問題往往是一個復雜的事件加上中心詞和問題元，通過對問句進行分解，對問句的相似度算法進行改進，有效提高了問答系統(tǒng)返回結果的F1值。但該方法存在一大不足，即前期需要使用大量人力去歸納總結問句模式以及常見問題元，這有待后續(xù)研究解決。

參考文獻：

[1] 于甜甜. 基于語義樹的語句相似度和相關度在問答系統(tǒng)中的研究[D]. 濟南：山東財經(jīng)大學，2014.

[2] 劉里，曾慶田. 自動問答系統(tǒng)研究綜述[J]. 山東科技大學學報（自然科學版），2007（4）：73-76.

[3] 鄭實福，劉挺，秦兵，等. 自動問答綜述[J]. 中文信息學報，2002（6）：46-52.

[4] 鐘敏娟，萬常選，劉愛紅，等. 基于詞共現(xiàn)模型的常問問題集的自動問答系統(tǒng)研究[J]. 情報學報， 2009，28（2）：242-247.

[5] LEGRAND J，COLLOBERT R. Joint RNN-based greedy parsing and word composition[J]. Computer Science，2014.

[6] 郜強. 基于語義詞語相似度計算模型的研究與實現(xiàn)[D]. 西安：西安電子科技大學，2011.

[7] 張新旭. 基于本體相似度的語義Web服務匹配算法研究[D]. 成都：電子科技大學，2013.

[8] 李彬，劉挺，秦兵，等. 基于語義依存的漢語句子相似度計算[J]. 計算機應用研究，2003， 20（12）：15-17.

[9] CHANG J W， LEE M C， WANG T I， et al. Using grammar patterns to evaluate semantic similarity for short texts[C]. 2012 8th International Conference on Computing Technology and Information Management （NCM and ICNIT），2012.

[10] 周艷平，李金鵬，蔡素. 基于同義詞詞林的句子語義相似度方法及其在問答系統(tǒng)中的應用[J]. 計算機應用與軟件，2019，36（8）：65-68，81.

[11] 黃昌寧，趙海. 中文分詞十年回顧[J]. 中文信息學報，2007（3）：8-19.

[12] 常建秋，沈煒. 基于字符串匹配的中文分詞算法的研究[J]. 工業(yè)控制計算機，2016，29（2）：115-116，119.

[13] 秦健.? N-gram技術在中文詞法分析中的應用研究[D]. 青島：中國海洋大學，2009.

[14] 于江德，王希杰，樊孝忠. 基于最大熵模型的詞位標注漢語分詞[J]. 鄭州大學學報（理學版），2011，43（1）：70-74.

[15] 蘇勇. 基于理解的漢語分詞系統(tǒng)的設計與實現(xiàn)[D]. 成都：電子科技大學，2011.

[16] 梁喜濤，顧磊. 中文分詞與詞性標注研究[J]. 計算機技術與發(fā)展，2015，25（2）：175-180.

[17] 化柏林. 知識抽取中的停用詞處理技術[J]. 現(xiàn)代圖書情報技術，2007（8）：48-51.

[18] 李曉，解輝，李立杰. 基于Word2vec的句子語義相似度計算研究[J]. 計算機科學，2017，44（9）：256-260.

[19] 代令令. 基于fastText的問答系統(tǒng)用戶意圖識別與關鍵詞抽取研究[D]. 南寧：廣西大學，2018.

[20] 武永亮，趙書良，李長鏡，等. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學報，2017，31（5）：138-145.

[21] 趙蔚. 基于同義詞詞林的詞語相似度計算方法[J]. 吉林大學學報（信息科學版），2010，28（6）：602-608.