基于粗糙集知識發現的開放領域中文問答檢索

2018-05-28 03:43:59苗奪謙任福繼張紅云

計算機研究與發展 2018年5期

韓朝苗奪謙任福繼張紅云

1(同濟大學電子與信息工程學院上海 201804) 2(嵌入式系統與服務計算教育部重點實驗室(同濟大學) 上海 201804) 3 (德島大學工學部日本德島 7708506) (1990hanzhao@tongji.edu.cn)

問答系統是當前自然語言處理研究領域的熱點.現有的問答系統按照答案的產生方式主要分為2種：1)基于信息檢索的問答系統，即在已經給定了候選答句的情況下，針對輸入的問句返回最匹配問句的一個或多個候選答句；2)基于自然語言生成的問答系統，即不給定候選答句，利用自然語言生成的相關技術直接構造答句并返回.由于現有的自然語言生成技術尚未成熟，在現實應用中基于信息檢索的問答系統仍然是主流[1-2].

基于信息檢索的問答系統主要是通過計算問句和若干個候選答句的匹配度來獲取最能匹配問句的答句，其中，匹配重心主要集中在問句和答句的話題關鍵點.例如，在問句“騰訊公司的老板是誰？”中，【“騰訊公司”， “老板”】即為該問句的話題關鍵點，而在候選答句“騰訊公司的老板是馬化騰.”和“騰訊公司的總部在中國深圳.”中，前者的話題關鍵點是【“騰訊公司”， “老板”】，后者是【“騰訊公司”， “總部”】，因此前者與問句有更高的匹配度.

相比于英文問答系統，中文問答系統存在如下問題：首先，由于中文的語言特性，中文問答系統的問答匹配度計算主要先通過自然語言處理工具對問句和答句進行分詞和詞性標注等預處理；然后再對分詞后的問句和答句進行句子相似度計算.盡管中文分詞技術已經相對成熟，但由于中文的語言靈活特性，中文的語句表達存在大量不確定性，中文語言處理工具得到的預處理結果有時不能完全滿足后續分析過程的需要.例如在給定上下文情況下，“蘋果”和“蘋果公司”都是指代“蘋果公司”，但若候選句中“蘋果公司”被略寫為“蘋果”，而分詞工具將“蘋果公司”作為命名實體切分，“蘋果”作為名詞切分，且同義詞詞庫中缺乏“蘋果”和“蘋果公司”的同義關聯的話，在后續的處理過程這2個詞將會被視作2個不同的對象，進而影響后續的匹配度計算結果.

其次，中文的問答知識的表達方式也存在大量的不確定性.例如，給定問句“黎明來自哪個國家？”、“黎明的國籍是什么？”、“黎明是在哪個國家出生的？”、“黎明是中國人還是韓國人？”，這些問句都可以選擇“黎明出生在中國.”作為最匹配答句，但這些問句的話題關鍵點可以表達成【“黎明”，“國籍”】、【“黎明”，“出生地”】、【“黎明”，“出生地點”】等多種方式，因而增加了問句和候選答句的話題相似度的計算難度.

以上2種情況可以總結為中文語言表達的不確定性和中文知識表達的不確定性.在實際應用中，由于這2種不確定性的大量存在，現有的利用中文語義分析工具和中文知識庫獲得的確定性的信息的匹配度計算方法不適合大量不確定性存在的應用場景.

針對上述不確定性問題，本文從粗糙集理論的角度，提出了一種基于粗糙集知識發現的中文問答檢索方法，利用粗糙集的屬性約簡方法和上近似概念從已標注的問答語料庫中發現并表示知識，利用獲得的粗糙集問答知識結合傳統的句子相似度方法對問句和候選句進行匹配度計算.

1 相關工作

在不確定性信息處理方面，現有的處理不確定性信息的理論主要有模糊集(fuzzy set)[3]、粗糙集(rough set)[4]和商空間(quotient space)[5]等.其中粗糙集理論是由Pawlak[4]首先提出，并在實際的理論研究和應用研究過程中擴展出了模糊粗糙集[6]、鄰域粗糙集[7]、變精度粗糙集[8]等多種模型.粗糙集模型的關鍵在于不同的等價關系下的上近似、下近似和邊界域的確立，并依靠不同的等價劃分對知識進行不同程度的粒化，從而得到不同的概念或范疇[9-10].粗糙集理論已經在文本情感分析[11]、知識約簡[12]和數據挖掘[13]等多個領域得到了廣泛應用.

在文本信息檢索方面，文本檢索技術可以分為2個部分.首先是文本的語義或話題的向量表示.常見的向量化模型有經典向量空間模型(vector space model, VSM)[14]、TF·IDF向量空間模型[15]，以及近年來應用比較廣泛的LDA模型(Latent dirichlet allocation)[16]和LSI模型(Latent semantic indexing)[17]，此外還有近年來備受關注的深度學習領域的Word2Vec詞向量模型[18]，以及基于Word2Vec發展而來的Doc2Vec模型[19].其次，對文本向量化后，通常使用余弦相似度來表示2個文本向量之間的相似程度[20].除此之外，Jaccard指數(Jaccard coeffi-cient)[21]、Ochiai指數(Ochiai coefficient)[22]等方法也可以用來計算2個對象之間的關聯程度.

問答系統和傳統的信息檢索的區別在于，傳統信息檢索中直接由用戶輸入關鍵詞，而在問答系統中，不論是基于知識庫的問答系統還是基于檢索的問答系統，用戶輸入的都是自然語言表達的問句而非關鍵詞串，因而問答系統首先要解決問句和答句的關鍵詞抽取[23]，之后才是根據候選句或文檔，或根據知識庫，返回匹配問句的答句的傳統信息檢索過程.在問句關鍵詞抽取方面，現有的方法多是利用自然語言處理工具分析得到初步的詞匯、POS(part of speech)標記、語法成分等信息后，挖掘問句和答句之間關聯規則或分類特征，例如，文獻[23]給出的基于中文句法的中文問答方法、文獻[24]給出的基于篇章語義的中文問答方法、文獻[25]給出的基于POS標記特征和規則挖掘的英文問答方法.

問答系統的研發過程往往基于不同的應用背景，而不同背景下問答系統的預期功能不同，所用語料、知識庫以及問答系統的指標要求也不盡相同，因而不同的文獻中提到的問答系統的評測語料和評測指標也不相同[26-27].目前國際上英文問答系統的相關評測有TREC QA Track[28]，NTCIR QALab[29].而在中文問答系統方面，國內的NLPCC自2015年開始舉辦開放領域中文問答系統評測比賽[30].

2 基本概念

2.1 粗糙集的基本概念

(1)

(2)

(3)

(4)

2.2 向量的歸一化和余弦相似度

定義2[32].給定n維向量A=(a1,a2,…,an)，其歸一化后的向量A′為

(5)

定義3[32]. 給定2個n維向量A=(a1,a2,…,an)和B=(b1,b2,…,bn)，其余弦相似度為

(6)

3 基于粗糙集的問答系統知識發現和表達

給定一個問句ques和一個由若干個候選答句構成的集合，候選答句集合可以劃分為2個部分:1)跟問句的匹配度較高的答句集合，在此稱為正匹配句集合，記作Setp;2)跟問句的匹配度較低的集合，稱為負匹配句集合，記作Setn.首先將ques和Setp，Setn中的每個句子都做了分詞處理，即每個句子都視作一個詞的集合.對于每一個詞，可以根據其在問句和正、負匹配集合中出現的情況總共分為7類，用【ques|||Setp|||Setn】的方式來分別標記該詞在句子、正匹配集合和負匹配集合中的出現情況，如表1所示.

當給定1個問句和若干個候選答句時，被選入正匹配集合的候選答句滿足2個條件：

1) 這類候選答句和問句滿足相對最細粒度下的話題相似.例如，候選答句①“騰訊公司的老板是馬化騰.”和候選答句②“騰訊公司的總部在中國深圳.”，在第1層次粒度下都是“騰訊公司”相關話題，但在進一步粒化分析后，前者的話題變為【“騰訊公司”，“老板”】，后者的話題變為【“騰訊公司”，“總部位置”】，因此若問句為“騰訊公司的老板是誰？”，因問句的較細粒度的話題為【“騰訊公司”，“老板”】，因此候選答句①相比候選答句②有更高的匹配度.

2) 候選句之所以能成為問句的答案，是因為其含有同等問句粒度下問句所缺失的信息.例如上述例子中的候選答句①之所以能成為問句的答案，是因為其除了含有【“騰訊公司”，“老板”】這一與問句相同粒度的話題信息外，還含有“馬化騰”這一問句所缺失的答案信息.

表1中的7類詞匯在一定程度上反映了問答句的不同粒度下的話題信息和答案信息.例如，“騰訊公司”為在問句和正、負匹配集合中均出現的詞(標記為【1|||1|||1】)，即表示所有問答句都是“騰訊公司”相關；“誰”可能為只在問句中出現的詞(標記為【1|||0|||0】)；“老板”為只在問句和正匹配句中出現的詞(標記為【1|||1|||0】).

Tabel 1 Word Tag and Meaning表1 詞標記和含義

上述過程是利用不同的句子集合判定詞的標記的訓練過程.我們可以把詞看做劃分規則，不同標記的詞則為該詞可以對句子劃分入問句、正匹配和負匹配的劃分程度，則訓練過程是通過訓練文本獲得劃分規則的過程，而檢索(測試)過程則為利用劃分規則和問句將候選句劃分入正、負匹配句集的過程.根據粗糙集理論，當給定問句和正、負匹配句集后，問句的話題和對應的答案信息所構成的問答知識的下近似詞匯更有可能在標記為【1|||1|||0】，【1|||0|||0】，【0|||1|||0】的詞匯集合中，而標記為【0|||0|||1】的詞匯即為該問答知識的負域.但在實際應用的場景中，由于語言表達的不確定性存在，可能會存在【1|||1|||0】詞匯缺失等情況，反而在【1|||0|||1】詞匯集合中可能找到問句的話題信息.例如，給定問句“《線性代數》這本書的內容有哪些？”及其2個候選答句，候選答句①“第一章行列式”和候選答句②“《線性代數》的出版年是2009年.”，候選答句①為更匹配的答句，但①中完全不存在和問句的相同詞匯，反而是問句和候選答句②的相同詞匯之一“線性代數”在粗粒度下反映了該問句的話題范圍.因此，在通過訓練用的問句和正、負匹配集分詞后得到類別后，我們僅去掉“是”、“的”等停用詞，常用標點，以及該話題類別的負域詞匯(即標記為【0|||0|||1】的詞匯)，用剩余的詞匯集合和相應的標記表示一個【問句-答案】范疇的上近似.

有2種特殊的訓練情況：1)給定問句和候選答句，候選答句全部為正匹配句，則負匹配句集合為空集?，此時訓練得到的粗糙集問答知識則不包含【0|||1|||1】，【1|||0|||1】和【1|||1|||1】標記的詞； 2)給定問句和候選答句，候選答句全部為負匹配句，但由于我們的訓練目標是挖掘出問句和對應答句的話題和答案信息，因此這類訓練樣本需要在訓練前剔除.

表2給出了一個問句及其候選句集的示例，問答句集選自NLPCC-ICCPOL2016[30]國際會議上基于文檔的開放領域問答系統評測比賽的公開訓練數據集.所有的句子都經過了分詞預處理，用“\”標記切分位置.本例中負匹配句只列出前2條，其他負匹配句省略.帶有上標的詞為最終在問答范疇知識中出現的詞，用右上標標注了序號.表3給出了表2示例的粗糙知識表達，其中，標記為【0|||0|||1】的詞為負域詞，需要被約簡掉，因此未在表3中列出.

Tabel 2 Question and Its PositiveNegative Items表2 問句和正、負匹配句示例

CategoryWordSegmentsandLabelsques“黃山”(9)\煙(5)\打破(6)\了\原本(3)\哪(1)\兩(11)\個(4)\地方(2)\高檔(14)\煙(5)\稱霸(7)\的\局面(8)\？Setp一舉\打破\了\“\滬(10)\、\云(15)\”\高檔(14)\煙(5)\一統天下(13)\的\局面(8)\．Setn①黃山(9)\，\是\香煙\的\一\個(4)\品牌\．②“\黃山(9)\”\煙(5)\是\安徽中煙工業公司\蚌埠卷煙廠\1958\年\開發\的\．

Tabel 3 Rough Set QA Knowledge Based on Table 2表3 由表2得到的粗糙集問答知識

4 基于粗糙集問答知識的問答檢索

在訓練得到一系列粗糙集問答知識后，當問答系統獲取到新的問句和候選答句后，其問句和答句的匹配度QAM：

QAM=α×SSim+β×KMatch，

(7)

其中，SSim為問句和答句的語句形式相似度，可以用傳統的向量化模型得到句子向量后用余弦相似度計算；KMatch為對粗糙集問答知識庫中的問答知識的最高匹配程度；α和β分別為形式相似度和知識匹配度的權重系數.計算KMatch的過程如算法1和算法2所示：

算法1.

輸入：問句、候選答句；

輸出：所有候選答句的假定范疇最大相似度.

1) 對問句和所有的候選答句分詞.

2) 從候選答句中選擇一個句子，先假定其為正匹配句，其他句子為負匹配句.按照粗糙集問答知識的訓練過程，將全部的詞匯進行假定知識標記，去除標記為【0|||0|||1】的詞匯.此時得到一個假定正句下的假定問答知識范疇.

3) 利用算法2中的計算過程計算假定問答范疇和問答知識庫中的最大相似度.

4) 重復步驟2和步驟3，直至遍歷得到所有候選答句的假定范疇最大相似度.

算法2.

輸入：知識庫、算法1步驟2得到的假定問答知識范疇；

輸出：候選答句相對假定平均范疇的最大相似度.

1) 從問答知識庫中選擇一個粗糙集問答知識.

2) 比對假定范疇知識和該粗糙集問答知識的全部詞庫，若詞條和標記均相同，則對應標記數目加1.按照(【0|||1|||0】, 【0|||1|||1】, 【1|||0|||0】, 【1|||0|||1】, 【1|||1|||0】, 【1|||1|||1】)的標記順序得到一個維度為6的計數向量A.

3) 判定A中計數總數.若小于閾值C，則返回KMatch=0并執行步驟6，否則執行步驟4.

4) 判定所得元素中是否只包含問句相關元素或只包含答案相關元素，即先計算標記【ques|||Setp|||Setn】的ques，Setp各位的總計數(對應記為X和Y)，若X和Y當中有一個為0，則返回0并執行步驟6，否則執行步驟5.

5) 將計數向量A和假定平均知識范疇向量K歸一化后用余弦相似度公式計算兩者相似度并返回，并執行步驟6(歸一化公式和余弦相似度公式采用2.2節的式(5)和式(6)).

6) 重復步驟1～5，遍歷知識庫，最后返回該候選答句相對假定平均范疇K的最大相似度.

由算法1和算法2可知，QAM的計算過程中，過濾閾值C，假定平均知識范疇向量K，形式相似度權重系數α和知識匹配度權重系數β均會影響最終計算出的QAM分數.其中，過濾閾值C的主要作用是初步濾掉與候選句匹配可能性極低的問答知識，以提升系統對問答知識庫的遍歷速度.C應至少為1，即候選句與被匹配的問答知識應至少有一個元素相同.

SSim是由傳統文本模型得到的向量余弦相似度.KMatch是歸一化后的知識向量和假定平均范疇K的余弦相似度，是不同標記詞語的分布相似度，歸一化后得到的余弦相似度與SSim屬于同一個數量級，因此可以加權相加.但由于不同的問答系統的應用背景不同，對應的語料庫的特點也不同，因此SSim的取值權重α和KMatch的取值權重β也應該隨著語料特點而改變.本文實驗中的開放領域問答語料涉及到的知識領域較廣且多為書面語，文本形式相似度和知識相似度都是重要的元素，因此α和β暫定為1，后續我們會研究如何根據不同的語料庫特征設置更合適的α和β.

5 實驗和結果

實驗采用NLPCC-ICCPOL2016國際會議上基于文檔的開放領域中文問答系統評測比賽的公開數據集和評測工具.該評測的公開數據集包含訓練集和測試集2個部分，其中訓練集包含8 772條問句，對應問句總共有181 882條候選答句；測試集總共有5 997條問句，對應問句總共有122 531條候選答句.實驗采用與該評測比賽相同的MRR(mean reciprocal rank)和MAP(mean average precision)2個評測指標.MRR的計算公式為

(8)

MAP的計算公式為

(9)

(10)

其中，m是正確的正匹配數目，n是系統給出的正匹配句數目，若min(m,n)=0，則令AveP(Ci,Ai)=0.如果系統給出的排名為k的候選句是正確的正匹配句，則rel(k)=1，否則rel(k)=0.P(k)為系統給出的前k個候選句中正確的正匹配句所占的比例.

實驗中，用傳統的LSI模型向量化后的余弦相似度檢索方法作為對比實驗中的baseline1(記為LSICosine)，用傳統的LDA模型向量化后的余弦相似度檢索方法作為對比實驗中的baseline2(記為LDACosine)，用Doc2Vec模型向量化后的余弦相似度檢索方法作為對比實驗中的baseline3(記為D2VCosine).中文的分詞預處理使用了ICTCLAS(NLPIR)工具包[33]，所有baseline實驗均使用Gensim工具包實現[34].通過baseline實驗確定，獲取最高MAP，MRR值時的LSI，LDA維度為1 400左右，Doc2Vec維度為1 000左右，3種模型對應的MAP，MRR見表4.由于LDA模型在本語料上的表現暫時最好，因此將LDA模型得到的分數用于本文提出方法中的QAM的SSim部分的分數.

首先將設置QAM的過濾閾值C=2，即只要滿足有一個問句相關和一個答案相關的元素則進入后續計算步驟;α和β均設置為1.QAM中最關鍵的步驟在于假定平均知識范疇向量K的取值.一個直覺上的取值傾向是，令問句和正匹配句中的相同詞匯盡可能多，其次是問句詞和答案詞，最后是其他類別的詞，即：標記為【1|||1|||0】的詞應該盡可能地占最大比例，其次是【1|||0|||0】和【0|||1|||0】，最后是其他標記的詞.實驗過程中，當K=(2,1,2,1,4,1)(歸一化后為(0.384 9, 0.192 5, 0.384 9, 0.192 5, 0.769 8, 0.192 5))時，本文提出的方法所得到的(記為RKMethod)的MAP，MRR值如表4所示：

Tabel 4 Experiment Result when K=(2,1,2,1,4,1), C=2表4 K=(2,1,2,1,4,1)，C=2 時實驗結果

實驗結果證明在MAP和MRR兩個評測指標上，基于粗糙集知識的方法比3個baseline方法均有所提高，從而證明了該方法的有效性.在本文實驗所用語料上，3個baseline方法中Doc2Vec并未取得預期理想的效果，其主要原因是LDA模型體現的是文本的話題信息，Doc2Vec模型體現的是詞及其所在的上下文信息，而在本文的問答系統和所用的問答語料中，話題信息對后續分析問答話題的幫助更大.

若將K先固定為(1,1,1,1,1,1)，而后以0.5為步長逐步增加每個位置上的元素的權重(例如，(1,1,1,1,1,1)，(1.5,1,1,1,1,1),…,(6,1,1,1,1,1)，其歸一化后各個元素的權重變化見圖7)，依次測試各個位置上權重增加后對最終實驗結果的影響，其MAP和MRR的變化分別如圖1～6所示.

Fig. 1 Result of increasing 【0|||1|||0】 weight圖1 【0|||1|||0】詞匯增加權重后結果

Fig. 2 Result of increasing 【0|||1|||1】 weight圖2 【0|||1|||1】詞匯增加權重后結果

Fig. 3 Result of increasing 【1|||0|||0】 weight圖3 【1|||0|||0】詞匯增加權重后結果

Fig. 4 Result of increasing 【1|||0|||1】 weight圖4 【1|||0|||1】詞匯增加權重后結果

Fig. 5 Result of increasing 【1|||1|||0】 weight圖5 【1|||1|||0】詞匯增加權重后結果

Fig. 6 Result of increasing 【1|||1|||1】 weight圖6 【1|||1|||1】詞匯增加權重后結果

由圖1～6可以看出，【1|||0|||0】標記詞和【1|||1|||0】標記詞在相對權重增加后，MAP和MRR值均有所提升，而其他的詞匯總體上對結果是下降的影響.其物理含義是：疑問詞和【問句-正匹配句】中的共同話題詞越多，越能夠確定所需要的問答知識.當標記為【1|||1|||0】的詞匯在向量歸一化后的權值超過0.7時，MAP和MRR值可以超過0.65(如圖5和圖7所示).可見該實驗結果符合認知.

Fig. 7 Weight changing with increasingdecreasing weight圖7 隨步長增加的元素權重變化

當各個標記的詞的權重增加到一定程度后，MAP和MRR值逐漸趨于穩定.這是由于訓練得到的粗糙集問答知識中的詞匯標記分布是在一定范圍內的，并不是無限數量，因而計數向量A的各個位置上的值也是落在一定范圍內，所以后續若繼續增加假定平均知識范疇向量K中的單獨某個元素的權重，A和K的余弦夾角仍不會發生大幅度變化.

若固定K=(2,1,2,1,4,1), 令過濾閾值C從1開始以1為步長逐步增加，MAP和MRR以及遍歷1次測試數據集所需的時間如圖8所示.

Fig. 8 Result of increasing C圖8 逐步增加C的實驗結果

由圖8可知，當過濾閾值為1和2時，實驗得到的MAP和MRR值為最高，但相對耗時也比較長，遍歷一次測試數據集所需時間為1 400～1 600 s.但當閾值超過3后，耗時大大減少，僅需700 s左右，約為閾值為1和2時耗時的一半.隨著閾值的增加，所用耗時不再發生大幅度變化，當閾值超過8以后MAP和MRR值也不再大幅波動，MAP值保持在[0.637 8, 0.638 7]區間內，MRR的值保持在[0.638 4, 0.639 3]區間內，2個區間內的最高值僅僅比3個baseline實驗所得的最高MAP和MRR值高0.0001，但因為增加知識匹配過程因而耗時要高于baseline實驗.這是因為過高的過濾閾值使得候選句匹配知識庫中條目的概率大大減少，最終使得本文的方法退化為單獨的向量余弦相似度方法.因此，從耗時和效果2個方面綜合考慮后，過濾閾值選1或2最為合適.

6 總結

本文提出了一種基于粗糙集知識發現的中文問答檢索方法，利用粗糙集的屬性約簡方法和上近似概念從已標注的問答語料庫中發現并表示知識，利用獲得的粗糙集問答知識結合傳統的句子相似度方法對問句和候選句進行匹配度計算.基于粗糙集問答知識的方法的優勢在于，其上近似的知識表達方式既可以存儲【問句-答案】知識，也可以存儲語言表達知識，還可以從多個正、負匹配句中挖掘出潛在的問答句語言表達信息.實驗結果表明:相對傳統的問答檢索方法，該方法在MAP和MRR兩個評測指標上均有提升.

在理論研究方面，該方法還有4個方面的提升空間：

1) 本文實驗中的假定平均知識范疇向量K為人工設置，而能否從訓練集中挖掘出最有效，適應最廣的假定平均知識范疇向量K，或者能否根據實際情況動態調整最合適的假定平均知識范疇向量K是本文方法的一個待解決問題.

2) 在知識匹配計算過程中，本文方法是詞語和標記同時命中時計數一次，而在某些情況下訓練集中的標記分布并不理想，會導致粗糙集問答知識表達的偏差，例如標記【1|||1|||1】和標記【1|||0|||1】，【1|||1|||0】之間的偏差，因而如何確定有效的計數方式也是后續的研究工作之一.

3) 在不同應用背景下的問答系統中如何確定最優的形式相似度權重系數α和知識匹配度權重系數β也是后續的研究方向之一.

4) 本實驗中的數據集為單個問句、正匹配句集、負匹配句集的形式，因而挖掘出的粗糙集問答知識僅能從答案中發掘出潛在的答句表達.后續研究中可以嘗試將數據集擴展成同義句問句集、正匹配句集和負匹配句集的形式，通過增加同義句問句以挖掘出更多潛在的問句表達，以應對實際的中文問答系統和問答檢索的對語言靈活性的需求.

在實際應用方面，由于在部分應用場景下問答系統需要返回一個或少量數目的候選答句，因此，依據本文方法獲得候選答句的匹配度分數后，如何選定一個合適的臨界值也是今后的研究項目之一.

[1]Yang Ye, Jiang Peilin, Ren Fuji, et al. Classic Chinese automatic question answering system based on pragmatics information[C] //Proc of the 7th Mexican Int Conf on Artificial Intelligence. Los Alamitos, CA: IEEE Computer Society, 2008: 58-64

[2]Hu Haiqing, Ren Fuji, Kuroiwa S, et al. A question answering system on special domain and the implementation of speech interface[J]. Computational Linguistics & Intelligent Text Processing, 2006, 3878(3): 458-469

[3]Zadeh L. Fuzzy sets[J]. Information & Control, 1965, 8(3): 338-353

[4]Pawlak Z. Rough sets[J]. International Journal of Parallel Programming, 1982, 11(5): 341-356

[5]Zhang Ling, Zhang Bo. The quotient space theory of problem solving[C] //Proc of the 9th Int Conf on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing. Berlin: Springer, 2003: 11-15

[6]Dubois D, Prade H. Rough fuzzy sets & fuzzy rough sets[J]. International Journal of General Systems, 1990, 17(2-3): 191-209

[7]Hu Qinghua, Yu Daren, Liu Jinfu, et al. Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences, 2008, 178(18): 3577-3594

[8]Ziarko W. Variable precision rough set model[J]. Journal of Computer & System Sciences, 1993, 46(1): 39-59

[9]Miao Duoqian, Li Daoguo. Rough Set: Theory, Algorithms and Applications[M]. Beijing: Tsinghua University Press, 2008 (in Chinese)

(苗奪謙, 李道國. 粗糙集理論、算法與應用[M]. 北京: 清華大學出版社, 2008)

[10]Wang Guoyin, Yao Yiyu, Yu Hong. A survey on rough set theory and applications[J]. Chinese Journal of Computers, 2009, 32(7): 1229-1246 (in Chinese)

(王國胤, 姚一豫, 于洪. 粗糙集理論與應用研究綜述[J]. 計算機學報, 2009, 32(7): 1229-1246)

[11]Zhang Zhifei, Miao Duoqian, Nie Jianyun, et al. Sentiment uncertainty measure and classification of negative sentences[J]. Journal of Computer Research & Development, 2015, 52(8): 1806-1816 (in Chinese)

(張志飛, 苗奪謙, 聶建云, 等. 否定句的情感不確定性度量及分類[J]. 計算機研究與發展, 2015, 52(8): 1806-1816)

[12]Lang Guangming, Miao Duoqian, Yang Tian, et al. Knowledge reduction of dynamic covering decision information systems when varying covering cardinalities[J]. Information Sciences, 2016, 346/347: 236-260

[13]Wang Guoyin, Zhang Qinghua, Hu Jun. An overview of granular computing[J]. CAAI Trans on Intelligent Systems, 2007, 2(6): 8-26 (in Chinese)

(王國胤, 張清華, 胡軍. 粒計算研究綜述[J]. 智能系統學報, 2007, 2(6): 8-26)

[14]Salton G, Wong A, Yang Chungshu. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 273-280

[15]Aizawa A. An information-theoretic perspective of TF-IDF measures[J]. Information Processing & Management, 2003, 39(1): 45-65

[16]Blei D, Ng A, Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022

[17]Hofmann T. Probabilistic latent semantic indexing[C] //Proc of the 22nd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999: 50-57

[18]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of the 27th Annual Conf on Neural Information Processing Systems. New York: Curran Associates Inc, 2013: 3111-3119

[19]Le Q, Mikolov T. Distributed representations of sentences and documents[J]. Computer Science, 2014, 4: 1188-1196

[20]Aliguliyev R. A new sentence similarity measure and sentence based extractive technique for automatic text summarization[J]. Expert Systems with Applications, 2009, 36(4): 7764-7772

[21]Rice J, Belland R. A simulation study of moss floras using Jaccard’s coefficient of similarity[J]. Journal of Biogeography, 1982, 9(5): 411-419

[22]Ghanbari M, Tahery R. Similarity coefficient[J]. Fluid Phase Equilibria, 2011, 310(1/2): 82-89

[23]Sun Ang, Jiang Minghu, He Yifan, et al. Chinese question answering based on syntax analysis and answer classification[J]. Acta Electronica Sinica, 2008, 36(5): 833-839 (in Chinese)

(孫昂, 江銘虎, 賀一帆, 等. 基于句法分析和答案分類的中文問答系統[J]. 電子學報, 2008, 36(5): 833-839)

[24]Wang Zhiqiang, Li Ru, Liang Jiye, et al. Research on question answering for reading comprehension based on Chinese discourse frame semantic parsing[J]. Chinese Journal of Computers, 2016, 39(4): 795-807 (in Chinese)

(王智強, 李茹, 梁吉業, 等. 基于漢語篇章框架語義分析的閱讀理解問答研究[J]. 計算機學報, 2016, 39(4): 795-807)

[25]Archana S M, Vahab N, Thankappan R, et al. A rule based question answering system in Malayalam corpus using vibhakthi and POS tag analysis[J]. Procedia Technology, 2016, 24: 1534-1541

[26]Ray S K, Shaalan K. A review and future perspectives of Arabic question answering systems[J]. IEEE Trans on Knowledge and Data Engineering, 2016, 28(12): 3169-3190

[27]Dwivedi S K, Singh V. Research and reviews in question answering system[J]. Procedia Technology, 2013, 10: 417-424

[28]Voorhees E M. The TREC question answering track[J]. Natural Language Engineering, 2001, 7(4): 361-378

[29]Sasaki Y. Question answering as abduction: A feasibility study at NTCIR QAC1[J]. IEICE Trans on Information & Systems, 2003, 86(9): 1669-1676

[30]Duan Nan. Overview of the NLPCC-ICCPOL 2016 shared task: Open domain Chinese question answering[C] //Proc of the ICCPOL&NLPCC 2016: Natural Language Understanding and Intelligent Applications. Cham, Switzerland: Springer International Publishing, 2016: 942-948

[31]Pawlak Z. Rough Sets: Theoretical Aspects of Reasoning about Data[M]. Dordrecht, Netherlands: Kluwer Academic Publishers, 1991

[32]Nengsih W. A comparative study on cosine similarity algorithm and vector space model algorithm on document searching[J]. Advanced Science Letters, 2015, 21(10): 3321-3323

[33]Zhang Huaping, Yu Hongkui, Xiong Deyi, et al. HHMM-based Chinese lexical analyzer ICTCLAS[C] //Proc of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2003: 184-187

[34]Rehurek R, Sojka P. Software framework for topic modelling with large corpora[C] //Proc of LREC 2010 Workshop on New Challenges for NLP Frameworks. Valletta, Malta: University of Malta Press, 2010: 45-50