999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于答案輔助的半監督問題分類方法*

2016-01-26 06:46:31張棟,李壽山,周國棟
計算機工程與科學 2015年12期
關鍵詞:分類特征方法

?

基于答案輔助的半監督問題分類方法*

通信地址:215006 江蘇省蘇州市蘇州大學計算機科學與技術學院Address:School of Computer Science & Technology,Soochow University,Suzhou 215006,Jiangsu,P.R.China

張棟,李壽山,周國棟

(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)

摘要:問題分類旨在對問題的類型進行自動分類,該任務是問答系統研究的一項基本任務。提出了一種基于答案輔助的半監督問題分類方法。首先,將答案特征結合問題特征一起實現樣本表示;然后,利用標簽傳播方法對已標注問題訓練分類器,自動標注未標注問題的類別;最后,將初始標注的問題和自動標注的問題合并作為訓練樣本,利用最大熵模型對問題的測試文本進行分類。實驗結果表明,本文提出的基于答案輔助的半監督分類方法能夠充分利用未標注樣本提升性能,明顯優于其他的基準方法。

關鍵詞:問答系統;問題分類;答案輔助;半監督分類;標簽傳播 田衛東等人[10]根據對中文問題的分析,得出問題中的疑問詞和中心詞等對問題所屬類型起著決定性的作用。提出利用自學習方法建立疑問詞-類別和疑問詞+中心詞-類別兩種規則,并結合改進貝葉斯模型的問題分類方法。該方法充分利用了關鍵詞對分類的貢獻。

1引言

問答系統能夠為用戶提出的自然語言問題提供一個簡明、準確的答案,越來越受到人們的關注。現有的問答系統主要包括三個模塊:問題分析、信息檢索和答案抽取。問答系統為了能夠正確回答用戶所提出的問題,首先需要對問題進行分析,知道用戶想要尋找什么信息。此時,問題分類作為問題分析最基礎的任務,提供了重要支持[1]。

問題分類就是把給定的某個問題映射到多個類型中的某一個或者幾個類別中,以確定問題的類型。問題分類的第一個作用是有效地減小答案的候選空間。如:“怎么學習電腦維修呢?”經過問題分類,該問題是一個“電腦”類的問題,問答系統就可以把這個問題的候選答案限制在“電腦”類的相關答案集合中。這樣就非常有效地減少了候選答案集合,充分提高了檢索效率。

問題分類的第二個作用是能夠決定答案的抽取策略,根據問題的不同類別采用不同的答案選擇策略和知識庫。如:“水瓶座男對天蝎座女表白說什么話最好?”經過問題分類,該問題是“感情”類問題,檢索這類問題的答案就需要利用情感分析技術。

問題分類可以看作一種特殊的文本分類,然而,問題分類與傳統的文本分類存在一定差別。一方面,在傳統文本分類中詞頻信息對于區分文本中每個詞匯的貢獻程度很大,但在問題分類中詞頻信息不具明顯區分作用,因為問題通常比較短,問題中每個詞匯的詞頻普遍為1[2]。單單利用問題進行分類,往往由于信息量少而分錯。另一方面,已標注的問題資源比較匱乏,標注語料又需要大量的時間、人力和物力[3]。因此,這就需要我們加入更多的輔助特征擴充問題信息,同時充分利用大量的未標注樣本信息,才能獲得較高的分類精度。

此外,傳統的問題分類普遍都是基于全監督的分類方法,并且僅僅從問題中抽取特征進行分類。與以往研究不同的是,本文提出的基于答案輔助的半監督問題分類方法,一方面,該方法能夠充分利用問題已有的答案來擴充分類信息,解決上面提到的問題包含的詞匯信息量少的難點。如表1所示,在未利用答案特征的情況下,直接利用問題特征進行分類,“360問答開放平臺是做什么的?”被誤分為“非電腦”類問題。其原因可能是該問題中沒有包含 “電腦”“網絡”等關鍵詞。然而,加入了答案特征后再進行分類,該問題則被準確識別為“電腦”類問題。因為答案特征中包含“互聯網”這類明顯的與“電腦”類相關的關鍵詞。

Table 1 Examples of question classification

另一方面,該方法是一種半監督學習方法,能夠充分利用未標注問題的信息提升分類性能,解決標注語料匱乏的問題[4]。此外,本文首次在問題分類研究中引入基于標簽傳播的半監督學習方法,該方法既可以使問題之間的標簽互相傳播,也可以使答案之間的標簽互相傳播,可以有效地提升標簽預測準確率。

具體而言,本文的方法先將答案特征加入到問題中,利用標簽傳播方法預測未標注問題的類別;再將已確定類別的問題作為訓練樣本,利用最大熵模型進行問題分類。實驗結果表明,答案的信息有助于大幅提升問題分類準確率。

本文其他部分組織如下:第2節介紹問題分類的相關工作;第3節描述問答語料的收集和構成;第4節介紹本文提出的基于半監督的問題分類方法;第5節給出實驗設置與結果分析;第6節簡述結論及下一步工作展望。

2相關工作

目前,問題分類研究主要集中在基于統計的機器學習方法上面。Ray S K等人[5]充分利用WordNet強大的語義特征和維基百科存儲的大量相關知識來擴充問題所蘊含的信息,從而提升問題分類性能;Hui Z等人[6]考慮了問題文本中詞序和詞間距對問題分類的影響,提出一種擴展類順序規則模型;Mishra M等人[7]從問題文本中抽取出詞特征、句法特征、語義特征,融合這些特征訓練三種分類器:最近鄰、樸素貝葉斯、支持向量機,進行問題分類;Yadav R等人[8]使用了一元、二元、三元詞特征以及詞性特征,采用樸素貝葉斯分類方法進行問題分類的研究;Ligozat A L[9]將一部分英語問題語料庫翻譯為法語問題語料庫,問題采用傳統的6個大類別以及細分的50個小類別,并使用LibSVM分類器分類這些問題。

劉小明等人[11]先對問題進行淺層語義分析;再根據預定義的問題焦點結構和焦點抽取規則,獲取問題焦點語義特征;然后標示問題的類別為問題焦點中疑問對象在領域本體中的標識;最后根據焦點不同則問題不同的事實,將焦點相同的問題歸為一類。

張巍等人[12]針對中文問題分類方法中布爾模型提取特征信息損失較大的問題,提出了一種新的特征權重計算方法。在提取問題特征時,通過把信息熵算法和醫院本體概念模型結合在一起,進行問題的特征模型計算,在此基礎上使用支持向量機方法進行中文問題分類。

Liu L等人[13]認為標準核函數的SVM方法忽視了中文問題的結構信息,因而提出一種問題文本屬性核函數的SMO方法。該方法還同時使用了句法依賴關系和詞性特征。

多年來,傳統的問題分類研究僅僅著眼于使用各種全監督技術只針對問題本身進行操作。與之不同的是,本文采用半監督學習方法,一方面減小了人工標注的工作量,另一方面通過將答案特征加入問題訓練集中來擴充問題的信息,協助問題進行分類,以此提升問題分類的準確率。

3語料收集與描述

本文語料來自好搜問答社區(http://wenda.haosou.com/),其大類別總共有15個。本文為了實驗方便直觀以及下一步工作的需要,抓取了其中6個類別的問答數據,分別是:電腦/網絡、文化/藝術、健康/醫療、生活、感情/家庭、體育/運動。每個類別包含2 000條問答(每個問題對應一個答案),共12 000條問答,問答實例如表2所示。

Table 2 Question and answer examples of each category

4基于答案輔助的半監督問題分類方法

如圖1所示是本文所提出的問題分類方法的完整架構圖。首先將答案特征疊加到問題特征中;其次根據改進后的標簽傳播方法,利用已標注問題預測未標注問題的類別;然后剔除這些問題中的答案特征,確定問題文本訓練集,使用最大熵模型訓練問題文本分類器;最終利用問題文本測試集測試問題文本分類器的性能。

Figure 1 Semi-supervised question classification with the help of answers圖1 基于答案輔助的半監督問題分類方法架構圖

4.1 特征介紹

對于問題和答案文本,我們均采用一元詞特征。此外在預測未標注問題時,我們將答案特征加入到問題特征中來輔助問題分類。具體描述如表3所示。

Table 3 Examples of the unigram of question and

4.2 基于答案輔助的標簽傳播方法

根據標簽傳播LP(Label Propagation)算法基本理論,每個節點的標簽按相似度傳播給相鄰節點。在節點傳播的每一步,每個節點根據相鄰節點的標簽來更新自己的標簽;與該節點相似度越大,其相鄰節點對其標注的影響權值越大;相似節點的標簽越趨于一致,其標簽就越容易傳播。在標簽傳播過程中,保持已標注數據的標簽不變,使其像一個源頭把標簽傳向未標注數據。最終,當迭代過程結束時,相似節點的概率分布也趨于相似,可以劃分到同一個類別中,從而完成標簽傳播過程[14,15]。具體算法如下所示:

算法1基于答案輔助的標簽傳播方法

輸入:

初始已標注問題樣本集合Lq,對應的答案樣本集合La,分別包含n+個正類樣本和n-個負類樣本;

初始未標注問題樣本集合Uq,對應的答案樣本集合Ua;

初始已標注問題與答案疊加樣本集合L=Lq+La,包含n+個正類樣本和n-個負類樣本;

初始未標注問題與答案疊加樣本集合U=Uq+Ua;

輸出:

更新后的標注問題樣本集合Lq;

程序:

(1)初始化;

P:n×r標注矩陣,同時Pij標識文檔i(i=0,…,n)屬于類別j(j=1,…,r)的概率;

PL:P0的前m行對應的m個標注實例L;

PU:P0的后n-m行對應的n-m個未標注實例U;

(2)循環迭代N次直到收斂;

(4)從L中剔除答案樣本集合La,得到最終的標注問題樣本集合Lq。

在許多問題分類相關研究中,文檔通常用詞袋(Bag-of-words)模型化并用向量形式描述。在這些設置中,單詞與文檔間的關聯是不清晰的。為了更好地捕捉單詞和文檔之間的關系,本文采用基于文檔-詞的二部圖表述文檔與單詞的關系。文檔-詞的二部圖的連接關系由文檔和詞的連接矩陣表示,即n×V矩陣X;n為文檔數目,V是詞的數目。文檔-詞的二部圖僅存在文檔到詞及詞到文檔的連接關系。具體來講,文檔到詞及詞到文檔的轉移概率計算如下[16]:

如果文檔di包含詞wk,其權重為xik,則文檔di到單詞wk的轉移概率為xik/∑kxik;同理,單詞wk到文檔dj的轉移概率為xjk/∑kxjk。文檔di到文檔dj的轉移概率是由文檔di通過該文檔里面的所有詞到達文檔dj的概率之和,即tij=∑k(xik/∑kxik)·(xjk/∑jxjk)。得到文檔間的轉移概率之后,可以通過標簽傳播算法計算未標注樣本的標簽。本文所提出的方法在每個文檔中均加入了答案特征,輔助問題分類。

5實驗

5.1 實驗設置

實驗使用6個主題的問答語料,每個主題設計為一個二元分類問題,即“該主題”與“非該主題”分類。例如:“電腦”類2 000條問答對(一個問題對應一個答案),“非電腦”類是從其他5個主題中分別隨機選取400條問答對,構成2 000條問答語料。因此,實驗中一共包括6個二元分類問題。語料分詞采用復旦大學自然語言處理實驗室開發的分詞軟件FudanNLP(https://code.google.com/p/fudannlp/)。分類算法采用MALLET機器學習工具包中的最大熵分類器(http://mallet.cs.umass.edu/),所有參數都設置為默認值。分類特征選取詞的一元特征(Unigram),使用準確率作為結果的評價標準。根據初始標注樣本規模的大小,我們給出兩組不同的實驗設置:

(1)第一組6個二元主題分類任務的實驗,分別隨機選取每個主題5%的問答作為已標注問題樣本,75%作為未標注問題樣本,20%作為測試樣本。

(2)第二組6個二元主題分類任務的實驗,分別隨機選取每個主題10%的問答作為已標注樣本,70%作為未標注問題樣本,20%作為測試樣本。

5.2 實驗結果與分析

實驗比較方法詳細描述如下:

(1)Baseline:只利用初始標注樣本訓練問題分類器(沒有利用任何非標注樣本);

(2)Self-training:利用整個特征空間構建分類器,并用它迭代加入置信度最高的樣本擴充標注樣本集合;

(3)LP(問題):利用已標注樣本通過標簽傳播方法預測未標注樣本的類別,將這些已確定類別的問題全部作為訓練樣本,訓練問題分類器;

(4)LP(問題+答案):將對應的答案特征加入到已標注和未標注問題中,利用已標注樣本通過LP預測未標注樣本的類別,再剔除答案特征,將這些已確定類別的問題全部作為訓練樣本,訓練問題分類器。

圖2顯示當初始標注樣本為5%時,4種方法的分類性能比較。從圖2中可以看出,我們的方法獲得的分類效果明顯優于其他方法,分類準確率比Self-training和LP方法分別平均提高了11.1%和3.9%。圖3顯示當初始標注樣本為10%時,4種方法的分類性能比較。從圖3中可以看出,我們的方法同樣獲得了最佳的分類效果,分類準確率比Self-training和LP方法分別平均提高10.7%和3.6%。具體比較結果如下:

(1)Self-training方法性能比Baseline還差,可能原因是,少量的問題標注樣本剛開始預測的準確率很低,再一步步地迭代錯誤類別的問題樣本,帶來更大的錯誤。

(2) 利用LP方法預測未標注樣本再進行問題分類,其分類準確率要明顯高于Baseline和Self-training方法,這是因為LP方法可以在標注和未標注的問題樣本中互相傳播標簽,有效地提升標簽預測準確率。該實驗結果說明LP方法在該任務中能夠發揮較好的優越性。

(3) 本文提出的利用答案信息的LP方法,在12組實驗中分類準確率均遠遠高于其他3種方法。該結果表明答案信息確實可以擴充問題分類信息,有效地提升了問題分類準確率。

Figure 2 Comparison of different methods based on 5% of the initial labeled samples圖2 初始標注樣本5%時不同半監督分類方法性能比較

Figure 3 Comparison of different methods based on 10% of the initial labeled samples圖3 初始標注樣本10%時不同半監督分類方法性能比較

6結束語

本文針對問題分類任務,提出了一種基于答案輔助的半監督問題分類方法。該方法的特色在于充分利用已有答案的分類信息并能夠結合LP方法進行半監督分類,從而減少了大量的人工標注工作。實驗結果表明,該方法在不同主題的任務中都表現得都非常優秀,分類準確率明顯高于傳統的半監督學習方法,進一步地提高了半監督問題分類的準確率。

下一步工作中,我們將考慮使用更多的分類方法(如矩陣分解模型)進一步提高半監督問題分類性能。我們也將考慮利用更多的特征(如:語義、句法),考察這些特征是否可提高問題分類的準確性。

參考文獻:附中文

[1]LiXin,HuangXuan-jing,WuLi-de.CombinedmultipleclassifiersbasedonTBLalgorithmandtheirapplicationinquestionclassification[J].JournalofComputerResearchandDe-

velopment,2008,45(3):535-541.(inChinese)

[2]GaoChao.StudyonfeatureselectioninChinesequestionclassification[D].Anhui:AnhuiUniversityofTechnology,2011.(inChinese)

[3]LiS,HuangCR,ZhouG,etal.Employingpersonal/impersonalviewsinsupervisedandsemi-supervisedsentimentclassification[C]∥Procofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2010:414-423.

[4]LiS,HuangL,WangJ,etal.Semi-stackingforsemi-supervisedsentimentclassification[C]∥ProcofACL-2015,2015:27-31.

[5]RaySK,SinghS,JoshiBP.AsemanticapproachforquestionclassificationusingWordNetandWikipedia[J].PatternRecognitionLetters,2010,31(13):1935-1943.

[6]HuiZ,LiuJ,OuyangL.Questionclassificationbasedonanextendedclasssequentialrulemodel[C]∥ProcofIJCNLP, 2011:938-946.

[7]MishraM,KumarMishraV,SharmaHR.Questionclassificationusingsemantic,syntacticandlexicalfeatures[J].InternationalJournalofWeb&SemanticTechnology,2013,4(3):39-47.

[8]YadavR,MishraM,BhilaiS.QuestionclassificationusingNa?veBayesmachinelearningapproach[J].InternationalJournalofEngineeringandInnovativeTechnology(IJEIT),2013,2(8):291-294.

[9]LigozatAL.Questionclassificationtransfer[C]∥ProcofACL, 2013:429-433.

[10]TianWei-dong,GaoYan-ying,ZuYong-liang.Questionclassificationbasedonself-learningrulesandmodifiedBayes[J].ApplicationResearchofComputers,2010,27(8):2869-2871.(inChinese)

[11]LiuXiao-ming,FanXiao-zhong,LiFang-fang.Aquestionclassificationmethodcombiningdomainontologyandquestionfocus[J].TransactionsofBeijingInstituteofTechnology,2012,32(5):498-502.(inChinese)

[12]ZhangWei,ChenJun-jie.MethodofinformationentropyanditsapplicationinChinesequestionclassification[J].ComputerEngineeringandApplications,2013,49(10):129-131.(inChinese)

[13]LiuL,YuZ,GuoJ,etal.Chinesequestionclassificationbasedonquestionpropertykernel[J].InternationalJournalofMachineLearning&Cybernetics,2014,5(5):713-720.

[14]ZhangJun-li,ChangYan-li,ShiWen.Overviewonlabelpropagationalgorithmandapplications[J].ApplicationResearchofComputers,2013,30(1):21-25.(inChinese)

[15]LiS,XueY,WangZ,etal.Activelearningforcross-domainsentimentclassification[C]∥Procofthe32rdInternationalJointConferenceonArtificialIntelligence,2013:2127-2133.

[16]GaoWei,WangZhong-qing,LiShou-shan.Semi-supervisedsentimentclassificationwithaensemblestrategy[J].JournalofChineseInformationProcessing,2013,27(3):120-126.(inChinese)

[1]李鑫,黃萱菁,吳立德.基于錯誤驅動算法組合分類器及其在問題分類中的應用[J].計算機研究與發展,2008,45(3):535-541.

[2]高超.中文問題分類中特征選擇研究[D].安徽:安徽工業大學,2011.

[10]田衛東,高艷影,祖永亮.基于自學習規則和改進貝葉斯結合的問題分類[J].計算機應用研究,2010,27(8):2869-2871.

[11]劉小明,樊孝忠,李方方.一種結合本體和焦點的問題分類方法[J].北京理工大學學報,2012,32(5):498-502.

[12]張巍,陳俊杰.信息熵方法及在中文問題分類中的應用[J].計算機工程與應用,2013,49(10):129-131.

[14]張俊麗,常艷麗,師文.標簽傳播算法理論及其應用研究綜述[J].計算機應用研究,2013,30(1):21-25.

[16]高偉,王中卿,李壽山.基于集成學習的半監督情感分類方法研究[J].中文信息學報,2013,27(3):120-126.

張棟(1991-),男,江蘇揚州人,碩士生,研究方向為自然語言處理。E-mail:dzhangsuda@qq.com

ZHANGDong,bornin1991,MScandidate,hisresearchinterestincludesnaturallanguageprocessing.

李壽山(1980-),男,江蘇揚州人,博士后,教授,CCF會員(E200033402M),研究方向為自然語言處理。E-mail:lishoushan@suda.edu.cn

LIShou-shan,bornin1980,postdoctor,professor,CCFmember(E200033402M),professor,hisresearchinterestincludesnaturallanguageprocessing.

周國棟(1967-),男,江蘇常州人,博士后,教授,CCF會員(E200008769S),研究方向為自然語言處理。E-mail:gdzhou@suda.edu.cn

ZHOUGuo-dong,bornin1967,postdoctor,CCFmember(E200008769S),hisresearchinterestincludesnaturallanguageprocessing.

A classification method for semi-supervised question classification with answers

ZHANG Dong,LI Shou-shan,ZHOU Guo-dong

(School of Computer Science & Technology,Soochow University,Suzhou 215006,China)

Abstract:Question classification aims at classifying the types of questions automatically, and this is a basic task of the question answering system. We propose a classification method for semi-supervised questions with answers. Firstly, we combine answer features with question features to realize sample expressions. Then we train a question classifier on labeled questions using label propagation algorithm to annotate the category of unlabeled questions automatically. The questions of initial annotation and automatic annotation are merged with each other as training samples, and the maximum entropy model is adopted to classify the testing samples. Experimental results demonstrate that the classification method for semi-supervised questions with answers in this paper can make full use of the unlabeled samples to improve the performance, and it outperforms other benchmark methods.

Key words:question answering system;question classification;answer aiding;semi-supervised classification;label propagation

作者簡介:

doi:10.3969/j.issn.1007-130X.2015.12.024

中圖分類號:TP391

文獻標志碼:A

基金項目:國家自然科學基金重點項目(61331011);國家自然科學基金資助項目(61375073,61273320)

收稿日期:修回日期:2015-10-24

文章編號:1007-130X(2015)12-2352-06

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品视频网| 日本成人精品视频| 天天色天天操综合网| 久久亚洲精少妇毛片午夜无码 | 91精品综合| 日韩a在线观看免费观看| 永久在线精品免费视频观看| 五月综合色婷婷| 国内精品自在自线视频香蕉 | 一级成人a毛片免费播放| 国产小视频免费观看| 亚洲另类色| 精品国产免费观看| 国产资源免费观看| 91人妻在线视频| 18禁黄无遮挡网站| 日韩精品成人网页视频在线 | 国产高清国内精品福利| 久久精品国产国语对白| 在线欧美国产| 99偷拍视频精品一区二区| 久久精品中文字幕少妇| 欧美成人h精品网站| 欧美亚洲另类在线观看| 久久毛片网| 中国国产A一级毛片| 黄色网站在线观看无码| 亚洲欧美不卡中文字幕| 日韩AV无码免费一二三区 | 青青草原国产| 色婷婷视频在线| 欧美.成人.综合在线| 国产真实二区一区在线亚洲| 日本成人精品视频| 欧美另类第一页| 少妇被粗大的猛烈进出免费视频| av在线手机播放| 国产日本欧美亚洲精品视| 中文字幕波多野不卡一区| 一区二区三区在线不卡免费| 国产全黄a一级毛片| 中文精品久久久久国产网址| 亚洲欧美人成人让影院| 免费国产高清精品一区在线| 第九色区aⅴ天堂久久香| 色香蕉影院| 日本欧美成人免费| 国产午夜精品鲁丝片| 精品福利网| 国产精品第一区在线观看| 国产精品自在自线免费观看| 亚洲妓女综合网995久久| 国产精品区视频中文字幕| 欧美另类视频一区二区三区| 99999久久久久久亚洲| 日本亚洲国产一区二区三区| 国产欧美日韩91| 成人一级黄色毛片| 中文字幕色在线| 国产丝袜无码精品| 中文一区二区视频| 黄色a一级视频| 伊人久久综在合线亚洲2019| 国产成人高精品免费视频| 91日本在线观看亚洲精品| 免费人成视网站在线不卡| 天天综合网亚洲网站| 亚洲swag精品自拍一区| 最新痴汉在线无码AV| 国产精品免费福利久久播放| 国产精品女主播| 爽爽影院十八禁在线观看| 日韩欧美亚洲国产成人综合| 久久婷婷人人澡人人爱91| 亚洲男人天堂2018| 国产成人高清精品免费软件| 人与鲁专区| 波多野吉衣一区二区三区av| 欧美福利在线| 欧美人与牲动交a欧美精品| 国产在线视频福利资源站| 午夜国产小视频|