999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向社區(qū)問(wèn)答的中文短文本分類(lèi)算法研究

2013-12-31 00:00:00趙輝劉懷亮
現(xiàn)代情報(bào) 2013年10期

〔摘要〕為解決社區(qū)問(wèn)答系統(tǒng)中的問(wèn)題短文本特征詞少、描述信息弱的問(wèn)題,本文利用維基百科進(jìn)行特征擴(kuò)展以輔助中文問(wèn)題短文本分類(lèi)。首先通過(guò)維基百科概念及鏈接等信息進(jìn)行詞語(yǔ)相關(guān)概念集合抽取,并綜合利用鏈接結(jié)構(gòu)和類(lèi)別體系信息進(jìn)行概念間相關(guān)度計(jì)算。然后以相關(guān)概念集合為基礎(chǔ)進(jìn)行特征擴(kuò)展以補(bǔ)充文本特征語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,本文提出的基于特征擴(kuò)展的短文本分類(lèi)算法能有效提高問(wèn)題短文本分類(lèi)效果。

〔關(guān)鍵詞〕社區(qū)問(wèn)答;維基百科;特征擴(kuò)展;短文本分類(lèi)

〔中圖分類(lèi)號(hào)〕G254〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2013)10-0070-05

社區(qū)問(wèn)答系統(tǒng)是一種基于Web的問(wèn)答系統(tǒng),如百度知道、yahoo! Answers等。作為一種具有開(kāi)放性、交互性特點(diǎn)的知識(shí)共享模式,它能夠更好的幫助人們利用互聯(lián)網(wǎng)的資源來(lái)獲取和分享信息。對(duì)用戶(hù)提出的問(wèn)題進(jìn)行分類(lèi)是社區(qū)問(wèn)答系統(tǒng)服務(wù)的一個(gè)主要任務(wù),將用戶(hù)提問(wèn)發(fā)布到合適的類(lèi)別,可以方便其他用戶(hù)發(fā)現(xiàn)和回答該提問(wèn),也有助于對(duì)系統(tǒng)積累的海量問(wèn)答進(jìn)行知識(shí)挖掘和興趣推薦[1]。由于問(wèn)題文本一般較短、特征稀疏,且中文文本特有的語(yǔ)言結(jié)構(gòu),所以傳統(tǒng)的基于長(zhǎng)文本的分類(lèi)方法對(duì)于短文本并不能取得令人滿(mǎn)意的效果。因此,研究中文短文本分類(lèi)技術(shù)成為社區(qū)問(wèn)答系統(tǒng)構(gòu)建的一個(gè)關(guān)鍵問(wèn)題。

短文本的長(zhǎng)度通常小于160個(gè)字符,詞匯個(gè)數(shù)少并且描述信息弱,具有稀疏性和不規(guī)范性,卻隱含大量有價(jià)值的信息。目前,一些學(xué)者先后開(kāi)始研究利用一些額外的信息來(lái)擴(kuò)展文本特征輔助中文短文本分類(lèi)。如王鵬[2]等利用依存關(guān)系對(duì)短文本進(jìn)行特征擴(kuò)充以實(shí)現(xiàn)有效的短文本分類(lèi)。王細(xì)薇[3]等、曹葉盛[4]、Fan[5]等利用關(guān)聯(lián)規(guī)則挖掘文本中詞共現(xiàn)關(guān)系以構(gòu)建特征共現(xiàn)集進(jìn)行短文本特征擴(kuò)展。寧亞輝[6]等提出借助知網(wǎng)對(duì)領(lǐng)域高頻詞進(jìn)行特征擴(kuò)展的短文本分類(lèi)方法。王盛[7]等利用知網(wǎng)的上下位關(guān)系對(duì)短文本進(jìn)行擴(kuò)展。但是領(lǐng)域知識(shí)庫(kù)一般由專(zhuān)家進(jìn)行編撰,只包含小范圍的領(lǐng)域和有限的主題,詞匯可擴(kuò)展性差且更新速度慢,難以滿(mǎn)足社區(qū)問(wèn)答系統(tǒng)中的問(wèn)題分類(lèi)的需求。范云杰[8]等利用維基百科對(duì)短文本進(jìn)行特征擴(kuò)展,其采用考慮概念類(lèi)別因素基于tf-idf法計(jì)算概念間相關(guān)度。

為提高社區(qū)問(wèn)答系統(tǒng)中的問(wèn)題文類(lèi)效果,本文研究將維基百科知識(shí)庫(kù)引入到中文短文本分類(lèi)過(guò)程中,提出一種基于特征擴(kuò)展的中文短文本分類(lèi)算法。本文利用維基百科所含有的類(lèi)別、概念及其鏈接等信息,以詞語(yǔ)間語(yǔ)義相關(guān)關(guān)系為基礎(chǔ)對(duì)短文本特征詞語(yǔ)進(jìn)行語(yǔ)義特征擴(kuò)展,以此提高特征詞所描述概念的準(zhǔn)確性、豐富語(yǔ)義表達(dá),同時(shí)在一定程度上降低短文本特征稀疏對(duì)分類(lèi)性能的影響。

1維基百科相關(guān)理論

維基百科作為一個(gè)以開(kāi)放和用戶(hù)協(xié)作編輯為特點(diǎn)的Web2.0知識(shí)系統(tǒng),具有知識(shí)覆蓋面廣,結(jié)構(gòu)化程度高,信息更新速度快等優(yōu)點(diǎn)[9]。維基百科是一個(gè)以頁(yè)面為單位組成的具有豐富鏈接結(jié)構(gòu)的超文本文檔集合,它主要包含以下重要元素:

1.1主題頁(yè)面

主題頁(yè)面作為維基百科中最基本、重要的元素,其含有惟一的ID標(biāo)識(shí)用以描述一個(gè)單獨(dú)的概念。概念是維基百科的基本單位,即指被解釋的一個(gè)對(duì)象、事件或命名實(shí)體,如“情報(bào)”、“北京奧運(yùn)會(huì)”、“姚明”等。

1.2類(lèi)別體系

類(lèi)別是維基百科中對(duì)概念頁(yè)面信息進(jìn)行組織的一種有效手段。每一個(gè)概念頁(yè)面通常歸屬于一個(gè)類(lèi)別或多個(gè)類(lèi)別。如“文本挖掘”這個(gè)概念頁(yè)面歸屬于“數(shù)據(jù)挖掘”、“人工智能應(yīng)用”等多個(gè)類(lèi)別。每個(gè)類(lèi)別可以包含若干子類(lèi)別,上下層類(lèi)別之間不僅反映出繼承的關(guān)系,也可能是實(shí)例、包含、屬性等不同的語(yǔ)義關(guān)系。類(lèi)別之間的這種關(guān)系構(gòu)成一個(gè)巨大的分類(lèi)體系。

1.3重定向

維基百科將同義的多個(gè)概念用一個(gè)頁(yè)面進(jìn)行描述,這些概念中只有一個(gè)概念的頁(yè)面包含解釋描述信息,其他的概念則使用重定向鏈接到這個(gè)頁(yè)面,包含重定向鏈接的頁(yè)面稱(chēng)作重定向頁(yè)面[9]。重定向頁(yè)面的概念與目標(biāo)頁(yè)面概念是同義詞。例如“NBA”被重定向到“國(guó)家籃球協(xié)會(huì)”,這種重定向頁(yè)面的機(jī)制同時(shí)能夠處理大小寫(xiě)、縮寫(xiě)、拼寫(xiě)變體、專(zhuān)業(yè)術(shù)語(yǔ)等。

1.4消岐頁(yè)

消岐頁(yè)是為了處理一詞多義的機(jī)制[9],例如消歧頁(yè)面“風(fēng)車(chē)(消歧義)”中,包含指向多個(gè)概念頁(yè)面的鏈接:“風(fēng)車(chē)”,“風(fēng)車(chē)(玩具)”,“風(fēng)車(chē)(農(nóng)具)”等。

1.5鏈接

頁(yè)面與頁(yè)面之間通過(guò)主題頁(yè)面內(nèi)容中的超鏈接聯(lián)系起來(lái)[10]。即概念的描述之間用超鏈接聯(lián)系,其中蘊(yùn)含著重要的事實(shí)聯(lián)系或語(yǔ)義關(guān)系。

2基于維基百科的特征擴(kuò)展

為提高短文本特征詞的類(lèi)別特征和最大限度的保留其語(yǔ)義信息,本文借助維基百科知識(shí)庫(kù)來(lái)挖掘短文本所蘊(yùn)含的隱性信息,通過(guò)選取一些在語(yǔ)義層面與特征詞有高度相關(guān)關(guān)系的詞對(duì)特征詞進(jìn)行擴(kuò)展以輔助短文本分類(lèi),利用抽取的維基百科詞語(yǔ)相關(guān)概念集合作為擴(kuò)展詞集合,通過(guò)擴(kuò)展詞集合從語(yǔ)義層面對(duì)特征進(jìn)行擴(kuò)展,以構(gòu)建語(yǔ)義向量空間。

本文中的特征擴(kuò)展以現(xiàn)實(shí)世界詞語(yǔ)間的語(yǔ)義相關(guān)關(guān)系為基礎(chǔ),對(duì)文本特征詞進(jìn)行擴(kuò)展,通過(guò)某個(gè)特征詞關(guān)聯(lián)出若干個(gè)特征詞以提高其語(yǔ)義描述能力。例如,短文本“李娜獲得法網(wǎng)冠軍”,可以提取該文本的特征詞{李娜,獲得,法網(wǎng),冠軍},“李娜”這個(gè)詞,我們很容易根據(jù)對(duì)常識(shí)的掌握聯(lián)想到“網(wǎng)球”、“WTA”等詞語(yǔ),短文本被表示為{李娜,獲得,法網(wǎng),冠軍,網(wǎng)球,WTA……}。

本文以維基百科知識(shí)庫(kù)為數(shù)據(jù)源,利用其所蘊(yùn)含的概念、重定向、類(lèi)別體系結(jié)構(gòu)及各類(lèi)鏈接等信息進(jìn)行詞語(yǔ)的相關(guān)概念集合構(gòu)建以進(jìn)行特征擴(kuò)展:首先將特征詞轉(zhuǎn)化為主題概念,即進(jìn)行詞語(yǔ)-概念匹配,其次進(jìn)行相關(guān)概念的抽取,再次,對(duì)所抽取的相關(guān)概念與主題概念間的語(yǔ)義相關(guān)關(guān)系進(jìn)行量化,以完成相關(guān)概念集合的構(gòu)建。最后,從相關(guān)概念集合選取概念對(duì)特征詞進(jìn)行語(yǔ)義擴(kuò)展。

特征擴(kuò)展的具體過(guò)程如下:

Step 1:進(jìn)行詞語(yǔ)——概念匹配。詞語(yǔ)——概念匹配是將特征詞tk映射為維基百科中存在的主題概念Ck。當(dāng)該特征詞存在重定向時(shí),以重定向的概念作為特征詞tk的主題概念,以首先解決同義詞問(wèn)題。如特征詞“奧運(yùn)會(huì)”匹配為概念“奧林匹克運(yùn)動(dòng)會(huì)”。

Step 2:抽取主題概念Ck的相關(guān)概念。由于維基百科中的主題頁(yè)面是對(duì)概念的解釋?zhuān)翼?yè)面中的鏈接是維基百科貢獻(xiàn)者根據(jù)錨文本與當(dāng)前概念的相關(guān)性添加的,所以本文利用網(wǎng)頁(yè)間鏈接關(guān)系從維基百科中抽取相關(guān)概念。由于頁(yè)面上的部分錨文本所對(duì)應(yīng)的概念與主題概念相關(guān)性不強(qiáng),為了去除此種弱相關(guān)關(guān)系詞,本文只選取與主題概念Ck具有互相鏈接關(guān)系的概念作為相關(guān)概念。因此,抽取相關(guān)概念時(shí),對(duì)主題概念頁(yè)面鏈出的概念進(jìn)行跟蹤,當(dāng)且僅當(dāng)該概念頁(yè)面中也包含指向主題概念頁(yè)面的鏈接時(shí),則將此概念作為主題概念的相關(guān)概念。因此,可以得到主題概念Ck相關(guān)的概念集合Ck(C1,C2,……,Cn),其中Ck與Ci(1≤i≤n)間具有相互鏈接關(guān)系。

Step 3:進(jìn)行概念間語(yǔ)義相關(guān)關(guān)系量化。語(yǔ)義相關(guān)關(guān)系量化是為了區(qū)分相關(guān)概念集合中不同概念對(duì)主題概念的貢獻(xiàn)度。本文主要運(yùn)用維基百科的鏈接結(jié)構(gòu)和類(lèi)別體系分別計(jì)算概念距離和類(lèi)別距離,然后將這兩個(gè)值進(jìn)行線(xiàn)性組合計(jì)算概念間的相關(guān)度。

2.1鏈接距離

本文計(jì)算鏈接距離的方法運(yùn)用了Milne等提出的基于維基百科鏈接的概念間語(yǔ)義相關(guān)度計(jì)算方法WLM( Wikipedia Link-based Measure)[11]的思想。WLM算法運(yùn)用了Google距離的思想,其原理是概念Ck、Ci間共有的相關(guān)概念越多,概念間語(yǔ)義距離就越小,那么其相關(guān)性就越強(qiáng)。由于主題概念頁(yè)面中包含其他概念的鏈接,表現(xiàn)為鏈出鏈接,而主題概念頁(yè)面也可能會(huì)被其他概念頁(yè)面鏈接,表現(xiàn)為鏈入鏈接。WLM法分別對(duì)這兩種鏈接計(jì)算相關(guān)性后再綜合完成概念間的相關(guān)性計(jì)算。受WLM法啟發(fā),本文定義的概念Ck、Ci間鏈接距離計(jì)算公式如下:

Dlink=log(max(A,B))-log(A∩B)1log(W)-log(minA,B))(1)

其中:Dlink是指概念Ck、Ci間的語(yǔ)義距離,A、B是指在維基百科中分別與概念Ck、Ci有相互鏈接關(guān)系的概念集合,W則指維基百科中所有概念解釋頁(yè)面的集合。符號(hào)“‖”表示取集合中的實(shí)體數(shù)量。

2.2類(lèi)別距離

WLM算法雖然被證明在英文維基百科上效果不錯(cuò),但中文維基百科在規(guī)模上不如英文維基百科,主題頁(yè)面之間的鏈接存在一定的稀疏性。因此,對(duì)于中文維基百科僅用鏈接結(jié)構(gòu)很難充分衡量概念間的語(yǔ)義距離。因此,本文在鏈接距離的基礎(chǔ)上,通過(guò)計(jì)算概念所屬的類(lèi)別之間的距離,以便更準(zhǔn)確衡量概念間的相關(guān)度。

在維基百科的類(lèi)別體系中,一個(gè)分類(lèi)節(jié)點(diǎn)可能包含多個(gè)上層和下層分類(lèi)節(jié)點(diǎn),因此兩節(jié)點(diǎn)之間路徑可能不惟一,即存在多條路徑,但其中必然存在一條最短路徑d,而兩節(jié)點(diǎn)間的最短路徑越小,則其距離就越近,那么類(lèi)別間的相關(guān)程度也就越高。此外,由于概念可能屬于多個(gè)類(lèi)別,那么兩個(gè)概念間就可能存在多種分類(lèi)關(guān)系的組合,也就可能對(duì)應(yīng)存在多個(gè)最短路徑。本文將其中最小的最短路徑值作為兩概念之間的類(lèi)別距離,則概念Ck與Ci之間的類(lèi)別距離計(jì)算公式表示為:

Dcat(ck,ci)=log(min(dki)+1)(2)

其中dki代表概念Ck、Ci所屬類(lèi)別之間的最短路徑距離,取log值是為了使dki變化幅度平均化,抑制類(lèi)別距離與鏈接距離之間過(guò)大的差異。

2.3相關(guān)度計(jì)算方法

為了較全面的衡量概念間的相關(guān)度,概念間語(yǔ)義距離應(yīng)該綜合考慮維基百科鏈接結(jié)構(gòu)和類(lèi)別體系中蘊(yùn)含的概念間關(guān)系。本文定義的主題概念Ck與其相關(guān)概念Ci間的概念語(yǔ)義距離計(jì)算方法如公式(3)所示,形式上表現(xiàn)為鏈接距離Dlink和類(lèi)別距離Dcat的線(xiàn)性組合:

D(ck,ci)=αDlink(ck,ci)+(1-α)Dcat(ck,ci)(3)

其中α(0≤α≤1)為調(diào)節(jié)參數(shù)。由于概念與其本身的距離為0,相關(guān)度設(shè)為1,隨著距離的增大,概念間的相關(guān)關(guān)系越小,當(dāng)語(yǔ)義距離趨于無(wú)窮大時(shí),相關(guān)度為0。因此,本文將概念間的相關(guān)度計(jì)算公式定義為:

R(ck,ci)=11D(ck,ci)+1(4)

Step 4:經(jīng)過(guò)上述步驟,特征詞tk所對(duì)應(yīng)的主題概念Ck構(gòu)建的相關(guān)概念集合為((C1,R1),(C2,R2),……,(Cn,Rn)),Ri(1≤i≤n)代表相關(guān)概念與主題概念間的相關(guān)度,由公式(4)求得。為了避免維度災(zāi)難且不引入過(guò)多噪音數(shù)據(jù),從上述過(guò)程構(gòu)建的相關(guān)概念集合中選取相關(guān)度大于閾值μ的概念對(duì)主題概念進(jìn)行特征擴(kuò)展,即特征詞tk所對(duì)應(yīng)擴(kuò)展概念為為((C1,R1),(C2,R2),……,(Cm,Rm)),其中Ri≥μ(1≤i≤m)。

3基于特征擴(kuò)展的短文分類(lèi)算法

3.1基本思想

本文通過(guò)結(jié)合維基百科語(yǔ)義知識(shí)庫(kù)對(duì)特征詞進(jìn)行擴(kuò)展以輔助中文短文本分類(lèi),以豐富文本特征的語(yǔ)義表達(dá)、提高文本特征描述能力。首先利用維基百科挖掘概念間的語(yǔ)義相關(guān)關(guān)系,進(jìn)而構(gòu)建相關(guān)概念集合對(duì)短文本特征進(jìn)行擴(kuò)展,以構(gòu)建語(yǔ)義概念向量空間,使得語(yǔ)義向量空間中文本的語(yǔ)義更準(zhǔn)確、完整,而且可以避免短文本特征稀疏的缺點(diǎn),以提高短文本分類(lèi)的準(zhǔn)確度。

3.2分類(lèi)模型

面向社區(qū)問(wèn)答的短文本分類(lèi)模型與傳統(tǒng)長(zhǎng)文本類(lèi)似,主要包括訓(xùn)練和測(cè)試兩個(gè)過(guò)程,如圖1所示。

3.2.1訓(xùn)練過(guò)程

訓(xùn)練模塊對(duì)己經(jīng)標(biāo)好類(lèi)別的訓(xùn)練短文本集預(yù)處理,形成用一系列特征詞表示的文本,即形成訓(xùn)練集的原始特征集合;然后運(yùn)用基于維基百科的特征擴(kuò)展方法對(duì)原始特征集合中的特征詞進(jìn)行語(yǔ)義擴(kuò)展,形成新的特征集;計(jì)算特征集中每一個(gè)特征詞在訓(xùn)練集中權(quán)重,將文本表示成由原始和擴(kuò)展特征詞及其權(quán)重表示的向量形式;最后用分類(lèi)算1圖1基于特征擴(kuò)展的短文本分類(lèi)模型1

法對(duì)訓(xùn)練集進(jìn)行分類(lèi),形成分類(lèi)模型。

3.2.2測(cè)試過(guò)程

同樣使用已經(jīng)標(biāo)好類(lèi)別的測(cè)試短文本進(jìn)行預(yù)處理后,將測(cè)試短文本表示成向量形式;然后利用訓(xùn)練過(guò)程得到的分類(lèi)模型進(jìn)行分類(lèi)測(cè)試,根據(jù)分類(lèi)結(jié)果對(duì)分類(lèi)過(guò)程中的相應(yīng)參數(shù)進(jìn)行調(diào)整,直到得到較好的分類(lèi)效果。

3.3分類(lèi)算法

根據(jù)上述基于特征擴(kuò)展的短文本分類(lèi)模型,可以得到相應(yīng)的分類(lèi)算法,算法流程具體描述如下:

輸入:短文本訓(xùn)練集D,待分類(lèi)短文本d

Step 1:分別對(duì)短文本訓(xùn)練集D和待分類(lèi)短文本d進(jìn)行分詞、去停用詞等預(yù)處理,預(yù)處理之后可以得到每篇文章對(duì)應(yīng)的原始特征集合。

Step 2:分別將短文本訓(xùn)練集D和待分類(lèi)短文本d由原始特征集合轉(zhuǎn)化為語(yǔ)義文本特征向量。順序遍歷原始特征集合中的特征詞ti,如果在維基百科中能匹配到ti對(duì)應(yīng)的概念,則利用第3節(jié)中的方法,對(duì)該特征詞進(jìn)行特征擴(kuò)展。

Step 3:擴(kuò)展完后進(jìn)行特征權(quán)重計(jì)算,然后合并相同特征項(xiàng),相應(yīng)權(quán)重進(jìn)行相加。由此文本有原始特征集合d={t1,t2,…,tn}轉(zhuǎn)化為d((T1,w1),(T2,w2),…,(Tm,wm))。

其中權(quán)重的計(jì)算分兩種情況,如果是原文檔本身存在的特征詞,則其權(quán)重由tf-idf[12]計(jì)算求得,而擴(kuò)展來(lái)的詞的權(quán)重計(jì)算方法如下:

wij=wi·Rij(5)

公式中wi為被擴(kuò)展詞ti的權(quán)重,Rij為ti的相關(guān)概念集合((C1,Ri1),(C2,Ri2),……,(Cn,Rin))中概念Cj與ti所對(duì)應(yīng)概念的相關(guān)度。

Step 4:用支持向量機(jī)分類(lèi)算法[13]對(duì)訓(xùn)練集向量進(jìn)行分類(lèi),形成分類(lèi)模型。

Step 5:根據(jù)訓(xùn)練過(guò)程得到的分類(lèi)模型對(duì)待分類(lèi)文本d進(jìn)行分類(lèi)。

輸出:短文d所屬的類(lèi)別。

4實(shí)驗(yàn)與結(jié)果分析

本文對(duì)所提出的面向社區(qū)問(wèn)答的中文短文本分類(lèi)方法的效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)語(yǔ)料來(lái)自“新浪愛(ài)問(wèn)”中收集的10個(gè)類(lèi)別各1 000篇問(wèn)題文本,維基百科數(shù)據(jù)來(lái)自維基百科網(wǎng)站下載的zhwiki-2013-02-15中文版XML數(shù)據(jù)集。本文實(shí)驗(yàn)采用5折交叉驗(yàn)證法,將每類(lèi)文本隨機(jī)平均分為5份,其中一份構(gòu)成測(cè)試文本集,其它4份作為訓(xùn)練文本集,每份文本輪流作為測(cè)試集循環(huán)測(cè)試5次,取其均值為最終結(jié)果。具體實(shí)驗(yàn)過(guò)程如下:

4.1特征擴(kuò)展時(shí)詞語(yǔ)相關(guān)度閾值μ的確定實(shí)驗(yàn)

為了在不引入過(guò)多噪音數(shù)據(jù)的前提下進(jìn)行高質(zhì)量的特征擴(kuò)展,以提高短文本分類(lèi)的效果,本文首先進(jìn)行不同詞語(yǔ)相關(guān)度閾值下的分類(lèi)效果對(duì)比試驗(yàn),實(shí)驗(yàn)中統(tǒng)一采用本文所提出的基于特征擴(kuò)展的短文本分類(lèi)算法,為了得到較好的文本分類(lèi)效果,通過(guò)反復(fù)試驗(yàn),公式(3)中的參數(shù)α為0.7。實(shí)驗(yàn)中統(tǒng)一使用中科院的ICTCLAS進(jìn)行分詞。不同相關(guān)度閾值下的分類(lèi)效果對(duì)比實(shí)驗(yàn)結(jié)果如下:表1不同的相關(guān)度閾值下的實(shí)驗(yàn)結(jié)果F1(%)比較

由表1平均F1可以看出,當(dāng)詞語(yǔ)相關(guān)度閾值μ取0.6左右時(shí)平均F1最高,分類(lèi)效果達(dá)到最佳,因此后續(xù)實(shí)驗(yàn)中特征擴(kuò)展時(shí)詞語(yǔ)相關(guān)度閾值μ取0.6。

4.2與傳統(tǒng)文本分類(lèi)算法的分類(lèi)效果對(duì)比實(shí)驗(yàn)

本實(shí)驗(yàn)共分3組,實(shí)驗(yàn)中分別采用本文所提出的分類(lèi)算法與傳統(tǒng)的貝葉斯分類(lèi)算法與支持向量機(jī)分類(lèi)算法進(jìn)行分類(lèi):

第一組實(shí)驗(yàn)中短文本采用傳統(tǒng)的短文本分類(lèi)方法,即在分類(lèi)過(guò)程中不進(jìn)行特征擴(kuò)展處理,分類(lèi)算法采用貝葉斯分類(lèi)算法。

第二組實(shí)驗(yàn)采用傳統(tǒng)分類(lèi)方法進(jìn)行短文本分類(lèi),分類(lèi)算法使用支持向量機(jī),SVM的核函數(shù)為線(xiàn)性核函數(shù)。

第三組對(duì)本文提出的基于特征擴(kuò)展的中文文本分類(lèi)算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,即在分類(lèi)過(guò)程中,對(duì)文本特征進(jìn)行特征擴(kuò)展以完成短文本分類(lèi)過(guò)程。

由表2中實(shí)驗(yàn)結(jié)果對(duì)比可以看出,實(shí)驗(yàn)三較實(shí)驗(yàn)一、二的分類(lèi)效果均有所提高,這表明本文所提出的基于特征擴(kuò)展的短文本分類(lèi)算法對(duì)短文本進(jìn)行擴(kuò)展能提高問(wèn)題文本的語(yǔ)義表達(dá)能力,改善其分類(lèi)效果。而部分類(lèi)別分類(lèi)效果提高較少的原因與擴(kuò)展時(shí)引入的相關(guān)概念的質(zhì)量有關(guān),有時(shí)擴(kuò)展的相關(guān)概念對(duì)文本的語(yǔ)義表達(dá)幫助較小,可能還會(huì)引入一些噪音數(shù)據(jù)。此外,文本分類(lèi)的整體分類(lèi)效果不高也與問(wèn)題文本自身不規(guī)范性有關(guān),同時(shí)也受到實(shí)驗(yàn)語(yǔ)料自身劃分質(zhì)量的影響。所以,如何提高短文本特征擴(kuò)展的精度和效率是下一步研究的重點(diǎn)。

5結(jié)束語(yǔ)

針對(duì)社區(qū)問(wèn)答系統(tǒng)中的問(wèn)題文類(lèi)任務(wù),本文根據(jù)問(wèn)題短文本的特點(diǎn),結(jié)合維基百科提出一種基于特征擴(kuò)展的短文本分類(lèi)算法,該算法利用維基百科中的概念、鏈接及類(lèi)別信息來(lái)挖掘概念間的語(yǔ)義相關(guān)關(guān)系,以此為基礎(chǔ)對(duì)短文本的特征進(jìn)行擴(kuò)充,以彌補(bǔ)社區(qū)問(wèn)答系統(tǒng)中問(wèn)題短文本特征少、語(yǔ)義信息描述弱等不足。實(shí)驗(yàn)結(jié)果表明,該算法可滿(mǎn)足問(wèn)題短文本分類(lèi)的需且具有較好的分類(lèi)效果。

參考文獻(xiàn)

[1]王君澤,黃本雄,胡廣,等.社區(qū)問(wèn)答服務(wù)中的問(wèn)題分類(lèi)任務(wù)研究[J].計(jì)算機(jī)工程與科學(xué),2011,33(1):143-149.

[2]王鵬,樊興華.中文文本分類(lèi)中利用依存關(guān)系的實(shí)驗(yàn)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(3):131-133.

[3]王細(xì)薇,樊興華,趙軍.一種基于特征擴(kuò)展的中文短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.

[4]曹葉盛.基于關(guān)聯(lián)擴(kuò)展的中文短文本分類(lèi)方法研究[D].北京:北京郵電大學(xué),2012.

[5]Fan X H,Hu H G.Utilizing High-quality Feature Extension Mode to Classify Chinese Short-text[J].Journal of Networks,2010,5(12):1417-1425.

[6]寧亞輝,樊興華,吳渝.基于領(lǐng)域詞語(yǔ)本體的短文本分類(lèi)[J].計(jì)算機(jī)科學(xué),2009,36(3):142-145.

[7]王盛,樊興華,陳現(xiàn)麟.利用上下位關(guān)系的中文短文本分類(lèi)[J].計(jì)算機(jī)應(yīng)用,2010,30(3):603-611.

[8]范云杰,劉懷亮.基于維基百科的中文短文本分類(lèi)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,(3):47-52.

[9]涂新輝,張紅春,周琨峰,等.中文維基百科的結(jié)構(gòu)化信息抽取及詞語(yǔ)相關(guān)度計(jì)算方法[J].中文信息學(xué)報(bào),2012,26(3):109-115.

[10]王蘭成,劉曉亮.維基百科知網(wǎng)的構(gòu)建研究與應(yīng)用進(jìn)展[J].情報(bào)資料工作,2012,(5):56-60.

[11]David Milne,Ian H Witten.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]∥Proceedings of the 23th Association for the Advancement of Artificial Intelligence,2008:25-30.

[12]Auen J.Natural language understanding[M].San Francisco the Benjamin Cummings Publishing Company,1991:372-374.

[13]Vapnik VN.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000:85-116.

(本文責(zé)任編輯:孫國(guó)雷)

主站蜘蛛池模板: 久久99精品久久久久纯品| 国产成人无码播放| 夜夜拍夜夜爽| 自慰高潮喷白浆在线观看| 亚洲人成网18禁| 国产精品不卡永久免费| 无码福利视频| 中文字幕 日韩 欧美| 国产精品私拍在线爆乳| 亚洲精品中文字幕无乱码| 亚洲欧美精品一中文字幕| 日韩欧美国产成人| 国产精品19p| 国产日产欧美精品| 欧美日韩中文字幕在线| 亚洲国产精品美女| 米奇精品一区二区三区| 国产精品香蕉| 成人夜夜嗨| 久久无码高潮喷水| 人人91人人澡人人妻人人爽| 少妇露出福利视频| 国产精品偷伦视频免费观看国产 | 国产精品久久久久鬼色| 怡红院美国分院一区二区| 国产综合欧美| 午夜小视频在线| 久久国产精品麻豆系列| 91亚洲精选| 国模视频一区二区| 在线观看亚洲精品福利片| 精品国产女同疯狂摩擦2| 国产最爽的乱婬视频国语对白| a在线观看免费| 久久青草精品一区二区三区| 少妇人妻无码首页| 亚洲手机在线| 一级毛片网| 国产精品观看视频免费完整版| 欧美成一级| 国产一区成人| 永久免费无码成人网站| 亚洲美女视频一区| 欧美色视频网站| 亚洲另类色| 亚洲综合片| 小蝌蚪亚洲精品国产| 色视频久久| 狠狠做深爱婷婷久久一区| 久青草免费在线视频| 日本高清视频在线www色| 91精品啪在线观看国产60岁| 2021国产精品自产拍在线| 国产色网站| 亚洲午夜久久久精品电影院| 欧美在线网| 四虎永久免费在线| 亚洲第一成人在线| 欧美色视频在线| 精品无码一区二区在线观看| 88国产经典欧美一区二区三区| 思思热精品在线8| 亚洲国产精品VA在线看黑人| 久久黄色影院| 亚洲,国产,日韩,综合一区| 女人18一级毛片免费观看| 久久婷婷六月| 免费毛片全部不收费的| 久久精品只有这里有| 九九热精品免费视频| 国产99热| 日韩国产无码一区| 丁香婷婷激情网| 国产女人在线| 亚洲AⅤ波多系列中文字幕| 国产成人精品18| 国产极品美女在线观看| 专干老肥熟女视频网站| 四虎免费视频网站| 国产精品视频3p| 久草视频中文| 啦啦啦网站在线观看a毛片|