999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN的試題相似度計(jì)算模型研究與實(shí)現(xiàn)

2018-05-23 02:51:30梁圣
數(shù)碼設(shè)計(jì) 2018年1期
關(guān)鍵詞:文本實(shí)驗(yàn)模型

梁圣*

?

基于RNN的試題相似度計(jì)算模型研究與實(shí)現(xiàn)

梁圣*

(湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖南株洲,412007)

由于對(duì)試題庫(kù)的管理缺乏相應(yīng)的相似度檢測(cè)手段,導(dǎo)致試題庫(kù)會(huì)存在相似試題和重復(fù)試題。這些高相似度試題不僅會(huì)嚴(yán)重影響了試題庫(kù)的管理,而且對(duì)知識(shí)的考核與評(píng)估、考試系統(tǒng)測(cè)評(píng)等都造成不良影響,因此需要采取必要的技術(shù)針對(duì)知識(shí)庫(kù)中的相似試題進(jìn)行處理。為此本文進(jìn)行了試題庫(kù)相似度計(jì)算的相關(guān)研究,展開了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的相似度計(jì)算模型的相關(guān)研究。

試題,循環(huán)神經(jīng)網(wǎng)絡(luò),長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),TF-IDF,相似度

引言

隨著信息技術(shù)的快速發(fā)展,各級(jí)學(xué)校都在大力發(fā)展信息化教育,紛紛建立起大規(guī)模試題庫(kù),以便進(jìn)行網(wǎng)絡(luò)化測(cè)評(píng)。但由于目前題庫(kù)在進(jìn)行試題錄入時(shí)缺乏一定的檢測(cè)手段,導(dǎo)致試題庫(kù)會(huì)存在相似試題和重復(fù)試題,重復(fù)試題指的是完全一樣的試題,相似試題指的是不完全一樣,但是考察的知識(shí)點(diǎn)和出題方式或者答案是一樣的試題。試題庫(kù)中存在高相似度的試題,甚至重復(fù)的試題不僅會(huì)嚴(yán)重影響了海量試題的管理,而且對(duì)知識(shí)的考核與評(píng)估、考試系統(tǒng)測(cè)評(píng)等都造成不良影響,需要采取必要的技術(shù)對(duì)試題庫(kù)中的相似試題進(jìn)行處理。

1 相關(guān)研究工作

Wang針對(duì)海量題庫(kù)中存在雷同試題的問(wèn)題, 提出一種識(shí)別雷同試題的方法及試題去重模型,用于實(shí)現(xiàn)試題相似度的計(jì)算[1]。Zhi應(yīng)用文本分類的主流處理技術(shù),開發(fā)出一個(gè)基于向量空間模型的試題分類系統(tǒng)[2]。Tang 基于多示例學(xué)習(xí)方法,結(jié)合文本的元數(shù)據(jù)特征對(duì)試題重復(fù)的檢測(cè)方法進(jìn)行了改進(jìn),提出試題相似度計(jì)算方法[3]。Dong利用詞嵌入技術(shù)對(duì)試題庫(kù)數(shù)據(jù)進(jìn)行處理,通過(guò)計(jì)算文本空間向量間的余弦值得出題干與知識(shí)點(diǎn)的語(yǔ)義相似度[4]。Chen提出的特征抽取算法, 解決了傳統(tǒng)的從單一或片面的測(cè)試指標(biāo)進(jìn)行特征抽取所造成的特征過(guò)擬合問(wèn)題[5]。Yang通過(guò)構(gòu)建關(guān)系樹提高了信息過(guò)濾的精確度[6]。

2 基于RNN的試題庫(kù)相似度計(jì)算模型

2.1 相似度計(jì)算模型結(jié)構(gòu)

為了進(jìn)行試題庫(kù)中試題間的相似度計(jì)算,需要首先給出句子編碼模型,本文結(jié)合RNN在文本分類任務(wù)中的良好表現(xiàn),提出了基于BI-LSTM試題編碼模型,具體網(wǎng)絡(luò)結(jié)構(gòu)如下:

針對(duì)兩個(gè)需要匹配的試題對(duì),首先分別進(jìn)行分詞、歸一化以及其它的預(yù)處理操作,然后采用詞向量進(jìn)行詞的向量化表示,這樣每個(gè)試題都被表示成了L*D二維向量,L表示句子對(duì)應(yīng)的最大詞序列長(zhǎng)度,D為詞向量的維度。由于采用深度網(wǎng)絡(luò)進(jìn)行編碼時(shí)需要保持輸入長(zhǎng)度的一致性,因此,需要根據(jù)語(yǔ)料庫(kù)試題的平均長(zhǎng)度提前設(shè)定好L的取值。如果試題的詞序列長(zhǎng)度大于L,則進(jìn)行截?cái)?,即僅保留前L個(gè)詞;如果試題的詞序列長(zhǎng)度不足L,則需采用特殊字符進(jìn)行補(bǔ)位,補(bǔ)足至L個(gè)詞。將句子轉(zhuǎn)化為二維向量以后,便輸入到深度網(wǎng)絡(luò)進(jìn)行編碼,以獲取試題的向量表示。為了保持用于編碼的深度網(wǎng)絡(luò)訓(xùn)練充分通常,句子A和句子B采用的編碼網(wǎng)絡(luò)的權(quán)值是共享的。得到試題的向量化表示以后,通過(guò)相似度計(jì)算便可以得到兩個(gè)試題間的相似度。

基于上述試題編碼模型,可以得到整個(gè)試題相似度計(jì)算模型如下圖所示。

圖2 試題相似度計(jì)算模型

通過(guò)上圖可以看出,該模型采用了2層LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行試題內(nèi)容編碼,首先采用兩個(gè)LSTM對(duì)試題內(nèi)容進(jìn)行正反向編碼。第一層采用正向LSTM對(duì)試題內(nèi)容進(jìn)行編碼,LSTM的隱含單元個(gè)數(shù)為N,第二層采用反向LSTM進(jìn)行試題內(nèi)容編碼,LSTM的隱含單元個(gè)數(shù)同樣為N,然后將正反向LSTM的編碼按照時(shí)間維度進(jìn)行拼接,得到一個(gè)L*2N的二維向量,這里的256是正反向編碼按照時(shí)間維度累加的結(jié)果。用Bi-LSTM完成試題內(nèi)容的編碼后,需要采用Max-Pooling進(jìn)行池化,將Bi-LSTM編碼結(jié)果降維到1維,即1*2N。試題A和試題B經(jīng)過(guò)Bi-LSTM網(wǎng)絡(luò)編碼以及Max池化以后,均轉(zhuǎn)變成了1*2N維度的向量,便可用相似度函數(shù)來(lái)衡量二者的相似度,LSTM權(quán)重均采用he_uniform方式進(jìn)行初始化,激活函數(shù)為RELU。

2.2 相似度計(jì)算處理過(guò)程

相似度計(jì)算模型采用余弦相似度作為相似度的度量。亦可采用其它相似度度量方法,如點(diǎn)乘,或?qū)蓚€(gè)試題表示向量進(jìn)行拼接,輸入到新的神經(jīng)網(wǎng)絡(luò)進(jìn)再進(jìn)行相似度度量。

試題庫(kù)相似度模型以試題對(duì)作為輸入,即一對(duì)待計(jì)算相似度的試題。與基于詞向量的相似度計(jì)算模型不同,該模型無(wú)需對(duì)進(jìn)行試題內(nèi)詞匯TF-IDF的計(jì)算,也不必去除高頻詞以及停用詞,因?yàn)長(zhǎng)STM在處理時(shí)序輸入時(shí)由于各個(gè)控制門的存在,能夠自動(dòng)的給不同時(shí)刻的輸入賦予不同的權(quán)重,如果編碼的當(dāng)前輸入對(duì)整個(gè)輸入序列無(wú)關(guān)輕重,那么LSTM在編碼當(dāng)前輸入時(shí)對(duì)整個(gè)LSTM上下文影響也就降低了,進(jìn)而當(dāng)前時(shí)刻的隱含狀態(tài)信息也不會(huì)有大的變化,這樣當(dāng)前時(shí)刻輸入對(duì)LSTM后續(xù)狀態(tài)的影響也將降低。

試題對(duì)中的試題A和試題B通過(guò)查詢?cè)~向量文件得到其相應(yīng)的詞向量,這樣試題A和試題B變成L*D的二維矩陣,其中L指的是輸入試題的長(zhǎng)度,D是指詞向量維度。隨后開始利用LSTM網(wǎng)絡(luò)對(duì)這個(gè)二維矩陣進(jìn)行正反向編碼,分別得到兩個(gè)L*2N的二維矩陣,L同樣指的是輸入試題的長(zhǎng)度,N是指循環(huán)神經(jīng)網(wǎng)絡(luò)的隱含節(jié)點(diǎn)個(gè)數(shù)。之所以得到L*2N的二維矩陣是由于正反向編碼結(jié)果均是L*N,二者按照時(shí)間維度進(jìn)行拼接后,變得到了L*2N的二維矩陣。通過(guò)池化操作,將二維矩陣降維到一維,進(jìn)而通過(guò)相似度計(jì)算模塊進(jìn)行試題A和試題B相似度的計(jì)算。

在試題相似度模型中采用了Max池化操作,能夠最大程度的保留試題特征,這也是在判斷試題相似度時(shí)主要考慮的因素。在后面實(shí)驗(yàn)中,將進(jìn)一步對(duì)比不同的池化操作對(duì)最終相似度判斷結(jié)果的影響。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本文在進(jìn)行試題庫(kù)相似度研究時(shí),實(shí)驗(yàn)環(huán)境配置如下表1所示。

表1 實(shí)驗(yàn)環(huán)境配置

3.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

實(shí)驗(yàn)數(shù)據(jù)是從互聯(lián)網(wǎng)抓取的計(jì)算機(jī)相關(guān)題目,共標(biāo)注出7124對(duì)相似試題,為了降低標(biāo)注的工作量,在進(jìn)行標(biāo)注時(shí)僅通過(guò)0/1標(biāo)注,表示當(dāng)前試題對(duì)是否為相似試題,具體示例如下:

表2 標(biāo)注示例

相似度結(jié)果為1表示試題1和試題2為重復(fù)試題;相似度結(jié)果為0則表示二者相似程度較低,不構(gòu)成重復(fù)試題。對(duì)全部標(biāo)注數(shù)據(jù)進(jìn)行了8:2劃分,80%的數(shù)據(jù)作為訓(xùn)練,20%的數(shù)據(jù)作為測(cè)試,具體語(yǔ)料劃分情況如下:

表3 數(shù)據(jù)劃分

訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布相同。

考慮到當(dāng)前的試題庫(kù)規(guī)模較小,在進(jìn)行Bi-LSTM試題相似度計(jì)算模型時(shí),同樣使用了預(yù)先訓(xùn)練的詞向量進(jìn)行試題庫(kù)相似度計(jì)算模型訓(xùn)練時(shí)的詞匯分布式表示。詞向量訓(xùn)練語(yǔ)料與訓(xùn)練過(guò)程中滑窗大小直接影響訓(xùn)練結(jié)果,超出窗口的詞語(yǔ)與當(dāng)前詞語(yǔ)之間的關(guān)系不能正確的反映在模型之中,但如果單純的擴(kuò)大窗口大小會(huì)增大訓(xùn)練的復(fù)雜性也會(huì)大大增加訓(xùn)練時(shí)間。本課題在訓(xùn)練詞向量時(shí)將上下文窗口設(shè)置為7,迭代輪次為10,采用了CBOW方式進(jìn)行詞向量訓(xùn)練。分別訓(xùn)練了不同維度的詞向量,進(jìn)行對(duì)比試驗(yàn),比較不同維度詞向量對(duì)相似度計(jì)算結(jié)果的影響。

在本文中,訓(xùn)練詞向量模型數(shù)據(jù)總量10W篇計(jì)算機(jī)相關(guān)文章以及部分計(jì)算機(jī)試題。在訓(xùn)練完成后,觀察與“排序”,“數(shù)組”以及“矩陣”三個(gè)詞匯最為相似的Top15詞匯,具體如下表所示。

表4 Word2vec詞相似度

3.3 實(shí)驗(yàn)結(jié)果分析

(1)不同詞向量維度下的實(shí)驗(yàn)結(jié)果分析

基于分布式表示的詞向量可以表現(xiàn)文本的語(yǔ)義信息,詞向量維度影響文本語(yǔ)義信息的表現(xiàn)能力,從而影響試題相似度計(jì)算結(jié)果。訓(xùn)練語(yǔ)料越多,詞向量的維度應(yīng)該相應(yīng)提高,同時(shí)詞向量在后續(xù)任務(wù)中可以表現(xiàn)出更好的性能。本文分別訓(xùn)練不同維度的詞向量,然后進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表5所示。實(shí)驗(yàn)的LSTM隱含層個(gè)數(shù)均設(shè)置為128,采用Early-Stop避免訓(xùn)練的過(guò)擬合。模型輸入的最大句子長(zhǎng)度為128,長(zhǎng)度大于128的部分將被丟棄,不足128句子將通過(guò)追加“OOV”補(bǔ)足到128,OOV表示out of vocab的詞匯。詞向量采用了預(yù)訓(xùn)練的Word2vec,并伴隨著模型更新。模型采用Adam方式進(jìn)行優(yōu)化,初始學(xué)習(xí)率為2e-4,batch大小設(shè)置為64。

針對(duì)試題相似度計(jì)算模型的評(píng)價(jià),采用分類模型中通用的評(píng)價(jià),即查準(zhǔn)率、召回率以及F1值。查準(zhǔn)率計(jì)算公式如公式(1)所示。其中,Sr表示判斷為相似且真實(shí)相似的試題對(duì)個(gè)數(shù),Sa表示模型認(rèn)為相似的試題對(duì)個(gè)數(shù)。

召回率是正確分類的文本數(shù)與應(yīng)有的文本數(shù)的比值,計(jì)算公式如公式(2)所示。其中,Sr表示判斷為相似且真實(shí)相似的試題對(duì)個(gè)數(shù),So表示真實(shí)相似的試題對(duì)個(gè)數(shù)。

F1值是準(zhǔn)確率和召回率的綜合衡量,如下:

不同詞向量維度下的具體實(shí)驗(yàn)結(jié)果如下表所示。

表5 選取不同維度詞向量的訓(xùn)練結(jié)果

隨著詞向量維度的增加,達(dá)到模型最優(yōu)迭代所需的輪次越來(lái)越少,這是因?yàn)樵~向量維度的增加導(dǎo)致了整個(gè)試題相似度計(jì)算模型的參數(shù)大幅度增加,從而使得模型整體上達(dá)到最優(yōu),所需進(jìn)行的參數(shù)調(diào)整容易進(jìn)行。

隨著詞向量維度的增加,模型在測(cè)試集上的準(zhǔn)確率是先增后降的,具體如下圖所示。詞向量維度的增加導(dǎo)致模型整體參數(shù)規(guī)模增加,而訓(xùn)練數(shù)據(jù)較少,從而使得模型訓(xùn)練過(guò)程出現(xiàn)了過(guò)擬合,使得模型準(zhǔn)確率下降。

圖3 不同維度詞向量的準(zhǔn)確率

(2)不同隱含層個(gè)數(shù)下的實(shí)驗(yàn)結(jié)果分析

在采用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練時(shí),隱含層神經(jīng)單元個(gè)數(shù)將直接影響整體模型的最終性能,為此本文進(jìn)行了不同隱含層個(gè)數(shù)下的BI-LSTM對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表6所示。

表6 選取不同隱含層神經(jīng)單元個(gè)數(shù)的訓(xùn)練結(jié)果

隨著隱含層神經(jīng)單元個(gè)數(shù)的增加,達(dá)到模型最優(yōu)迭代所需的輪次越來(lái)越少,這是因?yàn)殡[含層神經(jīng)單元個(gè)數(shù)的增加導(dǎo)致了整個(gè)試題相似度計(jì)算模型的參數(shù)大幅度增加,使得模型整體上達(dá)到最優(yōu),使得參數(shù)調(diào)整容易進(jìn)行。

隨著隱含層神經(jīng)單元個(gè)數(shù)的增加,模型在測(cè)試集上的準(zhǔn)確率是先增后降的,具體圖4所示。結(jié)果表明隱含層神經(jīng)單元個(gè)數(shù)的增加導(dǎo)致模型整體參數(shù)規(guī)模增加,而訓(xùn)練數(shù)據(jù)較少,使得模型訓(xùn)練過(guò)程出現(xiàn)了過(guò)擬合,使得模型準(zhǔn)確率下降。

圖4 不同神經(jīng)單元個(gè)數(shù)的精確率

4 結(jié)束語(yǔ)

本文進(jìn)行了試題庫(kù)相似度計(jì)算的相關(guān)研究,展開了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的相似度計(jì)算模型的相關(guān)研究,并對(duì)比了不同詞向量維度以及LSTM隱含層神經(jīng)單元個(gè)數(shù)對(duì)相似度計(jì)算結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,該模型能夠完成試題相似度評(píng)價(jià)任務(wù)。

[1] 王宇穎, 陳振, 蘇小紅. 自動(dòng)組卷中試題去重技術(shù)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2009, 41(01): 85-88.

[2] 植兆衍, 彭宏. 基于向量空間模型的試題分類系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008, 29(12): 3227-3229, 3233.

[3] 湯世平, 樊孝忠. 基于多示例學(xué)習(xí)的題庫(kù)重復(fù)性檢測(cè)研究[J]. 北京理工大學(xué)學(xué)報(bào), 2005, 25(12): 1071-1074.

[4] 董奧根, 劉茂福, 黃革新, 等. 基于向量空間模型的知識(shí)點(diǎn)與試題自動(dòng)關(guān)聯(lián)方法[J]. 計(jì)算機(jī)與現(xiàn)代化, 2015, (10): 6-9.

[5] 陳治綱, 何丕廉, 孫越恒, 等. 基于向量空間模型的文本分類系統(tǒng)的研究與實(shí)現(xiàn)[J]. 中文信息學(xué)報(bào), 2005, 19(1): 36-41.

[6] 楊玉珍, 劉培玉, 姜沛佩, 等. 向量空間模型中結(jié)合句法的文本表示研究[J]. 計(jì)算機(jī)工程, 2011, 37(3): 58-60.

Research and Implementation of Test-Items Similarity Computing Model Based on RNN

LIANG Sheng*

(School of Computer Science, Hunan University of Technology, Hunan Zhuzhou, 412007, China)

Due to the lack of corresponding measures of similarity in the management of the test-item database, there will be similar test items and duplicate test items in the test-item database. These high similarity questions will not only seriously affect the management of the test-item database, but also have an adverse effect on the assessment and assessment of knowledge, test system evaluation, etc. Therefore, it is necessary to adopt the necessary techniques to deal with similar questions in the knowledge base. In this chapter, the related researches on the similarity calculation of the test bank were carried out, and the related research on the similarity calculation model based on the recurrent neural network (RNN) was developed.

Test-Items; RNN; LSTM; TF-IDF; Similarity

10.19551/j.cnki.issn1672-9129.2018.01.007

TP39

A

1672-9129(2018)01-0015-03

梁圣. 基于RNN的試題相似度計(jì)算模型研究與實(shí)現(xiàn)[J]. 數(shù)碼設(shè)計(jì), 2018, 7(1): 15-17.

LIANG Sheng. Research and Implementation of Test-Items Similarity Computing Model Based on RNN[J]. Peak Data Science, 2018, 7(1): 15-17.

2017-11-05;

2017-12-17。

梁圣(1986-),男,漢族,廣西梧州人,碩士,湖南工業(yè)大學(xué),研究方向:數(shù)據(jù)挖掘。E-mail:2646069240@qq.com

猜你喜歡
文本實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 人妻无码AⅤ中文字| 精品一区二区久久久久网站| 亚洲AV无码一二区三区在线播放| 亚洲免费播放| 乱人伦中文视频在线观看免费| 亚洲国内精品自在自线官| 中文国产成人精品久久| 真实国产乱子伦视频| 香蕉久久国产精品免| 99久久国产综合精品2023| 国产精品久久久精品三级| 一级毛片免费不卡在线| 亚洲成综合人影院在院播放| 性色生活片在线观看| 性色一区| 狠狠五月天中文字幕| a级毛片免费在线观看| 久无码久无码av无码| 毛片免费高清免费| 国产网站黄| 欧美在线一二区| 成人一级黄色毛片| 无码中字出轨中文人妻中文中| 日韩午夜伦| 日本一区高清| 亚洲日韩高清无码| 亚洲一区毛片| 国产精品所毛片视频| 好紧太爽了视频免费无码| 婷婷综合亚洲| 亚洲国产AV无码综合原创| 国产网站在线看| 丝袜美女被出水视频一区| 国产成人精品18| 蜜桃视频一区二区| 在线精品自拍| 日本在线欧美在线| 无码人妻免费| 久久亚洲AⅤ无码精品午夜麻豆| 曰韩免费无码AV一区二区| 国产精品乱偷免费视频| 国产精品女熟高潮视频| 亚洲综合狠狠| 欧美精品在线免费| 国产一二三区视频| 青青青国产精品国产精品美女| 欧美激情第一区| 欧美视频二区| 国产精品大白天新婚身材| 亚洲国产成人无码AV在线影院L| 97se亚洲综合| www.狠狠| 老司国产精品视频91| 思思热精品在线8| 久久天天躁狠狠躁夜夜2020一| 国产精品亚洲欧美日韩久久| 成年免费在线观看| 国产高清在线丝袜精品一区| 国产拍揄自揄精品视频网站| 久久九九热视频| 婷婷激情亚洲| 国产精品香蕉在线| 国产H片无码不卡在线视频| 亚洲精品无码av中文字幕| 国产一区在线视频观看| www.亚洲天堂| 91丨九色丨首页在线播放| 尤物精品视频一区二区三区 | 4虎影视国产在线观看精品| 亚洲美女操| 欧美区国产区| 波多野结衣一区二区三区AV| 视频一区视频二区中文精品| 亚洲日韩日本中文在线| 欧美一区福利| 一本久道久综合久久鬼色| 在线网站18禁| 亚洲国产成人无码AV在线影院L| 久久久久无码国产精品不卡| 国内老司机精品视频在线播出| 亚洲区欧美区| 五月激情婷婷综合|