雷虎,任佳
(西安翻譯學(xué)院 陜西 西安710105)
基于Chi-quare檢驗(yàn)與詞義分析的試題重復(fù)檢測(cè)算法
雷虎,任佳
(西安翻譯學(xué)院 陜西 西安710105)
針對(duì)無(wú)紙化考試系統(tǒng)入庫(kù)試題重復(fù)檢測(cè)問(wèn)題;提出基于卡方檢驗(yàn)與詞義分析的試題重復(fù)檢測(cè)算法,首先自動(dòng)提取試題的特征信息詞項(xiàng),利用卡方檢驗(yàn)改進(jìn)公式進(jìn)行特征詞分析并刪除冗余詞;其次,結(jié)合中文WordNet詞典對(duì)特征詞進(jìn)行詞義分析,并利用Tf-Idf方法計(jì)算入庫(kù)試題的特征詞向量與不同題型特征詞的余弦相似度;最后,根據(jù)所得相似度值判別該試題是否與題庫(kù)試題重復(fù)。實(shí)驗(yàn)結(jié)果表明,在重復(fù)度閥值選取0.8時(shí),算法耗時(shí)少、準(zhǔn)確性高。
卡方檢驗(yàn);特征詞;語(yǔ)義;余弦相似度;試題重復(fù)度
基于信息技術(shù)的快速發(fā)展,無(wú)紙化考試系統(tǒng)已經(jīng)成為傳統(tǒng)考試改革的趨勢(shì)和方向。試題的質(zhì)量和題庫(kù)的試題量是無(wú)紙化考試系統(tǒng)高質(zhì)量高效率運(yùn)行的關(guān)鍵;為了適應(yīng)無(wú)紙化考試題庫(kù)中試題的數(shù)量和質(zhì)量要求,試題入庫(kù)時(shí),由于命題者之間的協(xié)調(diào)不周,題庫(kù)中試題重復(fù)時(shí)有發(fā)生,如入庫(kù)試題與試題庫(kù)中原有題目重復(fù)或組卷后一套測(cè)試試卷中因考點(diǎn)相同題型不同導(dǎo)致一試題題目包含另一試題答案等,都將影響無(wú)紙化考試系統(tǒng)的運(yùn)行效果。為了降低題庫(kù)中的試題重復(fù)度,命題老師在錄入試題時(shí),系統(tǒng)需要自動(dòng)檢測(cè)錄入試題與題庫(kù)中試題重復(fù)度,根據(jù)給定閥值判斷錄入試題在題庫(kù)中是否存在重復(fù)的試題?而算法的好壞直接影響到入庫(kù)試題是否與題庫(kù)中試題重復(fù)的準(zhǔn)確性,因此,對(duì)于無(wú)紙化考試系統(tǒng)的試題重復(fù)度檢測(cè)算法的研究至關(guān)重要。
試題重復(fù)度算法通常分為基于詞頻的相似度算法和基于語(yǔ)義分析相似度算法,邱云飛等人提出的基于詞頻的試題重復(fù)度算法沒(méi)有將同義特征詞進(jìn)行比較分析,算法效果不明顯,余弦相似性計(jì)算往往與預(yù)先給定的閾值有很大關(guān)系,而且穩(wěn)定性不好,當(dāng)閾值確定不準(zhǔn)確將嚴(yán)重影響最終結(jié)果,因此基于詞頻的相似度檢測(cè)算法不能很好進(jìn)行試題重復(fù)度地區(qū)分[1-3];基于語(yǔ)義的相似度算法從試題中抽取TF-IDF值較大的特征詞,然后進(jìn)行特征詞的位置和詞義分析,從而計(jì)算出基于語(yǔ)義和詞頻的試題重復(fù)度。此方法對(duì)試題重復(fù)度檢測(cè)的精度較高,但因建立特征詞的語(yǔ)義庫(kù)比較困難,黃承慧、李明濤等人結(jié)合語(yǔ)義特性進(jìn)行文本相似度計(jì)算,盡管對(duì)詞語(yǔ)的語(yǔ)義關(guān)系進(jìn)行了分析,但卻沒(méi)有將詞語(yǔ)本身的特性(如詞頻、冗余等)進(jìn)行分析計(jì)算,所得相似度算法復(fù)雜,而且效率不高不高[4-7]。
文中提出的基于卡方檢驗(yàn)的語(yǔ)義相似度算法:預(yù)先自動(dòng)提取出入庫(kù)試題的特征信息詞項(xiàng),利用卡方檢驗(yàn)進(jìn)行驗(yàn)證并刪除冗余詞,結(jié)合中文WordNet詞典進(jìn)行詞義分析和入庫(kù)試題與題庫(kù)中試題的余弦相似度計(jì)算,根據(jù)給定閥值,即可得到入庫(kù)試題與題庫(kù)試題是否存在重復(fù),以此方法計(jì)算出試題重復(fù)度更加準(zhǔn)確。
1.1Tf-Idf方法
TF-IDF方法是基于特征詞之間相互獨(dú)立的一種試題特征詞提取方法,運(yùn)算效率高。在提取特征詞時(shí),將試題的文本信息按照一定的邏輯次序劃分成一組特征詞序列,再根據(jù)所得特征詞分解成相同詞義的候選特征詞序列,利用余弦定理計(jì)算候選特征詞序列的相似度,確定候選特征詞構(gòu)成試題特征詞的概率,提高提取特征詞的準(zhǔn)確度。要實(shí)現(xiàn)試題文本的重復(fù)度檢測(cè),就需要對(duì)試題文檔進(jìn)行向量表示,向量空間模型(Vector Space Model,VSM)是一種經(jīng)典的文檔向量化表示方法,常用來(lái)進(jìn)行相似度計(jì)算的數(shù)據(jù)模型。任一試題都能提取出一組特征詞,按照特征詞在試題中的重要程度進(jìn)行權(quán)重分配,然后進(jìn)行規(guī)范化正交特征詞向量組成向量空間。所有要錄入的試題文檔都可表示為向量(T1,Q1,T2,Q2,…,Tn,Qn),Ti為特征向量;Qi為特征詞Ti的權(quán)重值,通常需要構(gòu)造一個(gè)關(guān)于特征詞的權(quán)重計(jì)算函數(shù)用來(lái)判斷試題文檔的重復(fù)度。
詞頻(Term Frequency,TF),表示一個(gè)詞語(yǔ)在一文檔中出現(xiàn)的頻率。TF主要思想:一個(gè)詞語(yǔ)w1在文本D中出現(xiàn)的頻率較高而在文本E中出現(xiàn)的頻率較低,w1詞語(yǔ)就具有很好的區(qū)分能力,也稱為該詞語(yǔ)貢獻(xiàn)度較大。反文檔頻率(Inverse Document Frequency,IDF)的主要思想是:IDF越大,包含詞語(yǔ)w1的文檔越少,w1具有很好的區(qū)分能力。文檔d1和文檔d2的關(guān)鍵詞語(yǔ)的TF/IDF分別是w11,w12,...w1n和w21,w22,...,w2n。
1.2Chi-quare檢驗(yàn)
Chi-quare檢驗(yàn)是以檢驗(yàn)統(tǒng)計(jì)量χ2分布為基礎(chǔ)一種非參數(shù)檢驗(yàn):設(shè)入庫(kù)試題的特征詞行向量為x=(x1,…..,xn),題庫(kù)中試題的特征詞列向量y=(y1,。..yp),其中n、p分別是入庫(kù)試題和庫(kù)中試題所含特征詞的數(shù)目。x和y為文檔中含有相同特征詞(或同義特征詞)的相似度。Oi表示觀察頻數(shù),Ei表示期望頻數(shù),n為總頻數(shù),pi為i水平的期望頻率。統(tǒng)計(jì)量χ2值越大,表示觀察頻數(shù)和期望頻數(shù)差額越大;統(tǒng)計(jì)量χ2值越小,說(shuō)明觀察頻數(shù)和期望頻數(shù)越接近[9]。

當(dāng)某一試題特征詞t和試題類別k之間的相關(guān)程度滿足卡方分布時(shí),m1表示類別k中包含t的文檔頻數(shù),m2表示不在類別k中包含t的文檔頻數(shù),m3表示類別k中不含t的文檔頻數(shù),m4表示不在k中不含t的文檔頻數(shù),則卡方檢驗(yàn)中χ2的統(tǒng)計(jì)量可以表示為:

χ2值越高表明特征詞t與類別k的相關(guān)性就越大,式(2)計(jì)算時(shí)當(dāng)m1×m4-m2×m3>0時(shí),所得值越大表示特征詞t與試題類別ck中特征詞相關(guān)性就越大,特征詞在試題類別k中出現(xiàn)的次數(shù)就越多,即特征詞屬于的類別k的概率越大;當(dāng)值為零時(shí)表示試題類別k與特征詞t無(wú)關(guān),即特征詞t與試題類別特征詞相互獨(dú)立。對(duì)于試題的所有試題類型計(jì)算特征詞χ2值,并按式(3)進(jìn)行排序后刪除所有類別的低于閥值的試題特征詞。

當(dāng)m1×m4-m2×m3<0時(shí),表示特征詞t與屬于類別k的概率較小,但在其他試題類別中出現(xiàn)的概率較大,這時(shí)χ2(kt)也較大,表明卡方檢驗(yàn)的統(tǒng)計(jì)量χ2(kt)增大了試題特征詞與類別k的相關(guān)性較小而與其他類別相關(guān)性較大的特征詞的權(quán)重值,而且題庫(kù)中同種類別試題數(shù)量較大,特征詞構(gòu)成復(fù)雜,入庫(kù)試題特征詞與題庫(kù)試題特征詞進(jìn)行卡方驗(yàn)證時(shí)算法運(yùn)算量較大,不僅提高了算法的復(fù)雜度而且影響了算法的準(zhǔn)確性。這也是卡方檢驗(yàn)進(jìn)行特征詞類別相關(guān)性驗(yàn)證時(shí)的不足之處。
特征詞的提取算法直接影響試題重復(fù)度檢測(cè)的準(zhǔn)確度,通過(guò)上述的卡方檢驗(yàn)的不足分析,在提取入庫(kù)試題的特征詞時(shí)減少題庫(kù)類別和綜合考慮特征詞與其他類別試題特征詞的集中度和分散度改進(jìn)Chi-quare檢驗(yàn)的χ2計(jì)算。
1)建立同類試題模板,確定題庫(kù)中各類試題的關(guān)鍵特征詞和候選特征詞庫(kù)。針對(duì)無(wú)紙化考試系統(tǒng)的試題類型較少,試題內(nèi)容較少的特點(diǎn),在開(kāi)始構(gòu)建題庫(kù)之前建立各種題型(如選擇、操作、計(jì)算題型)模板,并將模板的詞匯構(gòu)成題庫(kù)類別關(guān)鍵特征詞向量Ki={t1,t2,……tn},i為試題的種類,題庫(kù)中每道試題除關(guān)鍵特征詞外的其他貢獻(xiàn)度較大的詞匯組成候選特征詞Li={tf1,tf2,……tfn}。這樣不僅減小了命題的難度而且大大縮小了題庫(kù)試題的特征詞范圍,減少了進(jìn)行特征詞卡方驗(yàn)證時(shí)的算法復(fù)雜度。
2)集中度。集中度表示試題特征詞ti在所屬題型中,同時(shí)也存在其他題型中,f(tm)表示入庫(kù)試題特征詞t在試題類別km中出現(xiàn)的文檔個(gè)數(shù),集中度?計(jì)算公式為:

3)分散度。分散度表示試題特征詞ti在所屬題型中,同時(shí)也在其他題型中,f(tm)表示入庫(kù)試題特征詞t在試題類別km中出現(xiàn)的文檔個(gè)數(shù),分散度為f(tm)。
改進(jìn)Chi-quare檢驗(yàn)的χ2計(jì)算公式如下:

卡方統(tǒng)計(jì)量計(jì)算的改進(jìn)公式引入了集中度和分散度兩個(gè)因子,并對(duì)相同試題類型建立試題模板,形成特定類的特征詞庫(kù),使公式(2)增大了特征詞在某一題型類中出現(xiàn)頻率低而在其他類中出現(xiàn)次數(shù)較多的的權(quán)值問(wèn)題得到了解決。
1.3同義特征詞相似度計(jì)算
傳統(tǒng)試題重復(fù)度算法,特征詞權(quán)重采用TF-IDF計(jì)算得出,特征詞的同義詞沒(méi)有被考慮,導(dǎo)致試題的重復(fù)度檢測(cè)僅限于字面意思,遺漏了試題同義特征詞的重復(fù)度檢測(cè)。利用專業(yè)工具詞典對(duì)試題特征詞加權(quán)檢測(cè),算法準(zhǔn)確性高,但特征詞典與同義詞典的建立困難;對(duì)于試題文本中的任意兩個(gè)特征詞,如果在試題中的相同位置可以互相替換而試題表達(dá)的意思一致,則認(rèn)為這兩個(gè)特征詞的相似度大,否則相似度小。對(duì)詞義是影響特征詞相似度的關(guān)鍵因素,特征詞相似程度可以用特征詞的詞義相似度來(lái)衡量。
入庫(kù)試題的同義特征詞向量Sa={(ta1),f(ta2),…f(tai)}和題庫(kù)試題的特征詞向量Sb={tb1,tb2,……,tbj},其中f(t1)表示入庫(kù)試題特征詞ta1的所有同義詞向量,同義特征詞向量有中文WordNet詞典提取出來(lái);Sa和Sb中特征詞及同義特征詞向量的相似度能夠確定Sa和Sb分別對(duì)應(yīng)的試題的重復(fù)度,基于同義詞的特征詞相似計(jì)算中的權(quán)值Q由特征詞的TF-IDF值計(jì)算,公式如下:

其中,Tfidf(tjk)=Tf(tjk)×Idf(tjk)×γ,Idf(tjk)=log,γ為特征詞的權(quán)重值;Tf(tjk)可由特征詞tjk在試題中出現(xiàn)的次數(shù)除以題庫(kù)試題總數(shù)計(jì)算。由此可見(jiàn),TfIdf值與特征詞tjk在試題中的出現(xiàn)次數(shù)成正比,與特征詞tjk在題庫(kù)中的出現(xiàn)次數(shù)成反比。兩個(gè)特征詞向量的余弦相似度公式為:

試題特征詞的詞義相似度可用特征詞的同義詞向量的相似度計(jì)算,公式如下:

試題的重復(fù)度可以由試題同義特征詞向量與題庫(kù)中試題特征詞向量的相似度計(jì)算,而試題同義特征詞向量與題庫(kù)中試題特征詞向量的相似度計(jì)算通過(guò)同義特征詞向量的相似度Fv和特征詞的余弦相似度Cs進(jìn)行運(yùn)算,公式為:

2.1特征詞提取
首先,試題特征信息預(yù)處理。通過(guò)詞性標(biāo)注、語(yǔ)義標(biāo)注的方法進(jìn)行特征詞分詞,用特征詞表示試題信息,并完成提取特征詞和刪除停用詞(如的、和、在等詞)。題庫(kù)中的試題信息提取特征詞后形成試題的特征詞向量,每個(gè)特征詞在試題中的貢獻(xiàn)不同。為了建立特征詞空間向量模型,需要從含有大量特征詞的試題信息中選取貢獻(xiàn)較大的特征詞。
其次,特征詞權(quán)重計(jì)算。向量空間模型將試題文本信息表示為數(shù)字形式,但特征向量維數(shù)較大。因此需要對(duì)特征詞進(jìn)行權(quán)重排序,選取權(quán)重較大的特征詞,將那些高度冗余的或者對(duì)試題重復(fù)率區(qū)分貢獻(xiàn)不大的特征項(xiàng)刪除。選取詞頻高的同義詞為候選特征詞,并對(duì)每個(gè)同義詞根據(jù)詞語(yǔ)相似度加權(quán),給同義詞加權(quán)時(shí),如無(wú)同義詞,則Sim(ti,tj)值為0。

最后,相似度計(jì)算:將優(yōu)化得到的特征詞及候選特征詞,形成特征詞向量。用卡方檢驗(yàn)計(jì)算ti與其同義詞之間的相似度,將所得Sim值與β比較,若Sim值大于β,則給ti加權(quán)并刪除ti同義詞;若Sim值小于β,表示該同義詞無(wú)關(guān)緊要,可以直接刪除該同義詞;計(jì)算完所有詞語(yǔ)的權(quán)重后,找出權(quán)重最大的前N個(gè)詞語(yǔ)作為試題信息的特征詞。
2.2基于卡方檢驗(yàn)與詞義分析的試題重復(fù)檢測(cè)算法
卡方檢驗(yàn)與詞義分析的試題重復(fù)檢測(cè)算法設(shè)計(jì)如下:
1)在無(wú)紙化考試系統(tǒng)中的試題入庫(kù)時(shí),需要對(duì)入庫(kù)試題預(yù)先利用工具軟件NLPIR分詞系統(tǒng)提取試題的特征信息詞項(xiàng),然后對(duì)特征信息詞項(xiàng)與題庫(kù)中試題的特征詞進(jìn)行卡方(χ2)統(tǒng)計(jì)量改進(jìn)公式(5)進(jìn)行檢驗(yàn),刪除冗余詞項(xiàng),構(gòu)成試題的同義特征詞行向量Sa={ta1,ta2,…tai},題庫(kù)中所有試題的特征詞樣本向量Sb構(gòu)成列向量,利用中文WordNet詞典找出行向量中的特征詞Ta1在列向量Sb中的同義特征詞Tbk,形成Sa的同義特征詞向量Sf(a)={(ta1),f(ta2),…f(tai)}。
2)將行向量Sa中每個(gè)特征詞與列向量Sb的相似度之和除以Sa中特征詞的個(gè)數(shù)K作為向量Sa與Sb的詞義相似度,用Fv(Sa,Sb)表示。
3)特征詞的TF-IDF權(quán)值由公式(7)計(jì)算,向量Sa和向量Sb的余弦相似度Cs(Sa,Sb)由公式(7)得出,由公式(6)計(jì)算集合Sa和Sb中的元素加權(quán)因子Q。
4)由公式(9)計(jì)算得到的同義特征詞向量的相似度,即為Sf(a)和Sb代表的試題之間的重復(fù)度。
5)以此類推,得出行向量Sa與所有列向量Sb的試題重復(fù)度,如存在一個(gè)大于給定的試題重復(fù)閥值時(shí),則此試題與題庫(kù)中試題存在重復(fù),不能入庫(kù);如所有值都在限定的重復(fù)度閥值范圍之內(nèi),則表明入庫(kù)試題與題庫(kù)中現(xiàn)有試題沒(méi)有重復(fù),可以入庫(kù)。
算法中因試題特征詞在提取和確認(rèn)時(shí)會(huì)受試題文本的長(zhǎng)度影響,因此,實(shí)驗(yàn)時(shí)選擇Access計(jì)算機(jī)等級(jí)考試二級(jí)題庫(kù)作為實(shí)驗(yàn)數(shù)據(jù),題庫(kù)中已有1 560道試題?,F(xiàn)有450道試題準(zhǔn)備入庫(kù),首先將準(zhǔn)備入庫(kù)的試題1利用工具軟件NLPIR進(jìn)行分詞,然后利用卡方檢驗(yàn)進(jìn)行特征詞詞義相似度計(jì)算,刪除冗余詞。其次利用TF-IDF算法對(duì)特征詞進(jìn)行權(quán)值計(jì)算,并利用中文WordNet詞典進(jìn)行語(yǔ)義相似度計(jì)算,最后計(jì)算出試題文本特征詞與題庫(kù)中試題2的相似度,即可得到入庫(kù)試題與題庫(kù)試題的文本相似度。

表1 試題信息表
入庫(kù)試題經(jīng)過(guò)工具軟件NLPIR分詞系統(tǒng)預(yù)處理后,得到試題的特征信息詞項(xiàng)格式如表2所示。
在卡方進(jìn)行特征詞檢驗(yàn)時(shí),用類別數(shù)的倒數(shù)、某特征項(xiàng)在某類中文檔覆蓋率的大小、某特征項(xiàng)在某類文本中出現(xiàn)的頻率對(duì)檢測(cè)試題的特征詞進(jìn)行降維處理,再利用手工方法進(jìn)行特征詞重復(fù)度準(zhǔn)確度評(píng)估。實(shí)驗(yàn)過(guò)程中,特征詞閥值分別選取試題文本的60%、70%、80%進(jìn)行特征詞提取,實(shí)驗(yàn)結(jié)果表明,當(dāng)選取試題文本長(zhǎng)度的60%的特征詞時(shí),試題特征詞的重復(fù)度計(jì)算效果最好;當(dāng)閥值為80%時(shí),因?yàn)樘卣髟~較多,增加了算法的復(fù)雜度。表3為3種算法在試題重復(fù)度閥值取0.6,、0.8、0.9值時(shí)認(rèn)為試題重復(fù)的準(zhǔn)確率和耗費(fèi)時(shí)間的對(duì)比分析表。

表2 預(yù)處理后的試題特征信息表

表3 3種算法的重復(fù)度檢測(cè)結(jié)果比較
圖1為3種算法在試題量為450,試題余弦重復(fù)度閥值分別取0.6,、0.8、0.9時(shí)的算法準(zhǔn)確性比較圖,圖2為3種算法在試題量為450,試題余弦重復(fù)度閥值分別取0.6,、0.8、0.9時(shí)的算法耗費(fèi)時(shí)間比較圖。

圖1 3種算法在不同閥值的準(zhǔn)確性分析圖
實(shí)驗(yàn)時(shí),對(duì)入庫(kù)的450道試題分別運(yùn)用3種算法進(jìn)行比較,算法A表示基于詞頻的余弦相似算法,算法B表示基于詞頻和語(yǔ)義相結(jié)合的余弦相似算法,算法C表示基于卡方檢驗(yàn)的試題語(yǔ)義重復(fù)度余弦算法;由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):當(dāng)算法C的特征詞閥值選取試題文本長(zhǎng)度的60%,特征詞余弦相似度閥值取0.8時(shí),計(jì)算試題重復(fù)度準(zhǔn)確性最高、耗費(fèi)時(shí)間較短。

圖2 3種算法在不同閥值的耗費(fèi)時(shí)間分析圖
本文利用卡方統(tǒng)計(jì)量對(duì)試題的特征詞進(jìn)行了修正,使得特征詞同時(shí)兼顧詞頻和詞義要素,為試題的重復(fù)度檢測(cè)提供重要依據(jù)。實(shí)驗(yàn)結(jié)果表明根據(jù)本文算法計(jì)算得出的試題重復(fù)度能夠有效減少題庫(kù)中試題的重復(fù)率,減少了運(yùn)算的復(fù)雜度,并大大提高了運(yùn)算準(zhǔn)確性。目前,無(wú)紙化考試系統(tǒng)正處于不斷完善與發(fā)展中,文中算法的語(yǔ)義相似度僅從中文WordNet詞典進(jìn)行語(yǔ)義分析,因涉及同義詞范圍較大導(dǎo)致算法效率不高,后期的研究可根據(jù)不同的考試科目建立專業(yè)詞典,并根據(jù)不同的試題類型設(shè)置試題模板,以此為基礎(chǔ)設(shè)計(jì)更加合理的試題重復(fù)度算法。
[1]邱云飛,王 威,劉大有,等.一種詞頻與方差相結(jié)合的特征加權(quán)方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(6):2132-2134.
[2]謝 華,王 健,林鴻飛,等.基于特征選擇的質(zhì)心向量構(gòu)建方法[J].計(jì)算機(jī)工程,2012,38(1):195-210.
[3]Selvi P,Gopalan N P.Sentence similarity computation based on WordNet and corpus statistics[C]//roceedings of International Conference on Computational Intelligence and Multimedia Applica-tions.Washington,DC:IEEE Computer Society,2007:9-14.
[4]李明濤,羅軍勇,尹美娟,等.結(jié)合詞義的文本特征詞權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2012,32(5):1355-1358.
[5]Guan Hu,Zhou Jingyu,Guo Minyi.A Class-feature-centroid Classifier for Text Categorization[C]//Proc.of 2009 www Conference.Madrid,Spain:IEEE Press,2009:201-210.
[6]黃承慧,印鑒,侯昉.一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
[7]任姚鵬,陳立潮,張英俊,等.結(jié)合語(yǔ)義的特征權(quán)重計(jì)算方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(10):2381-2387.
Algorithm of feature terms semantic similarity based on chi-square test
LEI Hu,REN Jia
(Xi'an Fan Yi university,Xi'an 710105,China)
According to the question repeatability problem of paperless examination.The algorithm of Feature semantic similarity is proposed based on Chi square test.First,automatic extraction of words features information from the question,delete the redundant words by test,Second,analysis feature words semantic under the Chinese WordNet Dictionary,and calculate the cosine similarity of feature vectors by using the TF-IDF method,Finally,according to the result to determine whether the question is put into question database.The experimental result shows that the algorithm is good robustness,high accuracy,high efficiency under the threshold selection 0.8.
chi-square test;feature terms;semantic;cosine similarity;question redundancy
TN919
A
1674-6236(2016)13-0026-04
2015-07-03稿件編號(hào):201507038
陜西省高等教育教學(xué)改革研究重點(diǎn)項(xiàng)目(13BZ69);陜西省教育廳專項(xiàng)科學(xué)研究項(xiàng)目(16JK2078)
雷 虎(1976—),男,陜西西安人,碩士。研究方向:數(shù)據(jù)挖掘與圖像處理。