999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義相似度的主觀題評分算法研究

2012-12-26 06:44:22張立巖張世民
河北科技大學學報 2012年3期
關鍵詞:語義計算機文本

張立巖,張世民

(河北科技大學信息科學與工程學院,河北石家莊 050018)

基于語義相似度的主觀題評分算法研究

張立巖,張世民

(河北科技大學信息科學與工程學院,河北石家莊 050018)

主觀題閱卷系統在目前較受人們的關注。主觀題評分原則常見的是對比試卷答案與參考答案的相似程度,進而得出分數。利用自然語言處理分詞技術將文本切分為詞的組合,然后通過改進語義相似度算法,計算句子相似度,進而得到試卷答案和參考答案的相似程度,給出分數。

主觀題;分詞;語義相似度

考試在任何教育體系中都是不可缺少的重要環節,是考察、評估學生能否真正掌握相應知識、技術的較為有效的檢驗手段。在考試中主觀題占有相當大的比例。主觀題的分值評定較直觀、全面地反映了學生掌握知識的程度,并且對于考試分數具有重要的影響。但人工閱卷對主觀題評閱受到多種因素干擾,并不能高效、準確地完成。研究一種智能主觀題閱卷系統取代人工閱卷成為教育系統的一個重要任務。筆者研究的主觀題閱卷系統主要解決主觀性很強的題目(例如論述題、簡答題等)的評分算法問題。

1 主觀題評分算法相關理論

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向[1]。主觀題評分主要涉及中文分詞理論和語義相似度計算問題。

1.1 中文分詞理論

中文分詞理論主要研究漢字中詞與詞的分隔。中文分詞包括3種方法:1)基于字符串匹配的分詞;2)基于理解的分詞;3)基于統計的分詞。

根據系統的要求和特點采用基于字符串匹配分詞方法。它是按照一定的策略將待分析的漢字串與一個充分大的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出1個詞)[2]。考慮到逆向最大匹配法分詞較為準確,所以系統采用逆向最大匹配法。

1.2 中文文本相似度

文本相似度是表示2個或多個文本之間匹配程度的一個度量參數,相似度越大,說明文本相似程度越高,反之越低。采用基于文本表面特征的相似度計算方法不需要大規模語料庫的支持,也不需要長時間的訓練,準確率較高。

對于文本A和文本B的相似度通常由詞形相似度決定,詞形相似度的計算公式[3]如式(1)所示。

其中number(A),number(B)代表文本A和B中分詞的個數,Sim(A,B)代表文本A,B的相似度,但僅僅這樣計算,精確度不高。需對算法進行改進。

1)將文檔分成若干詞條,由T={T1,T2,…,Tn}組成。計算詞語Ti在文本中的權值Wi,加入評估參數δ。如果Wi≥δ,則詞語Ti被提取出來并加入特征向量中,否則,不加入。評估參數δ決定文本特征向量維度的閾值,根據多次實驗的數據獲得。這樣可降低計算效率,降低計算復雜性。

2)對于文本A和文本B,通過中文分詞、特征向量提取和降維的步驟后得到詞條向量分別為TA={A1,A2,…,An},TB={B1,B2,…,Bn},由式(1)可得到矩陣M(n,n)={|Sij|,即向量TA中第i個詞與向量TB中第j個詞的相似度}。引入評估參數δ,如果相似度矩陣中的元素Sij≥δ,2個詞語相似度較高,這個元素就被保留下來用于在算法中構建最長公共子序列矩陣中的一個判斷條件。評估參數δ是決定相似度高低的閾值,根據多次實驗的數據獲得。

3)利用2個文本得出的詞條向量以及上述判斷語義相似的條件構建2個文本的公共子序列矩陣,從而求2個文本的最長公共子序列長度,最后用求得的長度之比計算2個文本的相似度。

2 算法實現

基于語義相似度的中文文本相似度算法流程。

步驟1:讀取2個需要比較的文本A,B,并對文本A,B進行分詞。

步驟2:文本包含的詞為T={T1,T2,…,Ti,…,Tn},計算Ti在文本中的權重Wi,得到權重向量W={W1,W2,…,Wi,…,Wn},其中Wi=n×log(M/m)。n為Ti出現的次數,m為其他文本中Ti出現的次數,M為文本的總數。

步驟3:依據上節算法2)對特征向量進行提取和降維,并根據式(1)生成降維后的相似度矩陣Sij。

步驟4:將2個特征向量存入數組arr(A)和arr(B)中,計算2個特征向量的長度L(A)和L(B)。

步驟5:構建最長公共子序列矩陣C[L(A)×L(B)],矩陣大小為L(A)×L(B)。

3 分數評定

在評閱系統設計中,對于某道題,相似度高于Hi的試卷給予最高分HighScorei,語義相似度低于Li的給予最低分LowScorei,相似介于最低與最高之間的,利用式(2)計算得分:

這樣對于有m道試題的答卷,其總分由式(3)求得:

4 測試結果與分析

為檢驗算法分析文本的能力以及系統對試卷評閱結果的準確程度,進行計算機自動閱卷與人工閱卷方法的比較并計算其實際誤差率。計算機自動閱卷方法總分表示為C(sum),人工閱卷總分表示為P(sum),試卷中的實際總分表示為R(sum),誤差率η的計算公式:

隨機抽取500份語文試卷作為樣本空間進行手工評分和計算機自動評分,并將結果進行比較,比較結果的部分樣本如表1所示。

由表1可以看出計算機閱卷系統的自動評閱方法與人工閱卷方法相比,實際的誤差率相對較小,并且計算機閱卷受人為干擾因素很少,在一定的允許誤差范圍之內,表明該閱卷系統具有較好的準確性和客觀性,同時在時間上,系統評閱的優勢更加明顯。

表1 手工評分和計算機自動評分結果比較Tab.1 Result comparison of manual score with auto-grade by computer

5 結 論

主觀題的智能閱卷是計算機自動閱卷系統必然選擇。模擬了閱卷評定主觀題時的思維,對基于語義的相似度算法進行了改進,為主觀題評分提供了計算公式。當然,測評科目不同,評估使用的參數設置會有所變化,算法在實際應用中參數修正方面還有待深入研究。

[1] 梁 娜,耿國華,周明全.自然語言處理中的語義關系與句法模式互發現[J].計算機應用研究(Application Research of Computers),2008,25(8):2 295-2 298.

[2] 付年鈞,彭昌水,王 慰.中文分詞技術及其實現[J].軟件導刊(Software Guide),2011,10(1):18-20.

[3] 王常亮,騰至陽.語句相似度計算在FAQ中的應用[J].計算機時代(Computer Era),2006(2):24-26.

[4] 侯貴賓,曹衛東.一種面向自然語言表達的不確定時態數據的建模方法[J].河北科技大學學報(Journal of Hebei University of Science and Technology),2010,31(5):463-467.

Algorithm of subjective item marking based on semantic similarity

ZHANG Li-yan,ZHANG Shi-min
(College of Information Science and Engineerning,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)

Subjective item marking system has been a study focus.The common method is to contrast the answers with the reference answers to form a score.This paper uses the technology of natural language processing participle to divide a sentence into the assemble of phrases,and then get the score by computing a sentence similarity degree with improved semantic similarity algorithm.

subjective item;participle;semantic similarity

TP391

A

1008-1542(2012)03-0263-03

2011-11-21;責任編輯:陳書欣

張立巖(1970-),女,河北藁城人,副教授,碩士,主要從事分布式應用開發方面的研究。

猜你喜歡
語義計算機文本
計算機操作系統
語言與語義
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
Fresnel衍射的計算機模擬演示
主站蜘蛛池模板: 91在线国内在线播放老师| 午夜国产大片免费观看| 国产在线98福利播放视频免费| 一级全黄毛片| 国产00高中生在线播放| 国产一区二区三区免费观看| 国产成人久视频免费| 国产欧美日韩综合在线第一| 国产高清不卡视频| 欧美精品亚洲精品日韩专区va| 亚洲国产清纯| 婷婷午夜天| 免费又爽又刺激高潮网址| 国产精品视频a| 国产福利免费在线观看| 国产精品jizz在线观看软件| 国产精品成人不卡在线观看| 欧美 国产 人人视频| 国模在线视频一区二区三区| 国产午夜无码片在线观看网站| 国产午夜无码专区喷水| 国产成年女人特黄特色毛片免 | 91综合色区亚洲熟妇p| 看你懂的巨臀中文字幕一区二区 | 91青青视频| 爽爽影院十八禁在线观看| 久久免费精品琪琪| 国产精彩视频在线观看| 亚洲综合香蕉| 免费国产高清视频| 欧美一道本| 特级毛片免费视频| 自偷自拍三级全三级视频 | 91网站国产| 99视频在线免费| 5388国产亚洲欧美在线观看| 久久国产精品无码hdav| 高h视频在线| 国产午夜不卡| 人妻精品久久久无码区色视| 欧美色图久久| 91po国产在线精品免费观看| 亚洲乱码精品久久久久..| 国产男人的天堂| 欧美成人A视频| 无码AV高清毛片中国一级毛片| 青青青国产在线播放| a亚洲天堂| 狠狠做深爱婷婷久久一区| 亚洲AV无码久久精品色欲| 丝袜国产一区| 精品亚洲麻豆1区2区3区| 色老头综合网| 国产极品粉嫩小泬免费看| 婷婷亚洲视频| 久久夜色精品| 欧美色图第一页| 尤物午夜福利视频| 国产后式a一视频| 亚洲精品日产AⅤ| 欧美综合中文字幕久久| 3344在线观看无码| 精品国产污污免费网站| 国产精品免费福利久久播放| 在线五月婷婷| 波多野结衣的av一区二区三区| 少妇精品在线| 一本一本大道香蕉久在线播放| 欧洲日本亚洲中文字幕| 99久久无色码中文字幕| 国产剧情一区二区| 久久中文字幕不卡一二区| 亚洲天堂久久| 国产成人乱无码视频| 国产精品v欧美| 婷婷午夜天| av大片在线无码免费| 成人字幕网视频在线观看| 国产免费a级片| 国产极品美女在线| 国产精品刺激对白在线| 国产成人综合网在线观看|