999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞技術在智能評分系統中的應用研究

2014-04-29 00:00:00張微微
消費電子·下半月 2014年1期

摘 要:在計算機考試系統開發過程中,對于主觀題的智能評分一直是重點,也是難點,而在主觀題評分中首要解決的問題就是中文分詞技術,本文就現有的中文分詞技術做分析比較,并根據智能評分系統應用研究中具體做法做出分析。

關鍵詞:中文分詞;依據詞典;智能評分系統

中圖分類號:TP391 文獻標識碼:A 文章編號:1674-7712 (2014) 02-0000-01

隨著信息技術的普及和發展,計算機智能閱卷已經得到了廣泛的應用,如:大學英語等級考試、計算機等級考試等國家級考試中的客觀題都參用了計算機智能閱卷。同時一些遠程考試系統在主觀題智能評分方面也取得了許多成果,中文分詞是自然語言處理系統中的重要步驟,而主觀題智能評分首要解決的問題就是中文分詞,本文試從現有的中文分詞技術進行了探討,并就智能評分系統中的應用做出研究分析。

一、中文分詞技術概述

中文分詞是指按照一定的算法,將一個中文序列切分成一個一個單獨的詞。分詞就是計算機自動識別文中詞的邊界的過程。我們知道,在英文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,人工在閱讀時,都需要通過對句子分詞才能正確理解意思,可見中文分詞技術對主觀題智能評分有著重要的意義。

二、現有的中文分詞技術

在近30年的研究中,各位開發人員研究了中文分詞技術在詞典和概率方面統計的一些算法。目前中文分詞主要算法有三大類:依據詞典的分詞方法,依據統計的分詞方法,依據理解的分詞方法。

下面簡要介紹一下這些算法。

(一)依據字典的分詞算法。又名機械分詞算法,此方法是根據詞庫確立詞典,然后以一定策略將準備分析的中文字符串和這個詞典中的各詞進行比對,如果在詞典中能找到,則比對成功,那么就需要一個相當大容量的中文詞典,詞典的詞語越廣泛,分詞的越準確。

依據比對方向的不一樣可分為正向比對和逆向比如;依據長度比對的情況,分為最大比對和最小比對;其中最常用的方法是正向最大比對法和逆向最大比對法。

正向最大比對法(Maximum Matching Method,其主要思想為:從待匹配的文本串最左端開始,依次取出1,2,3,…n個字符來與已有的詞典比較,看看在詞典中是否有這個詞,若有,則匹配成功,將它放入詞隊列或數組中暫存,接著對中文語句/字串中剩余的部分進匹配,直到全部分詞完畢。正向最大匹配算法按照從左到右的順序進行匹配,在分詞要遵循所謂的最大化原則,即確保已掃描出的詞不是某個已存在詞的前綴。

逆向最大比對法(Reverse Maximum Matching Method)。RMM法的主要原理與MM法相同,區別在于分詞的掃描方向。

如A代表詞典,MAX表示A中的最長文本串長度,string為準備切分開的字符串。MM法是從string中取出長度為MAX的子串(即最長文本串)和A中的詞條進行比對。如果成功,那么該子串為詞,然后指針向后移MAX個漢字后繼續比對,否則該子串每次減少一個進行比對。

由于漢語多數情況下中心詞位置相對靠后,所以逆向最大匹配法的精度要高于正向最大匹配法,在實際應用中通常將正向最大匹配算法與逆向最大匹配算法兩者結合起來使用,這樣可提高分詞結果的正確率。

(二)依據統計的分詞算法。該方法的主要思想:詞是穩定的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。從統計學上講就是求概率的問題,可以通過對訓練文本中相鄰出現的各個字的組合的頻率進行統計學習,計算它們的互現信息得出規律。在中文處理時,如果文本串中的字與字互現信息大于某個值時,就可以判斷此字組可能構成了一個詞。該方法又稱為無字典分詞。

互現信息的計算,設有詞A和B,AB之間的互現信息為:

M(A,B)= 其中 為A、B相鄰出現的頻率, 為A出現的頻率, 為B出現的頻率。

(三)依據理解的分詞算法。該方法又稱依據人工智能的分詞方法,這種方法模擬了人對句子的理解過程,其基本思想就是對文本串進行句法、語義理解,并利用句法信息和語義信息來進行分詞并處理歧義現象。

此算法一般包括三個部分:分詞子系統、句法語義子系統和總控部分。分詞子系統是在總控部分的協調下,來得到有關的詞、句子等的句法,通過語義信息對分詞中的歧義進行判斷的。此分詞方法通常使用較大量的語言知識及信息。由于漢語中語言知識較為籠統、復雜,很難將各種語言信息完全組織成機器可直接讀取的形式,因此目前依據理解的分詞系統還不成熟。

三、中文分詞算法在智能評分系統中的應用

就以往客觀題人工閱卷過程來看,教師通常首先查看正確答案中的關鍵點,然后再與學生答案對比,通過學生答對關鍵點所占的比重來確定學生得分情況。基于這樣的閱卷過程,嘗試通過中文分詞模擬人工閱卷過程。

首先,題庫中試題要配有相應的答案及關鍵點,記為一個集合,如:關鍵字={K1,K2,K3….Kn}。在對學生的答案使用中文分詞技術中MM法和RMM法結合,得出學生答案中所占關鍵詞的比例,給相應的得分。

四、結束語

本文就現有的中文分詞技術做出了分析,系統地闡述了三種算法,他們都有各自的優缺點:首先依據詞典的分詞算法簡單,易于實現,不足在于比對速度慢,歧義問題較難解決;依據統計的分詞算法可以發現所有的歧義切分,但統計語言的精度和決策算法又在很大程度上決定了解決歧義的方法,并且速度較慢。后面又分析了中文分詞算法在智能評分系統中的應用,具體采用了依據詞典的分詞算法。由于中文的復雜性,決定了中文分詞技術還不夠成熟,很多技術還在探索中。

參考文獻:

[1]袁春鳳.主觀題的計算機自動批發技術研究[J].計算機應用研究,2004(02):181-185.

[2]高斯丹.基于自然語言理解的主觀試題自動批發技術的研究與初步實現[D].

[3]譚冬晨.主觀題評分算法模型研究[D].電子科技大學,2011.

[4]賈電如.基于自然語語句結構及語義相似度計算主觀題評分算法的研究[J].信息化縱橫,2009(05):5-7.

[作者簡介]張微微(1982.04-),女,黑龍江訥河人,教師,講師,理學學士,研究方向:計算機軟件應用。

主站蜘蛛池模板: 亚洲色欲色欲www在线观看| 91亚瑟视频| 四虎永久在线精品影院| 成人久久精品一区二区三区 | 国产福利一区在线| 国产噜噜噜视频在线观看| 国产无码高清视频不卡| 欧美19综合中文字幕| 九九九九热精品视频| 亚洲成人在线网| 亚洲an第二区国产精品| 亚洲五月激情网| 91久久国产综合精品女同我| 亚洲日韩精品综合在线一区二区| 日韩精品一区二区三区免费在线观看| 自偷自拍三级全三级视频| 久久免费成人| 欧美中文一区| 91九色最新地址| 99伊人精品| 国产成人喷潮在线观看| 人妻精品久久无码区| 91视频区| 亚洲熟女中文字幕男人总站| 视频二区亚洲精品| 一级毛片基地| 亚洲国模精品一区| 浮力影院国产第一页| 青青草久久伊人| 视频国产精品丝袜第一页| 少妇人妻无码首页| 麻豆AV网站免费进入| 91精品国产自产91精品资源| 伊人蕉久影院| 毛片免费观看视频| 九色免费视频| 久久综合婷婷| 青青国产在线| 好久久免费视频高清| 妇女自拍偷自拍亚洲精品| 国产一二三区视频| 亚洲人成网7777777国产| 91综合色区亚洲熟妇p| 精品久久久久久中文字幕女 | 亚洲午夜久久久精品电影院| 国产成人精品免费视频大全五级 | 欧美视频免费一区二区三区| 国产精品夜夜嗨视频免费视频| 成人伊人色一区二区三区| 久久国产亚洲偷自| 米奇精品一区二区三区| 久久精品中文字幕免费| 日本人妻丰满熟妇区| 亚洲视频欧美不卡| 国内99精品激情视频精品| 亚洲视屏在线观看| 91在线一9|永久视频在线| 国产精品亚洲综合久久小说| 国外欧美一区另类中文字幕| 91小视频在线观看免费版高清| 色综合成人| 超碰91免费人妻| 精品久久蜜桃| 四虎综合网| 一级香蕉视频在线观看| 一本大道香蕉中文日本不卡高清二区| 久久频这里精品99香蕉久网址| 亚洲一区二区三区中文字幕5566| 精品国产免费观看| 国产青榴视频在线观看网站| 无码一区中文字幕| 亚洲成人动漫在线观看| 亚洲无码A视频在线| 精品视频在线一区| 色综合久久久久8天国| 精品国产黑色丝袜高跟鞋| 熟妇无码人妻| 全部免费毛片免费播放 | 天堂网亚洲系列亚洲系列| 欧美国产日本高清不卡| 114级毛片免费观看| 最新国产麻豆aⅴ精品无|