摘 要:在計算機考試系統開發過程中,對于主觀題的智能評分一直是重點,也是難點,而在主觀題評分中首要解決的問題就是中文分詞技術,本文就現有的中文分詞技術做分析比較,并根據智能評分系統應用研究中具體做法做出分析。
關鍵詞:中文分詞;依據詞典;智能評分系統
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-7712 (2014) 02-0000-01
隨著信息技術的普及和發展,計算機智能閱卷已經得到了廣泛的應用,如:大學英語等級考試、計算機等級考試等國家級考試中的客觀題都參用了計算機智能閱卷。同時一些遠程考試系統在主觀題智能評分方面也取得了許多成果,中文分詞是自然語言處理系統中的重要步驟,而主觀題智能評分首要解決的問題就是中文分詞,本文試從現有的中文分詞技術進行了探討,并就智能評分系統中的應用做出研究分析。
一、中文分詞技術概述
中文分詞是指按照一定的算法,將一個中文序列切分成一個一個單獨的詞。分詞就是計算機自動識別文中詞的邊界的過程。我們知道,在英文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,人工在閱讀時,都需要通過對句子分詞才能正確理解意思,可見中文分詞技術對主觀題智能評分有著重要的意義。
二、現有的中文分詞技術
在近30年的研究中,各位開發人員研究了中文分詞技術在詞典和概率方面統計的一些算法。目前中文分詞主要算法有三大類:依據詞典的分詞方法,依據統計的分詞方法,依據理解的分詞方法。
下面簡要介紹一下這些算法。
(一)依據字典的分詞算法。又名機械分詞算法,此方法是根據詞庫確立詞典,然后以一定策略將準備分析的中文字符串和這個詞典中的各詞進行比對,如果在詞典中能找到,則比對成功,那么就需要一個相當大容量的中文詞典,詞典的詞語越廣泛,分詞的越準確。
依據比對方向的不一樣可分為正向比對和逆向比如;依據長度比對的情況,分為最大比對和最小比對;其中最常用的方法是正向最大比對法和逆向最大比對法。
正向最大比對法(Maximum Matching Method,其主要思想為:從待匹配的文本串最左端開始,依次取出1,2,3,…n個字符來與已有的詞典比較,看看在詞典中是否有這個詞,若有,則匹配成功,將它放入詞隊列或數組中暫存,接著對中文語句/字串中剩余的部分進匹配,直到全部分詞完畢。正向最大匹配算法按照從左到右的順序進行匹配,在分詞要遵循所謂的最大化原則,即確保已掃描出的詞不是某個已存在詞的前綴。
逆向最大比對法(Reverse Maximum Matching Method)。RMM法的主要原理與MM法相同,區別在于分詞的掃描方向。
如A代表詞典,MAX表示A中的最長文本串長度,string為準備切分開的字符串。MM法是從string中取出長度為MAX的子串(即最長文本串)和A中的詞條進行比對。如果成功,那么該子串為詞,然后指針向后移MAX個漢字后繼續比對,否則該子串每次減少一個進行比對。
由于漢語多數情況下中心詞位置相對靠后,所以逆向最大匹配法的精度要高于正向最大匹配法,在實際應用中通常將正向最大匹配算法與逆向最大匹配算法兩者結合起來使用,這樣可提高分詞結果的正確率。
(二)依據統計的分詞算法。該方法的主要思想:詞是穩定的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。從統計學上講就是求概率的問題,可以通過對訓練文本中相鄰出現的各個字的組合的頻率進行統計學習,計算它們的互現信息得出規律。在中文處理時,如果文本串中的字與字互現信息大于某個值時,就可以判斷此字組可能構成了一個詞。該方法又稱為無字典分詞。
互現信息的計算,設有詞A和B,AB之間的互現信息為:
M(A,B)= 其中 為A、B相鄰出現的頻率, 為A出現的頻率, 為B出現的頻率。
(三)依據理解的分詞算法。該方法又稱依據人工智能的分詞方法,這種方法模擬了人對句子的理解過程,其基本思想就是對文本串進行句法、語義理解,并利用句法信息和語義信息來進行分詞并處理歧義現象。
此算法一般包括三個部分:分詞子系統、句法語義子系統和總控部分。分詞子系統是在總控部分的協調下,來得到有關的詞、句子等的句法,通過語義信息對分詞中的歧義進行判斷的。此分詞方法通常使用較大量的語言知識及信息。由于漢語中語言知識較為籠統、復雜,很難將各種語言信息完全組織成機器可直接讀取的形式,因此目前依據理解的分詞系統還不成熟。
三、中文分詞算法在智能評分系統中的應用
就以往客觀題人工閱卷過程來看,教師通常首先查看正確答案中的關鍵點,然后再與學生答案對比,通過學生答對關鍵點所占的比重來確定學生得分情況。基于這樣的閱卷過程,嘗試通過中文分詞模擬人工閱卷過程。
首先,題庫中試題要配有相應的答案及關鍵點,記為一個集合,如:關鍵字={K1,K2,K3….Kn}。在對學生的答案使用中文分詞技術中MM法和RMM法結合,得出學生答案中所占關鍵詞的比例,給相應的得分。
四、結束語
本文就現有的中文分詞技術做出了分析,系統地闡述了三種算法,他們都有各自的優缺點:首先依據詞典的分詞算法簡單,易于實現,不足在于比對速度慢,歧義問題較難解決;依據統計的分詞算法可以發現所有的歧義切分,但統計語言的精度和決策算法又在很大程度上決定了解決歧義的方法,并且速度較慢。后面又分析了中文分詞算法在智能評分系統中的應用,具體采用了依據詞典的分詞算法。由于中文的復雜性,決定了中文分詞技術還不夠成熟,很多技術還在探索中。
參考文獻:
[1]袁春鳳.主觀題的計算機自動批發技術研究[J].計算機應用研究,2004(02):181-185.
[2]高斯丹.基于自然語言理解的主觀試題自動批發技術的研究與初步實現[D].
[3]譚冬晨.主觀題評分算法模型研究[D].電子科技大學,2011.
[4]賈電如.基于自然語語句結構及語義相似度計算主觀題評分算法的研究[J].信息化縱橫,2009(05):5-7.
[作者簡介]張微微(1982.04-),女,黑龍江訥河人,教師,講師,理學學士,研究方向:計算機軟件應用。