999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文分詞的智能答疑系統的設計

2014-07-19 20:20:13付春捷胡萍
科技視界 2014年14期

付春捷 胡萍

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

主站蜘蛛池模板: 国产资源免费观看| 99热这里只有精品2| 久久精品亚洲热综合一区二区| 国产欧美精品午夜在线播放| 97在线公开视频| 国产理论最新国产精品视频| 日本91在线| 丁香婷婷综合激情| 国产激情无码一区二区APP | 国产免费久久精品99re不卡| 欧洲成人在线观看| 玖玖精品在线| 欧美高清日韩| 亚洲成人黄色在线| 国产免费久久精品99re不卡 | 国产成人AV男人的天堂| 国产制服丝袜无码视频| 久久久久国产精品嫩草影院| 四虎精品黑人视频| 刘亦菲一区二区在线观看| 亚洲乱伦视频| 国产区福利小视频在线观看尤物| 成人字幕网视频在线观看| 成人一级免费视频| 色窝窝免费一区二区三区| 亚洲—日韩aV在线| 亚洲成a人片7777| 国产主播福利在线观看| 婷婷六月激情综合一区| 青草视频在线观看国产| 毛片网站观看| 黄色网站在线观看无码| 久久免费成人| 青青操视频在线| 91九色国产在线| 亚洲欧美成人综合| 日韩精品中文字幕一区三区| 97青草最新免费精品视频| 亚洲欧美成人综合| 欧美一区国产| 日韩第八页| 91小视频在线观看| 91丨九色丨首页在线播放| 丁香综合在线| 国内精品久久久久鸭| 孕妇高潮太爽了在线观看免费| 亚洲综合18p| 2024av在线无码中文最新| 华人在线亚洲欧美精品| 久久国产精品夜色| 精品伊人久久久香线蕉| 午夜人性色福利无码视频在线观看| 亚洲综合欧美在线一区在线播放| 亚洲综合在线最大成人| 国产午夜福利在线小视频| 制服丝袜亚洲| 青青青草国产| 91人人妻人人做人人爽男同| 五月婷婷中文字幕| 精品欧美一区二区三区在线| 欧美一区二区精品久久久| 无码人妻热线精品视频| 国产精品毛片一区| 永久免费无码日韩视频| 国产福利在线观看精品| 国产亚洲日韩av在线| 国产美女自慰在线观看| 国产成人1024精品| 国产精品久线在线观看| 久久精品娱乐亚洲领先| 99精品一区二区免费视频| 欧美日韩午夜| 99精品高清在线播放| 高h视频在线| 亚洲日韩欧美在线观看| 波多野结衣视频一区二区| 国产亚洲精品无码专| 亚洲综合日韩精品| 伊人丁香五月天久久综合| 九九九国产| 国产玖玖玖精品视频| 亚洲伊人电影|