999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談中文信息處理的主流技術(shù)

2012-04-29 00:44:03陳波濤
讀寫算·素質(zhì)教育論壇 2012年29期

陳波濤

摘要文章分析了中文信息處理的主流技術(shù),尤其是幾個重要的部分,即N元模型、語音識別和句法分析技術(shù)。

關(guān)鍵詞信息處理;N元模型;語音識別;句法分析

一、中文信息處理的特點

1.漢字的特殊性

我們都知道,英語在計算機信息處理方面的優(yōu)勢就是其字母數(shù)量有限,因而可以很容易的進行輸入輸出以及信息的加工和處理,而中文的漢字則數(shù)量龐大,且字形相對復(fù)雜,這就給漢字的編碼帶來了不小的困擾。因此我們根據(jù)漢字信息處理過程中的不同要求對漢字進行了不同形式的編碼,總結(jié)來說有以下幾種方案,即漢字輸入編碼,漢字標(biāo)準(zhǔn)編碼,漢字內(nèi)碼和漢字形碼。

2.書面漢語的特殊性

漢語的另一個特征是在書面表達(dá)中,詞語和記號之間沒有明顯的分隔標(biāo)記,這就使自動分詞在書面漢語分析中成立一個難題。分詞需要將連續(xù)的字按照一定的規(guī)范進行有序的組合,比較英文我們會發(fā)現(xiàn),英文單詞之間都是用空格來做分隔符,而中文則是習(xí)慣通過字、整句以及段落進行簡單的劃分,而這其中的一個難點就是對詞語的劃分,我們都知道,英語中也有短語劃分的問題,但是由于中文的詞語遠(yuǎn)比英語的數(shù)量和范圍要龐大,因而處理起來更為困難。

3.漢語語音的特殊性

在語音方面,漢語的特征是音節(jié)結(jié)構(gòu)相對簡單,音節(jié)劃分界限比較清晰,但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別,因而在語音識別和語音合成方面來講這是一個劣勢,但是總體上來說漢語語音的處理比之其他方面來說還是相對容易的。

4.漢語語法的特殊性

在語法方面,漢語詞匯的句法功能相對來說難以判斷,這與英語語言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語主要依靠詞序和虛詞來表達(dá)不同的含義,因此如果不能很好的掌握句法,就特別容易產(chǎn)生歧義,因此漢語語句自動分析這一重要技術(shù)是一項難以攻克的技術(shù)。

二、中文信息處理的若干技術(shù)

1.N元模型

設(shè)wi是文本中的任意一個詞,如果已知它在該文本中的前兩個詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預(yù)測wi出現(xiàn)的概率。這就 是統(tǒng)計語言模型的概念。一般來說,如果用變量W代表文本中一個任意的詞序列,它由順序排列的n個詞組成,即W=w1w2。。。wn,則統(tǒng)計語言模型就是該 詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。 P(wn|w1 w2。。。wn-1)不難看出,為了預(yù)測詞w n的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計算上來看,這種方法太復(fù)雜了。如果任 意一個詞wi的出現(xiàn)概率只同它前面的兩個詞有關(guān),問題就可以得到極大的簡化。這時的語言模型叫做三元模型(tri- gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)轉(zhuǎn)貼于 中國論文下載中

符號∏i i=3,…,n P(…)表示概率的連乘。一般來說,N元模型就是假設(shè)當(dāng)前詞的出現(xiàn)概率只同它前面的N-1個詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來計算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。

2.語音識別

語音識別的最終目標(biāo)是使人類與計算機之間實現(xiàn)真正意義上的自由交流,使機器聽懂人類的語言,并及時的做出準(zhǔn)確的反饋。語音識別技術(shù)包括了信號處理、模式 識別、概率論和信息論、發(fā)聲機原理和聽覺原理、人工智能等主要內(nèi)容。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則和模型訓(xùn)練技術(shù)3個方面,另外還涉及 到語音識別單元的選取,在這個問題上我們通常采用的是以音節(jié)為識別單元。另外,在特征參數(shù)的提取技術(shù)方面,由于語音符號中含有大量的信息,它們通常被稱為 聲學(xué)特征。特征參數(shù)是決定語音識別質(zhì)量的關(guān)鍵技術(shù),因此我們應(yīng)該極可能的采集所要傳播語言的語義信息,剔除掉說話人的個人信息干擾,這樣才能保證特征參數(shù) 的有效性和準(zhǔn)確性。

3.句法分析

句法分析是以漢語的語法特征為分析方法,對句子、段落中的短語結(jié)構(gòu)樹進行各個句子成分 關(guān)系的分析,分析的主要內(nèi)容包括:句子中所有的單句,每個單句在句法中的作用是什么,在單句以上更大的語法結(jié)構(gòu)是什么,句子中的短語或詞組類型是什么,在 句子中起了什么作用,最后,所有這些成分是如何有機組合或附著在整個句子中的,這些就是句法結(jié)構(gòu)分析的主要內(nèi)容,這叫做線圖分析法。值得說明的是,英語語言結(jié)構(gòu)中主語必須置于謂語之前,否則所表達(dá)的意思就完全變化了,當(dāng)然,在一些特定情況下,如倒裝句結(jié)構(gòu)中這種情況還是普遍存在的。這一點是與漢語有著顯著的區(qū)別的。

三、結(jié)語

中文信息處理技術(shù)有著重要的意義,它是語言學(xué)與信息技術(shù)的有機融合,旨在對中文的音、形、義等輸入計算機,進而進行必要的信息加工與處理,在這一過程中涉及到了計算機科學(xué)、信息學(xué)、聲學(xué)等大量學(xué)科的交叉知識。具體來說,語言信息處理是將自然語 言的各個部分,包括詞語、句子、段落以至篇章進行文本、聲音和圖像各種方式的信息化加工,然后對這些信息進行輸入輸出、壓縮、存儲以及檢索等等各項處理。 我們都知道,自然語言是我們?nèi)粘W钪匾慕涣鳒贤üぞ撸侨祟愡M行思維活動、文化傳播的有效載體,因此語言信息處理這種技術(shù)有著重要的意義,本文專門分析 了利用計算機處理中文信息,即漢語信息處理技術(shù),希望本文能夠?qū)ν袀冇兴鶈⑹荆€望能夠多多交流學(xué)習(xí),更好的完善這項技術(shù)。

參考文獻:

[1]曹邦偉,高傳善.計算機與信息處理[M].上海:復(fù)旦大學(xué)出版社,2001.

[2]陳小荷.中文信息處理概述[J].南京師范大學(xué)文學(xué)院學(xué)報,2002,(1).

主站蜘蛛池模板: 久久婷婷国产综合尤物精品| 波多野结衣无码AV在线| 日韩在线播放中文字幕| 欧美精品一二三区| 亚洲成aⅴ人在线观看| 国产一级在线观看www色| 亚洲三级a| 一本一道波多野结衣av黑人在线| 日韩大乳视频中文字幕| 国产拍在线| 久久6免费视频| 偷拍久久网| 一区二区自拍| 综合色区亚洲熟妇在线| 狠狠亚洲五月天| 18黑白丝水手服自慰喷水网站| 999精品视频在线| 国产va视频| 亚洲IV视频免费在线光看| 国产美女无遮挡免费视频网站| 青青国产成人免费精品视频| 国内丰满少妇猛烈精品播| 欧美综合区自拍亚洲综合天堂| av一区二区三区高清久久| 人妻出轨无码中文一区二区| 国产一级精品毛片基地| 欧美一区二区三区国产精品| 极品私人尤物在线精品首页 | 亚洲品质国产精品无码| 国产永久在线观看| 亚洲免费三区| 国产粉嫩粉嫩的18在线播放91| 日本午夜三级| 国产不卡国语在线| 亚洲无线视频| 国产欧美日韩视频怡春院| 久久久精品无码一二三区| 无码网站免费观看| 国产乱人视频免费观看| 一本色道久久88| 26uuu国产精品视频| 97国产精品视频自在拍| 亚洲日产2021三区在线| 97青青青国产在线播放| 午夜性刺激在线观看免费| 中文字幕日韩视频欧美一区| 巨熟乳波霸若妻中文观看免费| 国产精品午夜电影| 亚洲精品自拍区在线观看| 国产无遮挡猛进猛出免费软件| 成人免费网站久久久| 国产激情在线视频| 免费观看男人免费桶女人视频| 亚洲毛片在线看| 国产高清国内精品福利| 欧美性色综合网| 精品国产黑色丝袜高跟鞋| 91在线激情在线观看| 亚洲无码精品在线播放 | 亚洲VA中文字幕| 国产成人精品综合| 久久中文字幕2021精品| 国产精品理论片| 国内老司机精品视频在线播出| 精品综合久久久久久97| 伊人成人在线| 第一页亚洲| 国产三级精品三级在线观看| 欧美中文字幕第一页线路一| 国产凹凸视频在线观看| 亚洲欧美成人网| 国产欧美日韩18| 国产麻豆va精品视频| 亚洲一道AV无码午夜福利| 亚洲综合精品第一页| 亚洲天堂久久| 国产性爱网站| 欧日韩在线不卡视频| 99热这里只有精品国产99| 精品国产亚洲人成在线| 国产精品乱偷免费视频| 中国黄色一级视频|