999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

以詞為本的編碼方案的探討

2013-12-23 04:08:20程元斌
關(guān)鍵詞:語義分配概念

程元斌

(江漢大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430056)

語言是人進(jìn)行思維的主要工具,詞是語言的基本單位。詞的基本表現(xiàn)形式有兩種:語音與文字?,F(xiàn)代計(jì)算機(jī)對(duì)語言的處理幾乎完全依賴于對(duì)文字的處理。但是,文字的基本單位或者是字母(對(duì)表音文字),或者是字(對(duì)表意文字),以下統(tǒng)稱“字”。在表音文字中除了極個(gè)別的詞,幾乎所有的詞都是由若干個(gè)字母組成,據(jù)不完全統(tǒng)計(jì),英文的詞長(zhǎng)平均在5.3 個(gè)字母左右。在表意文字中,例如中文,雖然單字詞占的比例相當(dāng)大,但2個(gè)字以上的詞所占的比例更大。這種以字構(gòu)詞的體系為新詞的創(chuàng)造提供了無限的空間,在計(jì)算機(jī)信息處理中,目前也是按字設(shè)計(jì)編碼。隨著計(jì)算機(jī)信息處理技術(shù)的發(fā)展,這種完全按字編碼的不足也日益顯示出來。那么,是否應(yīng)該按詞進(jìn)行編碼?如何編碼?本文對(duì)此作一些探討。

1 詞編碼研究的現(xiàn)狀

在中國(guó)知網(wǎng)學(xué)術(shù)文獻(xiàn)檢索頁面輸入主題“詞編碼”進(jìn)行檢索,恰好得到50 條結(jié)果。但察看各條結(jié)果的標(biāo)題與摘要,真正與本文主題相關(guān)的只有文獻(xiàn)[1-4]。下載并閱讀這4 篇文獻(xiàn)進(jìn)一步發(fā)現(xiàn),文獻(xiàn)[1]的目的是探討一種壓縮方法,而對(duì)實(shí)際的詞編碼問題并沒有深入地研究;文獻(xiàn)[2]的著眼點(diǎn)僅限于中文及文檔格式,其研究的深度與廣度均十分有限;文獻(xiàn)[3]的內(nèi)容均包含在文獻(xiàn)[4]之中;只有文獻(xiàn)[4]對(duì)詞編碼問題進(jìn)行了較為廣泛的研究。文獻(xiàn)[4]全面描述了一個(gè)基于語義的多文種信息處理平臺(tái)SMIPP 的研究工作。該平臺(tái)設(shè)計(jì)了一個(gè)面向信息處理的多文種代碼體系SemaCode。SemaCode 是一個(gè)7 層結(jié)構(gòu)的系統(tǒng),包括物理存儲(chǔ)層、交換傳輸層、字符碼位層、詞碼位層、屬性層、語義層和應(yīng)用接口層。其中,在字符碼位層提出了按文種和字符編碼的理念;在詞碼位層和語義層中提出了詞編碼的思想,并實(shí)現(xiàn)了一種以語義為軸心、以詞為語義單位,并在語義層提供語義表達(dá)能力的代碼體系。此外,該系統(tǒng)設(shè)計(jì)了一種以詞義為軸心,支持多文種的語言O(shè)ntology,它是SMIPP 語義信息的主要來源。該Ontology 收錄了具有語義的4 類詞:名詞、動(dòng)詞、副詞和形容詞,并以詞義和文種為類結(jié)點(diǎn)。

編碼工作看似簡(jiǎn)單,實(shí)際上極其復(fù)雜,很有講究。至少從目前已知的信息看,文獻(xiàn)[4]做了詞編碼研究的開創(chuàng)性工作,為詞編碼系統(tǒng)的研究提供了很有價(jià)值的參考。不過,在所難免的,SMIPP,尤其是其核心SemaCode 存在一些嚴(yán)重的不足或值得商榷的根本性問題。首先,SemaCode與現(xiàn)有標(biāo)準(zhǔn)不兼容,現(xiàn)有文本必須經(jīng)過代碼轉(zhuǎn)換才能被SMIPP 處理,反之,SMIPP 文本必須經(jīng)過代碼轉(zhuǎn)換才能被現(xiàn)有軟件接受;其次,字編碼與詞編碼是兩套完全獨(dú)立的編碼。但眾所周知,漢字中有大量的字本身就是詞,有大量的字串難以說清到底是不是詞,也就是說,舍棄字編碼的詞編碼文檔只能是一些特例而已。實(shí)際上,不僅漢語,任何語言都有類似的情況;其三,文獻(xiàn)[4]沒有說明詞編碼的對(duì)象,即哪些詞應(yīng)當(dāng)進(jìn)入詞編碼表,哪些詞不應(yīng)當(dāng)進(jìn)入詞編碼表,實(shí)際上這是一個(gè)極其重要的問題;另外也沒有說明具體的詞編碼詳細(xì)方案。

本文從自然語言計(jì)算機(jī)處理的各主要方面的需求分析入手,結(jié)合對(duì)現(xiàn)有編碼標(biāo)準(zhǔn)的考察,提出了一個(gè)建立在現(xiàn)有標(biāo)準(zhǔn)之上的字詞統(tǒng)一考慮的詞編碼方案思路。

2 詞編碼的需求與基本問題分析

2.1 信息檢索的需求

信息檢索可能是使用最廣泛的網(wǎng)絡(luò)應(yīng)用。目前,通用計(jì)算機(jī)的信息檢索都是采用軟件進(jìn)行,需要一個(gè)字母一個(gè)字母,或者一個(gè)字一個(gè)字地進(jìn)行比對(duì)。顯而易見,如果采用詞編碼,檢索可以一個(gè)詞一個(gè)詞地進(jìn)行比對(duì),將大大提高檢索效率。

除了效率之外,采用詞編碼將促進(jìn)檢索功能的提升,便于實(shí)現(xiàn)檢索智能化。例如,如果你想查詢英文動(dòng)詞take 的用法,并不是僅僅檢索含有take 的句子就可以了,還要考慮到take 的各種形態(tài)。這在目前實(shí)際上是要進(jìn)行take、took、taken、taking 等多個(gè)詞的檢索。如果是詞編碼,則可以將該動(dòng)詞及其各種形態(tài)編在一個(gè)可聚類空間中,例如,假設(shè)take 編碼s=10011100,took 編碼為10011101,taken 編碼為10011110,taking 編碼為10011111,待檢索詞變量為w,則使用一次聚類檢索“(w&s)==s”(C 語言表達(dá)式)就可以了。通過設(shè)計(jì)考慮了這些需求的詞編碼方案,有可能使得目前看來十分繁瑣甚至十分棘手的問題輕而易舉地得到解決。

2.2 自然語言理解與機(jī)器翻譯的需求

自然語言理解與機(jī)器翻譯的需求比檢索復(fù)雜得多,而且由于這兩方面的研究離最終的目標(biāo)還相距很遠(yuǎn),許多問題還是霧里看花,處在探索階段,因此需要更多的戰(zhàn)略上的考慮。從通常的處理過程來說,一般都包括分詞、句法分析兩大任務(wù)。很顯然,如果按詞編碼,分詞的問題就簡(jiǎn)單多了。而句法分析最基本也是最主要的任務(wù)是要弄清楚詞之間的關(guān)系,這可能也是詞編碼設(shè)計(jì)的主要依據(jù)。

對(duì)機(jī)器翻譯來說,一個(gè)很顯然的考慮是能否建立一種中間語言C,然后建立各種語言與該中間語言的映射關(guān)系。這樣,任何一種語言只須具備與該中間語言的互譯軟件,就可以十分方便地進(jìn)行與其他語言間的互譯了。這種中間語言字詞空間的設(shè)計(jì)也應(yīng)當(dāng)納入詞編碼的涉及范圍。

2.3 詞的界定與收詞原則

詞的界定與收詞原則雖然與自然語言處理沒有直接的關(guān)系,但是與詞編碼方案的設(shè)計(jì)關(guān)系密切。

對(duì)于詞編碼,詞本身的界定與處理就是一個(gè)難題。首先,漢語中的詞與詞組的界線是相當(dāng)模糊的。其次,按照目前對(duì)“詞”的理解,詞的數(shù)量是無限的,不可能對(duì)所有的詞都進(jìn)行編碼。這兩個(gè)問題都?xì)w結(jié)為一個(gè)技術(shù)問題:如何制定一個(gè)切實(shí)可行的收詞原則。第三,漢語中有為數(shù)不少的“離合詞”,同一個(gè)詞的兩個(gè)部分往往被句中的其他詞語分開,而且往往有多種變形,例如“幫忙”一詞,可以表現(xiàn)為“幫幫忙”、“幫我個(gè)忙”、“這個(gè)忙不能幫”,等等。這類詞如何處理?

3 編碼方案的設(shè)計(jì)原則

3.1 字詞統(tǒng)編,與現(xiàn)有標(biāo)準(zhǔn)兼容

詞的數(shù)量是無限的,不可能對(duì)所有的詞都進(jìn)行編碼,那些不能編碼的詞仍然只能用字組合來表示。所以,需要對(duì)字與詞進(jìn)行統(tǒng)一編碼,盡可能使得各種需求能夠以最簡(jiǎn)單的方式得到實(shí)現(xiàn)。

既然需要對(duì)字與詞進(jìn)行統(tǒng)一編碼,自然就要考慮與現(xiàn)有標(biāo)準(zhǔn)兼容的問題。目前,世界通行的字符編碼標(biāo)準(zhǔn)ISO10646 和UNICODE 應(yīng)當(dāng)是統(tǒng)一編碼方案的基礎(chǔ)。ISO10646 與UNICODE 雖然是由兩個(gè)不同的組織分別頒布的,但做到了高度的協(xié)調(diào)統(tǒng)一。通常人們更習(xí)慣于使用UNICODE 來稱呼相應(yīng)的標(biāo)準(zhǔn),本文亦沿用這一習(xí)慣。

UNICODE 的全集稱為UTF-32,是一個(gè)4 字節(jié)編碼方案。UTF-32 定義了17 個(gè)碼位平面,每個(gè)平面擁有65 536(即64K)個(gè)碼點(diǎn)。絕大多數(shù)字符(包括中文字符)都有一個(gè)單獨(dú)的碼點(diǎn)定義,少量字符由兩個(gè)以上的碼點(diǎn)組合定義。17 個(gè)平面中,0 號(hào)平面稱為“基本多文種平面”,包括了世界上眾多的文字字符;其余16 個(gè)平面或作為補(bǔ)充平面,或作為私有平面,或尚未明確定義其用途。按照64K 一個(gè)平面計(jì)算,4 字節(jié)空間可分配的平面數(shù)最多可達(dá)216,即65 536 個(gè),所以還有巨大的編碼空間可供運(yùn)用。

由于實(shí)際中1~16 號(hào)平面的代碼被用到的機(jī)會(huì)極少,一般認(rèn)為采用UTF-32 的4 字節(jié)編碼是一種浪費(fèi)。所以,目前實(shí)際應(yīng)用中廣泛采用的是UTF-16。UTF-16 是UTF-32 的一個(gè)子集,包括0號(hào)平面和1 號(hào)平面“多文種補(bǔ)充平面”,但是采用2 字節(jié)實(shí)施方案。0 號(hào)平面的代碼是從0x0~0xFFFF,非常容易實(shí)現(xiàn)從4 字節(jié)平面到2 字節(jié)平面的映射。但1 號(hào)平面的代碼是從0x10000~0x1FFFF,要實(shí)現(xiàn)從4 字節(jié)平面到2 字節(jié)平面的映射就需另辟蹊徑。UTF-16 采用了一種十分巧妙的辦法,實(shí)現(xiàn)了這樣一種變換[5]。0 號(hào)平面專門為此貢獻(xiàn)了2K 的空間。

此外,0 號(hào)平面還留出了6K 多一點(diǎn)的私有空間,目前還沒有限定它的用途。

UNICODE 的上述安排為字詞統(tǒng)一編碼提供了可能性。

現(xiàn)實(shí)世界中,詞的數(shù)量遠(yuǎn)遠(yuǎn)大于字的數(shù)量。以漢字為例,根據(jù)筆者對(duì)約2 000 萬字的國(guó)家語委語料庫中語料的統(tǒng)計(jì),除去那些稱呼個(gè)體的名詞(人名、地名、機(jī)構(gòu)名等),共有詞128 620 個(gè)。UNICODE 0 號(hào)平面中收錄了約70 種文字,但如果以詞來分類,則數(shù)目遠(yuǎn)不止這些,例如拉丁文字母就包含了多種語言。世界上約有200 個(gè)國(guó)家,假定每個(gè)國(guó)家需要一種不同于其他國(guó)家的通用語言,每種語言的詞數(shù)以漢語為參考計(jì),則全世界的詞數(shù)約為2 500 萬,約等于24 M。這樣,若采用4 字節(jié)編碼并考慮與UNICODE 編碼的兼容性,則可以UTF-16 的0 號(hào)平面的私有空間為前綴,并將其擴(kuò)展為4 字節(jié),作為多語種的詞編碼空間。這個(gè)詞編碼空間的大小比6K × 64K =384 M 還要多一點(diǎn),遠(yuǎn)大于上面估計(jì)的24 M。換個(gè)角度考慮,將384 M 的編碼空間分配給200 種語言,則平均每種語言擁有19. 2 M,即近2 000萬的碼位空間,這應(yīng)當(dāng)是足夠大的。

UTF-16 規(guī)范的另一項(xiàng)規(guī)定給使用更大的詞編碼空間提供了可能性,這就是UTF-16 的BOM標(biāo)記0xFFFE。BOM(Byte Order Mark)本是用在UTF-16 文件的開頭,表示字節(jié)排列的順序。我們也可以利用它表示更多的意義,例如,用兩個(gè)BOM 表示使用自定義的詞編碼空間。

對(duì)UTF-16 的這種擴(kuò)展僅僅只涉及處理軟件的升級(jí)而不會(huì)影響到現(xiàn)有的數(shù)據(jù)文件,所以,在UNICODE 中融入詞編碼是完全可行的。而且,今后的數(shù)據(jù)文件中的字依然采用2 字節(jié)碼,節(jié)省存儲(chǔ)空間。

3.2 充分考慮自然語言深度處理的需求

如2.2 節(jié)所述,由于自然語言處理的許多問題還是霧里看花,處在探索階段,所以目前恐怕難以給出一個(gè)能被證明可行的具體原則。本文只是根據(jù)已有的研究給出一個(gè)供探討的思路。

隨著自然語言理解與翻譯的研究的逐步深入,越來越多的研究?jī)A向于運(yùn)用語義關(guān)系來解決詞法分析與句法分析中的疑難問題。完全的語義關(guān)系描述十分復(fù)雜,需要采用文獻(xiàn)[4]采用的ontology 這樣的具有復(fù)雜數(shù)據(jù)結(jié)構(gòu)的系統(tǒng),不是編碼系統(tǒng)所能勝任的,但是用編碼系統(tǒng)表達(dá)簡(jiǎn)單的語義關(guān)系則是可能的。

概念空間樹表達(dá)簡(jiǎn)單的語義關(guān)系。從本質(zhì)上講,概念空間樹是一種分類系統(tǒng)。不過分類本身就是事物之間的一種基本關(guān)系。如果能證明現(xiàn)有的概念空間樹的各個(gè)分類之間具有確定的語義關(guān)系,或者可以根據(jù)確定的語義關(guān)系類來組織定義概念空間樹,那么概念空間樹就是一種很理想的詞編碼設(shè)計(jì)依據(jù)。另外,概念空間樹對(duì)于搜索對(duì)象為某一類事物的檢索是十分理想的編碼方案。

3.3 編碼空間分配原則

首先,編碼空間分配必須滿足多文種編碼的需求。在此基礎(chǔ)上,理想的境界是,不同文種的同義詞的碼位在各自文種空間中的相對(duì)地址是相同的。例如,假設(shè)漢語“詞”的碼位地址是AC,其中A 是漢語碼位空間的地址前綴,C 是“詞”在漢語碼位空間中的低位地址,即相對(duì)地址;再設(shè)英語碼位空間的地址前綴是B,則“詞”的同義詞“word”的碼位地址應(yīng)是BC。當(dāng)然,這一設(shè)想能在多大程度上實(shí)現(xiàn)有待研究,然而其好處是不言而喻的。

其次,盡可能考慮空間與時(shí)間效率的一體化、最大化。上述提出了按概念空間樹進(jìn)行編碼設(shè)計(jì)的設(shè)想,目前對(duì)概念空間樹還缺乏十分系統(tǒng)的研究。不過,可以用與之十分相似的詞分類樹來說明。圖1 是概念空間樹的一個(gè)不完全不嚴(yán)格的示意。

圖1 概念空間樹

顯然,概念空間樹上各個(gè)分支的層次數(shù)目與各個(gè)節(jié)點(diǎn)的分支數(shù)目或葉子數(shù)目都是很不相同的,如果按照通常的分類編碼方法,例如一級(jí)概念有4 個(gè),則分配2 bit 作一級(jí)概念的類別代碼;如果一級(jí)概念有5~8 個(gè),則分配3 bit。這種分配法給每個(gè)一級(jí)概念分配的碼位空間都是一樣大,這顯然是極不合理的。合理的碼位空間分配應(yīng)當(dāng)使給每一個(gè)節(jié)點(diǎn)分配的碼位空間盡可能接近其需求。為此,本文提出兼顧空間效率與時(shí)間效率的按節(jié)點(diǎn)需求分配碼位空間的原則及相應(yīng)的分配方法。

以圖1 一級(jí)概念節(jié)點(diǎn)為例,根據(jù)對(duì)國(guó)家語委語料庫的統(tǒng)計(jì),與一級(jí)概念對(duì)應(yīng)的普通名詞有57 085 個(gè),動(dòng)詞有32 093 個(gè),形容詞有8 401 個(gè),副詞有2 066 個(gè),(由于該語料庫中存在不少錯(cuò)誤標(biāo)注,上述數(shù)據(jù)不夠準(zhǔn)確)。易見,動(dòng)詞、形容詞、副詞加起來少于名詞,形容詞、副詞加起來又不到動(dòng)詞的一半,副詞又不到形容詞的一半。據(jù)此,可分配一級(jí)概念節(jié)點(diǎn)的碼位地址空間前綴如表1 所示。

表1 一級(jí)概念碼位空間分配表

本文提出按碼位空間組織的完全二叉樹表示的概念空間樹,并引入“虛節(jié)點(diǎn)X”的概念。這種完全二叉樹有清晰的空間分配信息,每個(gè)節(jié)點(diǎn)的位置唯一地確定了該節(jié)點(diǎn)所轄的碼位空間的起始地址及碼位空間大小。圖2 是包含了表1 空間分配信息的圖1 之一部分(因?yàn)闆]有統(tǒng)計(jì)二級(jí)概念的成員數(shù)目,不能進(jìn)行進(jìn)一步的空間需求,也就不能確定各個(gè)二級(jí)概念節(jié)點(diǎn)的位置)。下面對(duì)這種完全二叉樹表示的概念空間樹作一簡(jiǎn)要說明。

圖2 含有空間分配信息的概念空間樹

(1)除根節(jié)點(diǎn)外,該樹包括3 種節(jié)點(diǎn):實(shí)節(jié)點(diǎn)、虛節(jié)點(diǎn)X、空節(jié)點(diǎn)Z。實(shí)節(jié)點(diǎn)即概念節(jié)點(diǎn),一個(gè)概念的級(jí)別等于從根節(jié)點(diǎn)出發(fā)到達(dá)該概念節(jié)點(diǎn)的路徑上所具有的實(shí)節(jié)點(diǎn)的個(gè)數(shù),包括該概念節(jié)點(diǎn)本身;虛節(jié)點(diǎn)X 的存在說明其下游至少有一個(gè)實(shí)節(jié)點(diǎn);空節(jié)點(diǎn)Z 表示該節(jié)點(diǎn)所轄的碼位空間尚未分配。

(2)一個(gè)實(shí)節(jié)點(diǎn)的碼位空間的前綴就是從根節(jié)點(diǎn)開始到該實(shí)節(jié)點(diǎn)的路徑上的各條邊上的數(shù)字的串聯(lián)。例如,方式節(jié)點(diǎn)的前綴是00011。

(3)每一層面上的所有節(jié)點(diǎn)的碼位空間的大小都是一樣的,而且按逐層減半遞減,一目了然。

顯然,圖2 所示二叉樹很容易用一張二維表表示,易于編程計(jì)算。

此例中副詞只有2 066個(gè)卻占用了4K 即4 096個(gè)碼位空間,看是浪費(fèi)實(shí)際是值得的。因?yàn)檫@可以大大提高計(jì)算效率,尤其是需要檢索某個(gè)概念類的成員時(shí)。順便指出,由于新概念及新成員的出現(xiàn)是必然的,所以設(shè)計(jì)時(shí)必須留足足夠的空間已備將來之需。

3.4 編碼穩(wěn)定性

由于計(jì)算機(jī)信息存儲(chǔ)與重現(xiàn)的特點(diǎn),要求用來表示信息的編碼必須是十分穩(wěn)定的。一個(gè)編碼標(biāo)準(zhǔn)中的編碼一旦確定,就不能改變,否則會(huì)帶來巨大的麻煩。計(jì)算機(jī)誕生迄今,雖然信息編碼也經(jīng)歷了一個(gè)發(fā)展過程,其間產(chǎn)生了若干個(gè)編碼標(biāo)準(zhǔn),但每一個(gè)編碼標(biāo)準(zhǔn)一旦頒布,便維持不變。要變,就要有新的標(biāo)準(zhǔn)及相應(yīng)的系統(tǒng)。

字與詞都是有生命的事物。相對(duì)而言,字的生命周期長(zhǎng)得多,尤其是表音文字。編碼空間中的每一個(gè)碼位都是十分寶貴的資源,必須十分珍惜。對(duì)那些生命力不強(qiáng)的字詞進(jìn)行編碼是對(duì)資源的浪費(fèi)。所以,應(yīng)對(duì)哪些詞進(jìn)行編碼是一件十分慎重的事情。

按照穩(wěn)定性原則,以下幾類詞一般不應(yīng)進(jìn)入詞編碼:

(1)個(gè)體名詞。

此處的個(gè)體名詞指那些因個(gè)體的出現(xiàn)而產(chǎn)生的名詞,包括人名、地名、機(jī)構(gòu)名、作品名,也包括具體的產(chǎn)品名,例如“雪鐵龍”。

個(gè)體名詞的一個(gè)重要特性是隨著這個(gè)個(gè)體的消亡,其名稱的使用也會(huì)隨著時(shí)間的流逝而消失,雖然其中有一些會(huì)被新產(chǎn)生的個(gè)體重復(fù)使用,例如人名,但意義是有區(qū)別的;甚至極少數(shù)的名稱會(huì)被長(zhǎng)久使用,如“孔子”。個(gè)體名詞的另一個(gè)重要特性是數(shù)量龐大且其產(chǎn)生與消亡不可預(yù)測(cè)。

由于個(gè)體名詞的以上兩個(gè)特性,對(duì)個(gè)體名詞的編碼必須慎之又慎。一般而言,個(gè)體名詞不應(yīng)當(dāng)進(jìn)入編碼。

(2)未登錄詞。

未登錄詞既包括大量的個(gè)體名詞,也包括大量的縮略詞與動(dòng)詞、形容詞、副詞等。顯然,未登錄詞都是沒有達(dá)到穩(wěn)定狀態(tài)的詞,都不應(yīng)進(jìn)入詞編碼。

3.5 分階段原則

由于詞編碼設(shè)計(jì)的極端復(fù)雜性,要想在一個(gè)較短的時(shí)間內(nèi)一次性完成是極其困難的。應(yīng)當(dāng)分階段進(jìn)行,并且字詞統(tǒng)一編碼總體方案為分階段進(jìn)行提供了可行性。只要詞編碼總體空間分配方案確定了,就可以隨時(shí)對(duì)已經(jīng)考慮成熟的部分進(jìn)行詞的編碼,而沒有考慮成熟的部分仍采用字編碼。

4 幾個(gè)疑難問題

4.1 離合詞編碼問題

漢語中有為數(shù)不少的“離合詞”,同一個(gè)詞的兩個(gè)部分往往被句中的其他詞語分開,而且往往有多種變形。如2.3 所述,“幫忙”一詞可以表現(xiàn)為“幫幫忙”、“幫我個(gè)忙”、“這個(gè)忙不能幫”,等等,對(duì)這類詞,目前恐怕只能采取分而治之的辦法:合時(shí),按單一詞處理,當(dāng)然地使用詞編碼;離時(shí),按目前的字編碼方法處理。這里需要進(jìn)一步考慮的一個(gè)問題是,如何歸類?因?yàn)椤半x合”這種屬性超出了概念空間尤其是語義的范疇。筆者以為還是要將“離合”這一屬性作為一個(gè)子類,為這類詞的處理提供必要的信息。畢竟設(shè)計(jì)詞編碼的目的是為了方便自然語言的處理,其余都是可以變通的。

4.2 多義項(xiàng)詞編碼問題

一詞多義是自然語言的普遍現(xiàn)象,而且同一詞的不同義項(xiàng)往往分屬于不同的概念空間。顯然,屬于不同概念空間的義項(xiàng)應(yīng)當(dāng)用不同的編碼。根據(jù)前面的分析,編碼空間不是問題,困難的問題可能還是在于概念空間的劃分,因?yàn)樽匀徽Z言的概念邊界往往帶有很大的模糊性。而且就像新詞可以無中生有一樣,新的詞義也可以無中生有。例如近年流行的“種房子”一詞中的“種”,除了有“蓋”的意思外,還包含著另外一層深意,而這層深意既與“種”的意思相關(guān)又有很大的區(qū)別,像這樣的詞應(yīng)當(dāng)歸于哪一個(gè)概念空間,恐怕很難定奪。筆者認(rèn)為是可以像處理離合詞那樣處理。

4.3 漢語中單字詞編碼問題

漢語中有大量的單字詞,而且其中大多數(shù)是一詞多義。筆者認(rèn)為,應(yīng)當(dāng)按多義項(xiàng)詞處理,即對(duì)那些有確定語義的單字詞應(yīng)根據(jù)其義項(xiàng)編碼。

5 結(jié)語

本文所描述的方案主要是想給出一種思路,以供同仁參考。還有許多問題有待發(fā)現(xiàn)與研究。這些問題也包括本文已經(jīng)指出的那些問題。應(yīng)當(dāng)指出的是,首先是方向性的問題,例如對(duì)于詞編碼的作用的目標(biāo)是否定得過高?但反過來,一些技術(shù)上的細(xì)節(jié)問題也可以影響到整體目標(biāo)的實(shí)現(xiàn)。

[1] 朱巧明,趙英英,錢培德. 基于中文詞編碼的壓縮算法ZHCP 的實(shí)現(xiàn)[J].小型微型計(jì)算機(jī)系統(tǒng),2003(2):306-308.

[2] 焦慧,劉遷,賈惠波. 一種基于詞編碼的中文文檔格式[J].計(jì)算機(jī)科學(xué),2008(10):162-164.

[3] 李培峰,朱巧明,錢培德. 基于語義的多文種編碼方案SemaCode[J]. 計(jì)算機(jī)應(yīng)用研究,2008(6):1652-1656.

[4] 李培峰. 基于語義的多文種信息處理平臺(tái)SMIPP 的研究[D].蘇州:蘇州大學(xué),2006.

[5] 維基百科. UTF-16[EB/OL].[2012-12-20]. http://zh.wikipedia.org/zh-cn/UTF-16.

猜你喜歡
語義分配概念
Birdie Cup Coffee豐盛里概念店
語言與語義
幾樣概念店
應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
遺產(chǎn)的分配
一種分配十分不均的財(cái)富
績(jī)效考核分配的實(shí)踐與思考
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 国产福利拍拍拍| 久久精品波多野结衣| 一区二区午夜| 精品国产www| 国产亚洲视频免费播放| 亚洲精选高清无码| 国产精品男人的天堂| 亚洲人成网站在线播放2019| 91精品专区国产盗摄| 国产一区二区在线视频观看| 免费视频在线2021入口| 久久久噜噜噜| 欧美视频在线播放观看免费福利资源| 再看日本中文字幕在线观看| 日韩午夜片| 国产天天色| 亚洲欧美成人影院| 2022精品国偷自产免费观看| 四虎精品黑人视频| 黄色网站不卡无码| 亚洲人成高清| 午夜日本永久乱码免费播放片| 99国产在线视频| 国产9191精品免费观看| 99尹人香蕉国产免费天天拍| 欧美亚洲一二三区| 性视频久久| 国产精品综合色区在线观看| 亚洲欧洲国产成人综合不卡| 国产成人免费视频精品一区二区 | 日本亚洲最大的色成网站www| 国产乱子精品一区二区在线观看| 在线观看国产小视频| 福利在线一区| 国产日本欧美在线观看| 日韩色图在线观看| 国产超碰在线观看| 国产精品浪潮Av| 天堂在线亚洲| 一区二区三区四区精品视频| 国产噜噜在线视频观看| 亚洲久悠悠色悠在线播放| 丁香五月激情图片| 久久黄色视频影| 永久免费AⅤ无码网站在线观看| 成人免费视频一区二区三区| 天天色综网| 久久人搡人人玩人妻精品一| 精品无码视频在线观看| 97青草最新免费精品视频| 露脸一二三区国语对白| 亚洲精品手机在线| 狠狠v日韩v欧美v| 制服丝袜 91视频| 国产第一页屁屁影院| 久草视频中文| 免费无码AV片在线观看国产| 熟妇丰满人妻| 美女一区二区在线观看| 99久久精品免费观看国产| a级毛片免费看| 成人精品免费视频| 伊人久久大香线蕉aⅴ色| 熟女成人国产精品视频| 三级国产在线观看| 国产探花在线视频| 欧美特黄一免在线观看| 三级国产在线观看| 一本久道久久综合多人| 福利一区三区| 一本一道波多野结衣av黑人在线| 国产在线观看精品| 亚洲侵犯无码网址在线观看| 91久久偷偷做嫩草影院精品| 四虎永久在线| 国产一级视频久久| 久久久久久久久18禁秘| 青青操视频在线| 欧美一级黄片一区2区| 亚洲一级色| 亚洲欧美国产视频| 暴力调教一区二区三区|