999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)建設(shè)綜述

2015-04-21 08:33:22張坤麗昝紅英柴玉梅韓英杰
中文信息學(xué)報(bào) 2015年3期
關(guān)鍵詞:自動(dòng)識(shí)別規(guī)則

張坤麗,昝紅英,柴玉梅,韓英杰,趙 丹

(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

?

現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)建設(shè)綜述

張坤麗,昝紅英,柴玉梅,韓英杰,趙 丹

(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

現(xiàn)代漢語(yǔ)虛詞用法繁雜多樣,虛詞用法的研究對(duì)漢語(yǔ)語(yǔ)義理解及語(yǔ)法分析起著非常重要地作用。該文在分析虛詞及詞匯知識(shí)庫(kù)研究現(xiàn)狀的基礎(chǔ)上,對(duì)三位一體的現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)中虛詞用法詞典、虛詞用法規(guī)則庫(kù)和虛詞用法標(biāo)注語(yǔ)料庫(kù)的建設(shè)過(guò)程進(jìn)行了詳細(xì)描述,對(duì)虛詞知識(shí)庫(kù)現(xiàn)存的問(wèn)題進(jìn)行了分析。利用已經(jīng)構(gòu)建的現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù),對(duì)虛詞用法自動(dòng)識(shí)別進(jìn)行了研究,并對(duì)現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的應(yīng)用進(jìn)行了初步的探討。

虛詞用法知識(shí)庫(kù);虛詞用法詞典;虛詞用法規(guī)則庫(kù);虛詞用法標(biāo)注語(yǔ)料庫(kù)

1 前言

在漢語(yǔ)中,意義較為空靈、在句子中承擔(dān)語(yǔ)法特征和相關(guān)實(shí)詞之間語(yǔ)義關(guān)系描述的詞語(yǔ)稱之為虛詞。虛詞的語(yǔ)義及用法復(fù)雜多樣,且對(duì)所在句子的語(yǔ)義影響很大[1]。眾多的語(yǔ)言學(xué)家對(duì)漢語(yǔ)虛詞的語(yǔ)義及用法進(jìn)行研究,研究成果眾多。首先是一些關(guān)于虛詞的詞典,如呂叔湘先生的《現(xiàn)代漢語(yǔ)八百詞》,北京大學(xué)中文系1955、1957級(jí)語(yǔ)言班的《現(xiàn)代漢語(yǔ)虛詞例釋》,武克忠的《現(xiàn)代漢語(yǔ)常用虛詞詞典》,侯學(xué)超的《現(xiàn)代漢語(yǔ)虛詞詞典》,張斌的《現(xiàn)代漢語(yǔ)虛詞詞典》等,盡管各書(shū)側(cè)重點(diǎn)不同,收錄詞條也不盡相同,但都結(jié)合體例,對(duì)虛詞進(jìn)行了較為詳盡的分類辨析。其次是出現(xiàn)了一些虛詞研究的專著和大量的虛詞研究論文,如陸儉明、馬真的《現(xiàn)代漢語(yǔ)虛詞散論》充分體現(xiàn)出虛詞研究在語(yǔ)法研究中的作用,使?jié)h語(yǔ)的虛詞研究達(dá)到了新的高度。張斌、范開(kāi)泰主編的現(xiàn)代漢語(yǔ)虛詞研究叢書(shū)以及其他學(xué)者的研究成果,都對(duì)各類虛詞分別做了細(xì)致的描述,并加以解釋,總結(jié)規(guī)律。

雖然語(yǔ)言學(xué)家對(duì)虛詞的研究碩果累累,但語(yǔ)言處理系統(tǒng)最終需要強(qiáng)大的知識(shí)庫(kù)支持[2],而詞匯知識(shí)庫(kù)在自然語(yǔ)言處理系統(tǒng)中,具有非常重要的作用。現(xiàn)代漢語(yǔ)詞匯知識(shí)庫(kù)的代表主要有: 以漢語(yǔ)和英語(yǔ)所表示的概念為描述對(duì)象,以描述概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的知網(wǎng)(HowNet)[2];以真實(shí)語(yǔ)料為支撐,包含框架及框架關(guān)系的漢語(yǔ)框架語(yǔ)義網(wǎng)(Chinese FrameNet,CFN)[3];由哈爾濱工業(yè)大學(xué)信息檢索研究室在《同義詞詞林》[4]的基礎(chǔ)上剔除生僻詞所完成的義類詞典《同義詞詞林(擴(kuò)展版)》;按照語(yǔ)法功能與意義相結(jié)合的準(zhǔn)則進(jìn)行詞語(yǔ)收錄,依照語(yǔ)法功能分布的原則對(duì)所收詞語(yǔ)進(jìn)行歸類,并分類描述每個(gè)詞語(yǔ)的相關(guān)語(yǔ)法屬性的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》(GKB)[5]。在以上漢語(yǔ)詞匯知識(shí)庫(kù)中,HowNet及《同義詞詞林(擴(kuò)展版)》對(duì)虛詞語(yǔ)義表達(dá)不夠詳細(xì),CFN并未涉及虛詞,GKB在漢語(yǔ)虛詞信息收錄方面則較為薄弱[6],對(duì)虛詞僅以語(yǔ)義概念進(jìn)行區(qū)分,未進(jìn)行用法的細(xì)化。

綜上,以語(yǔ)言學(xué)家對(duì)虛詞研究的成果為基礎(chǔ),構(gòu)建完備的現(xiàn)代漢語(yǔ)虛詞詞匯知識(shí)庫(kù)是自然語(yǔ)言處理的迫切需求。針對(duì)自然語(yǔ)言處理技術(shù)及應(yīng)用研究的實(shí)際需要,現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)(the Chinese Function word usage Knowledge Base,CFKB)將漢語(yǔ)虛詞界定為副詞、介詞、連詞、助詞、語(yǔ)氣詞、方位詞,在俞士汶等[6]“三位一體”構(gòu)建思想的指導(dǎo)下,從現(xiàn)代漢語(yǔ)虛詞的用法入手,構(gòu)建了包括現(xiàn)代漢語(yǔ)虛詞用法詞典、現(xiàn)代漢語(yǔ)虛詞用法規(guī)則庫(kù)以及現(xiàn)代漢語(yǔ)虛詞用法標(biāo)注語(yǔ)料庫(kù)的知識(shí)庫(kù),其中語(yǔ)料庫(kù)中包含了《人民日?qǐng)?bào)》七個(gè)月語(yǔ)料的虛詞用法的標(biāo)注。以下將對(duì)CFKB的總體框架、具體內(nèi)容、建設(shè)過(guò)程進(jìn)行詳細(xì)的描述,對(duì)現(xiàn)存的問(wèn)題及基于CFKB虛詞用法自動(dòng)識(shí)別的研究結(jié)果進(jìn)行分析。

2 現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)建設(shè)

2.1 CFKB構(gòu)建過(guò)程

CFKB包含現(xiàn)代漢語(yǔ)虛詞用法詞典、現(xiàn)代漢語(yǔ)虛詞用法規(guī)則庫(kù)、現(xiàn)代漢語(yǔ)虛詞用法語(yǔ)料庫(kù)三部分,包括副詞、介詞、連詞、助詞、語(yǔ)氣詞、方位詞等六類虛詞。CFKB構(gòu)建過(guò)程如圖1所示。

圖1 CFKB構(gòu)建過(guò)程

在CFKB的構(gòu)建過(guò)程中,先構(gòu)建詞典及規(guī)則庫(kù);再利用規(guī)則自動(dòng)標(biāo)注語(yǔ)料;之后對(duì)語(yǔ)料進(jìn)行人工校對(duì)。在校對(duì)過(guò)程中,對(duì)詞典和規(guī)則進(jìn)行調(diào)整。具體如下:

(1) 根據(jù)各類詞性的語(yǔ)法特征,設(shè)計(jì)虛詞用法詞典的框架;

(2) 依據(jù)《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》、人民日?qǐng)?bào)分詞與詞性標(biāo)注語(yǔ)料以及經(jīng)典文獻(xiàn)(《現(xiàn)代漢語(yǔ)八百詞》、《現(xiàn)代漢語(yǔ)虛詞詞典》、《現(xiàn)代漢語(yǔ)詞典》)確定現(xiàn)代漢語(yǔ)虛詞用法詞典的詞條,填充用法描述、釋義、例句等屬性內(nèi)容;

(3) 設(shè)計(jì)用法規(guī)則描述規(guī)范,依據(jù)詞典中用法的描述,人工構(gòu)建初步的用法規(guī)則庫(kù);

(4) 設(shè)計(jì)基于規(guī)則的虛詞用法自動(dòng)識(shí)別算法,對(duì)《人民日?qǐng)?bào)》已分詞和詞性標(biāo)注的1998年1月的語(yǔ)料中的虛詞進(jìn)行了用法自動(dòng)標(biāo)注;

(5) 對(duì)自動(dòng)標(biāo)注后的《人民日?qǐng)?bào)》采用人工雙盲校對(duì),標(biāo)注用法不一致的加入第三方討論確定最終的標(biāo)注結(jié)果,并形成校對(duì)規(guī)范(或完善校對(duì)規(guī)范);

(6) 根據(jù)人工校對(duì)過(guò)程中遇到的問(wèn)題及已完成的校對(duì)語(yǔ)料,完成以下工作。

a. 對(duì)用法詞典,根據(jù)實(shí)際語(yǔ)料的用法調(diào)整用法、用法描述、補(bǔ)充例句等內(nèi)容;

b. 對(duì)規(guī)則庫(kù),根據(jù)自動(dòng)標(biāo)注結(jié)果和人工校對(duì)結(jié)果統(tǒng)計(jì)自動(dòng)標(biāo)注的準(zhǔn)確率,根據(jù)準(zhǔn)確率調(diào)整規(guī)則內(nèi)容及規(guī)則順序;

(7) 利用新的規(guī)則自動(dòng)標(biāo)注《人民日?qǐng)?bào)》2000年1月的語(yǔ)料,重復(fù)(5)至(7)完成《人民日?qǐng)?bào)》語(yǔ)料2000年1至6月中的虛詞用法標(biāo)注。

按照以上過(guò)程,從2005至2013年,歷時(shí)八年,目前CFKB中虛詞用法詞典、虛詞用法規(guī)則庫(kù)及包含七個(gè)月《人民日?qǐng)?bào)》語(yǔ)料虛詞標(biāo)注的語(yǔ)料庫(kù)已經(jīng)完成,且已逐步完善,以下對(duì)這三部分逐一進(jìn)行介紹。

2.2 現(xiàn)代漢語(yǔ)虛詞用法詞典

現(xiàn)代漢語(yǔ)虛詞用法詞典的構(gòu)建是在GKB[5]以及劉云[7]和彭爽[8]的工作基礎(chǔ)上進(jìn)行的,GKB[5]從語(yǔ)法功能角度對(duì)虛詞進(jìn)行了描述,劉云[7]為副詞、連詞、介詞和語(yǔ)氣詞等設(shè)計(jì)了相應(yīng)的描述屬性,對(duì)常用虛詞進(jìn)行了歸類和總結(jié);彭爽[8]研究了現(xiàn)代漢語(yǔ)介詞的語(yǔ)法特點(diǎn)和語(yǔ)法功能,構(gòu)建了初步的介詞用法詞典。

現(xiàn)代漢語(yǔ)虛詞用法詞典的建設(shè)經(jīng)過(guò)框架設(shè)計(jì)、內(nèi)容填充和反饋修改三個(gè)步驟。

(1) 框架設(shè)計(jì)

現(xiàn)代漢語(yǔ)虛詞用法詞典的框架包含四大類屬性: 標(biāo)識(shí)類、句法功能描述類、范疇類和用法描述類。其中標(biāo)識(shí)類對(duì)六大類詞性都是相同的,是對(duì)虛詞的每個(gè)用法賦以唯一的編碼(ID),作為聯(lián)系規(guī)則庫(kù)和語(yǔ)料庫(kù)的唯一標(biāo)識(shí),其編碼形式為“POS_全拼[_tn] [_m] [x] [y]”,其中“POS”為詞性,“全拼”為拼音全稱,“tn”標(biāo)明同音詞序號(hào),用于對(duì)同詞類的同音不同形詞語(yǔ)的編碼區(qū)分,“m”為義項(xiàng)編號(hào)(1,2,3,…),“x”為用法編號(hào)(a,b,c,…),“y”是對(duì)用法的進(jìn)一步細(xì)化編號(hào)(a,b,c,…),“[ ]”表示根據(jù)需要可選。對(duì)標(biāo)識(shí)類更詳細(xì)的描述見(jiàn)文獻(xiàn)[9]。用法描述類、句法功能描述類和范疇類則因詞性而異。如方位詞用法關(guān)注前后搭配為“時(shí)間”、“處所”、“名”,則將其作為用法詞典中的用法描述類屬性;對(duì)于某些副詞而言,位置改變不影響語(yǔ)義的表達(dá),如“他們幾個(gè)本來(lái)不是一個(gè)單位的”和“本來(lái)他們幾個(gè)不是一個(gè)單位的”兩句中的副詞“本來(lái)”放在主語(yǔ)之后,或放在主語(yǔ)之前,語(yǔ)義完全相同,因此將“位移”作為副詞的用法描述屬性。對(duì)范疇類屬性,連詞關(guān)注“關(guān)系”(轉(zhuǎn)折、并列、遞進(jìn)……),副詞關(guān)注“副詞小類”(描摹性、評(píng)注性、程度……),介詞則關(guān)注其賓語(yǔ)為“體賓、謂賓”等。用法詞典各類詞性框架設(shè)計(jì)詳見(jiàn)文獻(xiàn)[9-11]。虛詞用法詞典作為一個(gè)整體,各類詞性的框架設(shè)計(jì)既有統(tǒng)一的屬性,也有因其自身特征而不同的屬性,使虛詞用法知識(shí)庫(kù)在自然語(yǔ)言處理中能夠最大化的發(fā)揮作用。

(2) 內(nèi)容填充

在確定了詞典中六大類詞性的框架之后,基于劉云和彭爽的工作,主要參考了《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》[5]、呂叔湘《現(xiàn)代漢語(yǔ)八百詞》、《現(xiàn)代漢語(yǔ)詞典》(第5版)以及張斌《現(xiàn)代漢語(yǔ)虛詞詞典》等語(yǔ)言資源,并基于《人民日?qǐng)?bào)》1998年1月以及2000年1至6月分詞和詞性標(biāo)注語(yǔ)料中的虛詞,結(jié)合漢語(yǔ)虛詞的實(shí)際用法規(guī)律,按用法屬性進(jìn)行分解,將每一個(gè)用法作為詞典中的一條記錄。針對(duì)不同學(xué)者的不同見(jiàn)解,詞典內(nèi)容依據(jù)面向自然語(yǔ)言處理的需求,分解、辨析各用法描述,抽取可操作的用法特征進(jìn)行填充。為跟蹤用法詞典信息來(lái)源,分別在相應(yīng)內(nèi)容之后用“”、“”、“”、“”和“”(圖1)代表以上五種來(lái)源,如果對(duì)以上內(nèi)容進(jìn)行綜合或修改,或者從其他的來(lái)源所獲取的內(nèi)容,則記錄為“”。虛詞用法詞典樣例如圖2所示。

圖2 虛詞用法詞典樣例

(3) 反饋修改

在語(yǔ)料校對(duì)的過(guò)程中,通過(guò)反饋和辨析,也對(duì)虛詞用法詞典進(jìn)行了調(diào)整。首先是對(duì)詞典中一些詞語(yǔ)的增刪,如“又”在語(yǔ)料中與“既”搭配使用時(shí),都標(biāo)注為連詞,如下句:

這樣/rz 既/c 方便/v 廣大/b 市民/n 參加/v 活動(dòng)/vn ,/wd 又/c 能/vu 更/d 好/a 地/ui 維持/v 秩序/n ,/wd 確保/v 安全/an 。/wj (20000101-10-014-006/m)

根據(jù)語(yǔ)料中詞性標(biāo)記,在2009年的版本[10]中收錄為連詞,但經(jīng)過(guò)辨析,此例中的“又”語(yǔ)義為“表示幾個(gè)動(dòng)作、狀態(tài)、情況累積在一起”,仍屬于副詞范疇,因此從連詞詞典中刪除“又”。又如原副詞詞典[10]中收錄了“沿途”,而未收錄“沿街”,通過(guò)考察語(yǔ)料,“沿街”作為副詞在語(yǔ)料中出現(xiàn),且其用法和性質(zhì)與“沿途”類似,因此在副詞詞典增加了此詞條。

其次是對(duì)已有的用法進(jìn)行增刪,如副詞“也”表示關(guān)聯(lián)時(shí),除了表示遞進(jìn)、選擇、轉(zhuǎn)折、假設(shè)、讓步、條件、因果等關(guān)系外,在語(yǔ)料中還發(fā)現(xiàn)了單純的承接關(guān)系,如“也就是在那以后不久,我們從南宮進(jìn)入國(guó)統(tǒng)區(qū),向黃河前進(jìn)”,因此在詞典中增加了一個(gè)新的用法,并通過(guò)抽取語(yǔ)料中可操作的用法特征,總結(jié)為“也+就是在…,也+正是…,也+正因?yàn)椤?可以說(shuō)…。”。

虛詞用法詞典的建設(shè)是一個(gè)不斷完善和改進(jìn)的過(guò)程, 2007年版本[9]共計(jì)虛詞1 914個(gè),用法3 538條;2009年版本[10]共計(jì)虛詞1 922個(gè),用法3 622條;目前的版本(2013年)中共計(jì)虛詞2 401個(gè),用法4 337條。作為對(duì)比,虛詞用法詞典2009年版本[10]各類虛詞的統(tǒng)計(jì)結(jié)果以及目前版本的詳細(xì)用法統(tǒng)計(jì)結(jié)果在表1中列出。從表1中可看出除助詞外,每類詞的詞語(yǔ)數(shù)及用法數(shù)都有較大的調(diào)整。

表1 現(xiàn)代漢語(yǔ)虛詞用法詞典中虛詞用法分布

目前虛詞用法詞典已初具規(guī)模,但其中對(duì)于常用虛詞(在語(yǔ)料中出現(xiàn)頻次較高),語(yǔ)言學(xué)家對(duì)其研究較多,其語(yǔ)義及用法劃分顆粒度較小,而對(duì)于不太常用的虛詞或用法較為簡(jiǎn)單的虛詞,其語(yǔ)義及用法劃分顆粒度較大。如對(duì)于圖2所示副詞“都”的第二個(gè)語(yǔ)義“甚至”,就分別給出了四種在這個(gè)語(yǔ)義下的特殊框架,d_dou1_2a作為單獨(dú)的用法,用法描述為“與‘連’字同用”,如例句“連書(shū)包里的東西都淋濕了”;而副詞“足以”僅有一個(gè)語(yǔ)義(用法)描述為“修飾動(dòng)詞、形容詞或動(dòng)詞短語(yǔ)”。通過(guò)用法描述的比較,發(fā)現(xiàn)二者在用法分割粒度上有較大的差異,是否有必要統(tǒng)一劃分標(biāo)準(zhǔn),也是下一步虛詞用法詞典的完善中需要考慮的問(wèn)題。

2.3 現(xiàn)代漢語(yǔ)虛詞用法規(guī)則庫(kù)

在初步完成現(xiàn)代漢語(yǔ)虛詞用法詞典的基礎(chǔ)上,規(guī)則庫(kù)的建設(shè)也分為三步,即確定規(guī)則描述形式及規(guī)范、規(guī)則構(gòu)建及反饋修改。

(1) 確定規(guī)則描述形式及規(guī)范

根據(jù)虛詞用法特征的不同表現(xiàn),抽取可操作的判斷條件特征,包括句首(F)、左搭配(M)、左緊鄰(L)、右緊鄰(R)、右搭配(N)以及句末(E),以有序的BNF形式構(gòu)建了現(xiàn)代漢語(yǔ)虛詞用法規(guī)則庫(kù)。識(shí)別規(guī)則的一般描述形式為:

@ →[F] [M][ L][ R][ N][ E]^F→<詞1>|<詞2>|…|a|v|n|…^M→<詞1>|<詞2>|…|a|v|n|…^L→<詞1>|<詞2>|…|a|v|n|…^R→<詞1>|<詞2>|…|a|v|n|…^N→<詞1>|<詞2>|…|a|v|n|…^E→<詞1>|<詞2>|…|a|v|n|…

其中,“@”為規(guī)則起始標(biāo)志符;“^”為各特征定義連接符,各個(gè)特征之間默認(rèn)為合取關(guān)系;“ID”為所識(shí)別的用法的編碼ID;“→”表示定義為;“[ ]”表示可選內(nèi)容,即一個(gè)用法可用六個(gè)特征的一個(gè)或多個(gè)進(jìn)行描述;“<詞>”表示該特征位置上出現(xiàn)的詞語(yǔ);“a、v、n”等表示該特征位置上出現(xiàn)的詞性。

除了一般描述形式中的六大特征之外,還引入了框架及語(yǔ)義類描述,有以下三種形式:

a.同詞或同詞性的語(yǔ)境,用“A”和“B”表示,如

$不

@→A~A^A→a //A表示前后同詞,如: “干凈不干凈”

@→~B~B^B→f //B表示同詞性,如: “不上不下”

b. 前后詞有包含關(guān)系的,用“T”和“S”表示,以“%”作為標(biāo)記,如:

$不

@→%S%~%T% //如: “吃飯不吃?”中,詞語(yǔ)“吃”(T)是“吃飯”(S)的子集

c.引入語(yǔ)義類,語(yǔ)義類保存在文件中,規(guī)則中引用語(yǔ)義類文件,以一對(duì)單引號(hào)作為標(biāo)記,如:

$十分

@→R^R→′xinli_v.txt′ // “十分”用法1b: “修飾心理動(dòng)詞”

上例對(duì)“十分”的規(guī)則描述中,將 “愛(ài)、愁、擔(dān)心、惦記、發(fā)愁、害怕、恨、后悔、懷念、懷疑、嫉妒、……”心理動(dòng)詞語(yǔ)義類寫(xiě)入文件“xinli_v.txt"中,在使用規(guī)則識(shí)別時(shí)調(diào)用。

(2) 規(guī)則構(gòu)建

虛詞用法規(guī)則是依據(jù)已建立的虛詞詞典中的用法描述,以較高自動(dòng)識(shí)別準(zhǔn)確率為出發(fā)點(diǎn),人工進(jìn)行構(gòu)建的。對(duì)比較復(fù)雜的用法,一個(gè)用法可以用多條規(guī)則來(lái)描述。如圖2副詞“都”的2b用法描述為“‘都’前后用同一個(gè)動(dòng)詞(前一肯定,后一否定)。A~A(不|沒(méi)|沒(méi)有|未|)或A~(不|沒(méi)|沒(méi)有|未|)#A。”。“拉都拉不住他”中的“都”屬于這里的第一種情況,這種情況下“都”左右兩側(cè)緊鄰的是相同的詞,較容易采用規(guī)則進(jìn)行識(shí)別,而“自己想都不敢想”中也符合2b用法描述,但是兩個(gè)相同的動(dòng)詞之間可能間隔多個(gè)詞,因此將2b用法分為兩條規(guī)則進(jìn)行描述。如圖2所示副詞“都”,3個(gè)語(yǔ)義共11個(gè)用法,有12條規(guī)則描述,其規(guī)則描述為:

$都

@→M^M→(不論|不管|無(wú)論|雖然|盡管|凡是|只要)*{,}

@→FR^F→~^R→是

@→M^M→連|甚至

@→A~A(不|沒(méi)|沒(méi)有|未|)^A→v

@→MN^M→一q^N→不|沒(méi)|沒(méi)有|未|

@→E^E→了,

@→N^N→[,]*(不|沒(méi)|)

@→A~(不|沒(méi)|沒(méi)有|未|)*A^A→v

@→NE^N→誰(shuí)|哪里|什么|怎么|哪兒|哪||^E→?

@→M^M→誰(shuí)|哪里|什么|怎么|哪兒|哪||

@→N^N→v|a

@→N^N→v

(3) 反饋修改

根據(jù)校對(duì)后的語(yǔ)料對(duì)規(guī)則庫(kù)的修改主要采用兩種方式。

a. 人工方式。對(duì)于規(guī)則內(nèi)容,對(duì)比人工校對(duì)后語(yǔ)料和規(guī)則自動(dòng)標(biāo)注的語(yǔ)料,依據(jù)每個(gè)用法規(guī)則自動(dòng)標(biāo)注的準(zhǔn)確率,分析標(biāo)注錯(cuò)誤或規(guī)則無(wú)法識(shí)別的句子,從中抽取可以形式化的規(guī)律,修改規(guī)則。對(duì)于規(guī)則排序,考慮到基于規(guī)則自動(dòng)識(shí)別虛詞用法的需要,同一虛詞的多條用法規(guī)則并不是以用法編碼的字母序排列,參考用法規(guī)則之間的互相覆蓋程度以及虛詞各用法在真實(shí)文本語(yǔ)料中的分布概率,規(guī)則描述較為清晰完備、自動(dòng)識(shí)別準(zhǔn)確率較高的規(guī)則優(yōu)先級(jí)別較高,排在前面。

b. 自動(dòng)方式。主要針對(duì)規(guī)則無(wú)法識(shí)別的用法(自動(dòng)標(biāo)注為)的虛詞,吳云鵬等[12]以錯(cuò)誤驅(qū)動(dòng)的方式,采用機(jī)器學(xué)習(xí)的方法,建立轉(zhuǎn)換模板,生成候選規(guī)則,對(duì)候選規(guī)則采用目標(biāo)函數(shù)進(jìn)行評(píng)分,分?jǐn)?shù)最高的規(guī)則作為更新后的規(guī)則。

通過(guò)多次修改和調(diào)整,目前已完成的規(guī)則庫(kù)包含副詞2 456條規(guī)則,介詞385條規(guī)則,連詞747條規(guī)則,助詞165條規(guī)則,語(yǔ)氣詞182條規(guī)則,方位詞761條規(guī)則。

盡管在確定規(guī)則描述形式時(shí)盡可能的將所有可以形式化的全部描述出來(lái),由于規(guī)則自身僅能處理可形式化的用法描述,目前的規(guī)則庫(kù)仍然有一定的缺憾。如用法描述中出現(xiàn)的“修飾動(dòng)詞短語(yǔ)”、“修飾小句”等,“動(dòng)詞短語(yǔ)”中在動(dòng)詞之前可以有若干修飾成分,很難形式化,而“小句”也沒(méi)有統(tǒng)一的框架,對(duì)于這一類問(wèn)題,規(guī)則是無(wú)法準(zhǔn)確描述的,因此在以后的建設(shè)中采用其他的形式對(duì)其進(jìn)行補(bǔ)充。

2.4 現(xiàn)代漢語(yǔ)虛詞用法語(yǔ)料庫(kù)

虛詞用法語(yǔ)料庫(kù)是對(duì)約有876萬(wàn)余詞的分詞與詞性基本標(biāo)注語(yǔ)料庫(kù)(即1998年1月和2000年1至6月的《人民日?qǐng)?bào)》語(yǔ)料)采用基于規(guī)則的虛詞自動(dòng)標(biāo)注的基礎(chǔ)上,分別由來(lái)自語(yǔ)言學(xué)和計(jì)算機(jī)專業(yè)的人員進(jìn)行背靠背人工標(biāo)注,根據(jù)虛詞用法詞典用法描述,對(duì)語(yǔ)料中出現(xiàn)的虛詞用法標(biāo)注進(jìn)行確認(rèn)和修改,再對(duì)雙方不一致的用法標(biāo)注加入第三方討論確定結(jié)果。為了保證語(yǔ)料庫(kù)中用法標(biāo)注的一致性,根據(jù)標(biāo)注的過(guò)程及討論的結(jié)果確定某一虛詞用法的標(biāo)注準(zhǔn)則,即用法分割原則,確保標(biāo)注均按照這個(gè)原則進(jìn)行。

標(biāo)注的結(jié)果是在相應(yīng)的虛詞后標(biāo)上用法編碼,已完成虛詞用法標(biāo)注的《人民日?qǐng)?bào)》語(yǔ)料標(biāo)注樣例如下:

20000401-01-001-006/m 中國(guó)/ns 和/c 印度/ns 都/d 是/vl 世界/n 文明/a 古國(guó)/n ,/wd 兩/m 國(guó)/n 之間/f 的/ud 友好/a 交往/vn 源遠(yuǎn)流長(zhǎng)/iv 。/wj 建交/vi 50/m 年/qt 來(lái)/f ,/wd 盡管/c 兩/m 國(guó)/n 關(guān)系/n 有/vx 過(guò)/uo 曲折/an ,/wd 但/c 睦鄰/n 友好/a 是/vl 兩/m 國(guó)/n 關(guān)系/n 的/ud 主流/n 。/wj 由/p 中/jn 印/jn 兩/m 國(guó)/n 共同/d 倡導(dǎo)/v 的/ud 和平共處/lv 五/m 項(xiàng)/qe 原則/n ,/wd 至今/d 仍/d 具有/v 強(qiáng)大/a 的/ud 生命力/n 。/wj

在進(jìn)行虛詞用法標(biāo)注的過(guò)程當(dāng)中,也對(duì)原有的分詞和詞性標(biāo)注進(jìn)行了辨析,若發(fā)現(xiàn)原語(yǔ)料中的分詞或詞性標(biāo)注不合適的地方,用“@”在語(yǔ)料中標(biāo)出,然后分情況處理。除了校對(duì)過(guò)程中人工發(fā)現(xiàn)詞性錯(cuò)誤之外,韓英杰等[13]對(duì)規(guī)則標(biāo)注時(shí)自動(dòng)標(biāo)注為的用法進(jìn)行分析,根據(jù)用法錯(cuò)誤標(biāo)注的規(guī)律,自動(dòng)發(fā)現(xiàn)某些虛詞的分詞和詞性錯(cuò)誤。

在《人民日?qǐng)?bào)》1998年1月及2000年1至6月這七個(gè)月語(yǔ)料中,由于助詞“的”出現(xiàn)頻次較高,共計(jì)約42萬(wàn)次,完成部分用法標(biāo)注即有足夠大規(guī)模的訓(xùn)練語(yǔ)料,因此只完成了五個(gè)月語(yǔ)料中約30萬(wàn)次助詞“的”的用法標(biāo)注。除了2000年2月及3月語(yǔ)料中助詞“的”未標(biāo)注用法外,目前已完成了《人民日?qǐng)?bào)》七個(gè)月語(yǔ)料中其他全部的副詞、介詞、連詞、語(yǔ)氣詞、助詞、方位詞的用法標(biāo)注,共計(jì)標(biāo)注約142萬(wàn)詞次,形成了現(xiàn)代漢語(yǔ)虛詞用法標(biāo)注語(yǔ)料庫(kù)。

雖然語(yǔ)料是以雙盲校對(duì)為基礎(chǔ),并且制定了用法分割規(guī)范,但語(yǔ)料中虛詞用法的語(yǔ)境千差萬(wàn)別,不同人的理解也會(huì)有差異,所完成的大規(guī)模的虛詞用法標(biāo)注語(yǔ)料中,很難保證所有的用法的標(biāo)注都是完全一致的,因此對(duì)于語(yǔ)料庫(kù)中虛詞用法標(biāo)注一致性的檢查也是下一步需要解決的問(wèn)題。

3 虛詞用法自動(dòng)識(shí)別研究

虛詞用法自動(dòng)識(shí)別是虛詞用法知識(shí)庫(kù)構(gòu)建及應(yīng)用的非常重要的一部分,對(duì)它的研究主要采用三種方式: 基于規(guī)則的虛詞用法自動(dòng)識(shí)別,基于統(tǒng)計(jì)的虛詞用法自動(dòng)識(shí)別,規(guī)則與統(tǒng)計(jì)相結(jié)合的虛詞用法自動(dòng)識(shí)別。

3.1 基于規(guī)則的虛詞用法自動(dòng)識(shí)別

基于規(guī)則的虛詞用法標(biāo)注首先讀取語(yǔ)料,將語(yǔ)料文本內(nèi)容切分成一個(gè)個(gè)句子(由于有些連詞是起到連接句子的作用,所以會(huì)以段落為單元進(jìn)行處理,詳見(jiàn)周麗娟等[14]),按待標(biāo)注虛詞查找規(guī)則,調(diào)用相應(yīng)的六個(gè)類型(規(guī)則中的F、M、L、R、N、F)的匹配器及特殊框架匹配器解析用法規(guī)則,進(jìn)行標(biāo)注。基于規(guī)則的虛詞用法自動(dòng)識(shí)別的具體設(shè)計(jì)及實(shí)現(xiàn)詳見(jiàn)文獻(xiàn)[15]及文獻(xiàn)[16]。

規(guī)則庫(kù)在標(biāo)注語(yǔ)料的過(guò)程中進(jìn)行了大量的調(diào)整和改進(jìn),相應(yīng)的形式化規(guī)則描述效果也有了較大的改善,從而提高了虛詞用法規(guī)則描述的準(zhǔn)確性及基于規(guī)則的虛詞用法自動(dòng)識(shí)別的準(zhǔn)確率,周麗娟等[14]、周溢輝等[17]、趙丹等[18]及韓英杰等[19]分別對(duì)基于規(guī)則的連詞、語(yǔ)氣詞、方位詞和助詞的用法自動(dòng)識(shí)別過(guò)程進(jìn)行了研究。目前,利用虛詞用法規(guī)則庫(kù),對(duì)《人民日?qǐng)?bào)》1998年1月及2000年1至6月分詞與詞性標(biāo)注語(yǔ)料中各類虛詞用法自動(dòng)識(shí)別的準(zhǔn)確率分別為: 副詞84.36%,介詞71.71%,連詞 83.68%,助詞40.71%,語(yǔ)氣詞78.85%,方位詞88.14%。其中助詞準(zhǔn)確率較低的原因是由于助詞中“的”用法復(fù)雜(共39種),規(guī)則描述困難,且在語(yǔ)料中出現(xiàn)頻次較高,它的識(shí)別準(zhǔn)確率較低,從而影響了助詞整體的準(zhǔn)確率。

規(guī)則識(shí)別準(zhǔn)確率的高低取決于規(guī)則描述的是否精準(zhǔn),由于規(guī)則描述中遇到的問(wèn)題,因此也限制了基于規(guī)則的虛詞用法自動(dòng)識(shí)別的應(yīng)用。

3.2 基于統(tǒng)計(jì)的虛詞用法自動(dòng)識(shí)別

針對(duì)規(guī)則識(shí)別的不足,利用經(jīng)過(guò)人工校對(duì)的虛詞用法語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料,對(duì)一些多用法的常用虛詞,采用支持向量機(jī)(Support Vector Machine, SVM)、最大熵(Maximum Entropy, ME)以及條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)等統(tǒng)計(jì)模型,對(duì)虛詞用法進(jìn)行基于統(tǒng)計(jì)的自動(dòng)識(shí)別研究。

由于每一個(gè)虛詞的用法都有較大差異,因此采用統(tǒng)計(jì)的方法對(duì)虛詞用法自動(dòng)識(shí)別,每一個(gè)虛詞要訓(xùn)練一個(gè)模型,昝紅英等在文獻(xiàn)[20]、[21]中分別對(duì)副詞“就”和“才”的自動(dòng)識(shí)別進(jìn)行了研究,采用統(tǒng)計(jì)方法的準(zhǔn)確率分別高出規(guī)則方法約42%和29%。文獻(xiàn)[22]中采用統(tǒng)計(jì)方法對(duì)介詞“把”的用法自動(dòng)識(shí)別進(jìn)行了研究。昝紅英等[23]和張坤麗等[24-25]分別對(duì)常用連詞、副詞和介詞的用法自動(dòng)識(shí)別進(jìn)行了研究,采用統(tǒng)計(jì)方法進(jìn)行自動(dòng)識(shí)別,相較于規(guī)則自動(dòng)識(shí)別結(jié)果,宏平均準(zhǔn)確率分別高出規(guī)則約28%、27%、30%。

3.3 規(guī)則與統(tǒng)計(jì)相結(jié)合的虛詞用法自動(dòng)識(shí)別

雖然從總體上來(lái)講基于統(tǒng)計(jì)的用法自動(dòng)識(shí)別的效果優(yōu)于基于規(guī)則的,但是通過(guò)對(duì)虛詞每一個(gè)用法識(shí)別結(jié)果分析表明,在某些用法上基于規(guī)則的效果優(yōu)于基于統(tǒng)計(jì)的方法,因此考慮采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法對(duì)虛詞用法進(jìn)行自動(dòng)識(shí)別。

張靜杰等[26]通過(guò)考察標(biāo)注語(yǔ)料中副詞“都”的分布率,將每個(gè)用法單獨(dú)使用規(guī)則及單獨(dú)使用統(tǒng)計(jì)方法的準(zhǔn)確率作為參考,采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,進(jìn)行用法自動(dòng)識(shí)別研究,準(zhǔn)確率達(dá)到98.54%,分別高出規(guī)則方法和統(tǒng)計(jì)方法16.54%和8.92%。周麗娟等[27]對(duì)三個(gè)月《人民日?qǐng)?bào)》語(yǔ)料中的多用法連詞采用不同的規(guī)則與統(tǒng)計(jì)相結(jié)合的方式進(jìn)行用法自動(dòng)識(shí)別研究,準(zhǔn)確率相比于規(guī)則和統(tǒng)計(jì)方法均有一定的提高。昝紅英等[28]采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法對(duì)常用介詞的用法進(jìn)行了自動(dòng)識(shí)別研究,宏平均準(zhǔn)確率為82.02%,分別高出規(guī)則方法和統(tǒng)計(jì)方法14.64%和5.22%。

4 漢語(yǔ)虛詞用法知識(shí)庫(kù)應(yīng)用初探及前景

現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的研究成果可直接應(yīng)用于自然語(yǔ)言理解中,已經(jīng)初步探討虛詞用法在短語(yǔ)結(jié)構(gòu)分析、句法分析、信息抽取及語(yǔ)法偏誤自動(dòng)識(shí)別中的作用。在短語(yǔ)結(jié)構(gòu)分析方面,昝紅英等[29]將連詞用法識(shí)別的結(jié)果引入到連詞短語(yǔ)結(jié)構(gòu)分析中,以2000年1月《人民日?qǐng)?bào)》為實(shí)驗(yàn)語(yǔ)料,分別采用規(guī)則和統(tǒng)計(jì)的方法對(duì)連詞結(jié)構(gòu)進(jìn)行識(shí)別,相較于不引入連詞用法特征,采用統(tǒng)計(jì)方法識(shí)別準(zhǔn)確率最高能提高4%左右;在句法分析方面,昝紅英等[10]初步探索了虛詞用法標(biāo)注對(duì)依存句法分析結(jié)果的影響,張靜杰[30]、龐熠雅[31]將介詞和連詞用法識(shí)別的結(jié)果分別引入到哈工大LTP平臺(tái)依存句法分析和Stanford Parser短語(yǔ)結(jié)構(gòu)句法分析的后處理中,提高了句法分析的準(zhǔn)確性;在信息抽取方面,昝紅英等[32]將介詞用法識(shí)別結(jié)果引入到會(huì)議事件元素的抽取中,相比于已有方法的最好結(jié)果,準(zhǔn)確率能提高9%左右;在語(yǔ)法偏誤識(shí)別方面,韓英杰等[33]將連詞用法引入到語(yǔ)法偏誤分析中,能夠自動(dòng)識(shí)別連詞的誤加、誤代和遺漏等部分語(yǔ)法偏誤。

以上僅是對(duì)現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)應(yīng)用的一些初步的探討,目前,基于規(guī)則和基于統(tǒng)計(jì)的漢語(yǔ)虛詞用法自動(dòng)識(shí)別算法能夠?qū)ξ谋局谐霈F(xiàn)的虛詞進(jìn)行用法的自動(dòng)標(biāo)注,結(jié)合漢語(yǔ)虛詞用法詞典,除了在以上領(lǐng)域外,還可以在機(jī)器翻譯、問(wèn)答系統(tǒng)等自然語(yǔ)言處理領(lǐng)域取得一定的應(yīng)用效果,另外在對(duì)外漢語(yǔ)教學(xué)中針對(duì)漢語(yǔ)虛詞的語(yǔ)義理解、同義及近義虛詞的辨析、介詞結(jié)構(gòu)及連詞結(jié)構(gòu)的固定搭配以及虛詞偏誤的自動(dòng)分析等也可以起到一定的輔助學(xué)習(xí)作用。

5 結(jié)語(yǔ)

“三位一體”的現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的建設(shè)汲取了語(yǔ)言學(xué)家對(duì)虛詞研究的精華,借鑒了其他漢語(yǔ)詞匯知識(shí)庫(kù)建設(shè)的經(jīng)驗(yàn),結(jié)合了真實(shí)語(yǔ)料,目前已經(jīng)完成了副詞、介詞、連詞、助詞、語(yǔ)氣詞、方位詞這六大類詞性的現(xiàn)代漢語(yǔ)虛詞用法詞典和虛詞用法規(guī)則庫(kù),完成了包含七個(gè)月《人民日?qǐng)?bào)》約142萬(wàn)詞次虛詞用法標(biāo)注的語(yǔ)料庫(kù),并依據(jù)規(guī)則庫(kù)和語(yǔ)料庫(kù)對(duì)虛詞用法的自動(dòng)識(shí)別進(jìn)行了研究,對(duì)虛詞知識(shí)庫(kù)的應(yīng)用進(jìn)行了初步的探討。

雖然現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)已經(jīng)過(guò)多年的建設(shè),已逐步趨于完善,但解決詞典、規(guī)則及語(yǔ)料庫(kù)中存在的問(wèn)題是構(gòu)建面向自然語(yǔ)言處理的精準(zhǔn)虛詞用法知識(shí)庫(kù)需要努力的方向。除此之外,基于現(xiàn)代漢語(yǔ)虛詞用法知識(shí)庫(kù)的應(yīng)用探討,也是進(jìn)一步工作的方向。

[1] 呂叔湘,朱德熙.語(yǔ)法修辭講話[M].沈陽(yáng): 遼寧教育出版社, 2002.

[2] 董振東.知網(wǎng)[DB/OL].http://www.keenage.com.

[3] You L P,Liu K Y.Building Chinese FrameNet Database[C]//Proceedings of 2005 IEEE NLPKE,2005: 301-306.

[4] 梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].上海: 上海辭書(shū)出版社,1983.

[5] 俞士汶,朱學(xué)鋒,王惠,等.現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解[M].北京: 清華大學(xué)出版社,1998.

[6] 俞士汶,朱學(xué)鋒,劉云.現(xiàn)代漢語(yǔ)廣義虛詞知識(shí)庫(kù)的建設(shè)[J].漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào),2003,13(1):89-98.

[7] 劉云.漢語(yǔ)虛詞知識(shí)庫(kù)的建設(shè)[R].博士后出站報(bào)告.北京:北京大學(xué),2004.

[8] 彭爽.現(xiàn)代漢語(yǔ)介詞知識(shí)庫(kù)的建設(shè)與相關(guān)研究[R].博士后出站報(bào)告.北京:北京大學(xué),2006.

[9] 昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的研究[J].中文信息學(xué)報(bào),2007,21(5):107-111.

[10] 昝紅英,朱學(xué)鋒.面向自然語(yǔ)言處理的漢語(yǔ)虛詞研究與廣義虛詞知識(shí)庫(kù)構(gòu)建[J].當(dāng)代語(yǔ)言學(xué),2009,11(2):124-135.

[11] Zan H Y, Zhang K L, Zhu X F, et al. Research on the Chinese Function Word Usage Knowledge Base[J]. International Journal on Asian Language Processing, 2011, 21(4):185-198.

[12] 吳云鵬,昝紅英.基于錯(cuò)誤驅(qū)動(dòng)的現(xiàn)代漢語(yǔ)方位詞用法規(guī)則的自動(dòng)更新[C].第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,武漢: 武漢大學(xué),2010: 43-49.

[13] 韓英杰,張坤麗,昝紅英,等.基于助詞用法的漢語(yǔ)詞性、分詞錯(cuò)誤自動(dòng)發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2011,28(4):1318-1321.

[14] 周麗娟,張坤麗,袁應(yīng)成,等.基于規(guī)則的現(xiàn)代漢語(yǔ)連詞用法自動(dòng)識(shí)別研究[C].第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,武漢: 武漢大學(xué),2010: 96-102.

[15] 劉銳,昝紅英,張坤麗.現(xiàn)代漢語(yǔ)副詞用法的自動(dòng)識(shí)別研究[J].計(jì)算機(jī)科學(xué),2008,35(8A):172-174.

[16] 袁應(yīng)成,昝紅英,張坤麗,等.基于規(guī)則的虛詞用法自動(dòng)標(biāo)注算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[C].第十一屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,蘇州:蘇州大學(xué),2010:163-169.

[17] 周溢輝,昝紅英,柴玉梅,等.基于主觀認(rèn)知的漢語(yǔ)助詞和語(yǔ)氣詞區(qū)分問(wèn)題研究[C].第十一屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,蘇州:蘇州大學(xué),2010:382-388.

[18] 趙丹,張坤麗,昝紅英,等.面向機(jī)器識(shí)別的現(xiàn)代漢語(yǔ)方位詞用法形式化描述研究[C].第十一屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,蘇州:蘇州大學(xué),2010:298-304.

[19] 韓英杰,昝紅英,張坤麗,等.基于規(guī)則的現(xiàn)代漢語(yǔ)常用助詞用法自動(dòng)識(shí)別[J].計(jì)算機(jī)應(yīng)用,2011,31 (12):3271-3274.

[20] 昝紅英,張軍琿,朱學(xué)鋒,等.副詞“就”的用法及其自動(dòng)識(shí)別研究[J].中文信息學(xué)報(bào),2010,24(5):10-16.

[21] Zan H Y, Zhang J H. Studies on Automatic Recognition of Chinese Adverb CAI’s usages Based on Statistics[C]//Proceedings of the 5th International Conference on Natural Language Processing and Knowledge Engineering(NLPKE2009).2009:393-397.

[22] Mu L L,Pang Y Y,Zan H Y.Studies on Automatic Recognition of Preposition BA’s Usages Based on Statistics[C]//Proceedings of IEEE CCIS2012,2012:1875-1879.

[23] Zan H Y, Zhou L J, Zhang K L. Studies on the Automatic Recognition of Modern Chinese Conjunction Usages[C]//Proceedings of Lecture Notes in Computer Science(Advanced Intelligent Computing).2011:472-479.

[24] 張坤麗,趙丹,昝紅英,等.常用現(xiàn)代漢語(yǔ)副詞用法自動(dòng)識(shí)別研究[J].中文信息學(xué)報(bào),2012,26(6):65-71.

[25] Zhang K L, Zan H Y, Han Y J, et al. Studies on Automatic Recognition of Contemporary Chinese Common Preposition Usage[C]//Proceedings of CLSW2012.Wuhan,2012:219-229.

[26] 張靜杰,昝紅英.副詞“都”用法自動(dòng)識(shí)別研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):165-169.

[27] Zhou L J,Zan H Y.Studies on a Hybrid Way of Rules and Statistics for Chinese Conjunction Usages Recognition[C].第十四屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.鄭州:鄭州大學(xué),2013: 356-361.

[28] 昝紅英,張騰飛,張坤麗. 規(guī)則與統(tǒng)計(jì)相結(jié)合的介詞用法自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(6):2152-2157.

[29] 昝紅英,周麗娟,張坤麗.基于用法的現(xiàn)代漢語(yǔ)連詞結(jié)構(gòu)短語(yǔ)識(shí)別研究[J].中文信息學(xué)報(bào),2012,26(6):72-78.

[30] 張靜杰.虛詞用法自動(dòng)識(shí)別及其在依存句法分析中的應(yīng)用研究[D].鄭州大學(xué)碩士學(xué)位論文,2013.

[31] 龐熠雅.介詞、連詞用法在短語(yǔ)結(jié)構(gòu)句法分析中的應(yīng)用研究[D].鄭州大學(xué)碩士學(xué)位論文,2013.

[32] 昝紅英,張騰飛,林愛(ài)英.基于介詞用法的事件信息抽取研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(7):2570-2574.

[33] 韓英杰,昝紅英,吳泳剛,等.連詞用法在對(duì)外漢語(yǔ)教學(xué)語(yǔ)法偏誤自動(dòng)識(shí)別中的應(yīng)用研究[C].第十四屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,鄭州:鄭州大學(xué),2013: 13-18.

Survey of the Chinese Function Word Usage Knowledge Base

ZHANG Kunli, ZAN Hongying, CHAI Yumei, HAN Yingjie, ZHAO Dan

(College of Information Engineering, Zhengzhou University, Zhengzhou, Henan 450001, China)

The contemporary Chinese function words with their distinct usages play complex syntax roles. The study on Chinese function words is of great significance in Chinese syntax analysis and semantic understanding. This paper firstly reviews the current research on Chinese function words and lexical knowledge base. Then it describes a triune construction on the knowledge base of modern Chinese function words i.e. the usage dictionary, the usage rule and the usage-annotated corpus. With the the finished knowledge base so far, the automatic usage recognition of the Chinese function words is investigated, with other potential applications discussed.

function word usage knowledge base; function word usage dictionary; function word usage rule base; function word usage corpus

張坤麗(1977—),博士研究生,講師,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?mail:ieklzhang@zzu.edu.cn昝紅英(1966—),博士,教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?mail:iehyzan@zzu.edu.cn柴玉梅(1964—),碩士,教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),自然語(yǔ)言處理。E?mail:iehyzan@zzu.edu.cn

1003-0077(2015)03-0001-08

2013-04-08 定稿日期: 2013-09-10

國(guó)家自然科學(xué)基金(60970083,61272221);模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題基金;河南省教育廳科學(xué)技術(shù)研究重點(diǎn)項(xiàng)目(12B520055,13B520381);國(guó)家高技術(shù)研究發(fā)展863計(jì)劃(2012AA011101);河南省科技廳科技攻關(guān)計(jì)劃項(xiàng)目(132102210407)

TP391

A

猜你喜歡
自動(dòng)識(shí)別規(guī)則
中國(guó)自動(dòng)識(shí)別技術(shù)協(xié)會(huì)
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
船舶自動(dòng)識(shí)別系統(tǒng)對(duì)船舶救助的影響
水上消防(2019年3期)2019-08-20 05:46:08
規(guī)則的正確打開(kāi)方式
幸福(2018年33期)2018-12-05 05:22:42
自動(dòng)識(shí)別系統(tǒng)
特別健康(2018年3期)2018-07-04 00:40:18
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
金屬垃圾自動(dòng)識(shí)別回收箱
搜索新規(guī)則
主站蜘蛛池模板: 免费网站成人亚洲| 一本色道久久88亚洲综合| 国产精品偷伦在线观看| 久久伊人久久亚洲综合| 精品国产美女福到在线不卡f| 国产精品毛片一区| 日韩一级毛一欧美一国产| 尤物在线观看乱码| 亚洲国产综合精品中文第一| 国产成人久久777777| 超清无码一区二区三区| 超清人妻系列无码专区| 亚洲无码视频图片| 少妇被粗大的猛烈进出免费视频| 26uuu国产精品视频| 国产精品白浆在线播放| 一级毛片在线播放免费| 国产v精品成人免费视频71pao| 日韩区欧美国产区在线观看| 色综合激情网| 国产精品网址你懂的| 激情午夜婷婷| 日韩精品毛片| 国产精品第一区在线观看| 国产欧美日韩另类| 日本精品一在线观看视频| 精品国产成人高清在线| 日韩毛片基地| 中国黄色一级视频| 伊人久久精品无码麻豆精品| 国产精品成| 在线亚洲精品福利网址导航| 亚洲天堂.com| 一级毛片在线播放免费观看| 在线视频亚洲色图| 丁香六月综合网| 国产激爽爽爽大片在线观看| 54pao国产成人免费视频| av午夜福利一片免费看| 国产伦片中文免费观看| 国产一级无码不卡视频| 又粗又大又爽又紧免费视频| 激情六月丁香婷婷| 久草中文网| 亚洲天天更新| 久久毛片网| 中国国产A一级毛片| 黄色网址手机国内免费在线观看| 欧美国产日韩在线观看| 黑人巨大精品欧美一区二区区| 一级毛片免费播放视频| 国产亚洲高清视频| 亚洲电影天堂在线国语对白| 亚洲精品无码专区在线观看| 被公侵犯人妻少妇一区二区三区| 超碰91免费人妻| 女人18一级毛片免费观看| 97国产精品视频自在拍| 广东一级毛片| 欧美三级视频在线播放| 天堂成人av| 国产对白刺激真实精品91| 亚洲人成人伊人成综合网无码| 欧美特级AAAAAA视频免费观看| 无码福利视频| 91精品视频网站| 国产亚洲欧美在线人成aaaa| 精品国产免费观看| 国产精品福利导航| 中文字幕无码中文字幕有码在线| 天堂av高清一区二区三区| 中文字幕日韩丝袜一区| 毛片手机在线看| 天天躁日日躁狠狠躁中文字幕| 国产自在线播放| 99999久久久久久亚洲| 亚洲日韩日本中文在线| 国产精女同一区二区三区久| 国产麻豆精品手机在线观看| 国产精品成人一区二区| 无码内射中文字幕岛国片 | 97视频在线观看免费视频|