999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則的復句關系詞的自動標識

2015-04-25 09:57:25賈遂民雷利利胡明生
中文信息學報 2015年1期
關鍵詞:規則文本研究

賈遂民,雷利利,胡明生

(1.鄭州師范學院 信息科學與技術學院,河南 鄭州 450044;2. 河南財經稅務高等專科學校 綜合實驗實訓中心,河南 鄭州 451464)

?

基于規則的復句關系詞的自動標識

賈遂民1,雷利利2,胡明生1

(1.鄭州師范學院 信息科學與技術學院,河南 鄭州 450044;2. 河南財經稅務高等專科學校 綜合實驗實訓中心,河南 鄭州 451464)

關系詞的自動標識是中文信息處理領域的基礎性研究課題,該文利用規則實現其自動標識。首先通過語料的分析總結出關系詞在使用過程中的12種特征,以這些特征建立規則的約束條件;然后提出包含匹配算法實現復句準關系詞序列與規則索引詞的匹配,以此獲取目標規則,并根據目標規則約束條件與關系詞所在語境的匹配結果得到匹配規則;最后利用匹配規則的結論實現關系詞的自動標識。實驗結果表明,該方法對關系詞標識的正確率達到70.9%。

關系詞;規則;復句;自動標識

1 引言

隨著中文信息處理的不斷發展,人們迫切地需要計算機能夠對真實文本進行自動處理,以實現對文本淺層甚至深層的分析。關系詞作為漢語復句的重要組成單位,它是連接小句和復句的主要成分,其研究結果不僅影響到復句類別的標識以及層次的劃分,也影響到復句和篇章語意的理解,進而影響到機器翻譯等眾多領域的發展進程。但是由于漢語語言的隱晦性、靈活性以及復雜性等特點,復句的分句之間常存在包孕、并列、擴展和交叉等情況,這大大增加了關系詞識別的難度。基于規則的研究是自然語言處理的研究方法之一,而基于規則的關系詞自動標識是以實際語料為依據,以分析歸納為手段,找出相應的關系規則并建立規則庫,根據規則對輸入的復句關系詞進行標識,因此是一種比較行之有效的方法。

胡金柱等人[1-2]曾基于規則對關系詞的標識進行初步的探討,并結合詞性標記和關系詞搭配理論,提出“正向選擇算法”來標識關系詞。本文是在以上研究的基礎上,根據語料庫建立規則,利用規則的結論來標識準關系詞。

2 關系詞規則的建立

2.1 關系詞特征的建立

關系詞的使用比較靈活多變,這就加大了規則的制定難度,因此需要將關系詞的特征加以總結分類,以全面清晰的制定各種類型的規則。CCCS語料庫[3]為漢語復句語料庫(the Corpus of Chinese Compound Sentences,簡稱CCCS),它是華中師范大學語言與語言教育研究中心開發的,收錄了近百萬條漢語復句,是目前比較完善的一個語料庫,因此是本文研究復句的主要語料庫。根據對語料庫內復句的分析歸類得到12種關系詞特征,具體如表1所示[4]。

表1中12種關系詞特征是根據關系詞在復句中的使用情況來制定的。本文中規則制定的難點在于約束條件,即準關系詞在什么條件下能被標識為關系詞或者不被標識為關系詞。復句的結構是復雜的,改變關系詞能影響其語義,判斷準關系詞是否為真正的關系詞必須考察各種語言環境,就這導致約束條件的類型千變萬化。將規則形式化時,會得到約束條件的邏輯表達式,其中涉及大量的自定義函數,對每種關系詞特征再次細化,得到每種關系詞特征的約束條件。表1的關系詞特征共對應46個約束條件,以字面約束的6個約束條件為例,如表2所示[4]。

表1 關系詞特征

表2 字面約束的6種約束條件

形式化描述規則能使其具有可運行化的性質,使得計算機能夠解析規則。根據關系詞特征與約束條件制定關系詞的規則,規則組合成為規則庫。目前規則庫內有1 421條規則,挑選其中的兩條如表3 所示。

表3 規則庫內的規則

索引詞(indexWord)為觸發該規則的關系詞序列,主要是與復句的準關系詞序列進行匹配;優先級別(priority)是針對矛盾規則而制定的,值越低優先級別越高,若為空,則表示規則之間不存在矛盾;約束類型(constraintType)即為關系詞特征(表1);約束條件(constraints)為準關系詞所在復句必須滿足的條件,與關系詞特征相對應;結論(result)為標識結果。例如,約束條件“D(不但,反而)>4”屬于關系詞特征2,即分句位置約束,表示“不但”與“反而”所在分句的句間跨度大于4,規則的結論R(不但)=true,表示準關系詞“不但”標識為關系詞。從表3可以看出一個規則的約束條件通常有多個,復句中的準關系詞只有滿足所有的約束條件,才能利用該規則的結論來標識準關系詞。

2.2 連用關系詞分類

連用關系詞[5-6]是指兩個或者兩個以上的關系詞在復句中位置相鄰。如例1所示。

例1 不管是北風呼嘯的嚴冬,還是悶熱難熬的盛夏,他都和科技人員一道,在知識的海洋里拼命吸吮,在科學的道路上奮力探索。(《長江日報》1982年10月21日)

“不管”與“是”都是準關系詞,它們在復句中位置相鄰,所以將“不管是”稱作連用關系詞或者連用詞。

根據對語料庫內連用關系詞復句的總結,發現一些兩標記連用的關系詞存在一個特性,即這兩個準關系詞有且只有一個能夠標識為關系詞。這樣的兩標記連用的關系詞共有21對: 甚至于是、如果說也、如果因此、如果只不過、盡管隨后、因為隨后、即使因此、于是只好、所以只好、但因此、卻因此、既一方面、也首先、并隨后、而是卻、另一方面可是、加之隨后、是因此、而最后、而隨后、但隨后,其中前11對可以直接判定結果,后面的10對需要借助其他條件來判定。

關系標記連用分為兩類: 矛盾類與限制類。矛盾類: 兩標記連用的準關系詞A和B若同時充當關系詞,會導致所引領的成分在表述時存在邏輯上的矛盾。判定A、B其中一個是偽關系詞,一個為關系詞。矛盾類針對兩標識連用的關系詞,可以直接標識其是否為關系詞,上述的21對即為矛盾類;限制類: 兩標記連用的準關系詞A與B需要一定的限制條件,即一定的語境,根據關系詞特征來限制A、B所在復句必須滿足的條件來判定它們是否為關系詞。

3 復句關系詞與規則的匹配及標識

3.1 規則的匹配流程

復句關系詞的標識過程大致可以分為三種: 輸入、處理和輸出。處理過程是其中最核心也最重要的流程,其過程如圖1所示。

圖1 規則匹配流程圖

對復句進行分詞之后需要對分詞結果進行預處理,利用關系詞本體知識庫[7]以初步標識出準關系詞,進而利用關系詞的匹配關系,得到關系詞組。根據復句的準關系詞組與規則索引詞的匹配結果獲取目標規則。其中的難點為圖1中的“解析、匹配規則”,這個過程包含兩個難點: ①復句內準關系詞序列與規則庫中索引詞的匹配;②規則約束條件的解析。

3.2 準關系詞與規則庫的匹配

將復句內準關系詞序列看作模式串,規則庫的索引詞看做文本串,復句內準關系詞序列與規則庫內索引詞的匹配必須滿足包含匹配,包含匹配定義如下:

定義1 包含匹配: 對于文本串S={S1,S2,...,Sm}、模式串T={T1,T2,...,Tn}(n≤m),如果文本串S存在子串S′={Si,Sj,...,Sk}(1≤i

由包含匹配的定義可以看出,包含匹配不要求子串在文本串中位置相鄰,子串元素與模式串元素只需保持前后順序一致即可。

有限自動機M=(Q,Σ,δ,q0,F)[8]接受的語言是定義在Σ上被M接受的所有符號串的集合,形式化表示為公式(1)。

以文本串S={g r a p p e }與模式串T={g r a p e }為例,有限自動機的匹配過程如圖2所示。

由上圖可以看出文本串與模式串匹配,利用有限自動機能夠實現包含匹配,但是卻不能找到所有匹配子串,但是復句可能有許多重復的準關系詞,匹配的目的是要找到文本串內所有符合包含匹配的子串,以根據子串去匹配規則。這里提出新的算法,具體如下。

圖2 包含匹配

Step1: 根據復句分詞結果與本體知識庫的匹配,得到復句的準關系詞序列S={S1,S2,...,Sm},以及要匹配規則的索引詞T={T1,T2,...,Tn};

Step2: 根據T中的每個準關系詞,在S中找到與其相同的索引詞,并利用二維數組A存儲S的下標號,數組的行列數為T內準關系詞的個數,設為n。數組第j列的元素A[][j](0≤j

SA[i][j]=Tj+1(0≤i

具體存儲方法為: 找到S中與T1相同的準關系詞集合,依次將集合的下標號存儲到數組A的第0列;找到S中與T2相同的準關系詞集合,依次將集合的下標號存儲到數組的第1列,以此類推直到第n-1列。如果T中有個標記Tj與S的任意一個元素都不相同,則S不包含匹配T,結束;否則轉至Step3;

Step3: 根據數組構造所有滿足條件的子串,數組A以列為單位,每一列選擇任意一個元素i(i≠0),按列號從小到大組合為一個有序集合I={A[][0],A[][1],…,A[][n-1]}?{I1,I2,...In},集合I若滿足條件Ij

3.3 規則約束條件的解析

由于約束條件為文本形式,這就增加了約束條件解析的難度。這里使用拆分策略,提取約束條件的關鍵信息來解析。具體過程如流程圖3所示。

圖3 單個規則約束條件的解析過程

上圖中的關鍵符為一些特殊分隔符號,如逗號、括號等,通過拆分規則的單個約束條件就可略除約束條件內的無用信息,以得到關鍵信息。例如,約束條件“D(不但,反而)>4”,通過拆分之后得到“D、不但、反而、>、4”這5個關鍵信息,并將它們加入到cons線性表中,利用“D”這個關鍵信息,分析復句內的準關系詞“不但”與“反而”所在分句的跨距,通過準關系詞所在語境來獲取匹配規則。如果復句的準關系詞滿足規則的所有約束條件,就可以取此規則的結論,利用規則的結論來標識準關系詞。

4 實驗結果及分析

為了驗證本方法的正確性與可行性,特利用實例來詳細說明基于規則的關系詞的標識策略,如例2 所示。

例2 據生理醫學研究,運動不足不僅對兒童智力和生長發育有妨害,而且還會給健康狀況帶來不良后果,甚至影響成年后的健康。(《長江日報》1998年04月28日)

根據輸入的復句例2,規則解析器的執行流程如下:

第一步: 利用中科院的分詞系統得到復句的分詞結果為“據/p生理/n醫學/n研究/vn,/w運動/n不足/an不僅/c對/p兒童/n智力/n和/c生長/v發育/v有/v妨害/v,/w而且/c還/d會/v給/p健康/a狀況/n帶/v來/v不良/a后果/n,/w甚至/c影響/vn成年/n后/f的/u健康/an。/w”,計算起始字符與終止字符時加入了分隔符與詞性,文獻[7]給出了詞性的標注約定。根據分詞結果與本體知識庫的匹配得到例2的準關系詞,如表4所示。

表4 例(2)的準關系詞

根據對規則庫內準關系詞的匹配以及約束條件的解析,得到基于規則的解析結果,如表5所示。

表5 例2準關系詞的標識結果

由表5可知基于規則的標識結果與人工判定一致,即判定準關系詞都為關系詞。為了進一步驗證本方法的可行性,本文選取CCCS語料庫[3]中117條復句作為測試用例,這些測試實例共包含365個準關系詞,利用規則去標識關系詞的正確率為70.9%,表面上看測試實例所得的正確率并不高,其主要原因有兩點: 一是規則庫還不完善,有大約18.7%的關系詞并沒有找到匹配的規則;第二點則是因為規則是由人工制定,存在一定的主觀性,因此需要進一步檢測、修正并擴充規則庫。

5 結束語

本文是在以往研究的基礎上,根據規則索引詞的匹配需求,提出包含匹配方法以獲取匹配子串,然后對規則約束條件提出解析方案,通過實例證明研究方法的可行性。但同時也應看到,由于規則庫的不完善造成標識準關系詞的正確率還不是很高,而規則的制定是一項長期且工作量很大的工程, 難以一步到位,同時由于規則是由人工制定,不可避免的帶有一定的主觀性,因此研究規則的自動挖掘技術,完成規則的自動生成將是一項有意義的研究課題。

由于關系詞的自動識別是一項極具挑戰性的工作,僅用一兩種方法在短時間內很難使自動識別率達到很高的水平,今后還需要探索更有效的方法來進一步地提高識別的正確率,從而使得所做的研究可以更有效地應用于實際。

[1] 胡金柱,沈威,杜超華.基于規則的復句中的關系詞標注探討[J].福建電腦,2009,4:398-401.

[2] 胡金柱,舒江波,姚雙,等.面向中文信息處理的復句關系詞提取算法研究[J].計算機工程與科學,2009,31(10):90-93.

[3] 舒江波.面向中文信息處理的復句關系詞自動標識研究[D].武漢:華中師范大學博士學位論文,2011.

[4] 陳江曼.復句關系詞自動標識系統中規則庫及其維護方法研究[D].武漢:華中師范大學碩士學位論文,2012.

[5] 胡金柱,雷利利,楊進才,等.多重復句關系標記搭配的求解模型研究[J].計算機工程與科學,2011,33(11):177-182.

[6] 胡金柱,陳江曼,楊進才,等.基于規則的連用關系標記的自動標識研究[J].計算機科學,2012,39(7):190-194.

[7] 雷利利.復句關系詞自動標識系統中規則解析器的研究[D].武漢:華中師范大學碩士論文,2012.

[8] Peter Linz著,孫家骕等譯.形式語言與自動機導論[M].北京:機械工業出版社,2004.

[9] 胡金柱,俞小娟,李瓊,等.基于規則庫和聚類分析的復句短語字段的自動識別研究[J].華中師范大學學報(自然科學版),2008,42(2):190-194.

[10] 張金,王軍海,耿標.基于規則解析的柔性編碼系統[J].計算機系統應用,2006,3:17-20.

[11] Schubert Foo, Hui Li. Chinese word segmentation and its effect on information retrieval [J]. Information Processing and Management, 2004, 40(1):161-191.

[12] George A Miller. WordNet: A Lexical Database for English[C]//Proceedings of Communications of the ACM. 1995, 38:39-41.

[13] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th ICML-01, 2001:282-289.

[14] Zhang Kunli, Zhang Wencong, Zan Hongying, et al. Studies on automatic recognition of several common Chinese adverbs’ usages based on BP neural networks[C]//Proceedings of the 10th Chinese Lexical Semantics Workshop. 煙臺:魯東大學出版社,2009: 31-37.

[15] Lovasz L, Plummer M D. Matching theory [M]. Amsterdam: Elsevier Science, 2009.

[16] 劉盈盈,羅森林,馮揚,等. BFS-CTC漢語句義結構標注語料庫[J].中文信息學報,2013,27(1):72-80.

[17] 張坤麗,趙丹,昝紅英,等. 常用現代漢語副詞用法自動識別研究[J].中文信息學報,2012,26(6):65-71.

Rule Based Identification of Compound Sentences Relation Words

JIA Suimin1, LEI Lili2, HU Mingsheng1

(1. College of Information Science & Technology, Zhengzhou Normal University, Zhengzhou, Henan 450044, China; 2. Comprehensive Experimental & Training Center, HeNan College of Finace & Taxation, Zhengzhou, Henan 451464, China)

Automatic identifying the relation words of compound sentences is a fundamental issue in the field of Chinese information processing. This paper describe a rule based method for automatic identification of compound sentence relation words. To construct the rule, 12 featuresare summarized from the corpus. Then a match algorithm is described to obtaind the candidate relation word sequence. Finally the context of the relation words is employed to match with the rules. Experiment results show that this method achieves an accuracy of 70.9%.

relation words; rule; compound sentences; auto-identifying

賈遂民(1968—),本科,副教授,主要研究領域為中文信息處理與應用數學。E?mail:jiasuimin@163.com雷利利(1986—),碩士,講師,主要研究領域為中文信息處理與復雜網絡。E?mail:leili_lei@163.com胡明生(1973—),博士,副教授,主要研究領域為復雜網絡與人工智能。E?mail:hero_jack@163.com

1003-0077(2015)01-0044-05

2013-08-29 定稿日期: 2013-11-12

國家自然科學基金(U1204703);中央高校基本科研業務費資助(HUST: 2012QN087, 2012QN088);河南省重點科技攻關項目(122102310004);鄭州市創新型科技人才隊伍建設工程(10LJRC190)

TP391

A

猜你喜歡
規則文本研究
FMS與YBT相關性的實證研究
撐竿跳規則的制定
遼代千人邑研究述論
數獨的規則和演變
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 欧美va亚洲va香蕉在线| 中文字幕无码制服中字| 婷婷综合亚洲| 久热这里只有精品6| 欧美日本二区| 国产美女视频黄a视频全免费网站| 久久婷婷色综合老司机| 99在线视频免费观看| 亚洲国产精品日韩欧美一区| 青青草国产免费国产| 欧日韩在线不卡视频| 男女性色大片免费网站| 四虎永久在线精品国产免费| 亚洲精品成人7777在线观看| 成人福利免费在线观看| 婷婷伊人久久| 99这里只有精品在线| 国禁国产you女视频网站| 国产一区二区三区精品欧美日韩| 久热中文字幕在线| 国产免费黄| 亚洲精品无码在线播放网站| 一级毛片a女人刺激视频免费| 亚洲欧美日韩中文字幕在线| 中文字幕第4页| 欧美一级高清视频在线播放| 国产在线无码一区二区三区| 中文字幕佐山爱一区二区免费| 国产97视频在线| 91系列在线观看| 亚洲日韩高清无码| 国产精品密蕾丝视频| 久久中文字幕不卡一二区| 精品国产成人av免费| 一级看片免费视频| 青青草原国产精品啪啪视频| 久久久久免费看成人影片| 高清色本在线www| 成人国产小视频| 国产精品第一区在线观看| 国产91在线|中文| 亚洲精品第1页| 91成人在线观看| 亚洲 日韩 激情 无码 中出| 久久国产精品影院| 波多野结衣亚洲一区| 国产丝袜第一页| 亚洲第一在线播放| 波多野结衣一区二区三区AV| 国产黄网永久免费| 一级毛片不卡片免费观看| 国产精品无码一二三视频| 伊人久久大香线蕉影院| 久久中文字幕2021精品| 美女亚洲一区| 国产精品高清国产三级囯产AV| 欧美视频二区| 美女无遮挡免费视频网站| a级毛片在线免费观看| 中文字幕久久精品波多野结| 免费国产黄线在线观看| 黄片在线永久| 亚洲国产成人久久77| 久久一日本道色综合久久| 国内精品91| 免费不卡在线观看av| 久久天天躁狠狠躁夜夜躁| 香蕉eeww99国产在线观看| 毛片免费在线视频| 日韩无码视频专区| 日韩欧美成人高清在线观看| 欧美在线黄| 国产亚洲高清视频| 国产又色又刺激高潮免费看| 99热这里只有精品5| 福利在线不卡| 婷婷午夜天| 97亚洲色综久久精品| 女人毛片a级大学毛片免费 | 青青操国产| 免费毛片在线| 国产激情无码一区二区免费|