復句關系詞規則生成系統中的沖突檢測與處理

2015-04-21 08:29:44楊進才王中華胡金柱

中文信息學報 2015年4期

關鍵詞：規則檢測

楊進才,謝芳,王中華,胡金柱

(1. 華中師范大學計算機學院，湖北武漢 430079;2. 湖北工業大學計算機學院，湖北武漢 430068)

復句關系詞規則生成系統中的沖突檢測與處理

楊進才1,謝芳2,王中華1,胡金柱1

(1. 華中師范大學計算機學院，湖北武漢 430079;2. 湖北工業大學計算機學院，湖北武漢 430068)

復句中的關系詞對研究復句中各分句的語義關系有著重要意義，在基于規則的關系詞自動識別中需要大量的規則，并且規則庫是動態變化和不斷完善的，向規則庫中入庫規則時會出現規則沖突和入庫錯誤的情況，該文探討如何在入庫時識別產生沖突的規則,并對規則進行相關的處理。對復句的普通規則、連用詞規則、普通句式規則、連用句式規則四類規則進行了形式化的表示與存儲，在此基礎上設計了關系詞檢測、約束類型檢測、約束條件檢測、結論檢測的檢測流程。提出了兩種沖突處理方式——優先級方式和有向無環圖方式，對兩種方法進行了比較。利用該檢測方法和有向無環圖的處理方式，入庫了千余條規則。實驗表明，利用該方法沖突規則的檢測和處理正確率達到100%。

復句關系詞；規則沖突；有向無環圖

1 引言

中文信息處理可以概括的分為三個平臺：字處理平臺、詞處理平臺和句處理平臺，其中每一個平臺都是以前一個平臺為基礎[1]。從目前的進展來看，字、詞處理已經取得很多研究成果，尤其是2003年Bakeoff[2]分詞評測開展以來，中文分詞技術獲得了長足的進步[3]。而句和篇章方面的研究雖然已取得了句子相似度度量[4]、情感分析[5]、構建語義依存關系樹庫[6]等的若干研究成果，但是目前還處于初級階段。從語法單位來講，復句的研究屬于“句處理”階段的研究，目前研究得較多的是復句層次關系的自動識別，也是從“句處理”層面進行的應用研究。

關系詞(又稱關聯詞、關系標記)在現代漢語復句領域中起著重要的作用，是復句中標識關系的一個重要構件，是復句在語表形式上的關系標記，它在很大程度上影響著分句的語義，也影響著層次關系的識別[7]。由于語言的復雜性和多樣性，通過完全的句法分析或語義分析來識別復句，現在的技術還很難實現。基于規則的方法早期用于漢語語法規則的自動構造[8]，隨后在文本分類、自動文摘、短語識別等方面得到廣泛使用[9-12]，基于規則的關系詞標識仍是目前一種比較有效而且實用的方法。基于已構建的漢語復句語料庫和復句關系詞庫，挖掘關系標記在復句中充當關系詞的特征規律，再將特征規律整理為規則，據此建立相應的關系標記規則庫，是研究關系詞計算機自動標識方法和實現策略的關鍵。從句中發現與制定規則之后，需要對規則進行形式化后入庫,在入庫時要對待入庫的規則與庫中的規則進行分析比較，防止重復、矛盾的規則入庫。同時，也需要判斷具有包含關系的規則，并將這些規則與庫中的規則進行歸并。本文研究對規則入庫的檢測與可能的處理。

2 規則的表示與規則的沖突

2.1 規則的表示形式

結合句法理論與關系詞分詞處理結果，我們將規則分為四類：普通規則、連用詞規則、普通句式規則、連用句式規則[13]。在規則數據庫中，以四張表對應四類規則。四類規則除了各自具有特有的字段外，公有字段包括：規則號(ID)、關系標記(Keymarks)、約束類型(ConstraintType)、約束條件(Constraints)、結論(Result)、備注(Remarks)。其中，規則號唯一標識一條規則；關系標記表示需要判斷的關系詞；約束類型表示規則涉及到的約束條件的類型；約束條件表示符合規則的復句應滿足的復句特征；結論表示判斷的結果；備注用來補充說明復句應具備的特征。沖突進行檢測是通過公有的字段來進行的。例如，一個普通規則的表示形式如表1所示。

表1 一個普通規則的表示

其中，約束類型分為12種[13]，用數字1～12表示。若該約束類型涉及多種，用“+”號來連接。同樣用“+”連接多種約束條件。

2.2 規則沖突

造成沖突事件的規則叫做沖突規則，規則沖突可以分為三類：規則重復、規則矛盾、規則包含。

若有兩條規則A、B；它們的關系標記分別記為Key(A)、Key(B)；約束類型分別記為T(A) 、T(B)；約束條件分別記為C(A)、C(B)；結論分別記為R(A)、R(B)。

定義1 若C(A)=C(B)∧R(A)=R(B)，則稱規則重復，形式化表示為A≌B。

定義2 若C(A)=C(B)∧R(A)≠R(B)，則稱規則矛盾，形式化表示為A>

定義3 若C(A)?C(B)∨C(A)?C(B)，則稱規則包含。若C(A)?C(B)稱為規則B右包含規則A， “?”稱為右包含，反之若C(A)?C(B)稱規則A左包含規則B，“?”稱為左包含。

定義4 約束左包含與約束右包含若規則A、B的約束條件語義存在C(A)?C(B)，稱為約束左包含；C(A)?C(B)，則稱為約束右包含。否則，則稱為約束不包含，記為C(A)?C(B)

定義5 約束相等若規則A、B的約束條件語義存在C(A)=C(B)，稱為約束相等。

定義6 規則沖突?A、B，?Key(A)=Key(B)∧(A≌B∨A>

規則重復使規則庫中出現冗余，規則矛盾使規則引擎調用不同的規則時得出不同的結論。所以，應該排除規則重復與規則矛盾。對于規則包含，則允許其存在，可以通過優先級等方式將包含的關系區分開。

3 規則的沖突檢測

規則庫是一個動態的數據庫，當向其中添加每一條規則時，都可能出現規則的重復，規則的矛盾或者規則的包含，所以在規則入庫時必須進行沖突檢測。

規則的檢測可以分為關系詞檢測、約束條件類型檢測、約束條件檢測和結論檢測等四個層次，如圖1所示。

圖1 沖突檢測整體流程圖

3.1 關系詞檢測

關系詞檢測就是對將要入庫的規則(記為規則A)的關系標記(keymarks)字段進行檢測。

規則沖突只可能發生在關系標記相同的規則之間，因此首先篩選出關系標記相同的規則。

關系詞檢測步驟為：連接規則庫，在將要入庫的規則表中查找是否有和規則A的關系標記詞完全相同，如果存在這樣的規則或者規則集合，則進入到下一層檢測(約束條件類型檢測)；否則，表明不存在與規則A相沖突的規則。

3.2 約束類型檢測

根據約束類型的不同來進行沖突的進一步判斷。

假設要對將要入庫的規則A與庫中的關系標記相同的規則B進行沖突檢測，規則A和規則B的約束類型的關系可以分為以下幾種：

a)T(A)∩T(B)=?；

b)T(A)=T(B)；

c)T(A)?T(B)∨T(A)?T(B)

d)T(A)∩T(B)≠?；

若規則A、B滿足a) 、d)的情形，則可以直接判斷A⊕B；若滿足b)、c)的情形，兩規則的約束類型存在這包含關系，則它們的約束條件有可能也存在著包含關系，所以同樣得不沖突檢測的結論，需要進入下一層繼續檢測。

3.3 約束條件檢測

約束條件檢測就是兩條規則在確定約束類型存在包含或者相等之后，進一步確定兩規則的約束條件之間的關系。

約束條件檢測又分為兩類，一類通過語義檢測的約束條件，語義的檢測主要包含跨度的檢測和語義關聯度[12]的檢測；另一類通過表示形式上檢測約束條件。

最后綜合上面兩類檢測的結果得出這一層的最終檢測結果，若得不出檢測結果，還是需要進入下一層的沖突檢測。約束條件檢測的整體流程圖如圖2所示。

圖2 約束條件檢測整體流程圖

3.3.1 規則形式檢測

規則形式檢測主要是檢測字符串是否匹配。例如，sameClause(要是,就)與sameClause(就,要是)[10]，應判斷這兩個單一約束條件是相等的。

假設要檢測的規則A和庫中的規則B，現在要對兩條規則的同一類型中進行單一約束條件的檢測，判斷同一個類型中的約束條件的關系步驟如下：

Step1 將規則A、B的當前類型的約束條件拆分成單一的約束條件集合，并存儲在A和B中；

Step2 ?a∈A若?b∈B∧a=b，則相等數目eNum= eNum+1；

Step3 若eNum≠min(|A|，|B|)，則在這個類型中不存在包含關系；否則，執行Step4；

Step4 若|A|=|B|，則在當前類型中是相等關系，否則，執行Step5；

Step5 若|A|= min(|A|，|B|)，則在這個類型中是右包含關系，否則就是左包含關系。

3.3.2 規則語義檢測

進行語義方面的檢測前，先進行規則約束條件的預處理，對關系標記詞的跨度進行規約處理，將規則規范化。例如，對于跨度有D(word1,word2)>1∧D(word2,word1)<4，我們將他們規約成11∧D(word3,word4)<4，我們將他們處理成1

進行預處理之后，將規則A 中的涉及到的約束條件和規則B中的進行分析判斷，語義關聯度的處理原理與跨度處理的原理一樣，同樣通過比較語義的包含范圍來確定是否存在包含關系，此處僅以跨度類型為例進行說明，包含關系判斷依據如下：

? (n1

? D(word1,word2)

? (n1=n1∧n2

? n1=num3∧n2 <=num4)∨(n1<=num3∧n2>=num4))，則二者之間存在包含關系。

根據上述規則的處理，進一步分析所有的單一包含關系是否是一個方向的包含，若都是一個方向的包含就確定在這類約束類型中是包含關系，否則，就判斷它們在這個類型中不存在包含沖突。

當要比較規則A和規則B對應類型中的約束條件是否存在包含關系時，分別用lNum、rNum、eNum表示約束左包含數目、約束右包含數目、約束相等數目。規則A、B在當前類型中的單一約束條件數目分別為T_A,T_B，minNum=min(T_A, T_B)。判斷這個單一類型中的包含關系的依據如下：

? 若lNum ≠0∧rNum ≠ 0，則此類型中不存在包含的關系；

? 若lNum = 0∧rNum ≠ 0∧rNum + eNum = minNum，則此類型中是右包含關系；

? 若rNum = 0∧lNum ≠ 0∧lNum + eNum = minNum，則此類型中是左包含關系；

? 若rNum = 0∧lNum = 0∧eNum = minNum∧T_A≠ T_B，若minNum= T_A則此類型中是右包含關系；若minNum= T_B則此類型中是左包含關系；

? 若rNum = 0∧lNum = 0∧eNum = minNum∧T_A = T_B，則此類型中是相等關系；即此類型中兩條規則的約束條件是相等的，這種情況既可以看作是此約束類型的左包含關系，也可以看作右包含關系；

? 如果不符合上面任一種情況，就判斷兩條規則在此類型里面是不存在包含關系的。

3.3.3 約束條件的包含關系的確定

經過所有單一約束類型的檢測之后，將所有類型檢測的結果綜合考慮，得出整個約束條件(約束條件集合)的關系，綜合判斷的原理和單類型的判斷原理相同，考慮兩條規則涉及到的約束類型的數目T_A和T_B,以及其中左包含關系數目lNum，右包含關系數目rNum，相等關系的數目eNum之間的關系。

? 若lNum+eNum=T_A∨lNum+eNum=T_B，則C(A)?C(B)。

? 若rNum+eNum=T_A∨rNum+eNum=T_B，則C(A)?C(B)。

? 若rNum≠0∧rNum≠0，則C(A)?C(B)。

? 若rNum=0，rNum=0∧eNum≠min(T_A,T_B), 則C(A)?C(B)。

? 若rNum=0，rNum=0∧eNum=min(T_A,T_B),若eNum= T_B，則左包含關系；若eNum= T_A，則右包含關系；eNum=T_A=T_B則C(A)=C(B)。

根據上面涉及到的約束條件相等的情況，可以直接判斷產生了沖突，涉及到的包含關系的情況需要進一步的結論層檢測。

3.4 結論檢測

結論的檢測與規則形式方面檢測的方式相同，如果C(A)=C(B)∧R(A)≠R(B)，可以判斷產生了規則矛盾沖突A>

4 規則的沖突處理

規則的沖突處理重點是處理那些約束條件存在包含關系的規則, 常見的規則沖突處理方法有：依照規則存儲順序、定義規則的優先級、最長匹配策略、先入先出策略、元知識。其中最為簡單實用的是優先級方法，Drools 規則引擎采用的就是優先級方法，利用優先級來區分各條規則的匹配優先順序。

4.1 優先級的確定策略

待入庫的規則A與規則庫中的某條規則B沖突，規則A的優先級確定策略如下(n代表沖突的次數)：

? 若C(A)?C(B)，比較兩條規則的優先級P(A),P(B)；若P(A)>P(B)則將P(A)= P(B)-1

? 若C(A)?C(B)，比較兩條規則的優先級P(A),P(B)；若P(A)

采用這種方法處理可能會出現“優先級鐘擺問題”。例如：設庫中已有規則A和B，而且A,B的關系標記相同，B的優先級高于A，P(B)=P(A)+1。現在有一條規則C要入庫，經檢測C的關系標記與A,B相同，則需要進一步檢測，如果發現C與A有沖突，且C比A的約束條件更嚴格，即C的優先級高于A，于是A的優先級加1；然后再將C與B進行沖突檢查，如果出現C的約束條件比B的約束條件寬松，即B的約束條件是C的約束條件的子集，這時就應該降低C的約束條件，即B的優先級減1。這時候C的優先級就又回到了和A的優先級一樣了，就破壞了第一次沖突檢測的修改結果。這樣優先級就像鐘擺一樣的來回變動，永遠也配不平衡，這就是所謂的“優先級鐘擺問題"。

解決優先級鐘擺問題的方法是將優先級的增量或減量不定為一個恒量，而是當入庫發生多次沖突時，修改時增量(或減量)，取上一次沖突的增量(或減量)的1/2。

? 若C(A)?C(B)，比較兩條規則的優先級P(A),P(B)；若P(A)>P(B)則將P(A)= P(B)-1/2n。

? 若C(A)?C(B)，比較兩條規則的優先級P(A),P(B)；若P(A)

對于上述規則A、B、C，若默認優先級是5，A、B先后入庫優先級分別為5、6，C入庫時，先與A沖突優先級變為6，增量為1，然后與B沖突，減量為0.5(上次沖突1的1/2)，所以檢測完成，最終入庫結果優先級為6-0.5=5.5。

為了實現上面的方法，我們需要給每條規則增加一個優先級(priority)字段，規則的表示形式為：

Rule(ID, keymarks, priority, constraintType, constrants, result, remarks)

4.2 有向無環圖(DAG)方式

規則的約束條件在語義上面存在著包含關系，我們將這種包含關系以有向弧的形式表示，將每條入庫的規則用圖中一個節點表示。節點之間的有向弧表示弧線兩端的規則的一種包含關系，而且這種包含關系是真包含，所有關系標記相同的規則入庫后形成一個有向無環圖DAG。

我們采用的表示方式是弧首的規則包含弧尾的規則，即弧首的規則的約束條件比弧尾的規則的約束條件更寬松，弧尾的規則表示的集合是弧首的規則表示集合的真子集。

例如，下面有兩條包含關系的規則Rule1、Rule2，為了方便，我們只列出兩條規則的約束條件:

Rule1:sameClause(不僅,同時)

Rule2: sameClause(不僅,同時)^backword(同時)=‘具有’

Rule1的范圍比Rule2的范圍更加廣，Rule2的約束更加嚴格，所以規則連接弧(關系弧)應該是由Rule1指向Rule2(Rule1 —> Rule2)。

以關系標記“如果/那么”為例進行說明有向無環圖的形成過程：

首先，庫中沒有涉及到“如果/那么”的規則，有向無環圖為空；插入第一條關系標記“如果/那么”，形成了一個有向無環圖，圖中只有一個規則結點，沒有弧。

然后，試圖向庫中插入另一條關系標記“如果/那么”，這時，需要對庫中的有向無環圖中的規則元素進行檢測，查找插入的位置。

查找規則Node的插入位置是一個復雜的過程，我們的遍歷策略是深度優先遍歷[13]，步驟如下：

Step1 選取一個沒有直接前驅的節點，依次深度遍歷它的后繼，直到找到包含Node的節點Node1和指向Node1的節點Node2；

Step2 若規則Node包含Node2，則將Node插入到Node1與Node2之間，否則就將Node作為Node1的一個新前驅；

Step3 回溯到Node1選取另一個未遍歷的后繼節點遍歷，直至這個沒前驅的節點下的所有連通節點都遍歷或找到了插入點為止；

Step4 繼續選取另一個沒有前驅的節點，重復步驟1、2、3，尋找插入點插入；

Step5 如果遍歷完所有節點，沒有找到包含Node的節點，但是Node卻包含某個沒有后繼的節點，就將Node作為這個沒有直接后繼的節點的后繼；

Step6 如果Node和所有節點不存在包含關系，那么就將Node獨立出來，形成一個單獨的孤立的節點。

通過上面的構造我們就能形成一個邏輯的有向無環圖。而規則引擎在調用時正好與規則插入的遍歷順序相反，所以在插入時，應該利用兩條方向相反的有向弧來生成圖。

DAG的存儲結構需要給每條規則增加前驅(precursor)和后繼(subsequent)兩個字段。前驅用來指向包含自身的規則，后繼用來指向被包含的規則，規則的格式為：

Rule(ID, keymarks, constraintType, constrants, precursor, subsequent, result, remarks)

4.3 兩種方式的比較

兩種方式各有自己的優缺點：

優先級方式表示簡單，實現起來容易，同時也節省存儲空間，但是它存在優先級鐘擺的問題。而為了解決優先級鐘擺問題我們采用的優先級增(減)量指數級遞增(減)的方法。

有向無環圖方式的表示更加直觀，實現起來比較困難，而且需要更多的存儲空間來存儲規則之間的關系。優點是在規則引擎調用規則進行解析時，不需要對圖中的所有規則都進行解析，只需要(沿著實線有向圖遍歷)找到最后一條符合規則的解析結果即可，這樣就節省了規則解析的過程和時間。而且在進行入庫檢測時也不需要對庫中的每一條規則進行檢測，同樣只需要(沿著虛線有向圖遍歷)檢測到第一條存在包含關系的規則后，就找到了在這條路徑里的插入位置。

下面以關系標記“一邊/一邊”為例說明規則沖突處理的過程，并對兩種處理方式的性能進行定量的比較。“一邊/一邊”涉及的6條規則如表2所示(基于表格篇幅限制，表中只列出規則約束條件)。

表2 涉及“一邊/一邊”的規則

續表

假設庫中不含有“一邊/一邊”的規則，若按照表中的規則的順序入庫(不同順序入庫結果不同)。

優先級方式入庫的步驟如下： ①入庫規則1，由于庫中沒有相同關系標記的規則，所有直接入庫，默認優先級設置為5；②入庫規則2，先檢測庫中規則，發現規則1包含規則2，因此規則2的優先級為P(2)=P(1)+(1/2)1-1=6；③入庫規則3，與庫中規則1、2不存在沖突，直接入庫，優先級為默認值5；④入庫規則4，依次檢測規則1、2、3，與規則1約束包含，因此優先級為P(4)=P(1)+(1/2)1-1=6；⑤入庫規則5，依次檢測規則1、2、3、4，依次與規則1、2約束包含，因此優先級為P(5)=P(2)+(1/2)2-1=6+(1/2)2-1=6.5；⑥入庫規則6，依次檢測規則1、2、3、4、5，依次與規則1、2、5約束包含，P(6)=P(5)+(1/2)3-1= 6.75。

經過優先級沖突處理后，六條規則的優先級如表3所示。

表3 六條規則的優先級

有向無環圖方式入庫的步驟如下： ①入庫規則1，直接入庫；②入庫規則2，檢查庫中規則1，規則1約束包含規則2，因此虛線由規則2指向規則1；③入庫規則3，依次檢測規則2、1，不存在沖突，直接入庫；④入庫規則4，依次檢測規則2、1、3，規則1約束包含規則4，虛線由規則4指向規則1；⑤入庫規則5，依次檢測規則2、4、3，規則2約束包含規則5，所有不需要檢測規則2的直接或間接后繼(虛線方向)，因此虛線規則5指向規則2；⑥入庫規則6，依次檢測規則5、2、4、3，發現規則2約束包含規則6，規則6約束包含規則5，所有將有規則5指向規則2的虛線改為規則6指向規則2和規則5指向規則6。

有向無環圖入庫的步驟圖解如圖3所示。

圖3 有向無環圖入庫步解

通過上面兩種方式對“一邊/一邊”的6條規則進行入庫，從入庫步驟可以看出，優先級方式簡單易實現，但是不直觀。有向無環圖方式，雖然入庫相對來說要更復雜一些，但是能夠很好的表示出規則之間的那種包含關系。從存儲空間的角度考慮，優先級只需要增加一個“優先級”的屬性字段，而有向無環圖方式需要增加“前驅”和“后繼”兩個字段，字段類型也不同，前者是一個數字，后者是一個集合，所有從空間考慮優先級方式更節省空間。但從時間的角度考慮，主要是比較入庫的規則匹配次數，通過表4所示，總的比較次數有向無環圖方式比較次數要低，因此入庫要快。而且這種方式對規則的調用也是產生同樣的效果，節省規則匹配的時間。

表4 “一邊/一邊”規則兩種入庫方式比較

從表中的數字可以看出，當表中的相關規則比較少時(只入庫了規則1、2、3、4時)，在入庫時規則的匹配是次數是一樣的，隨著規則的增加，有向無環圖的時間優勢就體現出來了。規則5入庫節省了25%，規則6入庫節省了20%的匹配時間。因此隨著規則庫的擴大，有向無環圖的沖突處理方式的性能優勢更能體現出來。

5 系統檢測處理的結果與分析

規則的挖掘分成三個步驟：使用分詞軟件對語料庫中的復句進行分詞、對照關系詞及搭配庫進行關系詞識別、提取句子特征填寫以關系詞為索引的規則項。雖然三個步驟每個步驟均借助計算機完成，但三個步驟單獨進行，沒有形成“自動”的過程，在規則項生成時依靠“人工”總結規則項。這樣“人工挖掘”的規則總共有1 029條。其中連用規則表中150條，普通規則表482條，普通句式表157條，連用句式表240條。根據前期的規則分類，我們將規則依次分類入庫，規則自動入庫的情況如表5所示。

表5 規則入庫結果

從表中可以看出規則的沖突所占的比例為6.6%，而這1 029條規則是人工挖掘后再集中入庫的，有的規則重復與規則矛盾人工很容易發現，為了測試系統對規則重復和矛盾的處理，在入庫時特意制造了一些規則的重復和矛盾規則進行測試。規則沖突的比例很低的主要原因是由于漢語復句的復雜性以及約束條件的制定涉及到的類型之多而形成的，與“人工”制定規則也有關系，因此越是規則制定的詳細，規則的沖突就越少，處理的結果就越準確。

在人工集中大量規則入庫時，除去人工加入的一些矛盾規則和重復規則的因素，規則沖突中規則包含的沖突所占的比例是很大的，主要是由于規則的約束條件的嚴格與寬松。若一個關系標記序列有約束條件非常寬松的一條規則，那它接下來的入庫規則中與之產生沖突的可能性就越大。

從規則處理的情況來看，所有發現的沖突都得到了相應的處理，規則的重復和規則的矛盾情況比較好判斷。而規則的包含情況，在所入庫的規則中遇到的23例包含約束都得到了檢測和相應的處理。

6 結語

本文主要解決了規則自動生成系統中規則的沖突檢測與處理的問題，它作為整個規則自動生成系統的核心部分，利用規則的各個字段的值來進行沖突檢測判斷，并將產生沖突的規則進行分類處理，重復規則阻止入庫，矛盾規則提出警告并阻止入庫，若是包含關系的規則就利用有向無環圖的方式進行邏輯的處理，然后入庫。

利用該檢測方法和有向無環圖的處理方式，入庫了1 029條規則。實驗表明，利用本文的方法對規則檢測和處理正確率達到100%。這是一個非常理想的效果。這也說明，本文所研究的規則自動生成系統沖突檢測與處理的方法和實現算法是比較有效的。

由于本系統中現有規則表中的規則是由人工整理并自動入庫，其效率不高，因此應深入研究規則的自動挖掘技術，在此基礎上完成規則的自動生成，使得整個系統更加自動化。

[1] 劉遷,賈惠波. 中文信息處理中自動分詞技術的研究與展望[J].計算機工程與應用,2006,(03): 175-177.

[2] Sproat R， Emerson T. The First International Chinese Word Segmentation Bakeoff[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing.Sapporo, Japan: July 11-12,2003：133-143.

[3] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-18.

[4] 賈宗福,王知非.中文句子相似度計算的研究[J].科技信息,2009，(11)： 402-403.

[5] 昝紅英,左維松,張坤麗等.規則和統計相結合的情感分析研究[J]. 計算機工程與科學,2011,(5):146-150.

[6] 尤昉,李涓子,王作英. 基于語義依存關系的漢語語料庫的構建[J].中文信息學報,2003，17(1):46-53.

[7] 邢福義.復句與關系詞[M].哈爾濱: 黑龍江人民出版社, 1985.

[8] 胡金柱，舒江波，等.面向中文信息處理的復句關系詞提取算法[J].計算機工程與科學, 2009 (10).

[8] 周強,黃昌寧.漢語句法規則的自動構造方法研究[J].中文信息學報,1998,12(3):1-7.

[9] 李渝勤,孫麗華.基于規則的自動分類在文本分類中的應用[J],中文信息學報,2004,18(4):9-14.

[10] 傅間蓮,陳群秀.基于規則和統計的中文自動文摘系統[J],中文信息學報,2006,20(5):10-16.

[11] 代翠,周俏麗,蔡東風,等.統計和規則相結合的漢語最長名詞短語自動識別[J],中文信息學報,2008,22(6):110-115.

[12] 于淼,呂雅娟,蘇勁松,等.規則和統計相結合的中文地址翻譯方法[J],中文信息學報,2012,26(3):49-53.

[13] 胡金柱，陳江曼等.基于規則的連用關系標記的自動標識研究[J].計算機科學，2012,(7):190-194.

Rule Conflict Resolution for Relation Word in Chinese Compound Sentences

YANG Jincai1, XIE Fang2, WANG Zhonghua1, HU Jinzhu1

(1. School of Computer Science of Huazhong Normal University， Wuhan, Hubei 430079, China；2. School of Computer Science of Hubei University of Technology， Wuhan, Hubei 430068, China)

Relation words are very important to the study of semantic relationships among clauses in compound sentences. Rule based relation word identification demands dynamic and constantly improved rules. This article investigates how to recognize the rule conflicts and solve them. Compound sentences have four kinds of rules: common rules, even words rules, common sentence pattern rules, and collocation patterns rule. This article gives a formal description of all the rules and the way of storing them, based on which we designed the flow of relation word detection, rule condition detection, result detection. A way of detecting the conflicts is given, include another two ways of solving the conflicts-priority mode and directed acyclic graph mode. With this proposed method, we have imported more than 1067 rules, with a correct rate of 100%.

relation words in compound sentences; rule conflicts; directed acyclic graph

楊進才(1967-),博士,教授,主要研究領域為數據庫和中文信息處理。E-mail:jcyang@mail.ccnu.edu.cn謝芳(1981-),博士研究生,講師,主要研究領域為中文信息處理和軟件工程。E-mail:thanks_xf@hotmail.com胡金柱(1947-),教授,博士生導師,主要研究領域為中文信息處理和軟件工程。E-mail:jzhu@mail.ccnu.edu.cn

1003-0077(2015)04-0008-08

2013-10-06 定稿日期： 2014-04-09

國家教育部人文社科基金(13YJAZH117),國家社科基金(11BYY052)

TP391