趙國(guó)榮,王文劍
山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006
融合多結(jié)構(gòu)信息的中文句法分析方法*
趙國(guó)榮,王文劍+
山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006
+Corresponding author:E-mail:w jwang@sxu.edu.cn
ZHAO Guorong,WANGWenjian.M ethod for Chinese parsing based on fusion of multiple structural information.Journalof Frontiersof Computer Scienceand Technology,2017,11(7):1114-1121.
句法分析是自然語(yǔ)言理解的一項(xiàng)基礎(chǔ)技術(shù),是邁向深層語(yǔ)言理解的基石。目前常用的句法分析方法的語(yǔ)法模型建立在上下文無(wú)關(guān)文法的假設(shè)上。事實(shí)上,短語(yǔ)結(jié)構(gòu)樹(shù)的節(jié)點(diǎn)之間具有很強(qiáng)的上下文相關(guān)性,充分利用結(jié)構(gòu)信息,可進(jìn)一步提高句法分析的準(zhǔn)確性。融合了句法結(jié)構(gòu)樹(shù)中的多結(jié)構(gòu)信息(在非終節(jié)點(diǎn)中增加父親節(jié)點(diǎn)及左、右姐妹節(jié)點(diǎn)等標(biāo)記)以加強(qiáng)語(yǔ)法規(guī)則的上下文約束,并采用結(jié)構(gòu)化支持向量機(jī)的方法對(duì)句法進(jìn)行了分析。實(shí)驗(yàn)表明,該融合多結(jié)構(gòu)信息的句法分析方法可以消解結(jié)構(gòu)歧義,提升句法分析精確率和F1值。
結(jié)構(gòu)化支持向量機(jī);上下文無(wú)關(guān)文法;結(jié)構(gòu)上下文相關(guān);中文句法分析
句法分析是自然語(yǔ)言處理的關(guān)鍵性問(wèn)題之一。對(duì)句法分析進(jìn)行可計(jì)算化處理,句法分析算法和語(yǔ)法模型是兩個(gè)重要的元素,其中語(yǔ)法模型無(wú)論是使用統(tǒng)計(jì)的方法,還是使用單純的規(guī)則,在進(jìn)行句法分析時(shí)都需要建立一種模型。最早的語(yǔ)法模型是簡(jiǎn)單的上下文無(wú)關(guān)的語(yǔ)法模型(context-free grammar,CFG)[1]。但是CFG是在一些非常理想化的獨(dú)立性假設(shè)的基礎(chǔ)上建立的,它的規(guī)則的建立只和其孩子節(jié)點(diǎn)有關(guān),因而這些假設(shè)忽略了句法樹(shù)中其他許多隱含的信息。為了得到更好的基于短語(yǔ)結(jié)構(gòu)的句法分析效果,一些算法的研究集中在挖掘短語(yǔ)結(jié)構(gòu)樹(shù)的上下文相關(guān)的信息上,通過(guò)增加豐富的結(jié)構(gòu)信息和詞匯信息等來(lái)提升句法分析的效果。
最具代表性的研究就是在概率上下文無(wú)關(guān)文法[2](probabilistic context-free grammar,PCFG)中增加結(jié)構(gòu)上下文相關(guān)的策略。文獻(xiàn)[3]嘗試了祖先節(jié)點(diǎn)相關(guān)、父親節(jié)點(diǎn)相關(guān)等幾種結(jié)構(gòu)上文相關(guān)的策略;文獻(xiàn)[4]嘗試了加入結(jié)構(gòu)下文孩子節(jié)點(diǎn)相關(guān)的策略,構(gòu)成結(jié)構(gòu)下文相關(guān)的概率語(yǔ)法模型;文獻(xiàn)[5]加入了每個(gè)短語(yǔ)節(jié)點(diǎn)的父親節(jié)點(diǎn)和左、右姐妹節(jié)點(diǎn)的結(jié)構(gòu)上下文信息,這些方法都對(duì)突破上下文無(wú)關(guān)語(yǔ)法研究中的獨(dú)立性假設(shè)進(jìn)行了嘗試,都是對(duì)經(jīng)典PCFG模型進(jìn)行的優(yōu)化。文獻(xiàn)[6]采用機(jī)器學(xué)習(xí)方法——結(jié)構(gòu)化支持向量機(jī)(structural support vectormachine,SSVM)對(duì)基于短語(yǔ)結(jié)構(gòu)的中文句法進(jìn)行分析,語(yǔ)言模型采用的是上下文無(wú)關(guān)文法。本文的工作是嘗試融合句法分析樹(shù)中節(jié)點(diǎn)的結(jié)構(gòu)信息,研究使用結(jié)構(gòu)化支持向量機(jī)對(duì)中文句法進(jìn)行分析時(shí)所產(chǎn)生的影響,實(shí)驗(yàn)證明它可以提高句法分析系統(tǒng)的精確率和F1值。
在現(xiàn)實(shí)世界中,需要處理的大部分?jǐn)?shù)據(jù)(如網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)、隊(duì)列結(jié)構(gòu)或樹(shù)形結(jié)構(gòu)等)都比較復(fù)雜,而且數(shù)據(jù)之間相互依賴,具有特定的結(jié)構(gòu)化關(guān)系,傳統(tǒng)的支持向量機(jī)[7]已經(jīng)不適合處理這些復(fù)雜的數(shù)據(jù)。為了解決傳統(tǒng)支持向量機(jī)在處理復(fù)雜數(shù)據(jù)時(shí)的難題,Hofmann和Joachims等人首次提出了結(jié)構(gòu)化支持向量機(jī)[8-9],它可以根據(jù)不同的應(yīng)用領(lǐng)域設(shè)計(jì)不同的結(jié)構(gòu)化特征函數(shù)去擬合數(shù)據(jù),從而有效地處理結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化支持向量機(jī)是一種基于判別式的學(xué)習(xí)模型,使用結(jié)構(gòu)化支持向量機(jī)的關(guān)鍵是構(gòu)造出樣本的輸入與輸出對(duì)之間的一個(gè)映射函數(shù) f:x→y。當(dāng)使用結(jié)構(gòu)化支持向量機(jī)進(jìn)行句法分析時(shí),f:x→y中 f表示的意思是輸入句子X(jué)到輸出短語(yǔ)結(jié)構(gòu)樹(shù)Y的一個(gè)映射。在構(gòu)造函數(shù) f時(shí),關(guān)鍵任務(wù)是需要學(xué)習(xí)一個(gè)基于輸入/輸出對(duì)的判別式函數(shù)F:X×Y→?,通過(guò)使輸出變量最大化的方法,實(shí)現(xiàn)對(duì)輸出結(jié)果預(yù)測(cè)的目的。結(jié)構(gòu)化支持向量機(jī)的目標(biāo)函數(shù)[10-11]為:

F是基于輸入/輸出組合特征表示ψ(x,y)的線性函數(shù):

式(1)中帶參數(shù)w的函數(shù) f,假設(shè)它的經(jīng)驗(yàn)風(fēng)險(xiǎn)為0,可以寫(xiě)成一個(gè)非線性約束的形式[8]:

式(3)可以等價(jià)轉(zhuǎn)換為:

采用最大間隔法可以將式(4)轉(zhuǎn)化為一個(gè)凸二次規(guī)劃形式的最優(yōu)化問(wèn)題[10]:

為了容忍部分噪聲和離群點(diǎn),同時(shí)兼顧除靠近邊界之外更多的訓(xùn)練點(diǎn),在式(5)中引入松弛變量的軟間隔,本文采用一階范數(shù)ξ的形式[10]:

文獻(xiàn)[6]使用結(jié)構(gòu)化支持向量機(jī)進(jìn)行中文句法分析時(shí),將文法限定為喬姆斯基范式的形式[2],其語(yǔ)法規(guī)則為:

這里A、B、C是非終結(jié)符,α是終結(jié)符。設(shè)x是需要進(jìn)行句法分析的句子,Y是針對(duì)x分析出的若干個(gè)句法樹(shù)的集合。假設(shè)最佳分析樹(shù)為h(x),每棵句法樹(shù)y中所有的語(yǔ)法規(guī)則的集合用rules(y)表示,每一個(gè)語(yǔ)法規(guī)則所對(duì)應(yīng)的權(quán)值參數(shù)為wl,文獻(xiàn)[6]使用的上下文無(wú)關(guān)文法模型為:

但是,在實(shí)際生活中自然語(yǔ)言具有很強(qiáng)的上下文相關(guān)性,上下文無(wú)關(guān)語(yǔ)法表現(xiàn)能力有限,當(dāng)遇到結(jié)構(gòu)依存的問(wèn)題時(shí)就顯得能力有限了。
上下文無(wú)關(guān)文法對(duì)句法樹(shù)中的結(jié)構(gòu)以及詞匯等信息利用不足,無(wú)法描寫(xiě)句法樹(shù)結(jié)構(gòu)上隱藏的許多信息,如每個(gè)短語(yǔ)節(jié)點(diǎn)的父節(jié)點(diǎn)或(和)左、右姐妹節(jié)點(diǎn)的信息。文獻(xiàn)[5]成功地將上下文相關(guān)信息(即父節(jié)點(diǎn)或(和)左、右姐妹節(jié)點(diǎn)的信息)加注到每個(gè)短語(yǔ)節(jié)點(diǎn)(即非終節(jié)點(diǎn))上,使用概率上下文無(wú)關(guān)文法進(jìn)行句法分析,并取得很好的效果。故本文也嘗試將這些信息增加到使用結(jié)構(gòu)化支持向量機(jī)進(jìn)行句法分析的方法中,從而提升句法分析器的精度。假設(shè)將單純地增加“父親”、“左妹”或“右妹”信息稱為一階標(biāo)注;那么增加“父親+左妹”、“父親+右妹”或“左妹+右妹”就是二階標(biāo)注;增加“父親+左妹+右妹”為三階標(biāo)注。因?yàn)橹皇窃诜墙K節(jié)點(diǎn)上增加上下文相關(guān)的結(jié)構(gòu)信息,所以語(yǔ)法規(guī)則(7)(8)的形式要發(fā)生變化。以語(yǔ)法規(guī)則(7)的形式變化為例,在每一個(gè)非終節(jié)點(diǎn)后用括號(hào)注明相關(guān)結(jié)構(gòu)信息范疇。
一階標(biāo)注中增加父親信息后,規(guī)則(7)的形式變換為:

增加左妹信息后,規(guī)則(7)的形式變換為:

增加右妹信息后,規(guī)則(7)的形式變換為:

二階標(biāo)注中增加父親+左妹信息后,規(guī)則(7)的形式變換為:

增加父親+右妹信息后,規(guī)則(7)的形式變換為:

增加左妹+右妹信息后,規(guī)則(7)的形式變換為:

三階標(biāo)注增加父親+左妹+右妹信息后,規(guī)則(7)的形式變換為:

語(yǔ)法規(guī)則(8)和規(guī)則(7)箭頭左部的變化一樣,因?yàn)榧^右邊是終結(jié)符,所以不發(fā)生變化。簡(jiǎn)單地以增加父親節(jié)點(diǎn)信息為例,短語(yǔ)的結(jié)構(gòu)受到上層短語(yǔ)的制約。比如做主語(yǔ)的NP短語(yǔ)(NP位于S之下)和做賓語(yǔ)的NP短語(yǔ)(NP位于VP之下)的內(nèi)部結(jié)構(gòu)明顯不同,這樣可以快速幫助分析器抉擇,減少不必要的子樹(shù)生成。
在結(jié)構(gòu)化支持向量機(jī)中,關(guān)鍵任務(wù)是特征函數(shù)ψ(x,y)的構(gòu)造,在不同的領(lǐng)域需要構(gòu)造不同的特征函數(shù),從而和實(shí)際數(shù)據(jù)達(dá)到較好的擬合。因而特征函數(shù)構(gòu)造合適與否會(huì)直接影響結(jié)構(gòu)化支持向量機(jī)方法的有效性。圖1是短語(yǔ)結(jié)構(gòu)樹(shù)的輸入輸出示例,圖2為其在學(xué)習(xí)時(shí)構(gòu)造的ψ(x,y)。
以在每個(gè)非終節(jié)點(diǎn)增加“父親”、“父親+左妹”和“父親+左妹+右妹”節(jié)點(diǎn)為例,短語(yǔ)結(jié)構(gòu)樹(shù)以及構(gòu)造的相對(duì)應(yīng)的特征函數(shù)ψ(x,y)變換后的示例如圖3所示。

Fig.1 A sampleof inputand outputw ithout structural information圖1 未增加結(jié)構(gòu)信息的輸入輸出示例

Fig.2 Structural feature functionψ(x,y)圖2 結(jié)構(gòu)化特征函數(shù)ψ(x,y)
在使用結(jié)構(gòu)化支持向量機(jī)進(jìn)行句法分析時(shí),在學(xué)習(xí)過(guò)程中要從樹(shù)庫(kù)自動(dòng)抽取語(yǔ)法規(guī)則并進(jìn)行統(tǒng)計(jì),從而對(duì)模型進(jìn)行分析。rj表示句子x的句法分析樹(shù)y中每一個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的規(guī)則,aj表示規(guī)則rj出現(xiàn)的次數(shù),wj表示每條規(guī)則相對(duì)應(yīng)的權(quán)值。x表示一個(gè)句子,y表示其對(duì)應(yīng)的有效句法樹(shù),wj表示每一個(gè)節(jié)點(diǎn)的權(quán)值,其和作為這個(gè)句法樹(shù)的分值,F(xiàn)(x,為計(jì)算分值的函數(shù)。特征函數(shù)ψ(x,y)的構(gòu)造就是由樹(shù)庫(kù)中出現(xiàn)的規(guī)則及其次數(shù)組成。對(duì)于給定的句子x,通過(guò)喬姆斯基算法[2](Cocke-Younger-Kasam i,CKY)找出符合文法的句法分析樹(shù)集Y,再?gòu)木浞ǚ治鰳?shù)集中找出分值最大的F(x,y,w),y∈Y,即為所求句子的語(yǔ)法樹(shù)。

Fig.3 Structural feature function afteradding structural information in non-terminalnode圖3 在每個(gè)非終節(jié)點(diǎn)增加結(jié)構(gòu)信息后的結(jié)構(gòu)化特征函數(shù)
本文為了測(cè)試結(jié)構(gòu)化支持向量機(jī)在融合多結(jié)構(gòu)特征后對(duì)中文句法分析精度的影響,進(jìn)行了一組對(duì)比實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行了分析。
5.1 語(yǔ)料的預(yù)處理
5.1.1 語(yǔ)料1預(yù)處理
本文的實(shí)驗(yàn)語(yǔ)料1來(lái)自北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所公開(kāi)的北大微型樹(shù)庫(kù)的A語(yǔ)料[12]。該語(yǔ)料來(lái)自漢英機(jī)器翻譯研究的測(cè)試題庫(kù),它句型多樣,句子較短,不同短語(yǔ)組合的分布也很廣,便于進(jìn)行自動(dòng)分析處理。
該語(yǔ)料一共有1 434句,表1是對(duì)實(shí)驗(yàn)語(yǔ)料集的情況統(tǒng)計(jì)[12],表2為實(shí)驗(yàn)語(yǔ)料舉例。
選取表2中887句單句作為實(shí)驗(yàn)語(yǔ)料1,句長(zhǎng)最長(zhǎng)為19,最短為3,其平均句長(zhǎng)為7.01;抽取其中787句作為訓(xùn)練語(yǔ)料,100句用作開(kāi)放測(cè)試的語(yǔ)料。
在進(jìn)行實(shí)驗(yàn)之前,需要對(duì)北大樹(shù)庫(kù)語(yǔ)料進(jìn)行改寫(xiě),比如:
[dj廠長(zhǎng)/n[vp[vbar宣布/v了/u][np委員/n名單/n]]]
改寫(xiě)后格式為:

5.1.2 語(yǔ)料2預(yù)處理
本文的實(shí)驗(yàn)語(yǔ)料2采用文獻(xiàn)[6]的語(yǔ)料,該語(yǔ)料來(lái)自PCTB賓州中文樹(shù)庫(kù)語(yǔ)料,從1 500個(gè)文檔中提取2 000條(句長(zhǎng)小于等于12詞)單句,其中的1 850句用來(lái)進(jìn)行訓(xùn)練,剩下的150句用來(lái)進(jìn)行開(kāi)放測(cè)試。
在進(jìn)行本實(shí)驗(yàn)前,同樣需要對(duì)從賓州中文樹(shù)庫(kù)選出來(lái)的2 000個(gè)單句進(jìn)行預(yù)處理[13-14],將句法樹(shù)上原有的空語(yǔ)類、指同索引和功能標(biāo)記一概刪除[5]。
例如,下面例句A轉(zhuǎn)換成B的形式:

5.2 評(píng)價(jià)指標(biāo)
本文使用PARSEVAL評(píng)價(jià)體系[2]作為句法分析模型的評(píng)價(jià)指標(biāo),選取其中的精確率(Precision,Pre)、召回率(Recall,Rec)以及F1值(Pre和Rec的調(diào)和平均值)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。

Table1 Statisticsofexperimentaldata表1 實(shí)驗(yàn)語(yǔ)料情況統(tǒng)計(jì)

Table 2 Samplesof experimentaldata表2實(shí)驗(yàn)語(yǔ)料句型舉例
精確率表示所有句法分析結(jié)果中所有正確的成分比例;召回率表示句法分析結(jié)果中正確的成分占所有句法實(shí)際成分的比例;F1=2×Pre×Rec/(Pre+Rec)。
5.3 實(shí)驗(yàn)分析
實(shí)驗(yàn)使用的句法分析器是從網(wǎng)上公開(kāi)下載的SVMstruct-cfg(http://www.cs.cornell.edu/tj/svm-light/svm_struct.htm)。使用經(jīng)典結(jié)構(gòu)化支持向量機(jī)SVM1方法,并與文獻(xiàn)[6]中SVM2方法以及經(jīng)典的概率上下文無(wú)關(guān)文法PCFG[2]在語(yǔ)料1和語(yǔ)料2上進(jìn)行了實(shí)驗(yàn)對(duì)比分析。這里的PCFG采用和文獻(xiàn)[5]相同的算法,即規(guī)則的概率估計(jì)采用最簡(jiǎn)單的相對(duì)頻率法。結(jié)構(gòu)化支持向量機(jī)選取的核函數(shù)為線性核,其中懲罰參數(shù)C=1.0,參數(shù)ε=0.01。在文獻(xiàn)[6]中,在采用SVM2方法進(jìn)行句法分析時(shí),曾對(duì)選取F1損失函數(shù)和0-1損失函數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比,從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)采用0-1損失函數(shù)要比F1損失函數(shù)的效果好,故本文在進(jìn)行結(jié)構(gòu)化支持向量機(jī)的實(shí)驗(yàn)時(shí),都選取的是0-1損失函數(shù)。實(shí)驗(yàn)結(jié)果只采用開(kāi)放測(cè)試的結(jié)果,結(jié)構(gòu)化支持向量機(jī)的測(cè)試時(shí)間極短,可以忽略不計(jì),故只對(duì)訓(xùn)練時(shí)間進(jìn)行對(duì)比。對(duì)比實(shí)驗(yàn)結(jié)果如表3、表4所示。其中,Time表示模型在當(dāng)前語(yǔ)料下的訓(xùn)練時(shí)間。
從表3、表4開(kāi)放測(cè)試的實(shí)驗(yàn)結(jié)果可以看出:一階標(biāo)注、二階標(biāo)注、三階標(biāo)注的F1值均高于未進(jìn)行標(biāo)注的模型。它們之間在精確率上是三階標(biāo)注高于二階標(biāo)注,二階標(biāo)注高于一階標(biāo)注。在召回率上有高有低,出現(xiàn)了三階標(biāo)注的F1值低于二階標(biāo)注的情況。這是因?yàn)楫a(chǎn)生了數(shù)據(jù)稀疏的問(wèn)題,當(dāng)增加的結(jié)構(gòu)信息越多時(shí),句法分析的性能反而有下降的情況。同時(shí),從表3、表4中可以看到,當(dāng)增加一階標(biāo)注時(shí),F(xiàn)1值有明顯的升高,但是增加為二階標(biāo)注和三階標(biāo)注,F(xiàn)1值的增加就不太明顯。另外,隨著結(jié)構(gòu)信息的增加F1值會(huì)提高,但是需要的訓(xùn)練時(shí)間也在不斷增加,而且語(yǔ)料規(guī)模越大,訓(xùn)練消耗的時(shí)間也越來(lái)越多。從F1值的對(duì)比來(lái)看,總的情況是SVM2方法>SVM1方法>PCFG方法,但其中也有SVM1方法>SVM2方法的情況;從語(yǔ)料的訓(xùn)練時(shí)間對(duì)比來(lái)說(shuō),PCFG方法<SVM1方法<SVM2方法;因而從算法的F1值和訓(xùn)練時(shí)間雙重考慮的話,增加了一階、二階、三階標(biāo)注后,SVM1方法要好于SVM2方法和PCFG方法。

Table3 Comparison of experimental resultsofadding structural information in Corpus1表3 北大微型樹(shù)庫(kù)(語(yǔ)料1)上增加各種結(jié)構(gòu)信息的對(duì)比實(shí)驗(yàn)結(jié)果

Table4 Comparison of experimental resultsofadding structural information in Corpus2表4 賓州中文樹(shù)庫(kù)(語(yǔ)料2)上增加各種結(jié)構(gòu)信息的對(duì)比實(shí)驗(yàn)結(jié)果
中文句法相比較西文來(lái)說(shuō)其結(jié)構(gòu)更加復(fù)雜,具有較強(qiáng)的上下文相關(guān)性,在進(jìn)行句法分析時(shí)難度更大。本文使用結(jié)構(gòu)化支持向量機(jī)的方法并融合多結(jié)構(gòu)信息對(duì)中文句法進(jìn)行分析,豐富了結(jié)構(gòu)化特征函數(shù)的形式。同時(shí),本文使用了兩種語(yǔ)料,并對(duì)3種句法分析方法在這兩種語(yǔ)料庫(kù)上的實(shí)驗(yàn)進(jìn)行了對(duì)比分析,說(shuō)明增加了結(jié)構(gòu)信息可以在一定程度上提高句法分析的精度。由于對(duì)結(jié)構(gòu)化支持向量機(jī)在中文信息處理中應(yīng)用的研究還比較粗淺,在以后很多問(wèn)題處理中還需要繼續(xù)進(jìn)行深入的探討。
[1]Charniak E.Statistical parsing w ith a context-free grammar and word statistics[C]//Proceedings of the 14th National Conference on Artificial Intelligence and 9th Conference on Innovative Applications of Artificial Intelligence,Providence,USA,Jul27-31,1997.Menlo Park,USA:AAAI,1997:598-603.
[2]Mallning CD,Schutze H.Foundationsof statisticalnaturallanguage processing[M].Cambridge,USA:M ITPress,1999.
[3]Zhang Hao,Liu Qun,BaiShuo.Structural contextconditioned probabilistic parsing of chinese[C]//Proceedings of the 1st Students'Workshop on Computational Linguistics,Beijing,Aug 20-23,2002.Beijing:Chinese Information Processing Society of China,2002:46-51.
[4]Chen Gong,Luo Senlin,Chen Kaijiang,et al.Method for layered Chinese parsing based on subsidiary context and lexical information[J].Journalof Chinese Information Processing,2012,26(1):9-15.
[5]Huang Changning,LiYumei,Zhou Qiang.Implicit information of treebank[J].Journal of Chinese Linguistics,2012(15):149-160.
[6]Zhao Guorong,WangWenjian.AChinese parsingmethod based on interdependent and structured input and output spaes[J].Journal of Chinese Information Processing,2015,29(1):139-145.
[7]Vapnik V.Statictical learning theory[M].New York:John Wiley&Sons,Inc,1998.
[8]Joachims T,Finley T,Yu C N J.Cutting-plane training of structural SVMs[J].Machine Learning,2009,77(1):27-59.
[9]Tsochantaridis I,Hofmann T,Joachims T,etal.Supportvector machine learning for interdependent and structured output spaces[C]//Proceedings of the 21st International Conference on Machine Learning,Banff,Canada,Jul 4-8,2004.New York:ACM,2004:104-112.
[10]Tsochantaridis I,Joachims T,Hofmann T,etal.Largemargin methods for structured and interdependent output variables[J].Journal of Machine Learning Research,2005,6(2):1453-1484.
[11]Joachims T,Hofmann T,Yue Yisong,etal.Predicting structured objectsw ith support vectormachines[J].Communicationsof theACM,2009,52(11):97-104.
[12]Zhou Qiang,Zhang Wei,Yu Shiwen.Building a chinese treebank[J].Journal of Chinese Information Processing,1997,11(4):42-51.
[13]Johnson M.PCFG models of linguistic tree representations[J].Computational Linguistics,2002,24(4):613-632.
[14]CollinsM J.A new statistical parser based on bigram lexical dependencies[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,USA,Jun 24-27,1996.Stroudsburg,USA:ACL,1996:184-191.
附中文參考文獻(xiàn):
[3]張浩,劉群,白碩.結(jié)構(gòu)上下文相關(guān)的概率句法分析[C]//第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì),北京,2002.北京:中國(guó)中文信息學(xué)會(huì),2002:46-51.
[4]陳功,羅森林,陳開(kāi)江,等.結(jié)合結(jié)構(gòu)下文及詞匯信息的漢語(yǔ)句法分析方法[J].中文信息學(xué)報(bào),2012,26(1):9-15.
[5]黃昌寧,李玉梅,周強(qiáng).樹(shù)庫(kù)的隱含信息[J].中國(guó)語(yǔ)言學(xué)報(bào),2012(15):149-160.
[6]趙國(guó)榮,王文劍.一種處理結(jié)構(gòu)化輸入輸出的中文句法分析方法[J].中文信息學(xué)報(bào),2015,29(1):139-145.
[12]周強(qiáng),張偉,俞士汶.漢語(yǔ)樹(shù)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),1997,11(4):42-51.

ZHAO Guorong was born in 1979.She is a Ph.D.candidate and associate professor at ShanxiUniversity.Her research interests include Chinese information processing andmachine learning,etc.
趙國(guó)榮(1979—),女,山西大同人,山西大學(xué)博士研究生、副研究員,主要研究領(lǐng)域?yàn)橹形男畔⑻幚恚瑱C(jī)器學(xué)習(xí)等。

王文劍(1968—),女,山西太原人,2004年于西安交通大學(xué)獲得博士學(xué)位,現(xiàn)為山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等。
《計(jì)算機(jī)工程與應(yīng)用》投稿須知
中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)來(lái)源期刊、北大中文核心期刊、中國(guó)科技核心期刊、RCCSE中國(guó)核心學(xué)術(shù)期刊、《中國(guó)學(xué)術(shù)期刊文摘》首批收錄源期刊、《中國(guó)學(xué)術(shù)期刊綜合評(píng)價(jià)數(shù)據(jù)庫(kù)》來(lái)源期刊,被收錄在《中國(guó)期刊網(wǎng)》、《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》、英國(guó)《科學(xué)文摘》(SA/INSPEC)、俄羅斯《文摘雜志》(AJ)、美國(guó)《劍橋科學(xué)文摘》(CSA)、美國(guó)《烏利希期刊指南》(Ulrich’s PD)、《日本科學(xué)技術(shù)振興機(jī)構(gòu)中國(guó)文獻(xiàn)數(shù)據(jù)庫(kù)》(JST)、波蘭《哥白尼索引》(IC),中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊
《計(jì)算機(jī)工程與應(yīng)用》是由中華人民共和國(guó)中國(guó)電子科技集團(tuán)公司主管,華北計(jì)算技術(shù)研究所主辦的面向計(jì)算機(jī)全行業(yè)的綜合性學(xué)術(shù)刊物。
辦刊方針 堅(jiān)持走學(xué)術(shù)與實(shí)踐相結(jié)合的道路,注重理論的先進(jìn)性和實(shí)用技術(shù)的廣泛性,在促進(jìn)學(xué)術(shù)交流的同時(shí),推進(jìn)科技成果的轉(zhuǎn)化。覆蓋面寬、信息量大、報(bào)道及時(shí)是本刊的服務(wù)宗旨。
報(bào)導(dǎo)范圍 行業(yè)最新研究成果與學(xué)術(shù)領(lǐng)域最新發(fā)展動(dòng)態(tài);具有先進(jìn)性和推廣價(jià)值的工程方案;有獨(dú)立和創(chuàng)新見(jiàn)解的學(xué)術(shù)報(bào)告;先進(jìn)、廣泛、實(shí)用的開(kāi)發(fā)成果。
主要欄目 理論與研發(fā),大數(shù)據(jù)與云計(jì)算,網(wǎng)絡(luò)、通信與安全,模式識(shí)別與人工智能,圖形圖像處理,工程與應(yīng)用,以及其他熱門(mén)專欄。
注意事項(xiàng) 為保護(hù)知識(shí)產(chǎn)權(quán)和國(guó)家機(jī)密,在校學(xué)生投稿必須事先征得導(dǎo)師的同意,所有稿件應(yīng)保證不涉及侵犯他人知識(shí)產(chǎn)權(quán)和泄密問(wèn)題,否則由此引起的一切后果應(yīng)由作者本人負(fù)責(zé)。
論文要求 學(xué)術(shù)研究:報(bào)道最新研究成果,以及國(guó)家重點(diǎn)攻關(guān)項(xiàng)目和基礎(chǔ)理論研究報(bào)告。要求觀點(diǎn)新穎,創(chuàng)新明確,論據(jù)充實(shí)。技術(shù)報(bào)告:有獨(dú)立和創(chuàng)新學(xué)術(shù)見(jiàn)解的學(xué)術(shù)報(bào)告或先進(jìn)實(shí)用的開(kāi)發(fā)成果,要求有方法、觀點(diǎn)、比較和實(shí)驗(yàn)分析。工程應(yīng)用:方案采用的技術(shù)應(yīng)具有先進(jìn)性和推廣價(jià)值,對(duì)科研成果轉(zhuǎn)化為生產(chǎn)力有較大的推動(dòng)作用。
投稿格式 1.采用學(xué)術(shù)論文標(biāo)準(zhǔn)格式書(shū)寫(xiě),要求文筆簡(jiǎn)練、流暢,文章結(jié)構(gòu)嚴(yán)謹(jǐn)完整、層次清晰(包括標(biāo)題、作者、單位(含電子信箱)、摘要、關(guān)鍵詞、基金資助情況、所有作者簡(jiǎn)介、中圖分類號(hào)、正文、參考文獻(xiàn)等,其中前6項(xiàng)應(yīng)有中、英文)。中文標(biāo)題必須限制在20字內(nèi)(可采用副標(biāo)題形式)。正文中的圖、表必須附有圖題、表題,公式要求用MathType編排。論文字?jǐn)?shù)根據(jù)論文內(nèi)容需要,不做嚴(yán)格限制,對(duì)于一般論文建議7 500字以上為宜。2.請(qǐng)通過(guò)網(wǎng)站(http://www.ceaj.org)“作者投稿系統(tǒng)”一欄投稿(首次投稿須注冊(cè))。
M ethod for Chinese Parsing Based on Fusion ofM ultip le Structural Information*
ZHAOGuorong,WANGWenjian+
Schoolof Computerand Information Technology,ShanxiUniversity,Taiyuan 030006,China
Syntactic parsing is a basic technology of natural language understanding,and it is the cornerstone of deep language understanding.Atpresent,the parsingmethod is based on the hypothesisof context free grammar.In fact,the contexthasa strong correlation in phrase structure trees.If the structural information can be used,itcan further improve the accuracy of the parser.This paper combines themultiple structural information in syntactic structure trees,the structural information(such as father node or leftand rightsister nodes)in the non-term inalnode can strengthen grammar rules of context constraints.And then this paper uses themethod of structural support vector machines(SSVMs)for Chinese parsing.The experimental results show that themethod ofmultiple structural information fusion can resolve the structuralambiguity and improve theaccuracy and F1 value.
structuralsupportvectormachines;context-free grammar;structure contextcorrelation;Chinese parsing
an was born in 1968.She
the Ph.D.degree from Institute for Information and System Science,Xi'an Jiaotong University in 2004.Now she isa professorand Ph.D.supervisoratSchoolof Computerand Information Technology,ShanxiUniversity,and the seniormemberof CCF.Her research interests include datam ining and machine learning theory,etc.
A
:TP391
*The National Natural Science Foundation of China under GrantNos.61273291,61503229(國(guó)家自然科學(xué)基金);the Natural Science Foundation of Shanxi Province under GrantNo.2015021096(山西省自然科學(xué)基金);the Science and Technology Innovation Project of ShanxiProvinceunderGrantNo.2015110(山西省高等學(xué)校科技創(chuàng)新項(xiàng)目).
Received 2016-04,Accepted 2016-06.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-06-23,http://www.cnki.net/kcms/detail/11.5602.TP.20160623.1139.004.htm l