陳宇 鄭德權(quán) 趙鐵軍
摘 要:DBN是一種快速全局最優(yōu)的神經(jīng)網(wǎng)絡(luò)分類(lèi)方法,它包含數(shù)層無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)和一層有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)。本文驗(yàn)證了DBN方法很好的適用于中文名實(shí)體分類(lèi)任務(wù)。首先,采用多層RBM方法無(wú)監(jiān)督地從字特征向量提取結(jié)構(gòu)信息,得到更具有表征能力的特征;然后,利用BP方法微調(diào)網(wǎng)絡(luò)參數(shù)并對(duì)提取后的特征向量進(jìn)行分類(lèi),以此構(gòu)成分類(lèi)器進(jìn)行名實(shí)體分類(lèi)。通過(guò)對(duì)ACE 04的中文名實(shí)體進(jìn)行的分類(lèi)測(cè)試,準(zhǔn)確率達(dá)到91.45%,明顯高于支持向量機(jī)和反向傳播神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)分類(lèi)算法。
關(guān)鍵詞:名實(shí)體分類(lèi); 神經(jīng)網(wǎng)絡(luò); DBN; 字特征
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2014)02-
Study on Chinese Named Entity Categorization based on Deep Belief Nets
CHEN Yu, ZHENG Dequan, ZHAO Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: DBN is a classification of fast and global optimum neural network. It contains several layers of unsupervised networks and one layer of supervised network. The paper approves this novelty machine learning approach is suitable to the domain of named entity categorization. The paper applies RBM,an unsupervised learning method, to reconstruct more representative features from character-based features. Subsequently, the paper utilizes BP, a supervised learning method, to fine-tune parameters in whole network and accomplish the categorization task. In the end, the paper tests DBN on ACE 04 Chinese corpus and achieve 91.45% precision, which is much better than Support Vector Machine and Back-propagation neural network.
Key words: Named Entities Categorization; Neural Network; DBN; Character-based Feature
0引 言
傳統(tǒng)的信息抽取任務(wù)包括名實(shí)體抽取、關(guān)系抽取和事件抽取,而名實(shí)體抽取又可分為兩個(gè)子任務(wù):一是識(shí)別消息文本中的名實(shí)體,二是將已識(shí)別的名實(shí)體進(jìn)行分類(lèi),本文主要關(guān)注名實(shí)體抽取的第二個(gè)子任務(wù)。名實(shí)體是一個(gè)事物或事物集合的名稱(chēng),在消息文本中,往往是信息的主要載體,所以名實(shí)體抽取是信息抽取的基礎(chǔ)任務(wù)。名實(shí)體分類(lèi)對(duì)名實(shí)體的語(yǔ)義表述具有重要指示意義,是名實(shí)體抽取準(zhǔn)確與否的標(biāo)準(zhǔn)之一。按照Automatic Context Extraction (ACE)大會(huì)的定義,名實(shí)體一般分為人名、地名和機(jī)構(gòu)名等。早期,研究主要聚焦于利用基于模式匹配的方法進(jìn)行名實(shí)體分類(lèi),并取得了較高的準(zhǔn)確率。Mcdonald[1]利用名詞的內(nèi)外部信息組成的模式對(duì)名詞進(jìn)行分類(lèi),Wacholder[2]則利用對(duì)不同名詞類(lèi)別進(jìn)行聚類(lèi)的方式輔助人工撰寫(xiě)的模式實(shí)現(xiàn)名詞分類(lèi)。但是上述方法都需要大量人工統(tǒng)計(jì)的模式,而一旦名實(shí)體抽取范圍或者對(duì)象語(yǔ)言變化,即要費(fèi)時(shí)費(fèi)力地修改甚至重寫(xiě)相應(yīng)的模式。此后,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法顯示了所具備的強(qiáng)大自學(xué)習(xí)能力,克服了基于模式方法的缺點(diǎn)。同時(shí),支持向量機(jī)和反向傳播神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器,可通過(guò)利用足夠大量的實(shí)例進(jìn)行自訓(xùn)練,并用訓(xùn)練好的模型未知實(shí)例進(jìn)行分類(lèi)。Zhou和Su[3]提取了4種不同的詞性和句法特征表示名詞的語(yǔ)義特征,再用隱馬爾科夫模型進(jìn)行分類(lèi),Isozaki[4]利用5-gram結(jié)合3種詞法特征組成特征向量用于支持向量機(jī)訓(xùn)練模型并對(duì)名實(shí)體分類(lèi)。此外,對(duì)于名詞分類(lèi)的研究大多只是集中于英文語(yǔ)料,對(duì)中文語(yǔ)料的研究仍相對(duì)較少,其名詞分類(lèi)的難度要遠(yuǎn)大于英文,主要原因是[5]:
(1詞語(yǔ)之間沒(méi)有明顯的分割標(biāo)志;
(2)漢語(yǔ)中的詞存在更多歧義現(xiàn)象;
(3)漢語(yǔ)詞語(yǔ)由字組合而成,組合的復(fù)雜度高;
(4)漢語(yǔ)的詞法語(yǔ)態(tài)信息不如英語(yǔ)豐富[6]。例如:漢語(yǔ)詞語(yǔ)沒(méi)有時(shí)態(tài)、字母大小寫(xiě)的特征等。在已有研究中,Jing[7]提出了利用基于字的特征表征名詞信息,結(jié)果表明,基于字的特征結(jié)果要優(yōu)于基于詞的特征,且克服了以上大部分的漢語(yǔ)難點(diǎn)。
本文提出一種基于字特征提取名詞特征向量,并利用Deep Belief Nets(DBN)神經(jīng)網(wǎng)絡(luò)構(gòu)造分類(lèi)器進(jìn)行名實(shí)體分類(lèi)的方法。方法中,首先對(duì)直接反映名實(shí)體的字特征向量進(jìn)行特征提取,得到更加復(fù)雜、更具表征能力的特征,再利用有監(jiān)督過(guò)程對(duì)這些特征向量進(jìn)行分類(lèi),獲得了較直接對(duì)字特征向量進(jìn)行分類(lèi)更好的效果。實(shí)驗(yàn)結(jié)果表明,DBN方法分類(lèi)效果明顯優(yōu)于其他傳統(tǒng)的機(jī)器學(xué)習(xí)算法。
1 Deep Belief Nets 神經(jīng)網(wǎng)絡(luò)的介紹
DBN神經(jīng)網(wǎng)絡(luò)是一種全局最優(yōu)的快速神經(jīng)網(wǎng)絡(luò)分類(lèi)方法,由若干層RBM網(wǎng)絡(luò)(Restricted Boltzmann machine)和一層反向傳遞網(wǎng)絡(luò)(Back-Propagation,簡(jiǎn)稱(chēng)BP網(wǎng)絡(luò))組成,因而是一種多層神經(jīng)網(wǎng)絡(luò)[8]。DBN結(jié)合了無(wú)監(jiān)督學(xué)習(xí)方法的特征提取能力和有監(jiān)督學(xué)習(xí)方法的分類(lèi)能力。總體來(lái)說(shuō),DBN具有以下如下幾點(diǎn)優(yōu)勢(shì):
(1)無(wú)監(jiān)督的RBM方法提取輸入特征向量的結(jié)構(gòu)化信息,組成表征能力更好的特征向量;
(2)有監(jiān)督的BP方法將錯(cuò)誤信息反向傳播到整個(gè)網(wǎng)絡(luò)以修改網(wǎng)絡(luò)的參數(shù),使特征向量映射到其他空間時(shí)更為準(zhǔn)確;
(3)DBN的多層網(wǎng)絡(luò)結(jié)構(gòu)能夠自我弱化學(xué)習(xí)過(guò)程中產(chǎn)生的錯(cuò)誤信息,并對(duì)特征向量在各個(gè)相異空間的重要特征信息實(shí)行優(yōu)化組合,使無(wú)監(jiān)督過(guò)程產(chǎn)生的信息更加結(jié)構(gòu)化;
(4)DBN是一個(gè)快速的學(xué)習(xí)算法,RBM將整個(gè)網(wǎng)絡(luò)的參數(shù)快速定位到最優(yōu)參數(shù)的鄰域,與傳統(tǒng)的BP算法相比,收斂速度更快。
DBN的結(jié)構(gòu)如圖1所示,在訓(xùn)練模型的過(guò)程中主要可分為兩步。第一步,分別單獨(dú)、且無(wú)監(jiān)督地訓(xùn)練每一層RBM,確保特征向量映射到不同特征空間時(shí),可最多地保留特征信息。RBM網(wǎng)絡(luò)只能確保層內(nèi)的權(quán)值對(duì)該層特征向量映射達(dá)到最優(yōu),而非對(duì)整個(gè)DBN的特征向量映射均能達(dá)到最優(yōu)。第二步,利用反向傳播網(wǎng)絡(luò)有監(jiān)督地微調(diào)整個(gè)DBN網(wǎng)絡(luò),克服RBM僅能保證層間參數(shù)只對(duì)該層最優(yōu)化的弊端,并對(duì)特征向量進(jìn)行分類(lèi)。RBM訓(xùn)練模型的過(guò)程可以看作是初始化BP的權(quán)值參數(shù),使DBN方法克服了傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)和訓(xùn)練時(shí)間長(zhǎng)的缺點(diǎn)。
圖1 DBN結(jié)構(gòu)圖
Fig.1 The structure of a DBN
DBN方法是一種多層神經(jīng)網(wǎng)絡(luò),底層的神經(jīng)網(wǎng)絡(luò)接收直接表示(多數(shù)為二元值)的特征向量值,在自底向上的傳遞過(guò)程中,從具體的特征向量逐漸轉(zhuǎn)化為抽象的特征向量,在頂層的神經(jīng)網(wǎng)絡(luò)形成更易于分類(lèi)的組合特征向量,增加網(wǎng)絡(luò)層數(shù)能夠?qū)⑻卣飨蛄扛映橄蠡?。而且,雖然RBM確保訓(xùn)練后的層內(nèi)參數(shù)對(duì)特征向量映射達(dá)到最優(yōu),但是不能完全消除映射過(guò)程中產(chǎn)生的錯(cuò)誤和不重要的特征信息。尤其是,多層神經(jīng)網(wǎng)絡(luò)的每一層網(wǎng)絡(luò)均會(huì)弱化上一層網(wǎng)絡(luò)產(chǎn)生的錯(cuò)誤特征信息和次要特征信息,因此多層網(wǎng)絡(luò)較單層網(wǎng)絡(luò)精確度更高。在名實(shí)體分類(lèi)問(wèn)題中,基于特征方法的一個(gè)重要特性是特征向量的稀疏問(wèn)題,DBN方法對(duì)特征的提取與結(jié)構(gòu)化對(duì)稀疏特征向量具有很好的辨別能力,能很好地解決這類(lèi)問(wèn)題[9,10]。
2 特征選取
基于字的特征非常適用于中文信息抽取領(lǐng)域,因其避免了漢語(yǔ)詞語(yǔ)沒(méi)有邊界信息等的缺點(diǎn),將字與字如何組合成詞語(yǔ),交由機(jī)器學(xué)習(xí)模型去決定。例如:“老”與“李”組合成“老李”,并被分類(lèi)為人名;“老”與“撾”組合成“老撾”,并被分類(lèi)為國(guó)家。即使是在小規(guī)模的語(yǔ)料中,這種組合方式是極其復(fù)雜的,表示名詞的特征向量的維數(shù)高。本文將語(yǔ)料中名詞出現(xiàn)的字組成字典 ,將每一個(gè)名詞e的基于字的特征向量表示為 ,特征向量與字典具有相同的維數(shù),其中 的值滿(mǎn)足等式(1),可具體表示為:
(1)
除了基于字的特征外,本文也加入了ACE語(yǔ)料里標(biāo)注的名實(shí)體的指稱(chēng)信息作為特征。名實(shí)體的指稱(chēng)分三類(lèi),分別是命名性指稱(chēng)、名詞性指稱(chēng)和代詞性指稱(chēng)。最后,本文將名詞的基于字特征和指稱(chēng)信息特征結(jié)合,作為名實(shí)體的特征向量。雖然名實(shí)體還有其他詞法及句法特征,但是本文重在驗(yàn)證DBN方法在自然語(yǔ)言處理領(lǐng)域的適用性,故未涉及更多特征信息。
3 實(shí)驗(yàn)與分析
本文選用ACE 04的語(yǔ)料作為測(cè)試數(shù)據(jù),按照語(yǔ)料標(biāo)注說(shuō)明,名實(shí)體可分為五類(lèi),每一個(gè)名詞屬于且只屬于一類(lèi),分別為人名(Person)、組織機(jī)構(gòu)名(Organization)、行政區(qū)名(Geo-political entity)、地名(Location)和設(shè)施名(Facility)。對(duì)名實(shí)體分類(lèi),即是對(duì)名實(shí)體指代進(jìn)行分類(lèi)。名實(shí)體指代是名實(shí)體在文檔中的表述,每一個(gè)名實(shí)體指代包含主體(head)和擴(kuò)展(extent)兩部分,指代主體包含名實(shí)體主要信息。雖然指代的擴(kuò)展部分能提供更多信息,但是也擴(kuò)大了字符字典的規(guī)模,帶來(lái)噪音。相關(guān)文獻(xiàn)證明,只利用指代的主體部分的效果優(yōu)于結(jié)合擴(kuò)展部分[9]。
本文從語(yǔ)料中提取出10 228個(gè)名實(shí)體指代,利用4折交叉驗(yàn)證法訓(xùn)練模型,也就是說(shuō),7 746個(gè)指代作為訓(xùn)練語(yǔ)料用于訓(xùn)練模型,2 482個(gè)指代作為測(cè)試語(yǔ)料用于測(cè)試模型,其分布如表1所示。字符字典的維數(shù)為1 185,測(cè)試語(yǔ)料在本文中使用了準(zhǔn)確率評(píng)價(jià)模型,由于本文的實(shí)驗(yàn)是對(duì)已識(shí)別的名實(shí)體分類(lèi),其召回率等于準(zhǔn)確率。
本文共進(jìn)行了三組不同的實(shí)驗(yàn),第一組實(shí)驗(yàn)用于驗(yàn)證DBN分類(lèi)器的效果,第二組實(shí)驗(yàn)用于驗(yàn)證RBM的層數(shù)對(duì)DBN提取特征的作用,第三組實(shí)驗(yàn)用于比較層內(nèi)節(jié)點(diǎn)數(shù)對(duì)DBN網(wǎng)絡(luò)效果的影響。
在第一組實(shí)驗(yàn)中,本文將DBN、SVM和傳統(tǒng)的反向傳播算法的名實(shí)體分類(lèi)效果進(jìn)行了比較,其中,DBN的網(wǎng)絡(luò)結(jié)構(gòu)是3層RBM加一層反向傳播網(wǎng)絡(luò),進(jìn)行了多組實(shí)驗(yàn),選取最好的DBN模型結(jié)構(gòu),每層RBM的節(jié)點(diǎn)數(shù)由下至上依次為900,600,300;SVM利用的是線性核函數(shù),懲罰系數(shù)為1,其余參數(shù)為默認(rèn)值,這種結(jié)構(gòu)的SVM分類(lèi)效果也是比其他結(jié)構(gòu)的SVM更優(yōu);反向傳播算法的網(wǎng)絡(luò)結(jié)構(gòu)與DBN相同,利于與DBN的結(jié)果相比較,結(jié)果如表2所示。實(shí)驗(yàn)證明,DBN的效果較其他兩種模型具有明顯的提高,說(shuō)明DBN能從基于字特征向量中對(duì)字與字之間的關(guān)系進(jìn)行正確的組合與識(shí)別,提取出更具代表性的特征用于分類(lèi)。
在第二組實(shí)驗(yàn)中,本文比較了一層、兩層和三層RBM的效果,一層RBM層內(nèi)節(jié)點(diǎn)為900,兩層RBM層內(nèi)節(jié)點(diǎn)分別為900和600,三層RBM的層內(nèi)節(jié)點(diǎn)分別為900,600和300,結(jié)果如表3所示[10]。實(shí)驗(yàn)結(jié)果證明,隨著層數(shù)的增加效果越來(lái)越好,說(shuō)明更多的層數(shù)能夠提取出更多準(zhǔn)確的特征。另一方面,三層RBM比兩層RBM的效果提高不明顯,說(shuō)明兩層RBM對(duì)于名實(shí)體分類(lèi)已經(jīng)提取足夠的分類(lèi)特征,Hinton[8]也在其相關(guān)研究中指出,三層RBM網(wǎng)絡(luò)已經(jīng)能提取足夠的特征用于分類(lèi)。
在第三組實(shí)驗(yàn)中,本文利用一層RBM網(wǎng)絡(luò)結(jié)合BP的模型,改變RBM層內(nèi)節(jié)點(diǎn)數(shù),結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明,第一層RBM層內(nèi)節(jié)點(diǎn)數(shù)為900的分類(lèi)器效果最好,因?yàn)?00接近輸入特征向量的維數(shù),說(shuō)明神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)應(yīng)對(duì)輸入特征向量降維,且不宜下降過(guò)快,導(dǎo)致震蕩和難以收斂,并且,只包含一層RBM的DBN的效果依然優(yōu)于SVM和反向傳播算法。
本文最后觀察了每一個(gè)類(lèi)別的分類(lèi)效果,并用準(zhǔn)確率,召回率和F系數(shù)去衡量,結(jié)果如表5所示。結(jié)果表明,人名、行政區(qū)名和組織結(jié)構(gòu)名的效果最好,因?yàn)檎Z(yǔ)料中這三個(gè)類(lèi)別的實(shí)例比例較大,地名和設(shè)施名的效果較差,因?yàn)檎Z(yǔ)料中這兩個(gè)類(lèi)別的實(shí)例比例較小,每一類(lèi)別的分類(lèi)的效果與此類(lèi)別的實(shí)例在語(yǔ)料中比例成正比。
4 結(jié)論及將來(lái)的工作
DBN對(duì)于名實(shí)體分類(lèi)是一種全新的機(jī)器學(xué)習(xí)算法,對(duì)高維特征向量具有很強(qiáng)的提取特征和進(jìn)行特征分類(lèi)能力。本文將基于字特征和指稱(chēng)特征作為表述名實(shí)體指代的特征向量,并用DBN對(duì)其進(jìn)行分類(lèi),實(shí)驗(yàn)結(jié)果表明,DBN的分類(lèi)效果要明顯好于SVM和反向傳播算法,是一種在信息抽取領(lǐng)域具有良好實(shí)用性的優(yōu)秀算法。將來(lái)的工作擬在以下幾個(gè)方面展開(kāi):(1) 將本文提出的方法在其它數(shù)據(jù)集上測(cè)試,以進(jìn)一步驗(yàn)證方法的有效性;(2) 將該方法應(yīng)用于關(guān)系識(shí)別方面;(3) 利用該方法多任務(wù)地進(jìn)行名實(shí)體抽取與關(guān)系抽取。
參考文獻(xiàn):
[1] MACDONALD D. Internal and external evidence in the identification and semantic categorization of proper names[M]. Corpus Processing for Lexical Acquisition, MIT Press. 1993:61-76.
[2] WACHOLDER N, RAVIN Y, CHOI M. Disambiguation of proper names in text[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing,1997.
[3] ZHOU GuoDong, SU Jian. Named entity recognition using an hmm-based chunk tagger[C]//proceedings of ACL,2002:473-480.
[4] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//proceedings of IJCNLP,2002:1-7.
[5] ZHAO Jian, WANG Xiaolong, GUAN Yi. Comparing features combination with features fusion in Chinese named entity recognition[J]. Computer Applications. 2005, 25(11).
[6] ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreferences resolution. Journal of Chinese Information Processing[J]. 2009, 23(2).
[7] JING Hongyan, FLORIAN R, LUO Xiaoqiang, et al. How to get a Chinese name (entity): Segmentation and combination issues[C]//proceedings of EMNLP. 2003:200-207.
[8] HINTON G, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation. 2006,18:1527–1554.
[9] LI Wenjie, QIAN Donglei. Detecting, Categorizing and Clustering Entity Mentions in Chinese[C]//Text, in Proceedings of the 30th Annual International ACM SIGIR Conference (SIGIR07),2007:647-654.
[10] CHEN Yu, ZHENG Dequan, ZHAO Tiejun. Chinese relation extraction based on Deep Belief Nets[J].Journal of Softeare,2012, 23(10):2572-2585.