基于遠(yuǎn)程監(jiān)督的多因子人物關(guān)系抽取模型

2018-08-03 00:46:50黃楊琛賈焰甘亮徐菁黃九鳴赫中翮

通信學(xué)報(bào) 2018年7期

黃楊琛，賈焰，甘亮，徐菁，黃九鳴，赫中翮

黃楊琛1，賈焰1，甘亮1，徐菁1，黃九鳴1，赫中翮2

（1. 國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院，湖南長(zhǎng)沙 410073；2. 湖南星漢數(shù)智科技有限公司知識(shí)圖譜研發(fā)部，湖南長(zhǎng)沙 410205）

針對(duì)遠(yuǎn)程監(jiān)督的基本假設(shè)過(guò)強(qiáng)容易引入噪聲數(shù)據(jù)的問(wèn)題，提出了一種可以對(duì)遠(yuǎn)程監(jiān)督自動(dòng)生成的訓(xùn)練數(shù)據(jù)去噪的人物實(shí)體關(guān)系抽取模型。在訓(xùn)練數(shù)據(jù)生成階段，通過(guò)多示例學(xué)習(xí)的思想和基于TF-IDF的關(guān)系指示詞發(fā)現(xiàn)的方法對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進(jìn)行去噪處理，使訓(xùn)練數(shù)據(jù)達(dá)到人工標(biāo)注質(zhì)量。在模型分類器中，提出采用詞法特征和句法特征相結(jié)合的多因子特征作為關(guān)系特征向量用于分類器的學(xué)習(xí)。在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提模型結(jié)果優(yōu)于同類型的關(guān)系抽取方法。

關(guān)系抽取；人物關(guān)系；遠(yuǎn)程監(jiān)督；機(jī)器學(xué)習(xí)；自然語(yǔ)言處理

1 引言

在互聯(lián)網(wǎng)產(chǎn)生的爆炸式增長(zhǎng)的電子文本信息中，大量人物實(shí)體以及他們之間的關(guān)系信息涵蓋其中。面對(duì)如此多元異質(zhì)的數(shù)據(jù)，人們必須采用信息抽取技術(shù)才能滿足其從中快速獲取有效信息的需求。關(guān)系抽取作為信息抽取的一項(xiàng)重要任務(wù)，第一次正式提出是在1998年的第七屆消息理解大會(huì)（MUC, message understanding conference）上[1]，它是指從自然語(yǔ)言文本中發(fā)現(xiàn)和識(shí)別2個(gè)實(shí)體之間的語(yǔ)義關(guān)系的過(guò)程[2]。

實(shí)體關(guān)系抽取技術(shù)突破了傳統(tǒng)的人工閱讀、理解等方式來(lái)獲得語(yǔ)義關(guān)系的限制，取而代之的是語(yǔ)義關(guān)系的自動(dòng)查找和抽取[3]。作為自然語(yǔ)言處理中的熱門研究領(lǐng)域，實(shí)體關(guān)系抽取一直是信息抽取領(lǐng)域的重要方向。關(guān)系抽取的早期研究主要是通過(guò)人工建立語(yǔ)法和語(yǔ)義規(guī)則，然后通過(guò)模式匹配的方法來(lái)識(shí)別實(shí)體的關(guān)系[4-6]。由于這些方法需要大量的人工處理和專業(yè)知識(shí)的前期準(zhǔn)備，研究人員開(kāi)始嘗試機(jī)器學(xué)習(xí)方法。根據(jù)對(duì)標(biāo)注數(shù)據(jù)的依賴程度，基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法可分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遠(yuǎn)程監(jiān)督學(xué)習(xí)及無(wú)監(jiān)督學(xué)習(xí)的方法。有監(jiān)督學(xué)習(xí)方法將關(guān)系抽取作為一個(gè)分類問(wèn)題，根據(jù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)有效的特征，然后構(gòu)造各種分類模型，最后使用訓(xùn)練好的分類器來(lái)預(yù)測(cè)關(guān)系。在特征選擇上，可以結(jié)合詞匯、句法、語(yǔ)義等特征來(lái)訓(xùn)練關(guān)系分類器[7]，還可以加入語(yǔ)法分析樹(shù)和依存關(guān)系樹(shù)來(lái)形成特征向量[8]，此外，還有研究加入了關(guān)系特征詞的位置信息特征來(lái)進(jìn)行關(guān)系分類[9]。另外，為了避免人工設(shè)計(jì)特征工程的缺陷，學(xué)者們開(kāi)始利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)自動(dòng)學(xué)習(xí)自然語(yǔ)言文本特征然后進(jìn)行實(shí)體關(guān)系抽取[10-12]，這類深度學(xué)習(xí)方法也屬于有監(jiān)督學(xué)習(xí)方法。有監(jiān)督的關(guān)系抽取系統(tǒng)準(zhǔn)確率和召回率都很高，但是嚴(yán)重依賴于事先制定好的關(guān)系類型體系和標(biāo)注數(shù)據(jù)集。尤其是深度學(xué)習(xí)的方法，由于神經(jīng)網(wǎng)絡(luò)本身的特點(diǎn)，需要大量的訓(xùn)練數(shù)據(jù)才能得到較好的分類網(wǎng)絡(luò)模型。半監(jiān)督學(xué)習(xí)方法主要采用Bootstrapping[13]、標(biāo)簽傳播[14]等方式來(lái)進(jìn)行關(guān)系抽取。對(duì)于要抽取的關(guān)系，該方法首先手工設(shè)定若干種子實(shí)例，然后迭代地從數(shù)據(jù)中抽取關(guān)系對(duì)應(yīng)的關(guān)系模板和更多的實(shí)例。與有監(jiān)督學(xué)習(xí)方法相比，半監(jiān)督學(xué)習(xí)方法可以大大減少學(xué)習(xí)過(guò)程中需要的標(biāo)注語(yǔ)料庫(kù)的規(guī)模，但是初始種子集的選取問(wèn)題以及迭代過(guò)程中噪聲的干擾問(wèn)題等會(huì)影響該方法的實(shí)際性能。而無(wú)監(jiān)督[15-16]的開(kāi)放式關(guān)系抽取方法是假設(shè)擁有相同語(yǔ)義關(guān)系的實(shí)體對(duì)擁有相似的上下文信息，從而利用每個(gè)實(shí)體對(duì)應(yīng)的上下文信息來(lái)代表該實(shí)體對(duì)的語(yǔ)義關(guān)系，并對(duì)所有實(shí)體對(duì)的語(yǔ)義關(guān)系進(jìn)行聚類。無(wú)監(jiān)督實(shí)體關(guān)系抽取不需要預(yù)先定義實(shí)體關(guān)系類型體系，具有領(lǐng)域無(wú)關(guān)性，這在處理海量開(kāi)放領(lǐng)域數(shù)據(jù)時(shí)很有優(yōu)勢(shì)，但其聚類閾值難以事先確定，抽取結(jié)果的準(zhǔn)確率較低，并且目前仍缺乏較客觀的評(píng)價(jià)標(biāo)準(zhǔn)。

近年來(lái)，各種大型知識(shí)庫(kù)（KB, knowledge base）如Freebase[17]、DBpedia[18]、YAGO[19]以及在線百科知識(shí)庫(kù)已建成，這對(duì)于構(gòu)造有監(jiān)督機(jī)器學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù)有極大的價(jià)值。Mintz等[20]于2009年首次在關(guān)系抽取領(lǐng)域提出遠(yuǎn)程監(jiān)督（DS, distant supervision）的思想。遠(yuǎn)程監(jiān)督方法假設(shè)如果2個(gè)實(shí)體在知識(shí)庫(kù)中是有關(guān)系的，那么所有包含這2個(gè)實(shí)體的句子都將表達(dá)這種關(guān)系。基于遠(yuǎn)程監(jiān)督的關(guān)系抽取自發(fā)地對(duì)齊自然語(yǔ)言文本和給定的知識(shí)庫(kù)，然后使用對(duì)齊的結(jié)果產(chǎn)生弱標(biāo)簽訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)關(guān)系提取[21-22]。圖1是一個(gè)采用遠(yuǎn)程監(jiān)督技術(shù)進(jìn)行關(guān)系抽取的系統(tǒng)示例（本文出現(xiàn)的人名均為舉例用，與實(shí)際無(wú)關(guān)）。在該系統(tǒng)中，首先通過(guò)遠(yuǎn)程監(jiān)督技術(shù)在對(duì)齊自然語(yǔ)言文本和知識(shí)庫(kù)時(shí)，將識(shí)別出的含有某人物實(shí)體對(duì)的句子標(biāo)記為知識(shí)庫(kù)中該實(shí)體對(duì)關(guān)系的弱標(biāo)簽數(shù)據(jù)，然后針對(duì)相關(guān)人物對(duì)的關(guān)系查詢，系統(tǒng)通過(guò)將從句子中提取到的相關(guān)特征輸入分類器中進(jìn)行關(guān)系判斷，最后通過(guò)分類結(jié)果中的關(guān)系概率大小來(lái)將正確的關(guān)系事實(shí)結(jié)果放入關(guān)系知識(shí)庫(kù)中。這既解決了有監(jiān)督方法過(guò)于依賴人工標(biāo)記數(shù)據(jù)的問(wèn)題，又在一定程度上避免了無(wú)監(jiān)督方法準(zhǔn)確率較低的問(wèn)題。

但是，遠(yuǎn)程監(jiān)督的基本假設(shè)并不嚴(yán)謹(jǐn)，在語(yǔ)料庫(kù)中的實(shí)體對(duì)共現(xiàn)句中并不一定都能表達(dá)實(shí)體對(duì)在知識(shí)庫(kù)中的關(guān)系。例如，“李明帶領(lǐng)大家來(lái)到了新聞發(fā)布會(huì)現(xiàn)場(chǎng)，張莉隨后也出現(xiàn)在現(xiàn)場(chǎng)。”這個(gè)共現(xiàn)句在語(yǔ)義上并不能表達(dá)他們之間的“夫妻”關(guān)系事實(shí)。這種包含了實(shí)體對(duì)卻不能提取到關(guān)系特征的句子屬于遠(yuǎn)程監(jiān)督方法產(chǎn)生的噪聲數(shù)據(jù)，應(yīng)當(dāng)將其過(guò)濾。目前，關(guān)系抽取的研究主要集中在英文資源的處理上，這主要是因?yàn)橹形恼Z(yǔ)料需要分詞，并且存在復(fù)雜的句式結(jié)構(gòu)和隱含語(yǔ)義，因此中文人物關(guān)系抽取更加困難。另外，中文的知識(shí)庫(kù)建設(shè)比較晚，遠(yuǎn)程監(jiān)督在中文語(yǔ)料的關(guān)系抽取中的研究還比較少。潘云等[23]首次嘗試?yán)弥形幕?dòng)百科在線資源構(gòu)建中文的人物關(guān)系抽取系統(tǒng)，采用的是標(biāo)簽傳播算法訓(xùn)練模型，得到68%左右的準(zhǔn)確率，但此方法并沒(méi)有進(jìn)行遠(yuǎn)程監(jiān)督數(shù)據(jù)的去噪處理。黃蓓靜等[24]利用詞向量及句子模式抽取、聚類及評(píng)分的方法，對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取過(guò)程得到的原始訓(xùn)練集中的噪聲句子進(jìn)行過(guò)濾，達(dá)到對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的訓(xùn)練集去噪的目的，但是該方法所用的模式抽取方法可遷移性不好，具有很強(qiáng)的領(lǐng)域特性。

圖1 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取系統(tǒng)

基于以上研究的不足，本文提出了一個(gè)針對(duì)中文文本的遠(yuǎn)程監(jiān)督人物關(guān)系抽取模型。該模型的主要方法和貢獻(xiàn)包括以下3個(gè)方面。

1) 通過(guò)遠(yuǎn)程監(jiān)督技術(shù)自動(dòng)產(chǎn)生標(biāo)注數(shù)據(jù)集，并且進(jìn)一步地利用多示例學(xué)習(xí)思想以及本文提出的基于詞頻—逆文檔頻率（TF-IDF, term frequency-inverse document frequency）的過(guò)濾算法來(lái)獲取更準(zhǔn)確的訓(xùn)練數(shù)據(jù)。在不需要人工參與的情況下，可以獲得大量高質(zhì)量的訓(xùn)練數(shù)據(jù)集。

2) 本文模型在訓(xùn)練過(guò)程的特征選擇中，綜合考慮自然語(yǔ)言文本的多因子特征，包括詞法特征和句法依存分析產(chǎn)生的句法特征，通過(guò)多因子特征向量各參數(shù)綜合調(diào)優(yōu)達(dá)到較好的分類效果。

3) 本文模型具有較好的可拓展性，可適應(yīng)新關(guān)系類型的抽取任務(wù)。即不需要人工干預(yù)標(biāo)注的情況下，任何新的人物關(guān)系的抽取任務(wù)都可以使用本文模型來(lái)快速實(shí)現(xiàn)。

2 主要方法與理論

2.1 遠(yuǎn)程監(jiān)督

2.2 句法特征因子

句子的句法結(jié)構(gòu)描述了句子中的短語(yǔ)結(jié)構(gòu)、依存結(jié)構(gòu)及其功能。依存結(jié)構(gòu)分析是句法結(jié)構(gòu)分析的一個(gè)重要方面，它通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)，主張句子中核心謂詞是支配其他成分的中心成分，而其本身卻不受其他任何成分的支配，所有受支配的成分都以某種依存關(guān)系從屬于支配者[28]。對(duì)于關(guān)系抽取來(lái)說(shuō)，由于句子中的命名實(shí)體必定是作為一個(gè)短語(yǔ)結(jié)構(gòu)出現(xiàn)在依存結(jié)構(gòu)中的，那么這種依存關(guān)系也必然會(huì)反映出相應(yīng)實(shí)體之間的關(guān)系特征[29]。

例如，“這是王磊與趙娟11歲的大女兒多多，大名叫王思南。”其中，文分詞和句法分析結(jié)果如圖2所示。從圖2可以看出，人物實(shí)體“王磊”和關(guān)系詞“女兒”存在著定中關(guān)系，關(guān)系詞“女兒”與核心謂詞“叫”存在著主謂關(guān)系，而核心謂詞“叫”與人物實(shí)體“王思南”之間又存在著動(dòng)賓關(guān)系，通過(guò)這樣的句法依存分析可以發(fā)現(xiàn)，人物實(shí)體“王磊”與“王思南”都是依存于關(guān)系詞“女兒”的。進(jìn)一步，通過(guò)“王磊”與“趙娟”之間的并列關(guān)系，又可以得到人物實(shí)體“趙娟”與“王思南”之間與關(guān)系詞“女兒”的依存關(guān)系。

與以上例句的分析結(jié)果類似，對(duì)依存句法分析的結(jié)果進(jìn)行大量研究后發(fā)現(xiàn)，核心謂詞對(duì)獲取實(shí)體邊界、承接實(shí)體關(guān)系起著關(guān)鍵作用。句子中命名實(shí)體分別與核心謂詞、普通謂詞的平均距離有明顯差異。所以，在自然語(yǔ)言文本句子中，實(shí)體與核心謂詞的距離也是實(shí)體之間的一種隱含關(guān)系特征。

3 基于遠(yuǎn)程監(jiān)督的人物關(guān)系抽取模型設(shè)計(jì)

1) 遠(yuǎn)程監(jiān)督模塊：該模塊通過(guò)對(duì)齊關(guān)系知識(shí)庫(kù)和語(yǔ)料庫(kù)中的自然語(yǔ)言文本生成弱標(biāo)記數(shù)據(jù)。同時(shí)，本文模型中還采用了多示例學(xué)習(xí)的思想，將同一個(gè)人物實(shí)體對(duì)產(chǎn)生的所有弱標(biāo)簽關(guān)系實(shí)例放到同一個(gè)包中，通過(guò)同一關(guān)系的關(guān)系實(shí)例之間的信息互補(bǔ)性來(lái)提高后續(xù)分類的準(zhǔn)確性。

圖2 句法依存分析示例

圖3 人物關(guān)系抽取模型框架

2) 預(yù)處理模塊：該模塊完成2個(gè)功能。首先，對(duì)所有的弱標(biāo)簽數(shù)據(jù)進(jìn)行詞性標(biāo)注、句法分析等自然語(yǔ)言處理操作，為后續(xù)的特征提取做準(zhǔn)備。其次，則是針對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽數(shù)據(jù)的正例包，通過(guò)基于值的關(guān)系指示詞發(fā)現(xiàn)的過(guò)濾算法進(jìn)行去噪處理，以得到更加精準(zhǔn)的正例數(shù)據(jù)用于關(guān)系分類器的訓(xùn)練。

3) 特征提取模塊：該模塊從語(yǔ)料庫(kù)的自然語(yǔ)言文本中提取多因子特征向量，分為詞法特征和句法特征，然后輸入關(guān)系分類器中，采用有監(jiān)督的方法進(jìn)行人物實(shí)體的關(guān)系分類。

接下來(lái)將從訓(xùn)練語(yǔ)料生成、實(shí)驗(yàn)數(shù)據(jù)去噪以及多因子特征向量3個(gè)部分來(lái)詳細(xì)闡述人物關(guān)系抽取的關(guān)鍵過(guò)程。

3.1 訓(xùn)練語(yǔ)料生成

本文實(shí)驗(yàn)涉及2個(gè)部分的實(shí)驗(yàn)數(shù)據(jù)。關(guān)系知識(shí)庫(kù)的數(shù)據(jù)是從650萬(wàn)個(gè)百度百科詞條中直接爬取的2 500萬(wàn)個(gè)中文三元組。語(yǔ)料庫(kù)的自然語(yǔ)言文本語(yǔ)料為全網(wǎng)新聞數(shù)據(jù)，其中，涵蓋了若干新聞?wù)军c(diǎn)在2012年6—7月國(guó)內(nèi)、國(guó)際的新聞?wù)鎸?shí)語(yǔ)料。

實(shí)驗(yàn)中使用遠(yuǎn)程監(jiān)督技術(shù)構(gòu)建了包含104 593個(gè)句子的弱標(biāo)簽數(shù)據(jù)集。其中，80%的弱標(biāo)簽數(shù)據(jù)（83 675個(gè)句子）用作訓(xùn)練數(shù)據(jù)，剩下的20%（20 919個(gè)句子）用作測(cè)試數(shù)據(jù)。本文實(shí)驗(yàn)選擇5種常見(jiàn)的人物關(guān)系進(jìn)行實(shí)驗(yàn)，分別為夫妻、父子、母子、兄弟、姐妹。表1展示了弱標(biāo)簽數(shù)據(jù)集的數(shù)據(jù)分布。

表1 弱標(biāo)簽數(shù)據(jù)集的數(shù)據(jù)分布

3.2 實(shí)驗(yàn)數(shù)據(jù)去噪

得到遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽數(shù)據(jù)以后，在進(jìn)行關(guān)系抽取實(shí)驗(yàn)前，應(yīng)當(dāng)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的目的是通過(guò)自然語(yǔ)言工具對(duì)語(yǔ)料中的句子進(jìn)行處理，以得到詞性標(biāo)注、依存關(guān)系分析等結(jié)果。實(shí)驗(yàn)采用的是HanLP漢語(yǔ)言處理包來(lái)進(jìn)行中文的自然語(yǔ)言處理，其結(jié)果將作為特征表示以及向量生成的基礎(chǔ)。

由于中文文本表達(dá)的多樣性，應(yīng)當(dāng)盡可能地挖掘出實(shí)驗(yàn)數(shù)據(jù)中對(duì)于關(guān)系分類有幫助的句子，過(guò)濾掉其中的噪聲。例如，對(duì)于關(guān)系“夫妻”來(lái)說(shuō)，在自然語(yǔ)言文本當(dāng)中含有“配偶”“夫婦”“妻子”“丈夫”等詞語(yǔ)的句子對(duì)于訓(xùn)練關(guān)系“夫妻”的抽取模型更有幫助。因此，基于同義詞詞林?jǐn)U展版構(gòu)造了對(duì)應(yīng)關(guān)系的關(guān)系詞詞典，針對(duì)遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)下產(chǎn)生的關(guān)系實(shí)例包中的弱標(biāo)簽正例實(shí)驗(yàn)數(shù)據(jù)，進(jìn)行了進(jìn)一步的去噪處理。引入來(lái)計(jì)算語(yǔ)料庫(kù)中每一個(gè)句子分詞后詞語(yǔ)的權(quán)值為

由此可見(jiàn)，值通過(guò)統(tǒng)計(jì)詞語(yǔ)的歸一化詞頻來(lái)反映詞語(yǔ)的重要性。然而，某些情況下，一些通用的高頻詞語(yǔ)對(duì)于反映句子的主題并沒(méi)有太大的作用，反倒是一些頻率較小的詞更能表達(dá)句子的主題。所以，還需要詞語(yǔ)的值通過(guò)統(tǒng)計(jì)包含該詞語(yǔ)的句子數(shù)與訓(xùn)練語(yǔ)料中句子總數(shù)的關(guān)系來(lái)體現(xiàn)詞語(yǔ)的主題類別區(qū)分能力。因此，值通過(guò)綜合值和值的大小，可以判斷當(dāng)前詞反映本句子主題類別的程度。基于此特性，計(jì)算出句中詞語(yǔ)的值之后，保留其中值最大的3個(gè)詞語(yǔ)放入集合中，并與相應(yīng)的關(guān)系詞詞典()匹配。

3.3 多因子特征向量

在通過(guò)遠(yuǎn)程監(jiān)督自動(dòng)產(chǎn)生了弱標(biāo)簽的訓(xùn)練數(shù)據(jù)，并且經(jīng)過(guò)去噪處理后，接下來(lái)從標(biāo)記為正例和負(fù)例的自然語(yǔ)言句子中獲得分類器的輸入特征。自然語(yǔ)言文章結(jié)構(gòu)一般有語(yǔ)素<詞語(yǔ)<句子<段落幾個(gè)層級(jí)。比詞語(yǔ)更細(xì)粒度的語(yǔ)素特征，表達(dá)語(yǔ)義特征不明顯，存在大量干擾雜音，因此不選取。比句子更高層的段落特征，目前，還沒(méi)有好的方法標(biāo)注段落特征，因此也未選取。本文模型中的分類器選擇的多因子特征為詞法特征因子和句法特征因子。詞法因子是以詞為對(duì)象，研究句子中詞語(yǔ)的形成和用法，包括詞法、詞性以及詞語(yǔ)的位置等信息。通過(guò)統(tǒng)計(jì)句子中的詞法因子可以反映出句子的組織規(guī)律。而句法因子是以句子為對(duì)象，研究句子的構(gòu)成和功能。句法分析將輸入句子從序列形式變成樹(shù)狀結(jié)構(gòu)，從而可以捕捉句子內(nèi)部詞語(yǔ)之間的搭配或修飾關(guān)系，得到句子的淺層語(yǔ)義分析結(jié)果。最后，形成了多因子特征向量(,,,,,)。

3.3.1 詞法因子向量

自然語(yǔ)言文本中，詞語(yǔ)之間的位置、順序以及詞語(yǔ)的詞性都能夠反映出句子的重要信息。因此，從詞語(yǔ)的維度出發(fā)，選擇了以下詞法因子構(gòu)成特征向量。

1) 距離特征（）：研究表明[15]，距離更近的2個(gè)實(shí)體之間存在實(shí)體關(guān)系的可能性更大。因此，本文將2個(gè)人物實(shí)體在句子中的詞距作為距離特征。

圖4中的點(diǎn)（5, 0.792 3）表示2個(gè)實(shí)體之間的詞距小于或等于5時(shí)的關(guān)系實(shí)例總數(shù)占總關(guān)系三元組數(shù)的79.23%。從圖4可以看出，開(kāi)始階段隨著詞距的增大，關(guān)系三元組的數(shù)目急劇增大。但是當(dāng)詞的數(shù)目超過(guò)5時(shí)，隨著實(shí)體之間詞距的增大，關(guān)系三元組數(shù)量的增加幅度越來(lái)越小。這也就說(shuō)明了距離較近的2個(gè)實(shí)體更可能存在關(guān)系。

圖4 實(shí)體間的詞距與三元組的數(shù)量關(guān)系

3) 詞性特征（）：在人物關(guān)系抽取中，能夠表示人物關(guān)系的詞語(yǔ)通常是名詞或動(dòng)詞。因此，對(duì)于語(yǔ)料庫(kù)中句子特征的構(gòu)建來(lái)說(shuō)，名詞和動(dòng)詞比其他詞語(yǔ)更為重要。通過(guò)統(tǒng)計(jì)分詞后句子中的動(dòng)詞和名詞的數(shù)量，并進(jìn)行歸一化處理，從而衡量動(dòng)詞和名詞對(duì)于人物關(guān)系判斷的影響。

3.3.2 句法因子向量

從第2節(jié)的依存句法分析相關(guān)知識(shí)可以了解到，通過(guò)對(duì)句子進(jìn)行依存分析所得結(jié)果的語(yǔ)塊以及語(yǔ)塊之間的依存關(guān)系，可以直接反映實(shí)體間的語(yǔ)義關(guān)系。因此，從句子的句法分析結(jié)果出發(fā)，選擇以下句法因子構(gòu)成特征向量。

1) 句法依存關(guān)系特征（）：由于人物實(shí)體將會(huì)作為短語(yǔ)結(jié)構(gòu)出現(xiàn)在依存結(jié)構(gòu)中，這些短語(yǔ)結(jié)構(gòu)間的依存關(guān)系必然會(huì)反映出相應(yīng)實(shí)體之間的關(guān)系特征。因此，通過(guò)獲取實(shí)體對(duì)每個(gè)實(shí)體在句子中所屬的句法關(guān)系依存值來(lái)反映人物實(shí)體間的關(guān)系。

2) 實(shí)體與核心謂詞之間的距離特征（）：根據(jù)命名實(shí)體識(shí)別和句法依存分析的結(jié)果，計(jì)算出人物實(shí)體與核心謂詞之間的詞距。

3) 實(shí)體上下文特征（）：實(shí)體的上下文可以直接反映句子的信息。從圖4可以得知，0.792 3的關(guān)系實(shí)例都可以在實(shí)體之間得到。除此之外，實(shí)體對(duì)左右兩側(cè)的內(nèi)容同樣重要。因此，通過(guò)計(jì)算所得到的權(quán)值，將人物實(shí)體對(duì)的上下文信息加入分類特征中。取為實(shí)體對(duì)左右兩側(cè)的詞語(yǔ)數(shù)目，從語(yǔ)料庫(kù)中抽樣統(tǒng)計(jì)得到表2。從表2可以看出，隨著的增大，獲得的信息也就更多，因此能在此范圍內(nèi)獲得關(guān)系三元組的句子也就越多。但是大于2以后的增幅并不明顯，而越大計(jì)算的開(kāi)銷則呈指數(shù)級(jí)增加。因此，本實(shí)驗(yàn)中取=2，即將句中人物實(shí)體的前2個(gè)詞和后2個(gè)詞的信息也加入分類特征。

表2 關(guān)系三元組總數(shù)目與n的關(guān)系

4 實(shí)驗(yàn)結(jié)果與分析

4.1 不同關(guān)系類型的關(guān)系抽取模型性能比較

為了驗(yàn)證人物社會(huì)關(guān)系抽取模型在不同關(guān)系上的性能，針對(duì)5種人物關(guān)系的抽取結(jié)果進(jìn)行了對(duì)比。圖5的縱坐標(biāo)是每種關(guān)系抽取結(jié)果的以及1值的數(shù)值大小，縱坐標(biāo)是對(duì)應(yīng)表1中的關(guān)系類型編號(hào)，其中，最后一組展示的是人物抽取模型的3項(xiàng)指標(biāo)的平均值。從表1可以發(fā)現(xiàn)，知識(shí)庫(kù)中含有關(guān)系“夫妻”的三元組是最多的，這就直接影響到了實(shí)驗(yàn)的最終結(jié)果。實(shí)驗(yàn)結(jié)果顯示，在所有關(guān)系中，關(guān)系“夫妻”的抽取模型的結(jié)果是最好的。同樣地，關(guān)系“姐妹”在知識(shí)庫(kù)中的三元組數(shù)量是最少的，其抽取結(jié)果也是所有關(guān)系中最差的。這是容易理解的，因?yàn)橹R(shí)庫(kù)中含有的知識(shí)越全面，能夠從語(yǔ)料庫(kù)的關(guān)系實(shí)例中學(xué)習(xí)到的該關(guān)系特征就會(huì)越多，那么對(duì)于后續(xù)關(guān)系識(shí)別的指導(dǎo)作用就越大。

圖5 關(guān)系抽取模型的性能

另外，為了驗(yàn)證本文模型提出的針對(duì)關(guān)系正例包中的進(jìn)一步除噪操作的有效性，本文實(shí)驗(yàn)還進(jìn)行了有無(wú)除噪操作的關(guān)系抽取系統(tǒng)的性能對(duì)比。圖6展示了除噪前后系統(tǒng)的性能對(duì)比，其中，橫坐標(biāo)同圖5，表示的是與表1對(duì)應(yīng)的關(guān)系類型編號(hào)，最后一項(xiàng)表示的綜合5種關(guān)系類型的1值的平均值，縱坐標(biāo)表示的是抽取結(jié)果的1值。從圖6可以看到，進(jìn)行了除噪操作的關(guān)系抽取系統(tǒng)的性能相較于未進(jìn)行除噪操作的系統(tǒng)的性能有了進(jìn)一步的提升，這證明本文提出的基于TF-IDF的關(guān)系指示詞發(fā)現(xiàn)的去噪方法對(duì)于遠(yuǎn)程監(jiān)督的關(guān)系抽取而言是有效的。

圖6 有無(wú)除噪操作的系統(tǒng)性能對(duì)比

4.2 各特征因子對(duì)抽取效果的影響

為了驗(yàn)證各特征因子對(duì)于人物社會(huì)關(guān)系抽取模型的有效性，對(duì)每一項(xiàng)特征因子對(duì)于關(guān)系抽取的作用都進(jìn)行了因子疊加實(shí)驗(yàn)，共6組實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)選取的特征是距離特征，第二個(gè)實(shí)驗(yàn)特征是在實(shí)驗(yàn)一的基礎(chǔ)上加入了相對(duì)位置特征。依次類推，后一個(gè)實(shí)驗(yàn)是在前一個(gè)實(shí)驗(yàn)的基礎(chǔ)上增加了一維特征。性能比較平均值如表3所示，其中，表示準(zhǔn)確率，表示召回率，1表示1值。

表3 不同特征下模型性能比較

從表3結(jié)果來(lái)看，隨著特征的增加，關(guān)系抽取的性能越來(lái)越好。這反映了分類器中輸入的關(guān)系描述數(shù)據(jù)的信息越多，分類器的學(xué)習(xí)能力就會(huì)越好，那么在分類的時(shí)候就更容易獲得好的結(jié)果。但是，仔細(xì)分析發(fā)現(xiàn)，整個(gè)特征中，動(dòng)詞和名詞特征的加入對(duì)于關(guān)系抽取的性能提升作用并不是很大。經(jīng)過(guò)分析認(rèn)為，可能僅僅統(tǒng)計(jì)句子中的動(dòng)詞、名詞的數(shù)量并不能很好地反映某關(guān)系在句子中的存在。例如，“李明夢(mèng)想著成為郎朗那樣的人，要知道郎朗畢業(yè)于美國(guó)柯蒂斯音樂(lè)學(xué)院，他不僅是國(guó)際著名鋼琴家，還是聯(lián)合國(guó)和平大使。”這句話中動(dòng)詞和名詞的數(shù)量很多，但是并不能反映2個(gè)人物實(shí)體之間的關(guān)系。另外，還觀察到，當(dāng)加入句子的依存句法分析特征以后，關(guān)系抽取系統(tǒng)的性能得到了明顯的提升。所以，在人物關(guān)系抽取的任務(wù)中，發(fā)現(xiàn)和理解自然語(yǔ)言文本中的語(yǔ)義才是抽取人物關(guān)系的關(guān)鍵。

4.3 新關(guān)系下的關(guān)系抽取模型性能

為了驗(yàn)證本文模型對(duì)于新關(guān)系的適應(yīng)性，在不需要其他任何額外操作的情況下，利用以上的人物關(guān)系抽取模型進(jìn)行新關(guān)系（“朋友”“同事”）的抽取實(shí)驗(yàn)。

新人物關(guān)系抽取結(jié)果如表4所示。從結(jié)果來(lái)看，關(guān)系“朋友”的抽取結(jié)果要優(yōu)于關(guān)系“同事”的抽取結(jié)果。經(jīng)分析發(fā)現(xiàn)可能有以下原因：1) 統(tǒng)計(jì)發(fā)現(xiàn)知識(shí)庫(kù)中含有關(guān)系“朋友”三元組為56 557組，而關(guān)于“同事”的三元組為48 623組，因此關(guān)系“朋友”能夠從知識(shí)庫(kù)中學(xué)到的關(guān)系特征更全面，從而達(dá)到更好的關(guān)系抽取效果；2) 關(guān)系“同事”的表述相對(duì)關(guān)系“朋友”的表述更加隱晦，在很多句子中可能只是描述2個(gè)人物實(shí)體在同一機(jī)構(gòu)中一起工作的事實(shí)，而沒(méi)有具體的關(guān)系描述詞，例如，“李明和趙西一起邁入公司的大門，開(kāi)啟一天的工作。”在這句話中，模型中的詞法特征和句法特征實(shí)現(xiàn)的淺層的語(yǔ)義分析并不能得到2個(gè)人物實(shí)體是“同事”關(guān)系的有效特征。因此，在關(guān)系分類器的學(xué)習(xí)過(guò)程中，關(guān)系“同事”的無(wú)效訓(xùn)練數(shù)據(jù)可能更多，因而抽取效果不太理想。

表4 新關(guān)系的抽取性能比較

4.4 相關(guān)研究對(duì)比

當(dāng)前針對(duì)中文文本的基于遠(yuǎn)程監(jiān)督的人物關(guān)系抽取研究中，還沒(méi)有一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集用于對(duì)比實(shí)驗(yàn)。但是，從目前的研究現(xiàn)狀來(lái)看，中文知識(shí)庫(kù)大多都是基于中文百科構(gòu)建的，語(yǔ)料庫(kù)大多采用新聞數(shù)據(jù)構(gòu)成，這說(shuō)明此情況下，通過(guò)遠(yuǎn)程監(jiān)督技術(shù)將知識(shí)庫(kù)和語(yǔ)料庫(kù)對(duì)齊所產(chǎn)生的訓(xùn)練數(shù)據(jù)并不會(huì)有太大差異。因此，在相似數(shù)據(jù)下，可以將本文模型與其他相近研究進(jìn)行對(duì)比。

標(biāo)簽傳播模型（2015年）[23]和模式聚類模型（2017年）[24]都是在中文文本下，基于百科知識(shí)庫(kù)和新聞數(shù)據(jù)，采用遠(yuǎn)程監(jiān)督技術(shù)產(chǎn)生訓(xùn)練數(shù)據(jù)的人物關(guān)系抽取模型。不同的是，標(biāo)簽傳播模型采用的是基于人物對(duì)間相似度計(jì)算的標(biāo)簽傳播方法來(lái)進(jìn)行人物的關(guān)系抽取，模式聚類模型則采用句子模式聚類的方法進(jìn)行遠(yuǎn)程監(jiān)督數(shù)據(jù)的過(guò)濾以后再進(jìn)行人物關(guān)系的抽取。實(shí)驗(yàn)結(jié)果對(duì)比如表5所示。從實(shí)驗(yàn)結(jié)果來(lái)看，標(biāo)簽傳播模型的準(zhǔn)確率明顯低于后兩者的準(zhǔn)確率，這說(shuō)明對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽訓(xùn)練數(shù)據(jù)進(jìn)行過(guò)濾處理，對(duì)人物關(guān)系抽取結(jié)果的準(zhǔn)確性很有幫助。另外，模式聚類模型采用的模式匹配方法在召回率上的結(jié)果不如本文模型，這說(shuō)明使用特征抽取的方法進(jìn)行關(guān)系分類，能在保證準(zhǔn)確率的同時(shí)提高系統(tǒng)的召回率。綜合對(duì)比發(fā)現(xiàn)，在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文模型結(jié)果優(yōu)于其他同類型的人物關(guān)系抽取模型。

表5 相關(guān)研究對(duì)比

5 結(jié)束語(yǔ)

本文提出了一個(gè)針對(duì)中文文本自動(dòng)生成訓(xùn)練數(shù)據(jù)的人物實(shí)體關(guān)系抽取模型。它首先利用遠(yuǎn)程監(jiān)督技術(shù)產(chǎn)生弱標(biāo)簽數(shù)據(jù)集，然后采用多示例學(xué)習(xí)的思想以及本文提出的基于TF-IDF的過(guò)濾算法獲取更準(zhǔn)確有效的訓(xùn)練數(shù)據(jù)，最后利用多因子特征向量采用有監(jiān)督的方法進(jìn)行關(guān)系抽取。整個(gè)模型包含3個(gè)部分，遠(yuǎn)程監(jiān)督的模塊、預(yù)處理模塊和特征提取模塊。本文將文本數(shù)據(jù)中的詞法特征和句法特征綜合考慮，從文本詞語(yǔ)結(jié)構(gòu)和依存句法上提取反映實(shí)體間關(guān)系的相關(guān)特征。在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，基于關(guān)系指示詞的過(guò)濾算法能有效提高遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率，并且本文模型性能優(yōu)于當(dāng)前中文語(yǔ)料下的其他遠(yuǎn)程監(jiān)督關(guān)系抽取系統(tǒng)，另外，本文模型還具有良好的新關(guān)系類型的適應(yīng)性。

另一方面，實(shí)驗(yàn)結(jié)果表明，通過(guò)遠(yuǎn)程監(jiān)督獲得的弱標(biāo)簽數(shù)據(jù)的準(zhǔn)確性在很大程度上影響著關(guān)系抽取的結(jié)果。此外，源于自然語(yǔ)言處理技術(shù)的特征提取過(guò)程中可能產(chǎn)生的誤差積累會(huì)導(dǎo)致關(guān)系抽取模型的性能很難提高。在未來(lái)，將探討如何進(jìn)一步減少在遠(yuǎn)程監(jiān)督過(guò)程中的錯(cuò)誤標(biāo)簽的問(wèn)題，并且可以使用深度學(xué)習(xí)技術(shù)自動(dòng)學(xué)習(xí)句子的相關(guān)特征。

[1] CHINCHOR N, MARSH E. Muc-7 information extraction task definition[C]//The Seventh Message Understanding Conference (MUC-7), Appendices. 1998: 359-367.

[2] CHE W, LIU T, LI S. Automatic entity relation extraction[J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.

[3] 劉紹毓, 李弼程, 郭志剛, 等. 實(shí)體關(guān)系抽取研究綜述[J].信息工程大學(xué)學(xué)報(bào), 2016 (5): 541-547.

LIU S Y, LI B C , GUO Z G, et al. Review of entity relation extraction[J]. Journal of Information Engineering University, 2016(5): 541-547.

[4] APPELT D E, HOBBS J R, BEAR J, et al. SRI International FASTUS system: MUC-6 test results and analysis[C]//The 6th Conference On Message Understanding. 1995: 237-248.

[5] YANGARBER R, GRISHMAN R. NYU: description of the proteus/PET system as used for MUC-7 ST[C]//Seventh Message Understanding Conference (MUC-7).1998.

[6] AONE C, RAMOS S M. REES: a large-scale relation and event extraction system[C]//The Sixth Conference On Applied Natural Language Processing. 2000: 76-83.

[7] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//The ACL 2004 On Interactive Poster And Demonstration Sessions. 2004: 22.

[8] GUO D Z, JIAN S, JIE Z, et al. Exploring various knowledge in relation extraction[C]//The 43rd Annual Meeting on Association for Computational Linguistics. 2005: 427-434.

[9] 寧海燕. 實(shí)體關(guān)系自動(dòng)抽取技術(shù)的比較研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2010.

NING H Y. Comparative study of automatic entity relation extraction[D]. Harbin: Harbin Institute of Technology, 2010.

[10] WANG L, CAO Z, MELO D G, et al. Relation classification via multi-level attention CNNS[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 1298-1307.

[11] KUMAR S. A survey of deep learning methods for relation extraction[J]. arXiv preprint, arXiv:1705.03645, 2017.

[12] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 207-212.

[13] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//AAAI. 2010: 3.

[14] 劉錦文, 許靜, 張利萍, 等. 基于標(biāo)簽傳播和主動(dòng)學(xué)習(xí)的人物社會(huì)關(guān)系抽取[J]. 計(jì)算機(jī)工程, 2017, 34(2): 234-240.

LIU J W, XU J, ZHANG L P, et al. Personal social relation extraction based on label propagation and active learning[J]. Computer Engineering, 2017, 34(2): 234-240.

[15] 秦兵, 劉安安, 劉挺. 無(wú)指導(dǎo)的中文開(kāi)放式實(shí)體關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(5): 1029-1035.

QIN B, LIU A A, LIU T. Unsupervised Chinese open entity relation extraction[J]. Journal of Computer Research and Development, 2015, 52(5): 1029-1035.

[16] GASHTEOVSKI K, GEMULLA R, DEL C L. MinIE: minimizing facts in open information extraction[C]//The 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2630-2640.

[17] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]// The 2008 ACM SIGMOD International Conference on Management of Data. 2008: 1247-1250.

[18] AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: a nucleus for a web of open data[M]//The Semantic Web. 2007: 722-735.

[19] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//The 16th International Conference on World Wide Web. 2007: 697-706.

[20] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//The Joint Conference of the 47th Annual Meeting of the ACL and The 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.

[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//AAAI. 2017: 3060-3066.

[22] PERSHINA M, MIN B, XU W, et al. Infusion of labeled data into distant supervision for relation extraction[C]//The 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 732-738.

[23] 潘云, 布勒布麗汗?伊沙巴依, 楊靜, 等. 利用中文在線資源的遠(yuǎn)程監(jiān)督人物關(guān)系抽取[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 4: 11.

PAN Y, BULEHULIHAN.YISHABAY, YANG J, et al. Distant supervised personal relation extraction using chinese online resource[J]. Journal of Chinese Mini-Micro Computer Systems, 2015, 4: 11.

[24] 黃蓓靜, 賀樑, 楊靜. 遠(yuǎn)程監(jiān)督人物關(guān)系抽取中的去噪研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2017, 34(7): 11-18.

HUANG B J, HE L, YANG J. Research on noise reduction in distant supervised personal relation extraction[J]. Computer Application and Software, 2017, 34(7): 11-18.

[25] CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C]//ISMB. 1999: 77-86.

[26] SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning for relation extraction[C]//The 2012 Joint Conference On Empirical Methods In Natural Language Processing And Computational Natural Language Learning. 2012: 455-465.

[27] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011: 541-550.

[28] 胡寶順, 王大玲, 于戈, 等. 基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J].計(jì)算機(jī)學(xué)報(bào), 2008, 31(4):662-676.

HU B S, WANG D L , YU G, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J].Chinese Journal of Computers, 2008, 31(4):662-676.

[29] 郭喜躍, 何婷婷, 胡小華, 等. 基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2014, 28(6): 183-189.

GUO X Y, HE T T , HU X H, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-189.

Multi-factor person entity relation extraction model based on distant supervision

HUANG Yangchen1, JIA Yan1, GAN Liang1, XU Jing1, HUANG Jiuming1, HE Zhonghe2

1. College of Computer, National University of Defense Technology, Changsha 410073, China 2. KB R&D department, Hunan Singhand Intelligent Data Technology Co., Ltd., Changsha 410205, China

Aiming at the problem that the basic assumption of distant supervision was too strong and easy to produce noise data, a model of the person entity relation extraction which could automatically filter the training data generated by distant supervision was proposed. For training data generation, the data produced by distant supervision would be filtered by multiple instance learning and the method of TF-IDF-based relation keyword detecting, which tried to make the training data has the manual annotation quality. Furthermore, the model combined lexical and syntactic features to extract the effective relation feature vector from two angles of words and semantics for classifier. The experiment results on large scale real-world datasets show that the proposed model outperforms other relation extraction methods which based on distant supervision.

relation extraction, person entity relation, distant supervision, machine learning, natural language processing

TP391

2017?10?25；

2018?06?21

黃楊琛，huangyangchen13@nudt.edu.cn

國(guó)家重點(diǎn)研究發(fā)展計(jì)劃基金資助項(xiàng)目（No.2016QY03D0601, No.2016QY03D0603）；國(guó)家自然科學(xué)基金資助項(xiàng)目（No.61502517）；湖南省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目（No.2018GK2056）

10.11959/j.issn.1000?436x.2018118

TheNational Key Research and Development Program of China (No.2016QY03D0601, No.2016QY03D0603), The National Natural Science Foundation of China (No.61502517), Key Research and Development Plan of Hunan Province (No.2018GK2056)

黃楊琛（1991?），女，湖南衡陽(yáng)人，國(guó)防科技大學(xué)博士生，主要研究方向?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理等。

賈焰（1960?），女，四川成都人，國(guó)防科技大學(xué)教授、博士生導(dǎo)師，主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)分析、信息安全等。

甘亮（1977?），男，江西樟樹(shù)人，國(guó)防科技大學(xué)講師，主要研究方向?yàn)橹R(shí)工程、專家系統(tǒng)等。

徐菁（1989?），女，山東濟(jì)南人，國(guó)防科技大學(xué)博士生，主要研究方向?yàn)橹R(shí)工程、文本挖掘等。

黃九鳴（1981?），男，福建安溪人，國(guó)防科技大學(xué)講師，主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)分析、信息安全等。

赫中翮（1991?），男，山西大同人，湖南星漢數(shù)智科技有限公司工程師，主要研究方向?yàn)樾畔⒊槿　?/p>