,
多文檔自動摘要的任務是利用自然語言處理等信息處理技術分析文獻內容,從中提取出重要信息并生成簡潔的摘要。因其能夠使用戶快速了解、選擇文獻集中的重要信息而受到越來越多的關注。近年來,隨著科技文獻的迅速增長,科技人員對摘要的需求越來越大;而作者摘要僅能提供單篇論文的縮略信息,不能提供相關主題的整體研究概況。多文檔摘要,尤其是針對大型專題文獻集,則能有效地解決這一問題,為用戶節省更多的時間與精力,具有重要的意義。
目前多文檔自動摘要研究多集中在對新聞事件、網頁信息等進行摘要,鮮有對科技論文進行摘要的研究。其原因是科技論文報道的內容復雜多樣,需要在對內容理解的基礎上進行摘要,因此要借助于領域知識庫的支撐。在生物醫學領域,一體化醫學語言系統(UMLS)的研究和開發為醫學文獻向知識單元的語義表達發展提供了基礎,也為自動摘要研究開辟了新的途徑。本研究旨在探索從節點、邊以及網絡凝聚子群(clique)三個層次抽取文獻集關鍵信息生成摘要,并利用clique共有概念對其聚類以發現摘要子主題的方法;同時借助于醫學術語表及自然語言處理工具,對文獻內容進行語義表達并抽取,生成文獻摘要的語義網絡圖,使摘要內容表達形象、簡潔。
文檔自動摘要是從單篇文檔或文檔集中自動提取出核心信息,按摘要生成方式分為抽取式摘要(extractive)和理解式摘要(abstractive)兩種。抽取式摘要是從源文檔中抽取出重要的句子組成摘要,句子重要性的確定多基于文本的物理信息(如詞的位置、句子的位置、詞的頻率等),這種機械的句子抽取難以產生高質量的摘要。理解式摘要是在理解文檔內容的基礎上,利用自然語言處理技術(如文本表達、句子重構等)生成新句子組成摘要,它涉及信息處理、知識表達等方面,難度較大,進展緩慢。
近年來越來越多的研究將圖排序及聚類等技術應用于自動摘要任務。該方法以圖形的形式表現論文[1-7],節點代表論文的信息單元。大多數研究以句子為節點,如LexRank系統[1],也有研究采用段落或詞為節點[7]。以節點之間的相似度為邊,可以構建論文集的網絡圖。這些研究通常采用節點的中心性(centrality)作為摘要句排序和抽取的標準,其依據是節點的中心性越高,其位置在網絡中越重要。
上述基于圖的文本摘要研究僅以節點的中心性為指標對重要信息進行提取。文獻網絡圖的組成部分除節點外,還包括邊以及子網絡,在復雜網絡分析中它們都是網絡圖的重要屬性。高繼平等[8]提出目前國內外針對基于詞共現的文獻網絡分析多依據節點在網絡中的影響力進行評價,忽視另一個重要指標—邊,進而對基于頻次和基于連通性的權重抽取重要邊的效果進行比較研究。此外,網絡中的社區也能準確揭示知識主題。文獻網絡中的社區指凝聚性較高的子網絡,如clique,k-core等。這類子網絡通常揭示了網絡的核心內容。如王曉光[9]的研究發現詞共現網絡中的社區與學科體系存在一定的對應關系。在此基礎上,白如江等[10]利用k-clique社區網絡揭示知識創新情況及其演化方向。此外,高雯珺等[11]綜述了凝聚子群在發現合著團體以及學科研究的子領域方面的應用。
本研究擬將凝聚子群—clique應用到摘要內容的提取中。在網絡分析研究中,clique是指由兩兩均相連的點構成的小團體,也稱完備子群或完全子圖,根據包含節點數將clique更加準確地記為n-clique。基于clique聚類的思想是從網絡中的clique出發,通過分析clique的重疊部分實現網絡類的劃分。與基于詞共現的聚類分析相比,凝聚子群分析允許將一些重要的節點(如詞匯)劃入多個類目中,這更符合現實要求,因此在蛋白質功能預測[12]、文獻主題劃分[13]等研究中得到廣泛應用。目前基于clique聚類算法包括派系過濾算法(CPM)[14]、基于最大clique的層次凝聚聚類算法 (EAGLE)[15]、基于clique共節點的層次聚類法等。本研究采用的是第三種方法。
生成高質量的摘要需從語義、語用層次上對文本進行理解和表達,需要學科領域知識庫[16]及自然語言理解技術的支撐。在生物醫學領域,UMLS的研究和開發為醫學文獻向知識單元的語義表達發展提供了基礎,也為自動摘要研究開辟了新的途徑。利用UMLS能夠對醫學文獻中的信息進行深度表達,并能構造出完整、細致的語義關系,是醫學信息檢索、自動摘要和知識發現的基礎[17]。
目前利用UMLS對醫學文獻進行自動摘要包括兩大類。一類是以抽取概念為主,具體為利用MetaMap工具對醫學論文進行斷句、切詞,并將文本詞匹配為UMLS超級詞表的概念。概念之間的關系較單純,通常為概念間共現或詞表所規定的概念間的等級關系。然后基于圖排序或統計學方法來確定文獻集中的重要信息,如Reeve的摘要系統[18-19]、Plaza[20]的摘要系統以及Yoo等人[4]的系統。但利用MetaMap對醫學文獻內容的揭示比較淺顯,不能表達出概念間的諸如診斷、治療、引起等語義關系。另一類研究除了抽取UMLS的概念外,還對概念之間的語義關系進行抽取,利用的工具為SemRep。該工具首先調用MetaMap抽取出醫學文本中的概念,然后抽取共句的兩個概念之間的語義關系(即謂詞),將文本處理成形如“主語—謂詞—賓語”的語義述謂項,進而實現從語義和語用層次對文本進行表達,使生成的摘要信息更豐富完善。例如Fiszman[21]利用語義述謂項中概念的語義類型與語義關系的組配形式,預設了4個摘要主題搭配模式(Schema),自動生成關于疾病治療、藥物相互作用、疾病診斷和藥物遺傳學等四方面的摘要網絡圖。Fiszman系統的特點之一是以網絡圖的形式顯示摘要信息,這樣既使摘要清晰明了,又避免了對大量文檔進行摘要句抽取時句子重復、連貫性差等問題。但該研究僅從構建語義搭配模式出發,將摘要局限在預設主題模式所規定的范圍,缺乏廣適性。
本研究在Fiszman系統的基礎上,利用文獻網絡圖的屬性從文獻集中提取重要信息,避免了摘要生成固定在預設主題范圍內的局限。與已有研究相比,本文不僅利用概念對源文檔進行表達,同時抽取出概念之間的語義關系,彌補了現有詞共現網絡概念間關系不清的弊端,使摘要主題內容的表達更加準確。在摘要信息抽取方面,采用復雜網絡分析指標,除了傳統的高中心度節點,還融入了關鍵邊和凝聚子群,從多角度抽取網絡關鍵信息,為醫學文檔自動摘要提供了新的解決思路。
本研究分為以下五個步驟(圖1)。

圖1 研究技術路線
從PubMed、Web of Science等數據庫中檢索某一主題的文獻,并將其保存為純文本格式,該主題即為摘要主題。
利用SemRep將文獻集中的各個句子處理為如“主語|語義類型|語義關系|謂語|語義類型”的語義述謂項。其中主語及賓語為UMLS超級詞表中的概念,謂詞來自于UMLS語義網絡中的語義關系,如句子“Clozapine is the most effective treatment of aggressive behavior in schizophrenia”,經處理后生成如下2條語義述謂項:
Clozapine|phsu|TREATS|Aggressive behavior|mobd
Aggressive behavior|mobd|COEXISTS_WITH|Schizophrenia|mobd
以第1條為例,Clozapine為主語,其語義類型為phsu(pharmacologic substance,藥物),TREATS 為語義關系,Aggressive behavior為賓語,其語義類型為mobd(Mental or behavioral dysfunction,精神/行為功能失常)。
去除Patient等含義比較寬泛的概念。寬泛概念的定義標準為處于UMLS概念等級結構二級及以上的概念[21-22],共633個。如果語義述謂項中的主語或賓語中有一個屬于寬泛概念,則將該語義述謂項刪除。
首先利用得到的語義述謂項集合構建文獻網絡圖,對網絡圖進行如下定義:由節點和邊組成,節點即語義述謂項中的概念(主語或賓語)。如果兩個節點分別是一條語義述謂項的主語和賓語,則兩點之間有邊連接,兩點及其間的邊對應一條語義述謂項。通過計算該條語義述謂項出現的頻次對其賦權。該網絡圖具備如下屬性:節點的顏色標識其語義類型,大小表示其頻次;連線的顏色標識語義關系,寬度表示語義述謂項的頻次,繪圖工具采用Pajek,輸入文件的定義和格式詳見文獻[22]。
由于多文檔摘要通常是對大規模文獻集進行分析、處理,因此語義述謂網絡往往是非常龐大的。利用復雜網絡拓撲結構的屬性指標(如中心性、凝聚性、聚類系數等)能夠揭示網絡的結構特征,發現網絡中的關鍵信息,為摘要信息抽取服務。本研究依次從節點、連線以及簇結構(clique)三個層次對語義述謂網進行壓縮,實現關鍵信息的抽取。
第一步為關鍵節點(概念)的提取。目前基于圖的自動摘要研究對信息的提取多采用節點中心度(Centrality)指標。文獻[15]計算并比較了采用語義述謂網絡中不同節點中心度(點度中心度、特征向量中心度、中介中心度、接近中心度)在抽取與疾病治療相關重要概念的效果,最終發現與人工標準相比。利用節點的度中心度抽取概念的效果最佳,因此本研究采用節點的度中心度對關鍵節點進行抽取的計算公式為:CD(ni)=d(ni)/(n-1) ,式中d(ni)為節點ni的度,n是網絡內節點總數,并抽取中心度高的節點所組成的語義述謂項。
第二步為關鍵邊的提取。邊為網絡的二元結構,也是網絡的基本組成單位。本研究以文檔頻次為指標,抽取頻次高的邊所對應的語義述謂項。如果同一語義述謂項在不同文章中重復出現,則可認定為文獻集的核心內容。
第三步為clique提取,即提取clique作為文獻集的摘要。由底向上的網絡子結構分析方法將網絡看成是由二元結構和群組成的[23]。二元結構即兩個節點之間的關系,為最基本的結構單位,在此基礎上增加一個與其相連的節點,則構成了最小的完備群,即3-clique。醫學文獻中小規模的clique往往能表達更完整的含義,成為網絡的核心。例如圖2中3-clique表達了“兩種藥物Risperidone和Olanzapine對精神分裂癥時的療效比較”(圖中TR為語義關系“TREATS",CW為語義關系”COMPARED_WITH")。本研究采用最大clique搜索算法,在剩余的語義述謂項中提取clique作為最終的摘要。

圖2 3-clique示例
對clique進行聚類,每一類即為摘要的一個子主題,利用Pajek對摘要進行可視化。為研究所生成的摘要中蘊含的子主題,對提取的clique進行聚類。本研究采用的是UCINET的clique交疊聚類算法[24]。目前的研究大多對節點進行聚類,其弊端是一些可能被多個類共有的核心節點(如主題概念“精神分裂癥”)僅能出現在一個類中,與實際情況不符。clique交疊聚類能夠有效地避免這一問題。由于一個clique中包含至少3個節點,N個clique通過尋找clique-clique之間共有的節點,可以生成N×N的矩陣,利用Pearson相關系數生成clique相似矩陣,采用組間距離法,對該矩陣做系統聚類,通過分析聚類內容,實現摘要子主題的識別。
以精神分裂癥(schizophrenia)為主要主題詞,于2015年9月在PubMed數據庫中檢索2005-2015年近10年發表的論文,并限定語種為英文,共獲得了19 661篇論文(帶摘要)。
19 661篇文獻經SemRep處理后,得到132 587條語義述謂項,包含7 865個節點,其中包含寬泛概念55個。去除含寬泛概念的語義述謂項后,剩余7 119個節點,經過反復測試,將節點度中心度閾值設置為0.05(即每個節點至少與其他20個節點相連),頻次閾值設為14,剩余178條語義述謂項,114個節點。采用最大clique搜索算法獲得31個clique,包含35個節點。31個clique中包含8個5-clique,4個4-clique以及19個3-clique。聚類樹圖見圖3,在距離小于15處將clique分為4類,即為摘要的4個子主題。利用Pajek顯示摘要圖(圖4),其布局依據聚類的結果做調整。為了增加圖的可讀性,僅用顏色代表語義關系,省略了文字標簽。利用節點的語義類型及語義關系搭配,可實現對子主題內容的標注。
UMLS在其語義網絡中對概念的語義類型及語義關系賦予詳細的定義,利用其組配模式能對醫學文獻內容進行詳盡的表達,從而實現對研究主題的標注。圖4所涉及的語義搭配模式及其對應的含義見表1。

圖3 clique系統聚類樹圖

圖4 精神分裂癥文獻集摘要圖

表1 研究子主題語義搭配及含義
子主題1:位于圖4左上方,為精神分裂癥的發病特殊人群及非藥物療法。由此類可看出,該病多發于兒童及青壯年,可用認知療法進行治療。圖4中深藍色線條表示的語義關系為“Treats”,紅色線條為“Process_of”。
子主題2:位于摘要圖4上方豆綠色背景區域,為精神分裂癥的癥狀,包括幻覺和妄想,其語義關系為“Coexists_with”(灰色)。
子主題3:位于圖4右上方,為精神分裂癥的致病因素及發病部位。其致病因素包括位于大腦前額葉皮質的神經遞質(如多巴胺、谷氨酸、γ-氨基丁酸等)異常,導致神經遞質系統功能受損而發病。圖中紫色為“Associated_with”,綠色為“Location_of”,淺藍色為“ISA”。
子主題4:位于圖4下方,為精神分裂癥的藥物療法、藥物之間的比較以及產生的副作用。圖中深藍色為“Treats”,黃色為“Compared_with”,紅色為“Causes”,淺藍色為“ISA”。
目前摘要評價方法主要有以人工標注摘要為標準進行評價和基于任務的評價兩類。由于缺乏公用的醫學文本語料庫,且請專家對上萬篇文獻提供人工標注的參考摘要不現實,因此本研究采用第二種方法,即基于概念提取和主題劃分的評價方法,考察本研究提取的各摘要主題概念的覆蓋情況。我們請兩名醫學博士以其專業知識為基礎,同時參考英文原版精神病學教科書Review of General Psychiatry、教育部及衛生部“十二五”規劃教材《精神病學》以及循證醫學資源Up-To-Date中關于精神分裂癥的專家綜述,從發病人群及非藥物療法、癥狀、病因及發病部位和藥物療法四方面提取相關概念為人工標準。當兩名專家意見不一致時,通過協商獲取一致性意見。以準確率、召回率及F值為評價指標,結果見表2。

表2 實驗結果與人工標準的對比
評價結果表明,準確率普遍比較高,召回率相對較低。摘要信息的質量與多方面因素有關。首先就信息源而言,本研究采集的是科技論文摘要,疾病癥狀、藥物副作用等概念出現在作者摘要的幾率較低,易被預設閾值過濾。如果采集的信息是文獻全文,就能夠全面地獲取信息,但會造成干擾信息過多,從而導致準確率下降。其次在文獻內容表達方面,領域知識庫的完備程度及自然語義處理工具(如SemRep)對信息處理的準確性也同樣會影響摘要提取的質量。SemRep對疾病類、化學物質類概念提取的效果好,對基因名、蛋白名提取的效果相對差,這與其利用的詞表UMLS搜集詞匯的側重點有關。因此在對基因等作摘要時,建議用專有的提取工具來提取命名實體。此外,閾值的設定對摘要的準確率和召回率起反向作用。如欲使摘要召回率增加,可適當降低閾值。當中心度閾值降到0.028時,能將副作用“嗜睡”納入進來,但會導致摘要過大,降低準確率和易讀性。最后,本研究對簇結構的識別采用最大完全子群搜索算法。盡管大部分都是規模相對較小的3-clique,但可能會導致一些不能構成clique的重要概念丟失,從而降低召回率。今后可嘗試采用Quasi Clique,k-core等簇發現算法,使摘要的覆蓋面適當增加。
本研究利用自然語言處理工具SemRep對醫學文本所涵蓋的語義述謂項進行提取并生成表達文獻內容的網絡圖,利用網絡圖的中心性及凝聚屬性從中提取出文獻集的核心內容生成圖形摘要。該研究方法能為知識圖譜、臨床問題自動應答系統的開發提供新的思路。