陳慧煒
(南京師范大學 文學院,江蘇 南京 210097)
在信息爆炸的今天,如何從海量的電子文檔中快速有效地獲得所需要的信息,成為了信息化時代亟待解決的問題,信息抽取便是在這種需求下應運而生的,以期把人們從大量、低效的文本閱讀勞動中解放出來。
信息抽取是指從一段文本中抽取指定的一類信息并將其形成結構化的數據,填入一個數據庫中供用戶查詢使用的過程。信息抽取已經成為自然語言處理研究中的一個熱點,近年來在許多應用領域得以成功應用。
公安領域的文本信息主要有業務人員日常工作中記錄下來的已經入庫的半結構化案件信息,和一些沒有入庫的文檔中的非結構化信息。面對日益增長的大量案件、涉案人員等信息數據,目前公安部門面臨的問題是:偵查人員需要花費很多時間在閱讀案件筆錄上,如何將各類案件文本中的信息點分析出來,對涉案人員、案情信息等進行電子化管理,便于日后的查詢與單位之間的信息共享;如何利用過往案件的信息,分析當前案情,挖掘線索,串并案件。信息抽取技術是解決這些問題的基礎工作。
信息抽取系統的設計主要有知識工程方法和機器學習方法。
早期的信息抽取系統都是基于知識工程方法建立的,依靠人工編寫抽取模式,使系統能處理特定知識領域的信息抽取問題。如CIRCUS系統、LIEP系統、PALKA系統、RAPIER系統等。規則本身的學習和提取成為信息抽取的關鍵,而信息抽取則退居為次要過程。這種方法要求編寫抽取模式的知識工程師對該知識領域有深入的了解。而由人建立的規則很難保證具有整體的系統性和邏輯性,并且這些規則一般具有高度的領域相關性和較差的可移植性。因此,迫切需要尋找更加有效的方法來自動學習信息抽取的規則,這種形勢使得機器學習在信息抽取系統中的應用研究顯得尤為重要和迫切。
機器學習方法是利用機器學習技術讓信息抽取系統通過訓練文本來獲得抽取模式,實現特定領域的信息抽取功能。任何對該知識領域比較熟悉的人都可以根據事先約定的規則來標記訓練文本。利用這些訓練文本訓練后,系統能夠處理沒有標記的新的文本。BBN公司的SIFT系統,完全采用統計的方法,代表了在這個發展方向上跨出的重要一步。典型的機器學習方法有基于特征向量的機器學習方法,如支持向量機(SVM);有基于統計模型的機器學習方法,如隱馬爾科夫模型(HMM)、最大熵模型(ME)和條件隨機場模型(CRF);有基于核函數的機器學習方法,以及多種機器學習方法的集成等。現有研究成果表明,當多學習模型集成中的個體學習模型差異較大時,集成的效果會較好。
知識工程方法的設計初始階段較容易,但是要實現較完善的規則庫的過程往往比較耗時耗力。機器學習方法抽取規則的獲取是通過學習自動獲得的,但是該方法需要足夠數量的訓練數據,才能保證系統的抽取質量。所以,采取何種方法要視任務和資源而定,若訓練語料容易獲得,則傾向于機器學習的方法;若語言資源如詞表等容易獲得,則傾向于手工編寫規則。
命名實體識別的任務被定義為識別出文本中出現的專有名稱和有意義的數量短語并加以歸類。命名實體是文本中基本的信息元素,是正確理解文本的基礎。狹義地講,命名實體是指現實世界中的具體的或抽象的實體,如人、組織、公司、地點等,通常用唯一的標志符(專有名稱)表示,如人名、組織名、公司名、地名等。廣義地講,命名實體還可以包含時間、數量表達式等。至于命名實體的確切含義,只能根據具體應用來確定。命名實體識別是信息抽取系統的一個基本而又重要的任務。
命名實體識別發展至今已經取得了很多成果。1987年開始由DARPA資助舉辦的MUC-6和MUC-7會議設立的命名實體專項評測大大推動了英語命名實體識別技術的發展,到1998年MUC最后一屆會議時,不少系統都已經具備相當程度的大規模真實文本的處理能力,最好的成績準確率和召回率達到了95%和92%。中文NE識別的難處在于其缺乏形式標志、分詞錯誤會對其造成影響、內部常包含有常用字詞以及詞義模糊,需要更大量的研究工作。
命名實體識別任務要完成兩個事情:一是找到文本中表達命名實體的詞語,二是準確給出該命名實體的分類,其技術大多依賴于命名實體的類別。不同的類別所采用的識別技術也不一樣。研究較多的幾種類別是人名、地名、組織機構名、時間、數字。研究表明(張素香,2007),不是一個模型能夠完全解決所有的實體識別任務的,需要結合實體類型,采用不同的子模型識別能夠極大地改善實體識別的性能。
中文命名實體的識別不光是信息抽取的基礎,其研究同時也是分詞、句法分析、問答系統、機器翻譯等任務的基礎,故對其研究,能從一定程度上對其他任務有所借鑒意義。
事件信息抽取(簡稱事件抽取)是信息抽取系統的另一個工作,是在命名實體識別基礎之上實施的一個過程。其旨在利用計算機從文本中自動地抽取特定類型的事件及其事件要素,是信息抽取研究中最具挑戰性的任務之一。
就前人研究情況來看,事件抽取主要有兩種方法:模式匹配的方法和機器學習的方法。模式匹配的方法是指對于某類事件的識別和抽取是在一些模式的指導下進行的,采用各種模式匹配算法將待抽取的句子和已經抽出的模板匹配。例如Surdeanu和Harabagiu針對開放域的事件抽取系統FSA等。這種方法準確率較高,但往往依賴于具體領域,可移植性差。機器學習的方法把事件抽取任務看作分類問題,把主要精力放在分類器的構建和特征的發現、選擇上。主要包括兩個過程,即事件探測和事件元素識別。所謂事件元素,也就是平常所說的事件模板中的槽(Slot),或事件的參與者(Participants)。
觸發詞為事件語句的錨定和事件類別的確定提供了很大的幫助。關于如何構建觸發詞集合,傳統方法是將文本中每個詞作為候選觸發詞,構建訓練實例進行多元分類,但由于觸發詞只占候選觸發詞的一小部分,因此會引入大量的反例(趙妍妍,2008)。于江德(2007)對于“職務變動”類事件抽取的觸發詞表采用手工的方式構建,并借助于《現代漢語詞典》和《同義詞詞林》,構建出的觸發詞表包含了136個職務變動類事件的觸發詞。趙妍妍(2007)使用哈工大信息檢索研究室的《同義詞詞林(擴展版)》自動擴展種子觸發詞,通過查找過濾構建“種子觸發詞——事件類別”對照表,以便生成候選事件及其候選類別。
隨著科技的進步,公安辦公逐步實現了信息化,案件信息直接填入了相應的數據庫中,因此該領域的工作大多集中于數據挖掘,即從已有數據中發現隱含的相似案件、犯罪趨勢、犯罪特點等信息。但仍存在相當一部分的文檔,或是偵查人員的案件筆錄,或是網上的案件信息,以文本的形式存在,需要信息抽取技術從中抽取案件相關實體和事件,進而存入數據庫中供后續的數據挖掘分析。
美國克萊蒙研究生院的Chih Hao Ku等人2008年報導正在開發一個自動的犯罪信息報導與調查訪談系統。該系統認為以往的格式化筆錄由于種種原因會遺漏一些信息,故利用基于認知心理的訪談技術,喚起證人足夠多的回憶信息,讓其用自然語言記錄案件情況,進而用信息抽取技術從證人敘述與訪談對話記錄中抽取犯罪相關實體。在信息抽取模塊,采用了基于知識庫和基于規則的方法。定義了“姓名、代詞、時間、方式、武器、人物屬性、場景、私人財物、顏色、身體部位、動作、事件、衣物”等實體類型。根據實體特點,針對性地利用一些如維基百科、網頁博客、UCR官方信息、FrameNet等知識庫資源,建立了一個有索引的詞表,每個子表下設子類,如私人財物詞條下設包、首飾、錢、電腦、電話等,如此產生了126個子表,分別應用于相應的規則構建。IE模塊采用了Gate系統,包括:分詞、索引、分句、詞性標注、名詞短語劃分、正字校對、以及JAPE(Java Annotations Pattern Engine)規則構建等子模塊。對于系統所產生的名詞短語采用過濾算法,使提取的短語只與案件相關。 (Chih Hao Ku etal.,2008(a);Chih Hao Ku etal.,2008(b);Alicia Iriberrietal.,2008)。 另一個工作是美國亞利桑那州大學進行的一個基于神經網絡的實體抽取系統。利用知識庫、機器學習、少量手工規則的方法,對人名、住址、工具、麻醉藥物、私人財物等實體進行了識別和抽取。 (Michael Chau etal.,2002;Hsin chun Chen etal.,2004)
國內在該領域對基于數據庫的構建和數據挖掘技術研究的較多,對自然語言文本進行信息抽取研究的較少。喬春庚(2007)基于公安案件文本,對領域詞匯的獲取、命名實體的識別、實體關系的抽取等模塊進行了研究。其搭建的分層的公安領域案件信息抽取系統,能夠輸出各層次的中間成果。徐亞娟(2008)采用文本挖掘的相關技術,主要實現了給定案件的相似性判別和文本聚類的功能。其在信息抽取階段的算法主要思想是:根據分詞結果得到的詞性標注信息,通過掃描分詞得到的結果串,去除一些無關的詞性的詞語,并結合專門的關鍵詞庫,完成信息的提取,最后得到結構化的文本信息,存入數據庫中。
信息抽取是數據挖掘的第一步處理任務,若對案件文本進行了很好的信息抽取,不僅能夠使業務人員免于閱讀大量的案件,節省時間和人力,而且是后期的數據挖掘如串并相似案件、挖掘破案線索、歸納犯罪趨勢等方面工作的良好基礎。
現代信息抽取技術的研究,一方面,在努力地向投入應用發展,擴大抽取的文本類型的范圍、擴大面向領域的范圍,使科學技術能夠真正地為人們生產生活提供方便,最大程度地解放勞動力;另一方面,在努力地探索如何加快其基礎研究,使信息抽取技術實現革命性技術進步,使機器向高效自動處理任務邁進,盡量減輕研究者的勞動。這些,都需要學界人士的不斷努力。