正則表達式及其在信息抽取中的應用

2009-04-29 00:00:00張靜張妍

電腦知識與技術 2009年15期

摘要:正則表達式是對一類字符串共性描述的規則，提供了一種從字符集合中搜尋特定字符串的機制。信息抽取的主要功能是從文本中抽取出特定的事實信息(factual information)。該文利用正則表示式快速匹配文本的特點，以抽取電子文檔的主要信息為例，介紹了正則表達式理論以及在信息抽取中的應用。

關鍵詞:正則表達式;信息抽取

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2009)15-3867-02

Regular Expression and Application in Information Extraction

ZHANG Jing， ZHANG Yan

(Department of Teaching Administration，Tangshan teachers college， Hebei Tangshan 063000，China)

Abstract: Regular expression is the rules of describing strings with common property. It provides a method how to search especial strings from the set of strings. The main function of information extraction is to extract factual information from text document. This paper introduced the theory of regular expression， and take the web document and law document for example， demonstrated how to use regular expression to extract factual information from text document.

Key words:regular expression; information extraction

1 引言

因特網已經成為人們獲取知識的不可或缺的手段，而因特網信息的表現形式大多為半結構化的文本，降低了信息的利用率，經過十幾年的發展，形成了以搜索引擎為代表的信息檢索技術，初步解決了信息檢索問題。人們信息抽取技術就是將獲取的信息根據預先定義的模板，從文本抽取特定的信息，形成結構化的數據，幫助對信息內容進行分析和整理，因此信息抽取技術成為網絡信息處理中的新的研究熱點。

正則表達式是對一類字符串共性描述的規則，提供了一種從字符集合中搜尋特定字符串的機制。本文以抽取電子文檔的主要信息為例，介紹了正則表達式及其在信息抽取中的應用。

2 正則表達式

正則表達式由美國數學家Stephen Kleene于1956年提出，主要用于描述正則集代數。隨后人們發現可以將此表達式應用于實用Ken Thompson的計算搜索算法的一些早期研究。正則表達式的第一個實用應用程序就是Unix中的qed編輯器。

正則表達式的形式為/匹配模式/，其中位于”/”定界符之間的部分就是將要在目標對象中進行匹配的模式。用戶只要把希望查找匹配對象的模式內容放入”/”定界符之間即可。為了能夠更加靈活的定制模式內容，正則表達式提供了專門的“元字符”。

所謂元字符就是指那些在正則表達式中具有特殊意義的專用字符，可以用來規定其前導字符(即位于元字符前面的字符)在目標對象中的出現模式。

較為常用的元字符包括:”+”;”*”，以及”?”。其它主要元字符的使用方式如下:\\s用于匹配單個空格符，包括tab鍵和換行符;\\S用于匹配除單個空格符之外的所有字符;\\d用于匹配從0到9的數字;\\w用于匹配字母，數字或下劃線字符;\\W用于匹配所有于\\w不匹配的字符。

在正則表達式中，可以用方括號括起若干個字符來表示一個元字符。除元字符外，正則表達式支持限定符的概念。這些限定符可以指定正則表達式的一個給定組間必須要出現多少詞才能滿足匹配，因而可以適應不知道要匹配多少字符時的不確定情況。限定符的使用說明如下:

1){n} n是一個非負整數。匹配確定的n次。例如，” o{2}”不能匹配”Bob”中的”o”，但是能匹配”food”中的兩個o。

2){n，} n是一個非負整數。至少匹配n次。例如，” o{2}”不能匹配”Bob”中的”o”，但是能匹配”fooooooood”中的所有o。”0{1，}”等價于”o+”，”o{0，}”則等價于”o*”。

3){n，m} m和n均是非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，

”o{1，3}”將匹配“fooooooood”中的前三個o。 “o{0，1}”等價于“o?”

正則表達式的優點是簡潔，結構化，它提供了一種從字符集合著那個搜尋特定字符串的機制[2]。它可以讓用戶通過使用一系列的特殊字符構建匹配模式，然后把匹配模式與數據文件、程序輸入等目標對象進行比較，根據目標對象中是否包含匹配模式，執行相應的程序[3]。正則表達式有以下幾個主要功能，用于測試字符串的某個模式是否有效。如測試一個字符串是否符合E-mail的模式。替換文本功能，用于在文檔中使用匹配模式來標識特定文字，然后將其刪除或進行替換。提取子串功能，用于根據模式匹配，從字符串中提取一個子字符串。

3 信息抽取

隨著計算機的普及以及互聯網(WWW)的迅猛發展，大量的信息以電子文檔的形式出現在人們面前。為了應對信息爆炸帶來的嚴重挑戰，迫切需要一些自動化的工具幫助人們在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在這種背景下產生的。

信息抽取系統的主要功能是從文本中抽取出特定的事實信息(factual information)。比如，從新聞報道中抽取出恐怖事件的詳細情況:時間、地點、作案者、受害人、襲擊目標、使用的武器等;從經濟新聞中抽取出公司發布新產品的情況:公司名、產品名、發布時間、產品性能等;從病人的醫療記錄中抽取出癥狀、診斷記錄、檢驗結果、處方等等。通常，被抽取出來的信息以結構化的形式描述，可以直接存入數據庫中，供用戶查詢以及進一步分析利用。

信息抽取處理的文本可分為三類:非結構化文本、半結構化文本和結構化文檔。信息抽取最初目的是從非結構化的普通文本中抽取有限的主要信息。非結構化文本的信息抽取系統通常采用自然語言處理的方法，其抽取規則主要是通過建立在詞和詞類間句法關系的基礎上，需要結合機器學習等人工智能方面的技術對大量的文本進行訓練和學習。結構化文本是根據某種約定格式生成的文本。從這樣的文本中抽取特定的信息只需按照約定的格式指定規則即可。半結構化文本是一種介于非結構化和結構化文本之間的文本形式，如WEB網頁。另，如文本格式的法律條約，專利文獻等，看似為非結構化的，但其內容結構都遵循有一定的模式結構，因此也可以看作半結構化的。

4 正則表達式在信息抽取中的應用

對于信息抽取的任務，通常需要抽取的信息只是某一領域中數量有限的事件或關系。本文分別以web網頁和文本文檔為數據源，介紹了利用正則表達式，對其進行信息抽取。

4.1 正則表達式在web新聞網頁中的信息抽取

信息網頁是具有很強開發價值的一類網頁，它具有時效性強，信息量大、結構穩定、更新快、需求廣泛、實用價值高等特點。其中各大門戶網站或新聞網站用來提供用戶檢索新聞之用的新聞頁面最具代表性。這類新聞網頁包含符合檢索條件的若干條新聞記錄，可以用來指引用戶查閱新聞全文。這類新聞網頁其實就是各大網站給自己站內的所有新聞網頁編的“索引”，能起到很好的說明和指示作用。

4.2 正則表達式在文本文檔中的信息抽取

電子文檔除上述web網頁格式外，還有一些信息是以文本格式存儲的。為充分利用現有資源，提高效率，將非結構化的文本格式轉化成半結構化的格式是必要的。下面本文介紹了如何將法律條文這種非結構化的文件，利用正則表達式進行信息抽取，轉化成半結構化的形式。

對于法律條約，雖然是以非結構化的格式存儲的，但其內容本身是有結構的。如每個條約包括序言和正文兩個組成部分;正文包含若干個章或編;每章包括若干個節;每節包括若干個條;每條包含若干個款等。根據以上特點，我們可以使用正則表達式匹配條約正文中的特征文字，抽取相應的信息，生成具有序言、章、節、條、款等層次結構信息和其它屬性信息的法律條約。如抽取法律條約中的每一行內容，其相應的正則表達式為:”^([\\w\\W]*?)$” 其中，^表示一行的開始;()表示括號內的內容分組;[]表示里面的多個內容中取一個;\\w表示字母(a~z，A~Z)以外的字符;*表示后面接0個或多個字符;?表示后面接0個或一個字符;*?的結合表示后面可以接其它字符(不包含換行符);$表示行結束符。獲取章的標題和內容，并對每一章進行節的解析;若不存在，直接進行節的解析，則相關的正則表達式為:“^s\\*(第\\s*[^條節部分]{1，3}\\s*[章編])([\\w\\W]*?)$”。其中\\s表示空白字符(空格、tab 等);[^]除括號內的符號外的其它符號(如[^條節]表示條、節的其它符號);{1，3}表示前面的符號至少一個，至多三個。

5 結論

正則表達式是對一類字符串共性描述的規則，提供了一種從字符集合中搜尋特定字符串的機制。本文介紹了正則表達式的理論，并利用其快速匹配文本的特點，抽取Web文檔和法律條文兩種格式電子文檔中的主要信息，進行信息抽取。通過以上實例，可以看出，對于半結構化文本和結構化文檔，正則表達式能夠很好的進行信息抽取。而對于非結構化的文檔，還有待進一步研究。

參考文獻:

[1] Liger F， Queen C M， Wilton P. C#字符串和正則表達式參考手冊[M].劉樂亭，譯.北京:清華大學出版社，2003.

[2] The Single Unix Specification，Version2[OL].Http://www.opengroup.org/onlinepubs/.

[3] 呂曉波.正則表達式使用詳解[OL].http://dev.csdn.net/article/8/8254.shtm.

[4] Harry R.Lweis， Christos H Papadimitriou.計算理論基礎[M]. 張立昂，劉田，譯. 北京:清華大學出版社，2000.

[5] 金成植，金英.編譯程序設計原理[M].北京:高等教育出版社，2007.

電腦知識與技術2009年15期

電腦知識與技術的其它文章: 基于續傳數據的動態網絡交換模型; 基于ＷｅｂＳｅｒｖｉｃｅ企業級應用分析與構建; Ｐｅｔｒｉ網的工作流模型建模研究; 基于Ｊａｖａｓｃｒｉｐｔ的可編輯下拉列表框的設計與實現; ＩＰｖ６地址實現機制; 公交優先無線傳輸系統設計