遠洋運輸業業務郵件信息抽取系統的設計及實現

2010-01-01 00:00:00張濤胡正華夏明星

電腦知識與技術 2010年1期

摘要:文章針對遠洋運輸業業務郵件的特點，結合Ontology技術，信息抽取技術，通過建立領域Ontology，對領域本體進行解析，生成抽取規則，對業務郵件進行信息抽取。試圖從繁多的業務郵件中，抽取我們需要的業務信息，以一種結構化的形式呈現在用戶面前，提高遠洋運輸業辦公效率。

關鍵詞:信息抽取;遠洋運輸;Ontology

中圖分類號:TP391.1文獻標識碼:A 文章編號:1009-3044(2010)01-83-02

The Design and Implementation on Information Extraction Technology of Ocean Transportation Business Mail System

ZHANG Tao， HU Zheng-hua， XIA Ming-xing

(Nanjing University of Aeronautics and Astronautics，Nanjing 210016，China)

Abstract: Aiming at the characteristics of ocean-going transportation business mail， combined with Ontology technology， information extraction technology， through the establishment of the field Ontology， analysing the domain ontology， generating extraction rules， doing information extraction for business e-mail.Trying to extract the business information which we need from range of businesses mail， by a structured form presented to the user，and improve the efficiency of ocean transportation industry.

Key words: Information Extraction; Ocean Transportation; Ontology

海洋運輸是國際物流中最主要的運輸方式，它是指使用船舶通過海上航道在不同國家和地區的港口之間運送貨物的一種方式。目前，國際貿易總運量中的2/3以上，中國進出口貨運總量的約90%都是利用海上運輸。隨著中國經濟的快速發展，中國已經成為世界上最重要的海運大國之一。

隨著航運業的發展，對信息技術的需求日漸強烈。如今在航運業，信息技術的運用隨處可見。郵件，作為如今常見的通訊手段也成為航運業業務往來的重要手段之一。對于遠洋運輸業，接收客戶通過郵件發送的訂單，目前主要是通過人工方式讀取郵件并將業務數據手工錄入數據庫系統，面對日益增長的業務郵件，人工的方式顯然在效率上顯得較低，如何運用信息技術將這一過程自動化成為迫切需要解決的問題。

信息抽取技術出現于20世紀60年代，其目的是將文本里包含的信息進行結構化處理，變成表格一樣的組織形式。近年來，信息抽取技術有了較大的發展，并與本體技術有了很好的結合。

本文中，運用信息抽取技術與本體技術相結合的方式，研究了基于Ontology的信息抽取系統的各個模塊。

1 信息抽取技術概述

1.1 信息抽取的概念

信息抽取( Information Extraction ， IE) 的目標是把文本里包含的信息進行結構化處理，變成表格一樣的組織形式。輸入信息抽取系統的是原始文本，輸出的是固定格式的信息點。把信息點從各種各樣的文檔中抽取出來，然后以統一的形式集成在一起，這就是信息抽取的主要任務。

1.2 信息抽取的方法分類

早前，自由文本信息抽取技術主要有三類[1]:基于NLP(自然語言處理)的方式、基于規則的方式和基于統計學習的方式。

基于NLP的方式是早期的信息抽取方法，一般效率較低，現已較少使用。基于規則的方式和基于統計學習的方法都需要在前期進行大量的手工標注訓練文本，然后對訓練文本進行學習。但是訓練文本不可能覆蓋整個領域內出現的所有語言習慣。同時，這些方法雖然能識別出實體，但是缺乏特定的領域知識來獲取抽取實體間的關系，沒有關系的實體，抽取出來是沒有意義的[2]。

Ontology(本體)是知識工程和人工智能研究的一個重要問題，Ontology的目標是捕獲相關的領域的知識，提供對該領域知識的共同理解，確定該領域內共同認可的詞匯，并從不同層次的形式化模式上給出這些詞匯(術語)和詞匯之間相互關系的明確定義。如果能在信息抽取任務中引入相應的領域知識——領域Ontology來指導抽取過程，將能有效的提高信息抽取的性能。

基于Ontology的信息抽取技術首先根據Ontology描述的概念、關系、層次結構、概念關系間的約束等生成抽取規則，然后根據抽取規則對輸入的文檔進行抽取。

1.3 信息抽取的關鍵技術

文獻[3]描述了一個信息抽取系統的基本流程如圖1所示。

從圖1中，我們可以看出信息抽取的關鍵技術主要有命名實體識別、句法分析、篇章分析與推理及知識獲取幾個方面[4]。

2 基于Ontology的信息抽取系統的設計

2.1 系統總體框架設計

系統的總體框架設計如圖2所示。

2.2 預處理模塊分析

在預處理模塊中，要完成兩部分類容。首先，對郵件進行解析，根據郵件本身的編碼以及格式，我們可以分割出郵件頭和郵件體。在郵件頭部分可以得到郵件發件人郵箱地址、郵件發送時間、發件主題，這些內容在接下來的信息抽取過程中將起到一定的輔助作用。通過分析的郵件體，可以得到郵件的正文，將正文內容從郵件中提取出來，作為郵件信息抽取的主要對象。

對得到的正文內容，由于遠洋運輸業業務有其特殊性，專有名詞較多且存在大量縮寫以及不規范寫法，對信息抽取產生較大的困難，所以在信息抽取前，在該模塊，對待抽取文本進行一次數據清理很有必要。

在本文中，對一些常見的專有詞匯，建立專有詞匯表，表中羅列出一些專有詞匯特殊表達方式，這樣，在數據清理的過程中，對一些不規范的特殊表示就可以轉化為我們需要的標準表述。如對于船這個名詞可能有vessel以及縮寫VSL，同義詞ship，boat等多種表示方式，通過數據清洗模塊可以使得格式表示方法歸一，都改成vessel。

2.3 領域Ontology解析模塊

對于領域Ontology，我們可以通過Protégé這一軟件進行創建，對于創建好的領域本體，應用程序需要通過一定的接口來使用領域本體。Jena就是HP公司為此創建的一套API。我們通過Protégé創建本體，而應用程序則通過Jena來使用Ontology。

Jena是HP公司開發的一個基于Java的開放源代碼語義網工具包，是用于創建語義網應用系統的Java框架結構，它提供了有關RDF，RDFS，OWL及規則推理的編程環境，利用RDF API、OWLAPI能夠實現RDF，OWL本體的中立存貯與查詢。

利用Jena對Ontology解析實際上就是把Ontology中描述的概念、關系和層次結構等解析出來。針對我們所構建的遠洋運輸業業務郵件的OWL本體，解析過程為:

1) 用Jena Ontology開發工具包，讀取owl文件。

2) 根據OWL Ontology描述語言層次結構，創建Ontology模型樹，再用深度優先算法遍歷Ontology模型樹，找到對應的類及實例。

3) 最后使用Java JTree控件顯示Ontology模型樹。

2.4 規則生成模塊

本文是運用基于領域Ontology生成的抽取規則來進行信息抽取的，規則生成模塊無疑在本系統中是一個重要的模塊。通過Jena對其進行解析得到的樹形結構與無結構文本進行模式匹配，作為信息抽取的抽取規則。

根據實際情況，本文采用了JAPE語法來寫規則，JAPE是一種識別正則表達式的語法規則，它允許你以識別正則表達式的方式標注文檔。通過JAPE語言的定義，我們可以設置出比較精確的規則來幫助實現準確的信息抽取。

一個JAPE語法由一系列的語句組成，每個語句都有一系列模式/動作規則。抽取規則的左側部分(LHS，Left Hand Side)由一些匹配模式組成，可能包括一些正則表達式的操作符號(如*，?，+)，右側部分(RHS，Right Hand Side)是匹配符合后的動作，與左側部分匹配上的標注集將會按照右側的操作執行。左側部分和右側部分被-->符號隔開。

例如:name

Rule:VesselName

(

{Lookup.majorType==name}

)

:name-->

:name.Enamex={kind=\"name\"，rule=VesselName}，

其中，VesselName是這條規則的名字，-->左側是一些匹配模式，-->右側是匹配符合后的動作。

通過對領域Ontology解析后得到的Ontology模型樹中描述了Ontology的概念及層次結構，根據解析后的結果生成識別這些概念和層次結構的規則。如果關系和概念比較復雜，則可以采用在規則的右側編寫Java代碼、事先定義宏，在規則中引用宏等方法來進行處理。這樣，就可以把Ontology的概念、概念之間的關系等反映到規則里去了。

通過規則生成模塊，由領域Ontology生成一條條抽取規則，根據這些規則可以對經過預處理的郵件信息進行匹配，通過信息抽取后得到我們需要的結構化信息。

3 結束語

本系統是針對于特定領域——遠洋運輸業的基于Ontology的信息抽取，結合了信息抽取技術和本體技術，力圖提高信息抽取的召回率和準確率。系統可以通過智能化技術解決遠洋運輸業業務郵件處理的問題，有一定的實際價值。

參考文獻:

[1] 李向陽，苗壯.自由文本信息抽取技術[J].情報科學，2004，22(7):815-821.

[2] Alani H，Kim S.Automatic Ontology Based Knowledge Extraction from Web Documents.IEEE Intelligent Systems.2003，18(1):14-21.

[3] Ralph Grishman.Information Extraction:Techniques and challenges[J].Information Extraction:A Multidisciplinary Approach to an Emergine Information Technology， 1997，1299:10-27.

[4] 畢蕾.基于領域本體的Web信息抽取技術研究[D].揚州:揚州大學，2008.

電腦知識與技術2010年1期

電腦知識與技術的其它文章: 基于Oracle數據庫的SQL語句優化; 基于UML的醫院信息系統建模; 一種新型抵御字典攻擊的方案; 淺談網頁設計的藝術表現形式; 基于最少換乘路徑選擇算法的改進; 基于用戶特征分類的精準廣告投放研究