999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GATE框架的中文信息抽取技術(shù)的研究

2009-04-29 00:00:00劉金亮宗克玄
電腦知識與技術(shù) 2009年24期

摘要:介紹了信息抽取技術(shù)的基本概念、GATE信息抽取系統(tǒng)的抽取過程。對現(xiàn)有的信息抽取系統(tǒng)構(gòu)建方法進行了介紹,指出了構(gòu)建中文信息抽取系統(tǒng)所需要解決的關(guān)鍵問題及解決辦法。

關(guān)鍵詞:GATE;信息抽取;中文

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)24-6857-02

The Chinese Information Extraction Research Based on GATE

WU Fang1, ZHENG Jun1, LIU Jin-liang2, ZONG Ke-xuan1

(1.Cangzhou Medical College,Changzhou 061001, China; 2.Cangzhou Electric Power Company of Hebei,Changzhou 061001,China)

Abstract: Introduced the concepts about information extraction and the information extraction process of GATE. The existing methods of information extraction were interpreted in this paper. In the final, it pointed out key issues and solutions of building Chinese information extraction systems.

Key words: GATE; information extraction; Chinese

隨著網(wǎng)絡的迅猛發(fā)展,社會的信息總量成指數(shù)級增長。為了應對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。信息抽取(Information Extraction,IE)正是解決這個問題的一種方法。

信息抽取是指從一段文本中抽取指定的事件、事實等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù)庫,供用戶查詢和使用的過程。也就是從文本中抽取用戶感興趣的事件、實體和關(guān)系,被抽取出來的信息以結(jié)構(gòu)化的形式描述,然后存儲在數(shù)據(jù)庫中,為各種應用提供服務。

本文通過研究語義信息抽取工具GATE,提出了構(gòu)建基于GATE的中文信息抽取系統(tǒng)的總體思路。具有很好的實際應用價值。

1 GATE的介紹

自然語言處理框架GATE(General Architecture for Text Engineering,文本工程通用框架),是目前自然語言處理領(lǐng)域比較受推崇的一個開源項目,它是一個應用非常廣泛的自然語言處理開放型基礎架構(gòu),為用戶提供了圖形化的開發(fā)環(huán)境,被許多自然語言處理項目尤其是信息抽取的項目所采用。該系統(tǒng)對語言處理的各個環(huán)節(jié)——從語料收集、標注、重用到系統(tǒng)評價均能提供很好的支持。

1.1 GATE的功能

GATE自然語言信息抽取系統(tǒng)致力于解決在語言工程領(lǐng)域的問題,是該領(lǐng)域開發(fā)和試驗的工具箱。它具體完成以下三種功能:

1)為語言處理軟件提供總體的開放架構(gòu)。

2)提供用于自然語言處理的可重用組件,能夠嵌入到各種不同語言處理的程序中。

3)為語言處理軟件的研究和開發(fā)提供一種方便的圖形化的環(huán)境。

1.2 GATE的系統(tǒng)結(jié)構(gòu)

GATE共有三個基本模塊,如圖1所示。

1.2.1 GATE文檔管理器

GATE的數(shù)據(jù)存儲通過GATE文檔管理器DGM來實現(xiàn),GATE中的數(shù)據(jù)存儲有兩種機制:關(guān)系型數(shù)據(jù)庫;基于文件系統(tǒng)的存儲,使用Java序列化或基于XML的內(nèi)部格式。

1.2.2 CREOLE的管理

GATE把所有的自然語言處理系統(tǒng)元素細分為幾種不同的組件,稱為資源。GATE中具備共同的可重用特征的資源,統(tǒng)一稱作CREOLE(面向語言處理的可重用對象集合),以GATE為基礎的語言處理系統(tǒng)中所有的文本分析工作都通過CREOLE模塊來完成。

1.2.3 GATE圖形用戶接口

只要符合GATE的規(guī)范,調(diào)用特定的API就可以通過GUI在同一界面中顯示。

以上這些GATE的組件,使GATE本身具有很強的擴展性。我們可以把GATE看作一個基礎的開發(fā)和部署框架,可以在其中加載很多可重用的功能組件。其它程序語言以及數(shù)據(jù)庫可直接調(diào)用GATE的API。GATE能方便的與其它系統(tǒng)以及處理模塊進行集成與通訊,系統(tǒng)地解決信息抽取的問題。

1.3 GATE與信息抽取

GATE在信息抽取技術(shù)方面分為結(jié)構(gòu)化信息抽取和非結(jié)構(gòu)化信息抽取。結(jié)構(gòu)化信息抽取即根據(jù)HTML原始標簽進行信息抽取,非結(jié)構(gòu)化信息抽取即基于語義的信息抽取。兩種抽取技術(shù)各有優(yōu)勢,在實際應用中一般配合使用。在GATE的信息抽取中,可以使用網(wǎng)頁的原始標注功能進行抽取,這也是最簡單、最直接的方法。但它對于網(wǎng)頁結(jié)構(gòu)不規(guī)范的原始數(shù)據(jù)信息無能為力。所以對于一些非結(jié)構(gòu)化的信息,就需要結(jié)合GATE中的命名實體識別技術(shù)。

GATE框架的出現(xiàn)為信息抽取的研究提供了一個很好的平臺,目前已經(jīng)出現(xiàn)了基于該框架的針對自由文本的抽取系統(tǒng)ANNIE,該系統(tǒng)是一個可重用,并且容易擴展的組件集合。同時為了更好的支持領(lǐng)域知識,GATE框架也提供了部分的領(lǐng)域本體支持功能。

GATE能夠比較成熟的處理英文信息抽取,擁有基于該框架的針對自由文本的抽取系統(tǒng)ANNIE,而對于中文信息抽取的支持,但目前GATE的中文處理組件并沒有開發(fā)完成,缺少一些配置文件,還不可以運行。在編寫了相關(guān)配置文件以后,可以運行起來,但結(jié)果并不能另人滿意。

2 基于GATE框架的中文信息抽取系統(tǒng)

通過上面的介紹我們了解到GATE并不是一個為中文定制的信息抽取系統(tǒng),而其中文信息處理組件需要我們自己動手開發(fā)。那么要實現(xiàn)一個基于GATE框架的中文信息抽取系統(tǒng),首先我們就要提出一個具體的解決方案。

2.1 基于GATE的中文信息抽取系統(tǒng)的總體思路

GATE在中文信息抽取過程中不足的原因并不是GATE框架本身的問題,而是沒有針對中文特點對ANNIE進行優(yōu)化。要完成GATE中文信息抽取系統(tǒng),其中最重要的一點就是要構(gòu)建GATE框架中的中文信息抽取組件,而這其中最重要的就是編寫中文詞表和中文JAPE抽取規(guī)則。

下面針對中文語言特點,說明具體的調(diào)整思路,包括以下三點:

2.1.1 提供充足的中文詞表

如果希望GATE的中文信息抽取在實際領(lǐng)域中進行應用,那么我們需要提供一個相對大而且全的專業(yè)詞表。

2.1.2 在命名實體識別的過程中,用JAPE重寫針對中文規(guī)則,提高識別準確率

針對英文信息抽取編寫的很多JAPE規(guī)則都并不能適用于中文信息抽取,所以需要撰寫大量針對中文信息抽取規(guī)則,從而提高命名實體識別的準確率。

GATE系統(tǒng)是基于規(guī)則的信息抽取系統(tǒng),通過JAPE語言的定義,我們可以設置出比較精確的規(guī)則來幫助實現(xiàn)準確的命名實體識別。首先了解編寫一條JAPE規(guī)則的要領(lǐng),然后把規(guī)則應用在具體的中文語言環(huán)境中,才可以起到提高命名實體識別準確率的作用。

2.1.3 對于網(wǎng)頁文本其中部分可以使用HTML標簽標注直接抽取

對于HTML的標簽標注在有些情況下也有一定意義,如標簽中一般來說標注的是一篇文章的標題信息。那么對于這些直接在HTML中標注出來的信息,只需要使用GATE的Original markups直接提取所需要的信息就可以了。

2.2 GATE語義信息抽取

在GATE語義信息抽取中共有三種組件:語言組件(LR),處理組件(PR)和可視化組件(VR),所有這些組件都需要在配置文件creole.xml中進行聲明,從而指定該組件需要的參數(shù)。中文信息抽取組件就是通過編寫Chinese組件的配置文件creole.xml、中文詞表及JAPE規(guī)則來實現(xiàn)的,下面從PR的創(chuàng)建、creole.xml的書寫兩個方面來描述基于GATE的中文語義信息抽取系統(tǒng)的實現(xiàn)過程。

2.2.1 PR的實現(xiàn)

GATE中的所有PR都是抽象類AbstractprocessingResource的子類,并且實現(xiàn)了ProcessingResouree接口。每一個PR都分為初始化和執(zhí)行兩個步驟。所有的PR都采用管道的方式進行組織,更換或者修改其中的若干個PR不會對系統(tǒng)的整體產(chǎn)生影響,便于系統(tǒng)的升級和不同系統(tǒng)之間模塊的復用。

2.2.2 Creole.xml的書寫

creole.xml文件作為配置文件對系統(tǒng)中每個需要實現(xiàn)的PR進行定義和組織,其中PR作為RESOURCE元素,可以定義它的名字、實現(xiàn)的類、參數(shù)和注釋等。系統(tǒng)在通過管道調(diào)用PR時,會首先讀入creole.xml文件,然后獲取針對每個PR的描述。

2.3 GATE結(jié)構(gòu)化信息抽取

GATE中的結(jié)構(gòu)化信息抽取,是基于標簽的原始標注功能進行的抽取。在此功能模塊中可以進行快捷的信息抽取,但由于在原始數(shù)據(jù)中結(jié)構(gòu)規(guī)范的信息比較少,所以此功能的應用也比較有限。下面簡單介紹一下結(jié)構(gòu)化信息抽取模式的優(yōu)點及缺點。

優(yōu)點:簡單、精確、技術(shù)難度低、方便快速部署。缺點:需要針對每一個信息源的模板進行單獨的設定,在信息源多樣性的情況下維護量巨大是不可完成的維護量。所以這種方式適合少量信息源的信息處理。

因此,要實現(xiàn)信息源中中文信息關(guān)鍵詞的抽取,僅僅依靠結(jié)構(gòu)化信息抽取是遠遠不夠的。所以結(jié)構(gòu)化信息抽取要和GATE語義信息抽取相結(jié)合,才能保證所需信息的完善、準確。

3 結(jié)束語

當前盡管國外研究信息抽取的項目眾多,但是相對都關(guān)注英文的信息抽取。本文分析中文信息抽取過程的技術(shù)難點,對中文信息抽取系統(tǒng)框架和細節(jié)進行了深入的思考,探索性地提出了基于GATE進行中文信息抽取的技術(shù)解決方案。希望能夠通過當前的研究,為繼續(xù)深入中文信息抽取的探索提供有益的借鑒。

參考文獻:

[1] 李保利.信息抽取研究綜述[J].計算機工程與應用,2003(10):1-5.

[2] 陳少飛.Web信息抽取技術(shù)研究進展[J].河北大學學報,2003(1):106-112.

[3] 李向陽.一種網(wǎng)上圖書信息抽取方法[J].情報學報,2004(6):655-660.

[4] J.Myllymaki, Effective Web Data Extraction with Standard XML Technologies[J].In Proc.of the Tenth International World wide Web Conference,2001:pp689-696.

主站蜘蛛池模板: 无码综合天天久久综合网| 欧美日韩综合网| 亚洲日韩精品伊甸| 99er这里只有精品| 亚洲视频四区| 天天色综合4| 中文字幕亚洲另类天堂| 亚洲天堂免费观看| 亚洲欧美不卡| 亚洲一级毛片在线观| 中文字幕乱码中文乱码51精品| 亚洲性影院| a毛片基地免费大全| 无码日韩精品91超碰| 亚洲欧美国产视频| 内射人妻无套中出无码| 中文毛片无遮挡播放免费| 亚洲国产精品VA在线看黑人| 欧亚日韩Av| 亚洲AV一二三区无码AV蜜桃| 手机在线免费不卡一区二| 久久久久久午夜精品| 久久性妇女精品免费| 亚洲色精品国产一区二区三区| 国产99欧美精品久久精品久久 | 一区二区三区国产精品视频| 精品色综合| 青青草国产在线视频| 国产精品午夜电影| 中文字幕丝袜一区二区| 青青青国产在线播放| 国产91精品最新在线播放| 亚洲国产天堂久久综合226114| 国产丝袜丝视频在线观看| 亚洲Va中文字幕久久一区| 久久精品人人做人人爽97| AV在线天堂进入| 亚洲 欧美 偷自乱 图片| 夜精品a一区二区三区| 91在线激情在线观看| 99性视频| 久热精品免费| 免费一极毛片| 四虎精品国产AV二区| 97久久人人超碰国产精品| 久无码久无码av无码| 亚洲码一区二区三区| 亚洲区欧美区| 国产精品视频系列专区 | 国产爽歪歪免费视频在线观看| 免费又黄又爽又猛大片午夜| a级免费视频| 91 九色视频丝袜| 一本色道久久88| 高清亚洲欧美在线看| 国产超碰一区二区三区| 中文字幕一区二区视频| 91原创视频在线| 一区二区影院| 精品国产免费观看| 精品亚洲欧美中文字幕在线看| 欧美色99| 免费看美女毛片| 亚洲 日韩 激情 无码 中出| 中国国产一级毛片| 久久精品人人做人人爽| 国产特一级毛片| 欧美性色综合网| 18禁不卡免费网站| 欧美日韩亚洲综合在线观看| 日本一区二区三区精品AⅤ| 综合久久久久久久综合网| 黄片在线永久| 婷婷五月在线视频| 国产无码高清视频不卡| 国产精品自在在线午夜| 亚洲Aⅴ无码专区在线观看q| 波多野结衣一二三| 日韩视频福利| 第一页亚洲| 伊人久久久久久久久久| 亚洲av无码人妻|