姜偉
摘?要:新興媒體時代的發展使大量的信息涌入了我們的視線和大腦,廣大網名用戶在面對網上的信息時需要找尋符合自己的資料,在這種情況下,信息抽取發展起來了。國內的信息抽取技術起步時間較短,又由于中文信息的復雜性,所以在中文信息抽取領域,此技術還不是特別的成熟。在本文中,作者對基于規則的中文人名抽取技術進行了初步探索和研究。
關鍵詞:自然語言處理,信息抽取,命名實體識別,人名識別
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-098X(2012)10(a)-0065-02
1 有關背景
信息時代的發展,我們每天都會面臨大量的信息,不同的用戶接觸的信息雖然不同,但用戶都需要從這些大量的信息中抽取出自己感興趣和有實際用途的信息,信息抽取技術在這種情況下慢慢地發展了起來。目前,信息抽取的主要任務是將文字中大量的信息準確地進行分詞、識別、整理,提取出人和事的關鍵特征詞,組織成關鍵語句,方便于查詢檢索,提高檢索效率。在互聯網時代,信息抽取技術是信息檢索技術的技術支撐,它既可以提高檢索效率,又能準確的抓取面對用戶有用的信息。例如,信息抽取系統可以從用戶感興趣的信息中分詞抽取出時間、地點、關鍵人物、原因等,將抽取結果保存在數據庫中,為用戶進一步查詢和分析提供支持和幫助。 信息抽取的關鍵任務包括:命名實體識別、句法分析、篇章分析與推理、知識獲取等。
本文主要對基于規則的中文人名識別與抽取技術進行了研究和實現。
2信息抽取的研究方式
目前,信息抽取主流的研究方式主要有三種:基于規則的、基于統計的和基于規則和統計相結合的方式。
2.1 基于規則的抽取方式
基于規則的信息抽取是一個基于學習經驗和應用的兩個階段過程:規則的確定和應用確定的規則獲取用戶所需要的信息。信息的抽取的規則是建立在大量的學習經驗和既定的某一領域實現的,在經驗學習的基礎上,確定漢語的語言結構和常用文法結構,例如“名詞”+“動詞”,“主語”+“謂語”等形式,在這些規則確立之后,將保存在信息庫中以備匹配。在語句經過分詞后,將這分詞后的結構語句和信息庫中的規則相匹配,確定分詞后的語句結構,再經過句法分析、篇章分析、知識獲取之后,抽取出語句中的有用信息,抽取的任務就完成了。所以,基于的規則信息抽取,規則本身的正確與否是提取成功的關鍵。
2.2 基于統計的抽取方式
基于統計的信息抽取是目前比較常用中文信息抽取技術,也是比較準確和靈活的信息抽取技術。常用的統計模型有:馬爾科夫模型、隱馬爾科夫、最大熵模型等。其中,隱馬爾科夫模型已經形成了比較健全的算法,具備較強的理論基礎,很適合自然語言的處理。
2.3 基于規則和統計相結合的方式
基于規則和統計相結合的方式是一種比較理想的信息抽取技術。基于規則和基于統計的方法雖說都有各自的優點,但是二者的缺點也不可避免。因此,專家提出了將二者結合起來的方法,二者混合方法通過啟發式規則可以減少識別問題的復雜性,與此同時,也通過統計模型增加系統的適應性,并減少由于數據庫的不完全而帶來的負面影響。
2.4 其他方法
當然,信息抽取發展這些年以來,專家們也提出除了以上三種方法之外的其他方法。例如利用機器學習的方法,先建立學習模型,訓練模型,再用訓練的模型對真實文本進行識別;還可以利用機器學習和其他統計模型相結合,或者多種機器學習的方法相結合來識別中文名等,這些方法各有優缺點,在此不再贅述。
以上是信息抽取中比較常見的研究方式,筆者只對基于規則的方式進行了研究,其他方法在以后的學習和研究中會逐漸的深入下去。
3 基于規則的中文人名識別與抽取算法與實現
3.1 基于規則的信息抽取技術的階段
基于規則的信息抽取技術分為兩個階段:規則的確定和規則的應用,其中,規則的確定是此項技術的關鍵。規則提取的起步階段,研究人員大多采用人工編制規則的方法,由于人工編制規則準確度較高,所以在起始階段,此規則得到了廣泛的應用。但是,這種規則提取的方式也有很多弊端。首先,這種規則的提取工作由于牽扯到大量的自然語言處理知識和專業的領域知識,所以只能是具有很精熟的專業知識的人才才能做好,這對人才的獲取就提出了很大的挑戰;其次,在規則提取和編制過程中,由于面對的是大量的文字信息,所以這個過程是比較費時、費力、耗神、枯燥,規則的提取容易出錯,從事規則提取的工作人員成本較高,提高了開發的技術成本。另外,手工提取規則的信息庫比較窄,人力不可能把所有的領域文字信息、所有的語言規則都提取出來,這是不現實的,所以,手工提取規則有其片面性和局限性,覆蓋面較低,系統的可移植性較差。因而在不斷的總結經驗和摸索下,自動地獲取規則逐漸成為受開發人員歡迎的技術,也逐漸成為一個較為普遍的研究課題。
規則的自動提取是從未被標注的文本信息中學習和提取規則,基本不需要專業的領域知識,基本不需要手工參與,避免了大量的工作和枯燥性,這樣便降低了開發的人力成本,可移植性很好,普遍性更強。
但是,由于起步時間較晚,且漢語語法規則的特殊性和復雜性遠遠超過英文,所以目前對中文信息抽取規則提取方法的研究并不是特別多。由于漢語的特異性,英文規則提取技術并不能照搬應用,所以需要研究新的提取方法。
3.2本文采用的規則提取算法
本文提供的算法是從信息中提取出人名。
信息數據庫中已經保存了常用人名的姓氏和名字,供依據規則使用。
所提取的規則如下:人名:<姓氏>+<名字>
具體的算法描述如下:
步驟1:從標注的語料信息中輸入一個實例。
步驟2:對文本進行分詞、詞性標注。
步驟3:對分詞后的文本進行從左到右的掃描,查找姓氏。姓氏是識別姓名的觸發條件。若查到姓氏,則轉到步驟4;否則,轉到步驟6
步驟4:再向右掃描一個字,若所掃描到的字是信息庫中的名字,則抽取出姓氏和名字,轉到步驟6;若不是信息庫中的名字,則轉到步驟5。
步驟5:再向右掃描一個字。若連續掃描的兩個字為信息庫中的名字,則抽取出姓氏和名字。
步驟6:繼續對文本進行從左到右的掃描,若查找到姓氏,則返回步驟4。
步驟7:直至文本信息結束,掃描結束,輸出抽取的名字。
本文所采取的算法可以抽取出人名結構僅為<姓氏>+<名字>,在實際抽取中肯定有很大的局限性。因為人名的結構有很多種形式。主要可分為兩大類:
1)完整形式:即“姓氏+名字”的結構,其中姓氏里包含單姓和復姓,名字包含單字和雙字。
2)不完整形式:這又可分為5類:(1)前綴+姓氏,例如:小姜、老劉;(2)姓氏+后綴,例如:李總、張總、陳老;(3)姓氏+稱謂詞,例如:劉老師、陳市長,王先生;(4)有姓無名,例如:張來到王家后就當自家,從不客氣;(5)有名無姓,例如:政治文件中的錦濤同志。
另外,人名內部可能組成一個詞。即姓氏與名字,或者名字與名字組成詞語,例如:張國立,賀國強,汪洋。人名首部也可能與其上文,人名尾部可能與其下文組合成詞語,例如:有一次開會,馬化騰坐在李彥宏和馬云中間,韓寒冷不丁的寫了一篇文章,鄧小平等同志等。在這些復雜的情況下,需要進一步自然語言的處理。自動分詞能夠區別出在特定的語句環境下,哪些是真正的人名,哪些只是語句中的詞語,所以,想抽取出文本信息中更多的姓名,使抽取出的姓名更準確,還可以進一步完善此基于規則的方法。
4結語
信息抽取有著非常廣泛的應用,搜索技術需要信息抽取技術作支撐才能進一步進行處理,最近新浪和百度合作的抓取相關微博的業務也是信息抽取技術的體現。信息抽取技術是從大量的信息中提取出對用戶有用的信息,存儲到數據庫中以備用戶進一步應用。信息抽取技術是人工智能自然語言處理領域面向實際應用產生的一個新分支。它從一段語言文字中抽取出用戶指定的事件和人物信息,形成一種數據存儲在數據庫中。此種技術雖有較強的可用性和靈活性,但是技術難度也更大,要掌握此種技術,但就作者本人而言,還有一定的距離和難度,需要進一步學習和研究。
基于規則的信息抽取技術在抽取過程中,依托制定好的語言規則,在自動分詞之后只需要進行語言規則的配對就行,所以其優勢在于抽取的速度更快,準確度較高,但不足之處也很明顯,即規則的應用只能在一個特定的領域,不能擴散到其他文字語言領域,系統可移植性差,領域改變之后,需要再進行規則的提取才能進行新領域信息的抽取。
本文中只是簡單的提及基于統計的信息抽取技術,并沒有詳細的介紹和實現,是因為自己在這方面還有很多需要學習,不足以形成理論性的知識,還需要在以后的學習中進一步深入研究和鍛煉。但沒有介紹并不代表作者不重視此項技術,實際上實際應用中,基于統計的方法比基于規則的方法應用更為廣泛。所以以后作者想在這方面深入研究下去的話,基于統計方法的信息抽取技術是必須要學習的。總之,基于規則的信息抽取是信息抽取的一個方面,將來這個領域還有更深層次的內容需要學習。
本文在我校周法國老師的悉心指點下,經過多次改動終于成型,在此特向周老師作出衷心感謝,感謝周老師的耐心指導和對學生成長的關心及包容。
參考文獻
[1]車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005.
[2]常迥.信息理論基礎[M].北京:清華大學出版社,1993.
[3]朱雪龍.應用信息論基礎[M].北京:清華大學出版社,2001.
[4]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機工程與應用,2003.
[5]劉遷,焦慧,賈惠波.信息抽取技術的發展現狀及構建方法的研究[J].計算機應用研究,2007(7).
[6]王小婕,常寶寶.自然語言處理技術[M].北京郵電大學出版社.
[7]王曉龍,關毅.計算機自然語言處理[M].清華大學出版社.