本文首先介紹了自然語言處理的概念,并給出了自然語言處理模型,與此同時,分析了依存句法的有關問題,包括其公理以及具體分析方法等,最后闡述了基于依存句法的實體關系抽取過程。
【關鍵詞】計算機 自然語言處理 依存語法 實體關系抽取
計算機技術與人工智能的結合,形成了自然語言處理,使得人與計算機的結合更加緊密,依存句法能夠實現對實體關系的抽取和對自然語言的分析,進而使自然語言處理成為可能,這對于信息抽取效率的提高以及人與計算機之間聯系的加強意義重大。
1 自然語言處理
1.1 自然語言處理的概念
自然語言處理,是計算機領域的一種技術,是計算機技術發展到一定階段,與人工智能逐漸結合的產物。自然語言即人類的常用語言,自然語言處理的意義在于,對上述語言進行處理,使其能夠被計算機所識別,進而將其應用于計算機軟件系統當中,使軟件的研發以及修改等得以實現的一種技術。鑒于語言本身存在復雜性的特點,因此自然語言處理的實現也十分復雜,建立相應的計算模型,是使處理過程能夠有效實現的基礎。
1.2 自然語言處理模型
自然語言處理模型由自然語言(N)、問題(P)、模型(M)、算法( A)、輸入集(I)與輸出集(O)幾種因素組成。自然語言屬于人類的語言,計算機作為機器,不能夠對其進行識別,將其轉換為問題,能夠使其與計算機的識別要求相適應,與此同時,使其以模型的方式體現,可以使自然語言處理得以實現。在充分考慮輸入集的前提下,應用相應的算法,將其與在問題的基礎上所得到的模型相結合,能夠產生輸出集,最終完成自然語言處理過程。
2 依存句法
依存句法的應用,是實現自然語言處理的基礎。在依存句法的基礎上,自然語言能夠以依存樹等形式存在,為語言的處理提供了便利條件。
2.1 依存句法公理
依存句法的公理主要包括以下幾方面內容:
(1)一個句子中,必須只有一個獨立成分,且該成分不依存于其他成分。
(2)在一個句子中,其他成分必須依存與某一成分。
(3)在一個句子中,無論對于任何成分而言,其所依存的成分最高數量為1,不能超過這一數量,簡單的說,句子中的任意成分,其所依存的成分量,不能大于等于2。
(4)假設句子中存在三個成分,分別為1、2和3,在三個成分當中,如果1直接依賴于2,而3在1與2中間,那么3既可以依存于1,又可以依存于2,但需要認識到的是,一定要堅持第三點公理,3必須單獨依賴于1或2。除此之外,成分3頁可以既不依賴于1,也不依賴于2,而是依賴于兩者之間的某一成分N。
2.2 依存句法分析方法
2.2.1 依存句法結構
目前計算機領域主要存在三種依存句法結構,分別為依存樹、有向圖以及依存投射樹。依存樹以樹狀的形式存在,是依存句法用于實現自然語言處理的主要結構之一。有向圖充分考慮了句子各個成分之間的關系,例如主語與謂語的關系、動詞與賓語之間的關系以及定語與中心詞之間的關系等,在分析句子各詞語上述關系的基礎上,實現自然語言處理,完成對自然語言的分析,使其能夠成為計算機所能夠識別的語言。依存投射樹指的是與依存樹基本一致,但同時又有所不同,主要體現在投射方面,在應用時,需要對兩者加以區別。
2.2.2 依存句法分析方法
依存句法分析方法有很多種,每一種類所依靠的原理不同。至今為止主要包括基于泰尼埃理論的依存句法分析方法、基于上下文無關文法的分析方法、基于約束的依存分析方法等。上述方法均根據依存句法分析方法所依靠的原理的不同來劃分。除此之外,還可以以統計為標準,實現對依存句法的劃分。或將上述兩種劃分方法相結合,實現依存依據的分析。
3 基于依存句法的實體關系抽取
3.1 實體關系抽取
社會的不斷發展,使得每一天所產生的信息量也在不斷加大,為計算機對數據以及信息的處理帶來了極大的困難。實體關系抽取,能夠使不同信息識別的準確性得到提高,對于信息處理效率的提升極為重要。在實體抽取下,所抽取出的知識要素,會以離散的形式存在,能夠有效的反映出文本中所存在的實體的內容,同時也就能夠達到識別實體的目的,但需要認識到的是,實體識別無法判斷不同實體之間的關系。將實體識別與關系抽取相結合,既能夠達到準確反映實體情況的目的,又能夠使各實體之間的關系得以體現,將上述過程建立在依存句法的基礎上,能夠極大的提高信息識別的效率以及有效性。
3.2 基于依存句法的實體關系抽取
依存句法能夠有效的分析出句子中各詞語之間的依存關系,通過對其這一功能的應用,可以使實體關系抽取成為可能。依存句法結構包括有向圖結構,以“他是一個壞人”為例,在上述結構下,“他”與“是”成主謂關系,“是”與“人”為動賓關系,“一個”與“人”為定中關系。“壞”與“人”同樣呈定中關系。依靠依存句法,上述自然語句中各實體之間的關系能夠有效的體現,同時,也能夠將各個實體在語句中所扮演的角色識別,即滿足了實體識別的功能,又滿足了關系抽取的功能,使得實體關系抽取得以實現。
由此可見,在考慮依存句法的基礎上,實現實體關系抽取,能夠使抽取過程更加簡單,因此也就能夠使計算機更好的識別出自然語言,從長遠的角度看,這對于人工智能水平的進步,具有重要的現實意義。
4 結論
綜上,自然語言處理是將人與計算機相聯系的主要途徑,而處理過程的實現,則需要依靠實體關系抽取過程來完成。實體關系抽取較為復雜,以依存句法為基礎,將其種種結構圖進行應用,能夠有效的完成實體識別以及關系抽取的過程,使得計算機能夠有效的識別出每一個實體,并分析出其與其他實體之間的關系,使得自然語言處理效率得到了極大的提高。
參考文獻
[1]徐健,張智雄,吳振新.實體關系抽取的技術方法綜述[J].現代圖書情報技術,2014,12(08):12-14.
[2]車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2014,19(02):1-5.
[3]奚斌,錢龍華,周國棟,等.語言學組合特征在語義關系抽取中的應用[J].中文信息學報,2013,22(03):14-16.
[4]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關系抽取[J].中文信息學報,2014,28(06):183-186.
[5]董靜,孫樂,馮元勇,等.中文實體關系抽取中的特征選擇研究[J].中文信息學報,2013,20(04):70-75.
作者簡介
周亮俊(1992-),男,浙江省溫州市人。同濟大學碩士研究生。研究方向為自然語言處理。
作者單位
同濟大學計算機科學與技術系 上海市 201804