999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工神經網絡的信息抽取技術研究

2023-07-25 18:02:57周圍
中國新通信 2023年9期

摘要:信息抽取技術作為建立知識圖譜與智能問答系統的基礎,也是自然語言處理的關鍵環節。隨著深度學習算法的持續發展,各種新技術在信息抽取中得到了廣泛化地使用。本文首先介紹了信息抽取技術及其主要任務,然后描述了信息抽取的發展歷史,并介紹了不同類型的人工神經技術在信息抽取技術中的實踐和應用。隨后,對信息抽取技術現階段面臨的困境和基本研究方向進行了進一步探討。

關鍵詞:實體抽取;深度學習算法;信息抽取;人工神經網絡

大數據和互聯網帶來了海量數據,人們需要識別相關信息并從中獲取洞察力和關鍵信息。信息抽取技術就是在這樣的背景下誕生了,其也作為建立知識圖譜的基礎。

本文通過文獻綜述的方法,系統地介紹了信息抽取技術的歷史背景和發展路徑。根據技術特征,它可以分為三個子任務:實體提取、關系提取和屬性提取。其中,每個子任務根據其應用領域分為面向特定領域和面向開放領域,根據其數據源分為面向文本和面向網絡。

首先,從深度學習角度探討了進行信息提取的重要性;然后,通過三個國際學術會議(MUC、ACE和ICDM)的視角審視了信息提取的歷史。對實體關系抽取、識別命名實體、屬性抽取等方面進行了詳細地闡述,并對基于人工神經網絡的信息抽取技術發展進行了介紹。最后,對信息提取技術的發展趨勢進行了一系列探究。

一、信息抽取技術的發展和應用

一般來說,信息抽取是指利用計算機技術對大量文本數據進行處理,從中提取出特定信息并將其存儲在數據庫中。這些信息可以是人名、地名、日期等各種類型的實體信息,也可以是事件、關系等復雜的語義信息。信息抽取技術不僅可以提高信息檢索的效率,還可以幫助用戶快速了解文本資料中所涉及的主題和內容。

關于信息抽取的研究可以追溯到20世紀60年代,當時耶魯大學和紐約大學的FRUMP系統是一個著名的例子。隨著自然語言處理技術的不斷發展,信息抽取的研究也逐漸取得了突破性進展。在20世紀80年代后期,世界上召開了信息理解會議,這對信息抽取技術的研究起到了推動作用。會議的召開促進了信息抽取技術的發展,并使其逐漸步入一個新的發展階段。此外,美國國家標準技術研究所(NIST)還舉辦了一場名為“自動內容提取(ACE)評估會議”的全球性會議,為信息抽取的研究帶來了重要意義。與信息理解會議不同,ACE評估沒有針對特定場景或領域,而是采用了一套基于假陽性和誤報的評估系統。此外,ACE還評估了系統的跨文檔信息抽取處理能力,使得信息抽取技術能夠更好地應用于實際場景。

信息抽取包括關系提取、實體提取、子任務與屬性提取等多種類型。而實體識別方法主要分為開放、特定領域兩種。其中特定領域的識別方式主要通過部分經典模型,如隱馬爾可夫模型、最大熵分類模型以及條件隨機場模型等。在面向開放領域的信息抽取中,信息源不再是一個特定的知識領域,而是一個完整的信息網絡和大量的Web語料庫。例如,KnowItAll系統處理大規模和異構的Web語料庫,如Twitter、Wikipedia等。由于傳統統計模型需要大量的語料庫注釋和手動構建大量特征的局限性,出現了一些新的方法,如使用遠程監督算法、半監督算法、自學習方式等,以解決開放實體提取等一系列問題。而在常識基礎上的新型問答系統往往使用的實體提取方法,具有良好的實用性,其主要面向開放領域。

在面向開放領域的信息抽取中,信息來源更為廣泛和復雜,因此需要新的方法來處理這些問題。一些新興的技術,如遠程監督算法、半監督算法和自學習方式等,已被應用于解決開放實體提取等問題。這些方法通過利用大規模和異構的Web語料庫,避免了傳統模型需要大量手動注釋的缺陷。在知識圖譜和智能問答系統中,實體識別也是一個關鍵的技術,它可以幫助用戶快速獲取所需信息。因此,在實際應用中,基于常識的新型問答系統使用的實體提取方法具有良好的實用性,其主要面向開放領域,將為用戶提供更加便捷和高效的服務。

除了自然語言文本和Web文本之外,社交網絡的數據也是一個豐富的數據源。擁有大量的社會網絡結點,并擁有不同的聯系,具有較強的網絡效應。在2010年的國際萬維網大會上,有研究者提出使用基于無監督方法的順序聯合聚類算法來提取包含多個節點的社交網絡中的各種關系。

二、基于人工神經網絡的信息抽取技術

(一)模糊神經網絡模型

1.模糊神經網絡模型的基本思想

在應用過程中,模糊邏輯系統和人工神經網絡系統表現出了許多缺點,因此,在實際應用中,人們往往會將神經網絡與模糊邏輯系統相結合,并通過網絡學習功能的業務來解決具體問題。將效率與模糊邏輯設計相結合可以取得很好的效果,尤其是在工業領域。就目前而言,應用神經網絡和模糊邏輯進行相關分析活動,特別是研究兩者結合的應用和理論,已成為一個熱點問題。將神經網絡與模糊網絡相結合,可以得到模糊神經網絡。它的優勢是可以集成學習、識別、自適應、模糊信息處理和關聯等特點。

神經網絡系統通常用作一般函數估計器,而模糊系統可以用作結構數字估計器。因此,它們具有一般的自適應模型無偏估計函數,同時在正態數學特征和狀態空間上保持一致性。這表明神經網絡可以通過模糊系統進行模糊邏輯推理,并完成神經網絡結構的初始化。和傳統的神經網絡系統相比,模糊神經網絡更具有學習效率和能力。同時,在模糊推理方法的幫助下,神經網絡的結構表達能力與自學習能力都得到了較大地提高,使之成為一種新的發展和應用模式。模糊邏輯推理通常采用神經網絡結構,這使得傳統的神經網絡失去了比較精確的物理意義,并且使得模糊邏輯推理中的神經網絡參數擁有了實際的物理意義。

圖1 人工神經網絡模型

2.神經網絡學習方法

模糊學習是一種基于模糊理論,利用模糊量來計算和度量學習過程的方法。輸入和輸出之間的映射關系也屬于模糊集運算,通過連接權重作為參數。一般的模糊學習算法主要包括模糊規則提取方法和模糊學習算法。前者是指輸入和輸出的模糊數據的映射或關聯,也可以看作一種數據挖掘任務。如果沒有與模糊輸入相關的模糊輸出,則需要進行輸入矢量模糊聚類或模糊輸入空間。

目前的模糊神經網絡雖然有各種各樣的學習算法和結構,但它們有一個共同的特點。即可以有效地利用語言信息,提高學習能力和適應性。分析模糊神經網絡模塊的結構及其權重值具有重要的研究意義。在設計模糊網絡結構時,分析問題的復雜性和精度,建立模糊神經網絡模型,并結合先驗知識。此外,基于先驗知識,通過手動選擇來初始化模糊神經網絡權重。這樣,大大提高了神經網絡的學習速度,有效地防止了梯度優化算法引起的局部極值現象。

3.模糊神經網絡理論中存在的問題

盡管模糊神經網絡已經成功地應用于建模和系統控制,但由于它是一種新技術,在實際應用中仍存在許多問題。目前獲取神經知識的方法比較狹窄。從已有的很多案例來看,仍然沒有更有效的方法來獲得反映其相關特征的模糊模型。模糊神經網絡的模型結構還沒有系統化的建立,模型推理層的節點數、模糊的層次、模糊網絡的反模型和綜合的推理算法等問題都還沒有解決,理論界所包含的計算模型的研究也沒有深入開展。

在神經網絡中,存在模型的復雜性和沖突性。因此,在模糊神經網絡的優化中,還存在一些需要進一步研究的問題。要將神經網絡的功能模塊與一般模式的分析模型有機地結合起來進行分析,需要人們去探究其中的實際情況。

4.模糊神經網絡模型的發展方向和未來應用前景

在模糊神經網絡模型的發展方向上,一方面,研究人員可以探索更加高效、精確的模糊神經網絡模型設計和訓練算法,以提高模型的性能和應用范圍。例如,可以采用改進的模糊邏輯函數、改進的激活函數、改進的優化算法等。另一方面,模糊神經網絡模型可以與其他機器學習算法和技術結合,如深度學習、強化學習等,擴展其應用范圍和性能。

在未來應用前景方面,模糊神經網絡模型將在各個領域得到廣泛應用。例如,在醫療領域,模糊神經網絡模型可以應用于醫療數據分析和診斷,幫助醫生進行疾病預測和患者分類等任務;在交通領域,模糊神經網絡模型可以應用于交通流量預測和交通信號控制,提高城市交通效率和安全性;在金融領域,模糊神經網絡模型可以應用于風險管理和股票預測等任務,為投資決策提供參考。

(二)基于人工神經網絡的信息抽取技術發展

1.信息抽取技術的發展

早期命名實體識別一般使用基于規則。一般來說,語言專家首先根據要識別的實體類型的特征,選擇能夠代表某種實體類型的各種特征,如姓名、職位等,建立一個有限的規則模板,并使用模式匹配提取命名實體[3]。這些系統大多依賴于語言專家的領域知識,這不僅費時費力,而且不可避免。

隨著近年來機器學習的持續化發展,在統計基礎上,機器學習也逐漸應用在信息提取領域。首先,該方法將文本中每個單詞的各種特征(如詞匯特征、詞性標注、詞義特征等)表示為一個特征向量。其次,對大量訓練語料庫進行了多種建模方法的訓練。最后,利用該模型對實體進行識別。常見的模型有:Hmm(隱馬爾可夫模型)、Me(最大熵)、SVM(支持向量機)和CRF(條件隨機場)等[4]。

最近幾年,由于詞匯嵌入技術的出現,將深度學習技術應用于自然語言處理領域。而Wod2vec則是單詞矢量的重要代表。其基本思想是使用同一維度的向量來表示模型中的每個單詞。這不僅解決了高維向量空間帶來的數據稀疏性問題,還將更多的語義特征融入其中。同時,異質文本可以用統一的維向量特征來表示。

2.與人工神經網絡相結合的信息抽取技術

有學者首先利用卷積神經網絡(CNN)進行特征的自動抽取。通過詞性特點與向量對語句進行編碼,并將其分為全連接層、卷積層和軟映射層。與基于核的方法相比,它在ACE 2005數據集上的F1值提高了9%。Zeng等人使用預訓練詞向量和位置特征,以及CNN層后面的最大池層。Nguyen和Grishnian完全放棄了詞性特征,讓CNN自動學習,并使用多窗卷積來獲得不同尺度的n-gram信息,通過端到端的神經網絡以實現最佳效果。

與傳統的機器學習方法相比,基于CNN的方法取得了良好的效果,但CNN提取時間序列特征的能力較弱。而RNN模型適合提取時間的序列特點。還有學者首次應用BRNN(Bidirectional RNN)實施關系提取。BRNN相當于整合了正向和反向的RNN,將句子中的單詞按照正向和反向分別輸入到兩個RNN中,然后將兩個RNN的隱含層疊加。

在2016年,有學者提出在最短依賴路徑(SDP)基礎上的雙向遞歸卷積神經網絡模型;深度學習關系提取模塊。本文的主要思路是對兩個實體之間的網絡語法的SDP進行建模,利用雙通LSTM(Long Short-Term Memory)對SDP的全局信息進行編碼。在此基礎上,我們使用CNN捕獲了相關關聯中的兩個單詞的局部特征,從而提高了它們之間的關聯方向分類能力。

在2016年,Miwa等學者提出了一種基于神經網絡的新的命名實體和基于實體關系的聯合模型。該模型是以LSTM-RNN為基礎的,實現端到端的執行。該模型由三個表示層組成。底層是詞嵌入層,完成信息編碼。在此嵌入層中有兩個雙向的LSTM-RNN。一個是基于詞序的實體識別任務,另一個是基于依賴樹結構的關系提取。這兩部分共享編碼信息并堆疊形成一個整體模型。作為后者結構的輸入的一部分,前者的輸出和隱藏層使實體識別和提取相互作用。

2017年,Katiyar等學者將注意力機理Attention和BiLSTM結合起來,對關系提取與命名實體識別進行了研究。該模型借鑒了Miwa等人的模型,并根據交叉序列、依賴樹等改進了原模型的缺點。該模型有一個輸入層,用一個嵌入的單詞表示,有兩個輸出層,有一個實體用于輸出識別,還有一個使用注意力模型的關系分類。

谷歌的Devlin等學者于2018年提出了BERT模型。BERT是一種預先訓練的語言模型。預訓練模型是指利用大量的自定義文本來預先訓練該模型,使得該模型能夠獲取通用的語言知識,并在此基礎上完成后續的Fine-tuning訓練,該方法既能加快模型的學習速度,又能提高模型的解釋性。使模型參數可以根據具體的任務要求和領域知識進行微調。BERT模式被普遍認為是一項重要的進展,因為BERT可以讓任何人建立包括自然語言處理在內的機器學習模型,并且利用這個功能強大的工具,節省時間和資源。

圖2 基于BERT模型的實體關系抽取流程

近年來,隨著GPT和BERT等數據預訓練模式的出現,使問答任務成為信息抽取技術的一項良好的下游任務。簡單地進行原始神經網絡結構重建,并微調以達到良好的效果。王等人通過使用基于原始BERT的多段預測改進了他們在SQuAD數據集上的性能。Alberti和其他人改進了BERT和SQuAD,并將其應用于更困難的問答數據集NQ。

3.信息抽取技術發展展望

當前,深度學習技術在信息抽取中的應用已有很大的發展,但是還存在很多問題需要深入地研究。首先,深度學習模型擅長處理單句語義信息,但在實踐中,許多實體關系是由多個語句共同表示的,這就要求模型全面理解、記憶和推斷文檔中的多個語句,并提取文檔級關系。其次,當前關于信息抽取的研究多集中于預先設置的任務集,而今后的研究將會是面向開放域的信息提取。因此,有必要不斷探索如何在開放域中自動發現新的實體關系及其事實。最后,當前的研究往往局限于單一語言文本信息,人類在接收信息時可以綜合處理多種信息。因此,有必要探索如何綜合利用多語言文本、聲音和視頻信息提取關系。

三、結束語

本文首先對基于知識圖譜的信息抽取概念和相關構建技術框架進行了一系列的介紹。然后通過三次國際評估會議和信息抽取的三個發展階段(基于規則的階段、統計學習階段、深度學習階段)簡要介紹了信息抽取的歷史。隨后,詳細介紹了結合CNN、RNN、LSTM、BERT等深度學習算法的關鍵信息提取技術的最新發展和一系列案例。最后,對未來信息抽取需要解決的一系列問題及信息抽取技術的未來發展趨勢進行了探討。

作者單位:周圍 上海建工集團股份有限公司

參 ?考 ?文 ?獻

[1]劉遷,焦慧,賈惠波.信息抽取技術的發展現狀及構建方法的研究[J].計算機應用研究,2007,7(07):6-9.

[2]Yi,L.,Mari,O.and Hannaneh,H.(2017)Scientific Information Extraction with Semi-Supervised Neural Tagging.Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing,Copenhagen,September 2017 2641-2651.

[3]SODERLANDS.Learning information extraction rules for semi-structured and Free Text[J].Machine Learning,1999,34(1-3):233-272.

[4]ZHOU G D,SU J.Named entity recognition USing an HMM—based chunk tagger[C]//Proceedings of 40th Annual Meeting of the Association for Computatoional Linguistics.Philadelphia,PA,USA,2002:473-480.

主站蜘蛛池模板: 极品国产在线| 超级碰免费视频91| 国产成人高清精品免费| 欧美精品v欧洲精品| 免费jjzz在在线播放国产| 四虎国产在线观看| 欧美成人午夜在线全部免费| 国产一区二区网站| 九九九精品成人免费视频7| 国产香蕉97碰碰视频VA碰碰看| 国产精品尹人在线观看| 国产超碰一区二区三区| 91无码视频在线观看| 永久毛片在线播| 伊人成人在线| 精品视频免费在线| 97视频在线精品国自产拍| 免费国产高清视频| 国产精品亚洲αv天堂无码| 91亚洲精品国产自在现线| 久久99国产视频| 97视频免费看| 国产午夜看片| 福利国产在线| 久久精品娱乐亚洲领先| 最新午夜男女福利片视频| 国产高清又黄又嫩的免费视频网站| 人妻丰满熟妇啪啪| 午夜丁香婷婷| 国产丝袜第一页| 成人综合网址| 国产99视频免费精品是看6| a毛片在线播放| 国产精品女人呻吟在线观看| 香蕉久久永久视频| 爆操波多野结衣| 男人天堂亚洲天堂| 青青青伊人色综合久久| 免费网站成人亚洲| 欧美在线精品怡红院| 91精品专区国产盗摄| 亚洲成人精品久久| 欧美激情综合一区二区| 免费 国产 无码久久久| 欧美亚洲欧美区| 波多野结衣久久精品| 欧美日韩国产综合视频在线观看| 女人一级毛片| 午夜不卡视频| 天天操精品| 久久一日本道色综合久久| 69av在线| AV色爱天堂网| 久久国产精品电影| 乱人伦视频中文字幕在线| 在线观看免费黄色网址| 最新国产午夜精品视频成人| 免费国产无遮挡又黄又爽| 高清亚洲欧美在线看| 国产亚洲精品va在线| 精品国产自在在线在线观看| 国产91视频免费观看| 亚洲AV无码久久天堂| 国产主播喷水| 欧美成一级| 亚洲国产午夜精华无码福利| 久久精品亚洲中文字幕乱码| 国产三级a| 成人免费网站久久久| 久久综合色天堂av| 亚洲国产中文精品va在线播放| 亚洲欧美另类日本| 在线日本国产成人免费的| 国产午夜福利片在线观看| 高清不卡毛片| 国内精品伊人久久久久7777人| 亚洲不卡影院| 久久伊人久久亚洲综合| 波多野结衣久久高清免费| 亚洲色婷婷一区二区| 日本免费a视频| 欧美三級片黃色三級片黃色1|