999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文短文本實體識別和鏈接探討

2021-01-04 01:47:55
科學與信息化 2021年1期
關鍵詞:文本系統

蘇州大學計算機科學與技術學院 江蘇 蘇州 215000

引言

自進入信息時代以來,互聯網技術蓬勃發展,需要處理的文本信息逐漸增多,為了進一步強化對文本內容的理解,需要相關研究人員結合命名實體進行深入探索。而所謂命名實體,主要指以人名、地名為主的名稱,或以時間、日期為主的表達式等一系列具有明確語義信息文本、字詞或短語。通過對文本中的實體進行識別,能夠為人們進一步了解文本奠定基礎,為機器更加深入的處理文本實體和含義提供保障[1]。

1 中文命名實體識別的相關介紹

中文命名實體識別是研究和處理自然語言的關鍵方向,也是分詞系統、實體連接系統以及文本摘要系統中不可或缺的組成部分。近年來,隨著網絡進程的不斷深入,網絡文本與日俱增,在一定程度上增加了文本信息處理的工作量,使得人們對文本自動化處理產生了迫切需求。

以上提到,命名實體是指具有明確語義的專有名詞,其中包括稱呼、表達式以及數量詞語等。在研究特定的命名實體過程中,需要結合實際場景確定其具體含義。

1.1 人名識別

人名作為明明實體中的重要組成之一,是一個較為特殊的類別,相對于其他專有名詞而言,在識別方面具有一定難度。中文人名在識別中存在的難點具體可以體現在以下幾個方面:第一,外國人名在識別過程中可以將首字母大寫作為標志,而中文人名識別則沒有。第二,人名具有不可列舉特征。當前,只有極少部分的中文人名或昵稱可以在字典中找到,而大部分人名都需要專門識別。第三,中文姓名具有多樣化特征,格式無法統一,并且其中涉及大量音譯外國人名,在一定程度上增加了識別難度。第四,中文人名具有結構復雜特征,其中包括人名本身是一個詞語詞或其中一部分是一個詞語,在識別過程中容易產生歧義。例如:黎明、汪洋等本身成詞的人名,或王國維等部分成詞的人名。

1.2 組織機構識別

組織機構名稱也是出現頻率較為頻繁,并且對文本含義起到重要影響的專有名詞之一。在中文短文本實體識別中,組織機構名稱識別難度較大。具體來說,由于組織機構名稱長短不一,并且存在嵌套或者縮寫等情況。因此,在組織名稱較長的文本識別過程中,可以通過先局部、在合并的方式進行識別,而后結合中文短文本中的前后關系,提取組織機構名稱的識別方法。

1.3 地名識別

地名識別相對于人名識別和組織機構識別而言相對簡單。地名一般具有顯著特征,并且絕大多數地名都被收錄到字典中,并且與其他專有名詞相比,新增地名的可能性相對較低。

2 中文命名實體連接的相關介紹

在研究命名實體識別過程中,雖然通過標記專有名詞,能夠進一步解專有名詞在文本中的類型及相關位置,但是無法為人們深入掌握名詞提供依據,對于中文短文本識別而言,理解和解釋專有名詞,才是識別命名實體的重要內容。

通過實體連接,可以用某個百科全書或知識庫文章中的條目,對專有名詞進行標記。由此可見,實體連接具備簡潔性和抽象性特征,通過給定一組查詢名詞或者相關背景,能夠使人們從已有知識庫中找到與文本識別向匹配的實體項,從而對專有名詞做出標記[2]。如果知識庫中沒有與文本相對應的實體向,則返回NIL。在此過程中需要注意,實體連接雖然是一種較為便捷的專有名詞解釋方法,但是更加適用于被復雜任務的自然語言處理系統。

另外,并非百科全書就一定具有全面性,其中也并非收錄所有實體。例如:在謀篇中文短文本中出現“李白”這一人名后,大多數人都會自然而然聯想到唐代詩人李白,在知識庫中雖然有唐代詩人李白的相關條目,但是文本中所指的“李白”,也可能知識普通人群中的一員,此時,需要將這一專有名詞標記為NIL,表示知識庫中沒有對這一實體進行描述的內容。

3 中文短文本實體識別和鏈接之間的關聯性

想要進一步解決實體識別與實體鏈接問題,研究人員廣泛應用了管道體系。具體來說,研究人員利用一個命名實體識別系統,對專用名詞的具體位置和類型進行標示。而后用實體鏈接系統深入研究專有名詞的位置和類型,從而對專用名詞在中文短文本中的意義進行揭示。與其他管道體系弊端相同,這種方式也存在一定的不足之處,即在實體識別系統中存在的錯誤,會持續傳遞到實體鏈接系統中[3]。具體體現在以下三點:第一,一旦實體識別存在錯誤,并且傳遞到練習系統,則導致錯誤無法恢復和彌補。第二,中文短文本實體識別,無法利用實體連接系統中使用的相關信息。第三,實體識別系統與實體鏈接系統產生的輸出不一致。也就是說,實體鏈接系統標記的專有名詞與實體識別系統給出的類別標記不一致。

曾有專業研究人員明確提出,在中文短文本處理過程中,將系統的F1精度設置到0.64~0.67之間。如果實體識別結果正確,此時實體連接系統精度也相對較高。本文在此基礎上提出一種新型模型,用于命名實體識別處理和鏈接任務中[4]。另外,如果中文短文本具有短小、缺乏完整性、句法結構異常等缺陷,首先需要考慮知識庫中的信息,并對實體進行深入分析。

4 結束語

綜上所述,自然語言處理具有一定困難性和挑戰性,其主要原因在于自然語言表達具有多言行特點。簡單來說就是同一實體存在多種表達方式,并且多種表達方式的意思又具有一致性。因此,本文結合中文短文本實體識別和實體連接的相關介紹進行分析,通過對實體識別的位置和類型進行標示,利用實體連接在知識庫中找到相應條目,從而確定文本實體的含義,為人和機器進一步掌握詞義奠定基礎。

猜你喜歡
文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統
在808DA上文本顯示的改善
半沸制皂系統(下)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产午夜精品一区二区三区软件| 激情综合网激情综合| 2024av在线无码中文最新| 亚洲成综合人影院在院播放| 国产人免费人成免费视频| 国产三区二区| 国产粉嫩粉嫩的18在线播放91| 国产夜色视频| 麻豆精品国产自产在线| 国产精品亚欧美一区二区| 成人精品视频一区二区在线| 99热这里只有成人精品国产| 午夜视频免费一区二区在线看| 亚洲av片在线免费观看| 日韩资源站| 九九久久99精品| 久久99国产乱子伦精品免| 免费一级毛片不卡在线播放| 狼友av永久网站免费观看| 一级成人欧美一区在线观看| 免费视频在线2021入口| 国产成人综合网| 欧美在线伊人| 91成人免费观看在线观看| 视频二区国产精品职场同事| 日本www色视频| 亚洲国产成人超福利久久精品| 午夜性刺激在线观看免费| 福利姬国产精品一区在线| 欧美久久网| 午夜限制老子影院888| 激情影院内射美女| 国产亚洲精品精品精品| 免费福利视频网站| 欧美日韩91| 中文字幕在线一区二区在线| 国产无遮挡裸体免费视频| 在线观看精品自拍视频| 蝌蚪国产精品视频第一页| 欧美成人看片一区二区三区 | 亚洲第一成人在线| 久久精品国产亚洲AV忘忧草18| 亚洲成人在线免费观看| 在线观看免费国产| 亚洲欧州色色免费AV| 欧美成人免费| 欧美a网站| 国产成人成人一区二区| 一级福利视频| 5555国产在线观看| 亚洲国产综合自在线另类| 中文字幕乱妇无码AV在线| 四虎精品免费久久| 亚洲欧美成人影院| 国产又色又爽又黄| 国产乱人免费视频| 一本视频精品中文字幕| 亚洲精品无码人妻无码| 超碰91免费人妻| 国产性精品| 在线观看无码av免费不卡网站 | 老司机久久精品视频| 亚洲日本精品一区二区| 毛片在线区| 精品视频在线一区| 国产九九精品视频| 久久天天躁夜夜躁狠狠| 国产在线日本| 精品视频福利| 4虎影视国产在线观看精品| 国产成人高清在线精品| 91青草视频| 久久精品免费看一| 亚洲天堂色色人体| 毛片a级毛片免费观看免下载| 欧美日韩专区| 久久免费看片| 网久久综合| 中文字幕无线码一区| 色综合热无码热国产| 97国内精品久久久久不卡| 91年精品国产福利线观看久久|