999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實(shí)體識(shí)別在數(shù)字人文中的應(yīng)用
——基于ETL的實(shí)現(xiàn)*

2020-05-12 07:51:06朱武信夏翠娟
圖書館論壇 2020年5期
關(guān)鍵詞:關(guān)聯(lián)文本

朱武信,夏翠娟

0 引言

命名實(shí)體識(shí)別NER(Named Entity Recognition)是自然語言處理NLP(Natural Language Processing)組成部分,是指從文本中提取出命名實(shí)體,而命名實(shí)體是指人名、地名、時(shí)間等信息。圖書館用NER進(jìn)行數(shù)據(jù)挖掘,從摘要、正文提取大量的命名實(shí)體,為構(gòu)建知識(shí)圖譜、支持?jǐn)?shù)字人文研究和服務(wù)打下了基礎(chǔ)。學(xué)界在命名實(shí)體應(yīng)用方面做了很多研究,提出了規(guī)則提取、關(guān)系提取、正則提取、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等方法。

上海圖書館(以下簡(jiǎn)稱“上圖”)有大量數(shù)字化館藏資源,其挖掘離不開NER技術(shù)的推動(dòng)。上圖在構(gòu)建數(shù)字人文平臺(tái)初期,便使用了各種工具與方法進(jìn)行數(shù)據(jù)加工,包括OpenRefine、基于Python的正則提取等,解決了一些問題,但也存在不足:一是識(shí)別效率低、人工成本高;二是識(shí)別的內(nèi)容僅僅是文本,后續(xù)若要和其他數(shù)據(jù)進(jìn)行關(guān)聯(lián),還需投入更多人力、物力和時(shí)間。為解決上述問題,本研究研發(fā)基于數(shù)字人文與漢語言處理包HANLP(Han Language Processing)技術(shù)的命名實(shí)體識(shí)別工具。HANLP是一個(gè)在github平臺(tái)上開放的NLP開源工具包,開發(fā)語言是JAVA,提供中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析等功能。本研究主要采用隱馬爾夫(HMM)模型進(jìn)行分詞模型訓(xùn)練、最短路分詞和依存句法分析中基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器。

命名實(shí)體識(shí)別工具的詞典源于上圖的數(shù)字人文知識(shí)庫。選用之有3個(gè)原因:(1)NER要提取的實(shí)體信息與數(shù)字人文所定義的人名、地名、時(shí)間、事件不謀而合。(2)2014年以來,上圖通過本體建模方法搭建了多個(gè)數(shù)字人文平臺(tái)與知識(shí)庫,有大量的數(shù)據(jù)基礎(chǔ)。上圖數(shù)字人文平臺(tái)在功能上分為兩類:一類是家譜知識(shí)服務(wù)平臺(tái)、盛宣懷檔案知識(shí)庫等以提供文獻(xiàn)服務(wù)為主的文獻(xiàn)知識(shí)庫;另一類是人名、地名、時(shí)間、事件為一體的基礎(chǔ)知識(shí)庫。本研究選擇作為詞典的知識(shí)庫指的是上圖數(shù)字人文基礎(chǔ)知識(shí)庫。(3)上圖的數(shù)據(jù)是關(guān)聯(lián)數(shù)據(jù),具有語義性,將其作為詞典,則命名實(shí)體識(shí)別的結(jié)果也具有關(guān)聯(lián)數(shù)據(jù)的特性,可以通過本體獲取更多相關(guān)信息。

本研究結(jié)合數(shù)字人文與NER,研發(fā)基于關(guān)聯(lián)數(shù)據(jù)的命名實(shí)體識(shí)別工具,并對(duì)文本進(jìn)行數(shù)據(jù)挖掘,提取相關(guān)人名、地名等實(shí)體信息,優(yōu)化上圖ETL流程。

1 現(xiàn)狀調(diào)研

關(guān)聯(lián)數(shù)據(jù)概念于2006年由蒂姆·伯納斯-李提出[1],其時(shí)互聯(lián)網(wǎng)上已發(fā)布大量數(shù)據(jù)集。國內(nèi)外大學(xué)、圖書館通過數(shù)字人文構(gòu)建了知識(shí)庫與知識(shí)圖譜,比較著名的有哈佛大學(xué)中國歷代人物傳記資料庫(CBDB)、基于維基百科的DBpedia、OCLC的虛擬國際規(guī)范檔、復(fù)旦大學(xué)中國歷史地理信息(CHGIS)系統(tǒng)、上海圖書館數(shù)字人文開放平臺(tái)等。上圖在數(shù)字人文領(lǐng)域的探索取得較多成果,比如構(gòu)建家譜知識(shí)服務(wù)平臺(tái),提供人物、地名、時(shí)間相關(guān)的基礎(chǔ)知識(shí)平臺(tái)。2017 年上圖搭建人名規(guī)范知識(shí)庫,運(yùn)用關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布了近130 萬人名實(shí)體;地名基礎(chǔ)數(shù)據(jù)包含1,800余個(gè)縣與縣級(jí)以上的地名;2019年發(fā)布上海地名志信息,包括2,264條馬路三元組。目前這些實(shí)體已經(jīng)對(duì)外開放服務(wù)。

命名實(shí)體識(shí)別技術(shù)在數(shù)字人文中的應(yīng)用,國外起步較早,2011年研發(fā)了名為DBpedia Spotlight的 NER 工具。Palo 基于 DBpedia Spotlight 工具,通過質(zhì)量測(cè)量方法與DBpedia本體進(jìn)行文本自動(dòng)標(biāo)注[2],驗(yàn)證了利用實(shí)體進(jìn)行命名實(shí)體識(shí)別的可行性,該工具在互聯(lián)網(wǎng)上開放給大眾使用。Ferragina等發(fā)布基于TagMe算法,以維基百科實(shí)體為基礎(chǔ),實(shí)現(xiàn)快速標(biāo)注文本短語的工具,標(biāo)注結(jié)果信息豐富且與維基百科信息互相關(guān)聯(lián)[3],但所用知識(shí)庫僅支持英語。Usbeck 等提出將AGDISTIS 方法用于命名實(shí)體識(shí)別,以標(biāo)簽與HITS 算法進(jìn)行提取[4]。Speck等研發(fā)FOX 工具,通過實(shí)體關(guān)聯(lián)技術(shù)與EL 算法,實(shí)現(xiàn)文本轉(zhuǎn)換,提取出RDF(Resource Descripition Framework)數(shù)據(jù),F(xiàn)值(F-Measure)達(dá)95.23%[5]。張海楠、Lample 等提出運(yùn)用神經(jīng)網(wǎng)絡(luò)來解決NER 問題,通過非監(jiān)督學(xué)習(xí)進(jìn)行識(shí)別,以降低人工成本[6-7],此方法雖然識(shí)別度高,但提取的文本僅是字符串,缺少語義性與關(guān)聯(lián)性。

上述命名實(shí)體識(shí)別工具雖然識(shí)別效果較好,具有借鑒作用,但無法滿足上圖所需場(chǎng)景:一是上述工具的詞典與上圖需要加工的歷史人文數(shù)據(jù)不匹配;二是識(shí)別工具要根據(jù)人名、地名、時(shí)間、事件、自定義標(biāo)簽等進(jìn)行識(shí)別;三是識(shí)別結(jié)果應(yīng)是關(guān)聯(lián)數(shù)據(jù),與上圖已有關(guān)聯(lián)數(shù)據(jù)形成關(guān)聯(lián)。

2 命名實(shí)體識(shí)別工具需求與設(shè)計(jì)

2.1 命名實(shí)體識(shí)別系統(tǒng)需求

上圖在眾多基礎(chǔ)知識(shí)庫與服務(wù)平臺(tái)的建設(shè)實(shí)施過程中,通過OpenRefine工具與人工處理的方法,對(duì)大量文本進(jìn)行數(shù)據(jù)加工與實(shí)體提取,取得了一定成果,但需要耗費(fèi)大量人力、時(shí)間,尤其是在處理新數(shù)據(jù)時(shí),人名、地名實(shí)體重復(fù)出現(xiàn),需要再次加工。為優(yōu)化數(shù)據(jù)處理流程,降低成本,加快數(shù)據(jù)處理速度,快速將識(shí)別結(jié)果轉(zhuǎn)為關(guān)聯(lián)數(shù)據(jù),本研究基于上圖基礎(chǔ)語義知識(shí)庫,在ETL加工環(huán)節(jié)增加命名實(shí)體識(shí)別功能。其主要特征有:對(duì)中文文本進(jìn)行實(shí)體識(shí)別,命名實(shí)體識(shí)別詞典基于上圖數(shù)字人文基礎(chǔ)知識(shí)庫;識(shí)別實(shí)體與上圖數(shù)字人文知識(shí)庫的關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián);可識(shí)別不同類別的實(shí)體,包括人名、地名、機(jī)構(gòu)、姓氏等,可自定義新的分類。

圖1 命名實(shí)體識(shí)別系統(tǒng)架構(gòu)圖

2.2 系統(tǒng)架構(gòu)設(shè)計(jì)

本研究開發(fā)的命名實(shí)體識(shí)別系統(tǒng)以上圖已有關(guān)聯(lián)數(shù)據(jù)作為識(shí)別詞典,通過命名實(shí)體識(shí)別算法對(duì)文本中的內(nèi)容進(jìn)行識(shí)別,識(shí)別結(jié)果與上圖關(guān)聯(lián)數(shù)據(jù)進(jìn)行對(duì)應(yīng)。系統(tǒng)架構(gòu)見圖1。

(1)輸入層。輸入層以需識(shí)別的文本為輸入?yún)?shù),通常是文獻(xiàn)中的摘要、正文信息。在輸入層對(duì)識(shí)別內(nèi)容的標(biāo)簽進(jìn)行預(yù)選擇,如人名、地名、姓氏,以此根據(jù)不同需求進(jìn)行特定內(nèi)容的識(shí)別。

(2)識(shí)別層。識(shí)別層是命名實(shí)體識(shí)別的核心模塊,通過關(guān)聯(lián)技術(shù)的本體模塊與命名實(shí)體識(shí)別算法模塊的結(jié)合,實(shí)現(xiàn)對(duì)輸入文本的識(shí)別。由于識(shí)別結(jié)果是關(guān)聯(lián)數(shù)據(jù),一定程度上解決部分命名實(shí)體識(shí)別工具識(shí)別結(jié)果僅是字符串的問題,具有關(guān)系發(fā)現(xiàn)的特性。由于是在上圖已知數(shù)據(jù)源中識(shí)別,精準(zhǔn)的識(shí)別對(duì)命名實(shí)體消歧起到了改善作用。

(3)輸出層。輸出層包括識(shí)別結(jié)果的展示與下載。當(dāng)識(shí)別完成后,會(huì)展示文本的識(shí)別結(jié)果,展示結(jié)果添加了關(guān)聯(lián)數(shù)據(jù)的URI。通過URI,此文本與上圖的數(shù)據(jù)形成關(guān)聯(lián),可通過上圖API接口獲取更多的內(nèi)容信息。

2.3 識(shí)別詞典設(shè)計(jì)

本研究使用的識(shí)別詞典主要來自上圖,包括人名規(guī)范庫、地理名詞表、上海歷史文化年譜,3個(gè)知識(shí)庫分別對(duì)應(yīng)數(shù)據(jù)中的人名、地名、事件。使用上圖知識(shí)庫的主要原因包括:(1)上圖知識(shí)庫數(shù)據(jù)采用語義網(wǎng)RDF框架,通過三元組形式構(gòu)建本體。正因?yàn)橐员倔w作為詞典進(jìn)行識(shí)別,識(shí)別結(jié)果也是本體。(2)上圖人名規(guī)范庫的人名本體有130萬個(gè),來源于上圖館藏。因?yàn)樯蠄D搭建了大數(shù)據(jù)級(jí)別的人名關(guān)聯(lián)數(shù)據(jù),所以能作為命名實(shí)體識(shí)別的詞典。(3)上圖知識(shí)庫是開放的,提供通用API接口,支持JSON、XML等格式,調(diào)用方便,兼容性好。關(guān)聯(lián)數(shù)據(jù)的特征是每個(gè)本體都有一個(gè)URI標(biāo)示,數(shù)據(jù)以三元組形式進(jìn)行描述。將本體作為識(shí)別詞典,當(dāng)識(shí)別的實(shí)體與本體形成關(guān)聯(lián),則能通過關(guān)聯(lián)數(shù)據(jù)的本體結(jié)構(gòu),獲取文本之外的信息。例如,識(shí)別出一個(gè)人名實(shí)體,通過關(guān)聯(lián)數(shù)據(jù)就可以獲取此人的籍貫、朝代、年齡等信息。通過關(guān)聯(lián)獲取的信息,一方面豐富了識(shí)別內(nèi)容,另一方面也為識(shí)別結(jié)果的消歧提供了依據(jù)。

2.4 命名實(shí)體識(shí)別功能設(shè)計(jì)

本研究命名實(shí)體識(shí)別流程見圖2。下文結(jié)合樣例對(duì)上述過程進(jìn)行說明。

(1)定義詞典。識(shí)別前,首先引入2部詞典作為語料:1998 年的人民日?qǐng)?bào)語料庫和上圖關(guān)聯(lián)數(shù)據(jù)詞典。上圖關(guān)聯(lián)數(shù)據(jù)詞典包含人名、機(jī)構(gòu)、姓氏3部分,其中人名詞典收錄近130萬個(gè)人名、607個(gè)姓氏、42個(gè)機(jī)構(gòu)。

(2)中文分詞。中文分詞通過HANLP提供的基于隱馬爾可夫模型的HMM-Bigram模型對(duì)輸入文本進(jìn)行分詞。使用HANLP 的主要原因是,其對(duì)命名實(shí)體識(shí)別、機(jī)器學(xué)習(xí)算法進(jìn)行封裝,使用便捷。例如,“長江劇場(chǎng)位于黃河路35號(hào),原名卡爾登大戲院”這段話,通過分詞得到的結(jié)果是“長江劇場(chǎng)/名詞……卡爾登大戲院/名詞”。

(3)句法分析。句法分析使用HANLP提供的基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器,依存句法分析是對(duì)文本的內(nèi)容進(jìn)行關(guān)系標(biāo)注。語文關(guān)系有15種,包括主謂關(guān)系、動(dòng)賓關(guān)系、間賓關(guān)系等。引入句法分析主要是為了進(jìn)行過濾操作。例如,“長江劇場(chǎng)位于黃河路35號(hào)”在未引入詞典的情況下,通過中文分詞會(huì)提取到“長江,劇場(chǎng)”,通過依存句法分析可知,“長江”與“劇場(chǎng)”是定中關(guān)系,排除了“長江”這個(gè)識(shí)別結(jié)果。

(4)結(jié)果處理。結(jié)果處理包含結(jié)果過濾與數(shù)據(jù)關(guān)聯(lián)。結(jié)果過濾主要是將中文分詞的結(jié)果與句法分析的結(jié)果進(jìn)行過濾,進(jìn)一步提高實(shí)體結(jié)果準(zhǔn)確性。數(shù)據(jù)關(guān)聯(lián)是將識(shí)別的結(jié)果與上圖本體一一匹配與關(guān)聯(lián),可通過上圖API接口獲取更多相關(guān)信息[8]。

圖2 命名實(shí)體識(shí)別流程圖

圖3 關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實(shí)現(xiàn)圖

圖4 命名實(shí)體識(shí)別偽代碼

3 命名實(shí)體識(shí)別工具的實(shí)現(xiàn)

3.1 命名實(shí)體識(shí)別的實(shí)現(xiàn)

(1)關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換實(shí)現(xiàn)。關(guān)聯(lián)數(shù)據(jù)詞典轉(zhuǎn)換方法的實(shí)現(xiàn)見圖3。圖3以人名為例,首先從RDF數(shù)據(jù)中提取人名的名稱與URI,將其按詞典的要求進(jìn)行轉(zhuǎn)換,再通過HANLP提供的自定義詞典方法將命名實(shí)體添加到詞典。提取人名的作用是使其成為詞典的語料,URI的作用是保留關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)性,最終的識(shí)別結(jié)果可以通過URI來獲取關(guān)聯(lián)數(shù)據(jù)的其他信息。

(2)命名實(shí)體識(shí)別實(shí)現(xiàn)。其偽代碼見圖4。以文本A的輸入為例,先加載關(guān)聯(lián)數(shù)據(jù)詞典,通過詞典識(shí)別方法對(duì)輸入文本進(jìn)行命名實(shí)體識(shí)別,得到基于詞典的命名實(shí)體識(shí)別結(jié)果B;再通過依存句法分析文本A獲得結(jié)果C,結(jié)果C主要記錄的是定中名詞與狀中名詞,以此在結(jié)果B中排除狀中名詞與定中名詞,最終生成的就是經(jīng)命名實(shí)體識(shí)別得到的實(shí)體。

3.2 NER工具效果

圖5展示的是基于年華人名詞典的NER識(shí)別結(jié)果。該詞典包含出身年月介于1840-1950年的7萬多個(gè)名人。選用年華人名詞典的主要原因是其時(shí)間與輸入事件的時(shí)間吻合,通過此詞典可提高結(jié)果的準(zhǔn)確率與召回率。圖5中,以橙色標(biāo)注的是識(shí)別出的實(shí)體,其中數(shù)字代表識(shí)別對(duì)應(yīng)的個(gè)數(shù),通過單擊實(shí)體,可以跳轉(zhuǎn)到上圖人名規(guī)范庫的對(duì)應(yīng)實(shí)體,從而獲取此實(shí)體更詳細(xì)的信息。

圖5 實(shí)體識(shí)別功能展示圖

3.3 實(shí)體識(shí)別工具效果對(duì)比

對(duì)上圖命名實(shí)體識(shí)別工具(簡(jiǎn)稱“上圖識(shí)別工具”)、人工方法、BosonNLP工具的處理結(jié)果進(jìn)行比較,共用10組數(shù)據(jù)。綜合來看,上圖識(shí)別工具在降低少量準(zhǔn)確率的前提下,可以對(duì)文本進(jìn)行快速處理,這是人工方法無法比擬的。上圖識(shí)別工具識(shí)別的結(jié)果是關(guān)聯(lián)數(shù)據(jù),其豐富性、關(guān)聯(lián)性、可挖掘性遠(yuǎn)勝于人工與BosonNLP所識(shí)別的結(jié)果。三者的識(shí)別效果見表1。

表1 實(shí)體識(shí)別效果對(duì)比

4 結(jié)論及展望

上圖研發(fā)的命名實(shí)體識(shí)別工具在ETL數(shù)據(jù)處理過程中起到了很大作用,彌補(bǔ)了上圖沒有命名實(shí)體識(shí)別的短板,主要特色包括:(1)實(shí)現(xiàn)了基于數(shù)字人文詞典的命名實(shí)體識(shí)別,識(shí)別的實(shí)體不再是簡(jiǎn)單的字符串,而是關(guān)聯(lián)數(shù)據(jù)。關(guān)聯(lián)技術(shù)與命名實(shí)體識(shí)別技術(shù)形成互補(bǔ),使命名實(shí)體識(shí)別可以在更多文本中挖掘關(guān)聯(lián)數(shù)據(jù),提升了識(shí)別結(jié)果的質(zhì)量。(2)命名實(shí)體識(shí)別加強(qiáng)了ETL功能,數(shù)據(jù)處理效果得到改善。在大量文本中,通過NER工具可以快速識(shí)別其中的實(shí)體,在其識(shí)別的基礎(chǔ)上加入部分人工,可以更高效率地獲得高質(zhì)量數(shù)據(jù)。

本研究的命名實(shí)體識(shí)別工具也有需要改進(jìn)的地方:(1)基于已知數(shù)據(jù)進(jìn)行挖掘,把不在詞典中的命名實(shí)體過濾了,在今后的功能設(shè)計(jì)中應(yīng)引入新的工作流來處理這些被過濾的命名實(shí)體。這樣既能對(duì)這些命名實(shí)體進(jìn)行發(fā)現(xiàn),又能將其轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)。(2)中文詞性分析上有欠缺,文本挖掘中實(shí)體的詞性分析還需要重新梳理,縮小范圍,以提高實(shí)體識(shí)別的準(zhǔn)確度。

猜你喜歡
關(guān)聯(lián)文本
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
“苦”的關(guān)聯(lián)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 亚洲国产在一区二区三区| 日本欧美成人免费| 国内精品视频在线| av在线人妻熟妇| 欧美成人A视频| 亚洲综合片| 亚洲视频色图| 一级爱做片免费观看久久| 久久精品国产91久久综合麻豆自制| 亚洲美女一级毛片| 亚洲永久色| 国产一在线观看| 国产青榴视频| 亚洲精品动漫| 日本精品中文字幕在线不卡| 乱人伦99久久| 午夜日b视频| 91精品aⅴ无码中文字字幕蜜桃| 日本午夜影院| 玖玖精品在线| 日韩国产综合精选| 国产成人精品免费av| 99热这里只有精品免费| 亚洲另类国产欧美一区二区| 麻豆精品视频在线原创| 日韩精品无码免费一区二区三区| 免费看美女自慰的网站| 国产亚洲高清在线精品99| 久夜色精品国产噜噜| 亚洲综合香蕉| 久久人搡人人玩人妻精品一| 91精品网站| 99re热精品视频国产免费| 亚洲综合极品香蕉久久网| 成人日韩精品| 激情无码字幕综合| 欧美有码在线观看| 欧美日韩另类在线| 精品久久高清| 国产成人狂喷潮在线观看2345| 天堂在线视频精品| 国产精品区视频中文字幕| 日本手机在线视频| 四虎永久在线精品国产免费| 国产一区二区免费播放| 夜夜拍夜夜爽| 亚洲精品男人天堂| 一级毛片在线播放免费观看| 永久免费av网站可以直接看的| 亚洲精品天堂在线观看| 国产凹凸一区在线观看视频| 美女一级毛片无遮挡内谢| 国产18在线| 小说 亚洲 无码 精品| 免费播放毛片| 57pao国产成视频免费播放| 一级福利视频| 国产天天射| 大香伊人久久| 亚洲精品无码日韩国产不卡| 大学生久久香蕉国产线观看| 特级毛片免费视频| 情侣午夜国产在线一区无码| 日韩在线影院| 色综合五月| 亚洲欧美色中文字幕| 亚洲精品视频免费| av天堂最新版在线| 国产精品亚洲天堂| 亚洲黄色视频在线观看一区| 国产男人的天堂| 五月综合色婷婷| 久久国产精品夜色| 国产精品女熟高潮视频| 久久一级电影| 麻豆国产精品视频| 一本大道无码日韩精品影视| 国产啪在线91| 2021国产精品自产拍在线| 国产精品不卡片视频免费观看| 欧美在线天堂| 99re66精品视频在线观看 |