999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于搜索引擎與規(guī)則的中文實(shí)體名稱消歧方法

2021-03-15 06:59:23左昌麒梅洋房俊梁英
電腦知識(shí)與技術(shù) 2021年1期
關(guān)鍵詞:搜索引擎

左昌麒 梅洋 房俊 梁英

摘要:針對(duì)專家推薦場景下中文機(jī)構(gòu)名稱存在語義異構(gòu)的問題,提出搜索引擎與規(guī)則相結(jié)合的中文實(shí)體名稱消歧方法,首先利用搜索引擎的映射能力解決異構(gòu)問題,然后通過編輯距離糾正實(shí)體機(jī)構(gòu)名稱,最后使用后綴、縮寫等規(guī)則對(duì)實(shí)體進(jìn)行消歧。該方法在12108份包含同名機(jī)構(gòu)實(shí)體的真實(shí)數(shù)據(jù)集上測試具有良好的性能表現(xiàn),機(jī)構(gòu)數(shù)量降低12%,實(shí)驗(yàn)結(jié)果表明所提方法有效。

關(guān)鍵詞:實(shí)體消歧;搜索引擎;基于規(guī)則;專家推薦

中圖分類號(hào):TP391.1? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)01-0247-03

Abstract: Aiming at the problem of semantic heterogeneity of Chinese institution names in expert recommendation scenarios, a Chinese entity name disambiguation method based on search engines and rules is proposed. First, the mapping capabilities of search engines are used to solve the heterogeneous problem, and then the entity institution name is corrected by editing distance. And finally use suffix, abbreviation and other rules to disambiguate entities.? The method has a good performance when tested on 12108 real data sets containing institutional entities with same names, and the number of institutions is reduced by 12%. The experimental results show that the proposed method is effective.

Keyword: Entity Disambiguation;Search Engine;Rule Based;Expert recommendations

1 引言

當(dāng)前,科技項(xiàng)目評(píng)審一般依賴于專家推薦系統(tǒng)從專家?guī)熘谐槿<?。?shí)體消歧[1]技術(shù)在上述專家推薦場景下能夠解決語義異構(gòu)問題。目前國內(nèi)的中文人名存在大量的重名現(xiàn)象,導(dǎo)致難以定位某些用戶;對(duì)于機(jī)構(gòu)來說,機(jī)構(gòu)名稱存在隨著時(shí)間變遷的情況,在使用時(shí)同樣存在簡稱和簡寫的情況。這些情況造成了數(shù)據(jù)可用性大大降低,故需要通過實(shí)體消歧辨別不同個(gè)體,為上層算法提供數(shù)據(jù)支持。

中文機(jī)構(gòu)名稱在評(píng)審過程中一直扮演著重要地位,一般要求評(píng)審專家和項(xiàng)目申請(qǐng)人不能處于同一單位。目前針對(duì)機(jī)構(gòu)名稱的研究主要集中在從大規(guī)模文本中識(shí)別機(jī)構(gòu)。通過專家?guī)旌蜕暾?qǐng)系統(tǒng)的限制,已經(jīng)使機(jī)構(gòu)名稱相對(duì)規(guī)范,但同一機(jī)構(gòu)不同稱呼的情況仍然大量出現(xiàn)。圖1展示了機(jī)構(gòu)“中國科學(xué)院計(jì)算技術(shù)研究所”被記錄為“中科院計(jì)算所”,二者實(shí)際上是對(duì)同一機(jī)構(gòu)的稱呼,但因?yàn)閼T用簡稱造成機(jī)構(gòu)名稱沒有正確統(tǒng)一化。這在專家推薦的過程中有可能造成專家回避時(shí)判斷錯(cuò)誤,從而存在專家參與同一機(jī)構(gòu)的申請(qǐng)人項(xiàng)目的評(píng)審的風(fēng)險(xiǎn)。

針對(duì)中文實(shí)體消歧方法,有眾多學(xué)者開展了多樣的研究。楊欣欣等[2]提出了一種基于查詢擴(kuò)展的實(shí)體消歧方法,借助互聯(lián)網(wǎng)引擎構(gòu)建查詢規(guī)則并選取前k條結(jié)果用于豐富實(shí)體特征,從而提高了消歧效果。針對(duì)不同實(shí)體與其他信息關(guān)聯(lián)的差異性,譚詠梅等[3]提出了一種結(jié)合實(shí)體鏈接和實(shí)體聚類的消歧方法,彌補(bǔ)了傳統(tǒng)單一使用實(shí)體聚類或?qū)嶓w鏈接方法存在的缺陷。隨著向量化和圖技術(shù)的不斷發(fā)展,有學(xué)者在這方面進(jìn)行了研究。馬曉軍等[4]針對(duì)Skip-Gram不能處理多詞同義的問題,采用詞向量的方法在背景知識(shí)庫中獲取不同詞向量進(jìn)行鑒別。汪沛等[5]提出一種結(jié)合詞向量和圖模型的消歧方法,針對(duì)旅游領(lǐng)域構(gòu)建知識(shí)庫,結(jié)合知識(shí)圖譜和向量化,提升了消歧的效果。上述方法由于領(lǐng)域特點(diǎn),不能夠直接應(yīng)用于評(píng)審專家推薦系統(tǒng),當(dāng)前也出現(xiàn)了一些基于機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)體消歧的研究,但評(píng)審專家推薦系統(tǒng)缺乏標(biāo)注數(shù)據(jù),相關(guān)技術(shù)難以開展實(shí)際應(yīng)用。

針對(duì)上述中文實(shí)體名稱消歧問題,本文采用了搜索引擎與規(guī)則相結(jié)合的方法,首先通過百度搜索引擎進(jìn)行消歧,再使用基于編輯距離的機(jī)構(gòu)名稱糾正,最后基于后綴、縮寫等規(guī)則進(jìn)行名稱統(tǒng)一,最終得到消歧后的機(jī)構(gòu)名稱。

2 實(shí)體名稱消岐方法

實(shí)體消歧是數(shù)據(jù)融合過程中的重要環(huán)節(jié),是整個(gè)專家推薦過程中的重要步驟。本節(jié)主要討論中文機(jī)構(gòu)名稱消歧方法,并基于此方法輔助同名專家的判斷,為后續(xù)專家畫像構(gòu)建和專家推薦奠定了基礎(chǔ)。

2.1 算法流程

為了解決上述問題,本文提出了一種基于搜索引擎與規(guī)則的實(shí)體名稱消歧方法,其流程圖如圖2所示。原始機(jī)構(gòu)名稱經(jīng)過搜索引擎消歧后,部分機(jī)構(gòu)名稱不存在于搜索引擎中,需要使用基于編輯距離的機(jī)構(gòu)名稱糾正。此時(shí)的結(jié)果需要進(jìn)一步根據(jù)后綴、縮寫等規(guī)則進(jìn)行名稱統(tǒng)一,得到消歧后的機(jī)構(gòu)名稱。

具體消岐方法為:對(duì)于每個(gè)機(jī)構(gòu),經(jīng)過搜索引擎和編輯距離處理后,再由規(guī)則統(tǒng)一規(guī)范化,得到消歧后的機(jī)構(gòu)名稱,綜合所有待消歧機(jī)構(gòu)名稱進(jìn)行處理,得到消歧后機(jī)構(gòu)名稱集合。

2.2 消岐方法

搜索引擎里對(duì)于部分機(jī)構(gòu)別名做了映射處理,在查詢別名時(shí)能夠自動(dòng)跳轉(zhuǎn)至規(guī)范名稱百科頁面,實(shí)現(xiàn)機(jī)構(gòu)名稱的統(tǒng)一化。本文選取百度百科1的查詢接口,通過將原始機(jī)構(gòu)名稱作為參數(shù),使用Python模擬瀏覽器訪問接口,得到糾正后的機(jī)構(gòu)名稱。在此場景下,機(jī)構(gòu)名稱主要分為3類:

正規(guī)機(jī)構(gòu)名稱:該類名稱已收錄于百度百科中;

別名機(jī)構(gòu)名稱:該機(jī)構(gòu)名稱為收錄于百度百科中其他機(jī)構(gòu)的別名或者簡寫,例如“中國科學(xué)院計(jì)算所”屬于“中國科學(xué)院計(jì)算技術(shù)研究所”的別名;

未登錄機(jī)構(gòu)名稱:該機(jī)構(gòu)名稱未收錄于百度百科中。

對(duì)于未登錄機(jī)構(gòu)名稱,搜索引擎不能將該類型消歧。本文采取基于編輯距離的機(jī)構(gòu)名稱修正方法。編輯距離(Edit Distance),又稱Levenshtein距離,是指兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)化成另一個(gè)所需的最少編輯操作次數(shù)。編輯操作支持插入、刪除、修改三種操作。編輯距離常用語拼寫錯(cuò)誤糾正場景下,針對(duì)已輸入錯(cuò)誤文本智能識(shí)別并提示糾正后的文本。本文選取編輯距離為1或2的機(jī)構(gòu)名稱進(jìn)行修正,如表1所示。

通過搜索引擎和編輯距離的糾正后的機(jī)構(gòu)后,其數(shù)據(jù)可用性仍然有待提高,需要通過規(guī)則的方式進(jìn)一步統(tǒng)一中文機(jī)構(gòu)名稱。本文主要考慮后綴和數(shù)字類型機(jī)構(gòu)名稱的統(tǒng)一,對(duì)多個(gè)代表統(tǒng)一機(jī)構(gòu)的名稱進(jìn)行消歧,給出示例如表2所示。

機(jī)構(gòu)名稱經(jīng)過規(guī)則規(guī)范化之后,機(jī)構(gòu)名稱不規(guī)范情況得到解決,為后續(xù)專家回避任務(wù)提供了可靠的數(shù)據(jù)支持,同時(shí)也為專家畫像等其他潛在任務(wù)提供了可用性更高的數(shù)據(jù)。

消歧后的機(jī)構(gòu)名稱能夠用于專家判別。由于中文人名的特點(diǎn),存在大量重名的現(xiàn)象。專家或?qū)W者具備所屬機(jī)構(gòu)信息,通過對(duì)機(jī)構(gòu)名稱的消歧,能夠?qū)⒃緦儆谕粰C(jī)構(gòu)的專家或?qū)W者判別出來。對(duì)于兩位專家學(xué)者處于同一機(jī)構(gòu)并且同名的情況,本文采取研究興趣相似度判別法,即如果專家學(xué)者的興趣差距較大,即認(rèn)為是不同的專家學(xué)者實(shí)體。

3 實(shí)驗(yàn)及效果分析

本文針對(duì)2016到2018年的評(píng)審數(shù)據(jù)中的中文機(jī)構(gòu)名稱,以及專家?guī)熘械闹形臋C(jī)構(gòu)名稱開展實(shí)驗(yàn)。使用基于搜索引擎和規(guī)則的機(jī)構(gòu)名稱消歧方法,基于搜索引擎消歧后,減少機(jī)構(gòu)1391個(gè);基于編輯距離和規(guī)則消歧后,減少機(jī)構(gòu)74個(gè)。不同階段獨(dú)立機(jī)構(gòu)數(shù)量對(duì)比如圖3所示。

從圖3中可以看出,本文所采用的中文機(jī)構(gòu)名稱消歧方法有效改善了中文機(jī)構(gòu)同機(jī)構(gòu)不同稱呼的情況,為后續(xù)算法和策略奠定了基礎(chǔ)。

機(jī)構(gòu)名稱是判斷學(xué)者所屬機(jī)構(gòu)的重要手段,也是一定程度上解決學(xué)者重名的重要方法。由于項(xiàng)目申請(qǐng)數(shù)據(jù)中包含申請(qǐng)人姓名和所在機(jī)構(gòu),在對(duì)機(jī)構(gòu)名稱消歧前后,使用學(xué)者姓名和機(jī)構(gòu)名稱驗(yàn)證,統(tǒng)計(jì)結(jié)果如圖4所示。

從圖表中可以看出,使用學(xué)者姓名和所在機(jī)構(gòu)識(shí)別專家后,獨(dú)立姓名+機(jī)構(gòu)數(shù)量明顯增多,說明通過機(jī)構(gòu)名稱能助判斷學(xué)者重名情況,對(duì)學(xué)者識(shí)別有一定的積極作用。

4結(jié)束語

針對(duì)專家推薦場景下的機(jī)構(gòu)名稱消歧問題,提出了一種基于搜索引擎與規(guī)則的中文實(shí)體名稱消歧方法,詳細(xì)介紹了方法的實(shí)施過程,通過實(shí)驗(yàn)驗(yàn)證了方法的有效性。未來可考慮利用機(jī)器學(xué)習(xí)算法自動(dòng)識(shí)別映射規(guī)則,規(guī)避方法中的規(guī)則依賴人工設(shè)置的方式。

致謝:本文得到北京高等學(xué)校高水平人才交叉培養(yǎng)“實(shí)培計(jì)劃”2019年度項(xiàng)目“學(xué)術(shù)大數(shù)據(jù)分析挖掘技術(shù)”的資助,特此感謝。

注釋:

1.? https://baike.baidu.com/item/

參考文獻(xiàn):

[1] Borah P P, Talukdar G, Baruah A. Approaches for word sense disambiguation–A survey[J]. International Journal of Recent Technology and Engineering, 2014, 3(1): 35-38.

[2] 楊欣欣, 李培峰, 朱巧明. 基于查詢擴(kuò)展的人名消歧[J].計(jì)算機(jī)應(yīng)用, 2012, 32(9): 2488-2490.

[3] 譚詠梅,楊雪.結(jié)合實(shí)體鏈接與實(shí)體聚類的命名實(shí)體消歧[J].北京郵電大學(xué)學(xué)報(bào),2014(5):36-40.

[4] 馬曉軍,郭劍毅,王紅斌,等.融合詞向量和主題模型的領(lǐng)域?qū)嶓w消歧[J].模式識(shí)別與人工智能,2017,30(12):1130-1137.

[5] 汪沛,線巖團(tuán),郭劍毅,等.一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J].智能系統(tǒng)學(xué)報(bào),2016,11(3):366-375.

【通聯(lián)編輯:梁書】

猜你喜歡
搜索引擎
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項(xiàng)
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識(shí)漫畫
一種自反饋式元搜索系統(tǒng)的設(shè)計(jì)
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 亚洲欧美国产五月天综合| 欧美成人综合视频| 久久精品国产免费观看频道| 97免费在线观看视频| 免费观看成人久久网免费观看| 美女潮喷出白浆在线观看视频| av在线5g无码天天| 国产在线八区| 欧美α片免费观看| 国产女同自拍视频| 午夜无码一区二区三区| 秋霞午夜国产精品成人片| 亚洲电影天堂在线国语对白| 精品超清无码视频在线观看| 久久久成年黄色视频| 婷婷色一二三区波多野衣| 免费观看国产小粉嫩喷水| 欧美福利在线| 日韩毛片免费| 毛片一区二区在线看| 亚洲高清免费在线观看| 久久综合干| 99在线视频免费观看| 性视频久久| 亚洲欧美不卡视频| 亚洲欧美另类色图| 波多野结衣二区| 最新国产你懂的在线网址| 欧美一级色视频| 人禽伦免费交视频网页播放| 亚洲另类色| 国产午夜福利片在线观看| 四虎影院国产| 91麻豆国产视频| 国产精品欧美激情| 伊人久久精品亚洲午夜| 国产91导航| 精品视频一区二区观看| 婷婷丁香在线观看| 亚洲码在线中文在线观看| 欧美在线网| 国产高清无码第一十页在线观看| 99这里只有精品6| 依依成人精品无v国产| 久久国产精品电影| 2018日日摸夜夜添狠狠躁| 精品乱码久久久久久久| 亚洲人成网站日本片| 欧美精品不卡| 91精品人妻一区二区| 亚洲色图欧美激情| 国产精品流白浆在线观看| 国产大片喷水在线在线视频| 欧美日韩福利| 久久精品aⅴ无码中文字幕 | 精品一区二区三区波多野结衣| 中文字幕欧美日韩| 欧美国产日韩另类| 久久99国产精品成人欧美| 在线国产毛片| 久久伊伊香蕉综合精品| 久久人体视频| 草逼视频国产| 成年女人a毛片免费视频| 在线高清亚洲精品二区| 欧美在线综合视频| 日本人妻一区二区三区不卡影院| 2021无码专区人妻系列日韩| 国产18在线| 色综合天天操| 日本a∨在线观看| 亚洲一级色| 日韩精品专区免费无码aⅴ| 成人午夜免费观看| 黄网站欧美内射| 亚洲日本一本dvd高清| 天堂av综合网| 国产精品三级专区| 中文字幕一区二区人妻电影| 亚洲日韩国产精品无码专区| 毛片基地视频| 91啪在线|