999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用于知識(shí)庫擴(kuò)充的在線百科表格知識(shí)獲取與融合

2019-11-16 07:28:46宋曉兆鄭新李直旭許佳捷
軟件工程 2019年10期

宋曉兆 鄭新 李直旭 許佳捷

摘 ?要:互聯(lián)網(wǎng)中的HTML表格蘊(yùn)含著豐富的結(jié)構(gòu)化或半結(jié)構(gòu)化知識(shí),是知識(shí)庫構(gòu)建與擴(kuò)充的重要數(shù)據(jù)資源。然而如何對HTML表格進(jìn)行正確解析并獲得三元組知識(shí)用于擴(kuò)充知識(shí)庫,則是一個(gè)很有挑戰(zhàn)的問題。首先,HTML表格的結(jié)構(gòu)各有不同。其次,表格與知識(shí)庫中的實(shí)體和屬性的表示不同,需要統(tǒng)一,即實(shí)體鏈接與屬性對齊。本文首先提出了一個(gè)基于知識(shí)庫的在線百科表格解析與知識(shí)融合框架,該框架可針對不同類別的表格進(jìn)行知識(shí)抽取;并提出了基于知識(shí)庫的表格實(shí)體鏈接和屬性對齊方法,用以將表格中的知識(shí)與知識(shí)庫進(jìn)行匹配與融合。實(shí)驗(yàn)使用了126萬在線百科表格數(shù)據(jù)為CN-DBpedia擴(kuò)充約1000萬三元組。

關(guān)鍵詞:HTML表格;知識(shí)抽取;知識(shí)融合

中圖分類號(hào):TP391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract:HTML tables in WWW have been flooded with (semi-)structured knowledge,which is an important source for knowledge base augmentation.However,it is a challenging problem to parse and extract triples in a correct way for knowledge base augmentation.Firstly,HTML tables have different types.Secondly,the descriptions of entities and attributes in different tables may be inconsistent with knowledge base,which needs to be matched and fused,i.e.,entity linking and property alignment.This paper first designs a table parse and knowledge fusion framework for the knowledge base,which is able to parse and extract knowledge in different types of tables.Additionally,an entity linking and property alignment method is proposed based on the knowledge base,to match and fuse the RDF triples with knowledge base.1.26 million tables in online encyclopedias are used in the experiment to augment 10 million triples for CN-DBpedia.

Keywords:HTML table;knowledge extraction;knowledge fusion

1 ? 引言(Introduction)

迄今為止,所有基于在線百科構(gòu)建的通用知識(shí)圖譜[1-4]并未提出一種完全自動(dòng)化的方法從在線百科的表格中挖掘知識(shí),擴(kuò)充知識(shí)庫。現(xiàn)有的工作,如CN-DBpedia[4],加入了端到端的深度學(xué)習(xí)模型從百科文本中挖掘知識(shí),但是它并未挖掘百科表格知識(shí)。還有很多工作[5-9]致力于從整個(gè)互聯(lián)網(wǎng)的表格中挖掘知識(shí)進(jìn)行知識(shí)庫的擴(kuò)充,但是,他們僅僅使用單一類型的表格數(shù)據(jù)集[10,11]。比如這兩個(gè)數(shù)據(jù)集ACSDb[10]和WDC Web Tables corpus[11]分別是英文和跨語言數(shù)據(jù)集,它們只含有關(guān)系表。關(guān)系表包含了多個(gè)實(shí)體(以行為單位),一個(gè)實(shí)體有多個(gè)屬性(以列為單位)。現(xiàn)有的表格數(shù)據(jù)集在類型不上并不完備,并且其中蘊(yùn)含的知識(shí)可信度低。對此,我們研究了如何充分地使用在線百科表格擴(kuò)充知識(shí)庫。

2 ? 問題分析(Framework overview)

使用百科表格擴(kuò)充知識(shí)庫面臨的第一個(gè)挑戰(zhàn)是表格類型的多樣性問題。現(xiàn)有的工作[12]將互聯(lián)網(wǎng)表格分成了10種類型,包括八種類型的知識(shí)表和兩種類型的非知識(shí)表。而我們發(fā)現(xiàn)百科表格主要含有一種類型的非知識(shí)表和三種類型的知識(shí)表。其中,知識(shí)表如圖1—圖3所示,分為關(guān)系表、鍵值對表和枚舉列表。目前最有效的表格分類方法[12,13],選取表格特征信息和樣本集來訓(xùn)練分類(識(shí)別)器。雖然它們能夠精準(zhǔn)地區(qū)別知識(shí)表和用于布局或?qū)Ш降姆侵R(shí)表,但是在區(qū)分知識(shí)表的具體類型時(shí),表現(xiàn)并不理想。為了精準(zhǔn)地識(shí)別知識(shí)表的具體類型,需要構(gòu)造相應(yīng)表格的特征。我們發(fā)現(xiàn)百科表格中的屬性與infobox的屬性相似,屬性集合與由知識(shí)庫中屬性構(gòu)成的模式庫有交集。因此,可以利用這個(gè)性質(zhì)構(gòu)造模式特征。與此同時(shí),我們利用表格屬性擴(kuò)充模式庫,更新特征值,這是一個(gè)迭代的過程。進(jìn)而,我們提出了一種迭代擴(kuò)充模式庫、在線更新特征的表格識(shí)別器訓(xùn)練算法。

使用百科表格擴(kuò)充知識(shí)庫面臨的第二個(gè)挑戰(zhàn)是如何將表格中抽取的知識(shí)與知識(shí)庫中的知識(shí)融合的挑戰(zhàn)。從鍵值對表中抽取知識(shí)時(shí),每個(gè)三元組(即<s,p,o>)的主語(s)即所在百科頁面的標(biāo)題,通常一對一映射到知識(shí)庫實(shí)體名稱,不需要實(shí)體鏈接。謂語(p)和賓語(o),對應(yīng)表中每一行的鍵值對。比如圖2中抽取的三元組<華為Mate 20,運(yùn)行內(nèi)存,6GB>。對于枚舉列表,百科頁面的標(biāo)題作為主語,同樣不需要實(shí)體鏈接。然而,關(guān)系表則需要進(jìn)行實(shí)體鏈接和屬性對齊。現(xiàn)有的將關(guān)系表與知識(shí)庫匹配的算法框架TableToKnowledge,簡稱T2K[11],采用迭代的方式進(jìn)行實(shí)體鏈接與屬性對齊。然而,它有兩個(gè)不足:第一,T2K算法框架中并未考慮將表格內(nèi)容整合[14,15],它僅僅將單獨(dú)的關(guān)系表與知識(shí)庫進(jìn)行匹配。然而,由于單一的表格實(shí)體數(shù)量少,屬性稀疏,并且屬性值常有缺失,這些表格不能直接與知識(shí)庫匹配。于是,我們在T2K框架的基礎(chǔ)上加入了整合表格內(nèi)容的過程,提出了一個(gè)基于概念(本體)樹的表格聚類算法。第二,T2K算法框架未采用有效方法生成實(shí)體鏈接候選集。它選擇每個(gè)實(shí)體的候選實(shí)體集所屬頻率最高的概念,過濾不屬于這些概念的候選實(shí)體。由此帶來的后果是,長尾概念下的實(shí)體不能有效地進(jìn)行實(shí)體鏈接,而這些實(shí)體對應(yīng)的三元組往往是知識(shí)庫所需要擴(kuò)充的知識(shí)。于是,我們提出了基于“公共上位概念”的實(shí)體鏈接候選集生成方法。利用“公共上位概念”,我們不僅能夠過濾無關(guān)概念下的實(shí)體,還能不遺漏長尾概念下的實(shí)體。

此外,本文針對在線百科表格數(shù)據(jù)集提出了一個(gè)知識(shí)融合策略。現(xiàn)有的互聯(lián)網(wǎng)表格數(shù)據(jù)集體量大,熱點(diǎn)知識(shí)出現(xiàn)次數(shù)多并形成偏態(tài)分布,通常以知識(shí)的交疊數(shù)量為特征訓(xùn)練知識(shí)融合模型。因此,同一條知識(shí)被抽取的次數(shù)越多,它的可信度越高。而百科表格中的知識(shí)分布均勻,有交疊的知識(shí)數(shù)量少,不能將交疊數(shù)作為特征。于是,我們提出了一種基于表格識(shí)別和實(shí)體鏈接準(zhǔn)確率的融合策略。

綜上,本文的主要貢獻(xiàn)有:

我們提出了一種面向知識(shí)庫擴(kuò)充的在線百科表格知識(shí)獲取與融合框架,可以一站式處理各類百科表格,抽取相關(guān)知識(shí)并融入知識(shí)庫中。

為了對各種類型的表格進(jìn)行對應(yīng)的解析與處理,我們提出了一種表格識(shí)別算法。該算法可基于特征在線更新的表格識(shí)別器進(jìn)行訓(xùn)練。

我們在T2K[11]算法框架的基礎(chǔ)上增加了表格內(nèi)容整合的過程,并利用“公共上位概念”生成實(shí)體鏈接候選集。

在本文的實(shí)驗(yàn)中,我們首先整合了百度百科和互動(dòng)百科中126萬個(gè)HTML表格,并將這些表格最終融入CN-DBpedia知識(shí)庫中,實(shí)驗(yàn)表明本文的方法能夠擴(kuò)充約1000萬三元組知識(shí)。

3 ? 框架概述(Key techniques analysis)

如圖4所式,我們提出了一種用于知識(shí)庫擴(kuò)充的在線百科表格知識(shí)獲取與融合框架,主要分為:

(1)網(wǎng)絡(luò)爬蟲:爬取不提供轉(zhuǎn)儲(chǔ)文件的在線百科,獲取每個(gè)百科實(shí)體頁面中的表格。由于百科表格的格式規(guī)范,以

標(biāo)記的表格對象為主,因而百科表格數(shù)據(jù)集未考慮非
標(biāo)記的表格對象。

(2)非知識(shí)表過濾:以

標(biāo)記的表格對象分為帶有知識(shí)的表格,和用于頁面布局或?qū)Ш降姆侵R(shí)表格,互聯(lián)網(wǎng)中88%的HTML表不含有知識(shí)。借鑒互聯(lián)網(wǎng)表格分類工作中的方法[12,13],我們使用梯度提升樹模型GBDT,作為非知識(shí)表過濾器。

(3)表格解析:將HTML格式的表格解析為csv格式,在內(nèi)存中以二維數(shù)組的形式表示。同時(shí)在另外的數(shù)組中存儲(chǔ)了單元格中的屬性,如span和href。我們把帶span屬性,跨行跨列的單元格拆分。對于帶href屬性的單元格,我們使用其所指頁面的標(biāo)題作為鏈接實(shí)體。

(4)知識(shí)表類型識(shí)別:關(guān)系表和鍵值對的識(shí)別,采用了我們提出的基于模式特征在線更新的識(shí)別器訓(xùn)練算法,在識(shí)別的過程中,在線更新特征值,重新訓(xùn)練識(shí)別器。枚舉列表的識(shí)別采取基于概念(分類)樹輔助的啟發(fā)式方法。

(5)關(guān)系表與知識(shí)庫匹配:我們使用T2K[11]算法對關(guān)系表進(jìn)行實(shí)體鏈接和屬性對齊。此外,加入了我們提出的表格聚類算法,以及使用我們提出的“公共上位概念”進(jìn)行候選集生成。

(6)三元組抽取:根據(jù)表1給出的三種表格的定義,按照相應(yīng)的規(guī)則抽取知識(shí)。對于鍵值對表,所在百科頁面的標(biāo)題就是每個(gè)三元組的主語,表中每一行的鍵值對就是三元組的謂語和賓語。對于關(guān)系表,表格實(shí)體以行為單位,所鏈接的實(shí)體是每個(gè)三元組的主語,除主鍵所在列外每一列對齊到的屬性是謂語,屬性值是賓語。對于枚舉列表,百科頁面的標(biāo)題就是每個(gè)三元組的主體,而表格中的每個(gè)實(shí)體名稱則是每個(gè)關(guān)系三元組的賓語(尾實(shí)體),尾實(shí)體鏈接采用與關(guān)系表實(shí)體鏈接相同的方法。謂語通過每個(gè)實(shí)體對在知識(shí)庫中存在謂語的數(shù)量投票決定。

(7)融合模型:采用我們提出的針對百科表格數(shù)據(jù)集的融合策略。

4 ? 關(guān)鍵技術(shù)分析(Key technical analysis)

在這一節(jié),我們介紹了框架中三個(gè)關(guān)鍵技術(shù)的細(xì)節(jié),它們是(1)知識(shí)表類型識(shí)別;(2)關(guān)系表與知識(shí)庫匹配;(3)融合模型。

4.1 ? 知識(shí)表類型識(shí)別

這一節(jié)中我們提出了識(shí)別三種表格類型的方法。表格中有兩種類型的信息,屬性信息和屬性值信息。如果已知一些表格屬性,那么我們可以利用它來識(shí)別表格的結(jié)構(gòu),從而能夠幫助我們把屬性對應(yīng)到正確的屬性值單元。由于表格是半結(jié)構(gòu)化的數(shù)據(jù),它的屬性通常連續(xù)地出現(xiàn)在一整行或一整列。定位表格的屬性會(huì)幫助我們識(shí)別表格正確的結(jié)構(gòu)。對于鍵值對表和關(guān)系表,我們發(fā)現(xiàn),表格屬性與知識(shí)庫中的屬性有相同處,并且表格屬性集合與由知識(shí)庫屬性構(gòu)成的模式庫存在交集。對此,我們將表格屬性屬于模式庫的比例和個(gè)數(shù)作為模式得分特征,為鍵值對表和關(guān)系表分別訓(xùn)練了一個(gè)單層決策樹,作為初始的表格識(shí)別器。在使用表格識(shí)別器識(shí)別表格后,將會(huì)含有一些不屬于模式庫的屬性出現(xiàn)在表格中,但這些屬性可能是其他表格的屬性。于是,我們使用這些屬性擴(kuò)充模式庫。模式庫擴(kuò)充后,訓(xùn)練集中表格的模式得分特征可能發(fā)生變化,需要更新,進(jìn)而分類器模型又需要重新訓(xùn)練。如此往復(fù),這是一個(gè)迭代的過程。如算法1所示,我們提出了基于特征在線更新的表格識(shí)別器訓(xùn)練算法。

算法1基于模式特征在線更新的識(shí)別器訓(xùn)練

輸入:模式庫predictkg,知識(shí)表模式集合Predicttable,單層決策樹DStump

輸出:單層決策樹DStump,擴(kuò)充后的模式庫predictkg

1.next_iteration=False

2.for predicttable in Predicttable? do

3. ?computer Scoretable

4. ?if DStump(Scoretable) is True then

5. ? ?if ?then

6.

7. ? ?next_iteration=True

8. ? end if

9. end if

10.end for

11.if next_iteration is True then

12. ?update training set with new Scoretable and ?resume the training

13. ?if DStump performs better in testing set then

14. ? ?repeat 1 to 10

15 ? ?end if

16.else return DStump and predictkg

17.end if

在算法1的輸入中,模式庫初始化為知識(shí)庫中屬性的集合;每個(gè)知識(shí)表的模式按行或按列獲得(以屬性表為例,它的模式由第一列中的每個(gè)屬性構(gòu)成);識(shí)別器采用單層決策樹模型,使用初始的得分特征進(jìn)行訓(xùn)練。算法1的第3行計(jì)算了表格的兩個(gè)模式得分,一個(gè)是屬性屬于模式庫的比例,即,另一個(gè)是屬性屬于模式庫的個(gè)數(shù)。算法的第2行到第10行,計(jì)算每個(gè)未識(shí)別知識(shí)表的模式得分,如果有新的表被識(shí)別,則擴(kuò)充模式庫。每經(jīng)過一輪迭代,都會(huì)重新訓(xùn)練一次識(shí)別器,原來的假負(fù)例在模式得分提高后會(huì)被識(shí)別為真正例,識(shí)別器的召回率會(huì)得到提升。當(dāng)經(jīng)過若干輪迭代后,模式庫屬性數(shù)量不再增加或識(shí)別器F1值不再提高時(shí),我們將識(shí)別器和模式庫返回。另外,可以在使用算法1完成弱學(xué)習(xí)器的訓(xùn)練后引入剩下的表格特征(如布局特征和內(nèi)容特征),通過boosting的方式訓(xùn)練一個(gè)更強(qiáng)的識(shí)別器。考慮到需要多次重復(fù)訓(xùn)練,于是我們選擇單層決策樹這樣一個(gè)弱學(xué)習(xí)器作為識(shí)別模型,并且不引入其他特征。

在剩下未識(shí)別的知識(shí)表中,我們使用強(qiáng)規(guī)則識(shí)別枚舉列表。我們把表格中每個(gè)單元格的內(nèi)容假設(shè)為實(shí)體名稱,通過知識(shí)庫查找該實(shí)體名稱對應(yīng)的實(shí)體(實(shí)體和實(shí)體別稱滿足多對多的關(guān)系),若每個(gè)實(shí)體別稱都能映射到至少一個(gè)實(shí)體,則啟發(fā)性地認(rèn)為該表格為枚舉列表。

4.2 ? 關(guān)系表與知識(shí)庫匹配

這一節(jié),在T2K算法框架[11]中加入我們提出的基于概念(本體)樹的表格聚類和基于公共上位概念的候選集生成方法。

4.2.1 ? T2K匹配框架

T2K算法框架將每個(gè)關(guān)系表視為一個(gè)小型關(guān)系型數(shù)據(jù)庫,將關(guān)系表中的實(shí)體、屬性和概念與知識(shí)庫匹配。圖5描述了T2K算法框架的主要步驟。它首先從知識(shí)庫中獲得候選實(shí)體,通過基于屬性值的匹配得到候選實(shí)體的實(shí)體鏈接得分。然后以列為單位,選擇屬性值相似度的和最高的屬性作為屬性相似度,并計(jì)算這個(gè)屬性對應(yīng)的每個(gè)概念的得分,用得分最高的概念過濾候選實(shí)體。在過濾掉一些實(shí)體后,屬性相似度發(fā)生了變化,需要重新選擇,這是一個(gè)迭代的過程。T2K算法的先進(jìn)之處在于,不同于傳統(tǒng)數(shù)據(jù)庫模式匹配,它在匹配過程中加入了概念(本體)的匹配,而概念(本體)是實(shí)體和屬性的迭代匹配的橋梁。

4.2.2 ? 基于概念的表格聚類

根據(jù)HTML表格與知識(shí)庫匹配的經(jīng)驗(yàn),表格中實(shí)體數(shù)量越大,它們與知識(shí)庫匹配的效果越理想。于是,在T2K框架的基礎(chǔ)上將關(guān)系表內(nèi)容整合。表格內(nèi)容整合分為表格聚類和表格合并兩個(gè)部分,前者采取了我們提出的算法2的方式,后者則是利用表格聚類的結(jié)果,將同類表格中相似屬性合并到同一表格。這一節(jié)重點(diǎn)介紹了我們提出的基于概念的表格聚類算法。

此聚類算法以表格實(shí)體所屬概念為特征,首先將每個(gè)表格表示為一個(gè)向量,其中j是知識(shí)庫中概念的數(shù)量。每一個(gè)維度對應(yīng)的計(jì)算公式為:,其中,Ti.E表示表格Ti的實(shí)體名集合,I(Cj)表示知識(shí)圖譜中概念Cj的實(shí)體名集合。接著,我們計(jì)算表格向量間的余弦相似度,然后采用如算法2所示的方法將表格聚類。

算法2基于概念(本體)樹的表格聚類

輸入:表格集合Table,相似度閾值threshold

輸出:聚類簇C

1.Initialize clusters C=

2.for table in Table do

3. ?get vector Ti for table

4. ?initialize flag f=False

5. ?for cluster c in C do

6. ? ?get vector Tc of the first table in c

7. ? ?if ?then

8. ? ? ?add table to c

9. ? ? ?f=True

10. ? ? break

11. ? end if

12. ?end for

13. ?if f=False then

14. ? ?initialize new cluster c={table}

15. ? ?add c to C

16. ?end if

17.end for

18.return C

可見,算法2是一種簡單且有效的聚類算法,它的時(shí)間復(fù)雜度為O(m×n),其中n是表格的總數(shù),m是聚類簇的數(shù)目,它遠(yuǎn)小于n。

4.2.3 ? 基于公共上位概念的候選集生成

T2K[11]算法在候選集生成中,首先通過計(jì)算表格實(shí)體名與知識(shí)庫實(shí)體名的相似度為每個(gè)實(shí)體生成top k個(gè)候選實(shí)體;然后為每個(gè)實(shí)體選擇所屬頻率最高的概念,過濾不屬于這些概念的初始候選實(shí)體。根據(jù)百科表格數(shù)據(jù)知識(shí)分布的特點(diǎn),系統(tǒng)偏向于擴(kuò)充長尾概念下的知識(shí),使用高頻概念不能有效地過濾初始候選實(shí)體。于是,我們提出了使用“公共上位概念”過濾初始候選實(shí)體的方法。

定義4(公共上位概念Cp)在概念樹T中,如存在一個(gè)概念,其子概念構(gòu)成的集合Cp.children與由每個(gè)候選實(shí)體集合Ei對應(yīng)的概念集合Ci構(gòu)成的集合Ciset都存在交集,我們把這個(gè)概念稱為公共上位概念Cp,形式化為下列公式:

以圖6為例,表格中存在中國、法國、日本三個(gè)實(shí)體名稱,它們的候選實(shí)體集Ei分別為:{中華人民共和國}{法國(法蘭西共和國),法國(APA publications主編圖書)}和{日本(日本國),日本(山名)},對應(yīng)的概念集合Ci分別為分別為{東亞國家}{其他山脈,東亞國家}和{西歐國家,歷史書籍},則“國家”是這三個(gè)實(shí)體的公共上位概念Cp。而地形概念下的實(shí)體數(shù)量更多,它更可能成為高頻概念。技術(shù)上,我們采用回溯算法遍歷概念樹得到Cp,過濾掉不屬于Cp的候選實(shí)體。

4.3 ? 融合模型

由于互聯(lián)網(wǎng)資源可信度較低,以往的工作在融合策略上采用了基于知識(shí)庫[21]或者網(wǎng)頁排名的先驗(yàn)信任機(jī)制。而百科表格中的知識(shí)按領(lǐng)域分布均勻,屬于長尾的較多,如果直接使用先驗(yàn)信任機(jī)制,那么這些長尾知識(shí)(知識(shí)庫中的孤立節(jié)點(diǎn))都不能被融合。考慮到百科資源具有很高的可信度,我們不需要采用先驗(yàn)信任機(jī)制,而應(yīng)該以抽取器的準(zhǔn)確率為指標(biāo),即識(shí)別器得分和實(shí)體鏈接相似度得分。我們將表格識(shí)別概率和實(shí)體鏈接相似度得分作為特征,為每種類型的表格分別訓(xùn)練一個(gè)邏輯回歸模型。模型學(xué)習(xí)了兩個(gè)特征的權(quán)重,以此得到知識(shí)的可信度。由于枚舉列表和鍵值對表不需額外進(jìn)行實(shí)體鏈接,他們的實(shí)體鏈接相似度得分均取1。

5 ? 實(shí)驗(yàn) (Experiment)

本文提出的方法已用于國內(nèi)某個(gè)中文百科知識(shí)庫的構(gòu)建和擴(kuò)充,采用的表格數(shù)據(jù)集來自百度百科和互動(dòng)百科。由于百度百科與互動(dòng)百科不提供轉(zhuǎn)儲(chǔ)文件,本文通過網(wǎng)絡(luò)爬蟲獲得所有帶

標(biāo)簽的HTML表格及對應(yīng)頁面信息。其中,互動(dòng)百科的infobox信息同樣采用
標(biāo)簽標(biāo)記。在剔除互動(dòng)百科340萬個(gè)實(shí)體的infobox并過濾了15萬個(gè)非知識(shí)表后,我們得到126萬個(gè)中文百科知識(shí)表。同時(shí),為了在公開數(shù)據(jù)集中驗(yàn)證實(shí)驗(yàn)有效性,本文使用中文百科格數(shù)據(jù)集擴(kuò)充CN-DBpedia[4],并且將實(shí)驗(yàn)結(jié)果與Ritze[11]的方法進(jìn)行比較。

5.1 ? 表格識(shí)別結(jié)果評估

非知識(shí)表過濾器模型20折交叉驗(yàn)證了5000個(gè)公開的已標(biāo)注互聯(lián)網(wǎng)表格和我們標(biāo)注的1000個(gè)從中文在線百科中隨機(jī)采樣的表格,共獲得126萬知識(shí)表和15萬非知識(shí)表。各類型表格識(shí)別器分別獲得關(guān)系表34萬,鍵值對表21萬,枚舉列表5萬,剩下66萬個(gè)表格屬于復(fù)雜類型或難以融入知識(shí)庫的表格。實(shí)驗(yàn)中,我們比較了使用算法1訓(xùn)練的單層梯度決策樹表格識(shí)別器和未使用模式特征的梯度提升樹識(shí)別器[12,13](記為GBDT)。我們的報(bào)告評估了準(zhǔn)確率(P)、召回率(R)和F1值。表格識(shí)別評估結(jié)果如表2所示,實(shí)驗(yàn)證明使用我們的方法訓(xùn)練的識(shí)別器效果明顯提升,尤其是準(zhǔn)確率。

5.2 ? 關(guān)系表與知識(shí)庫匹配結(jié)果評估

在4.2節(jié)中,我們在T2K[10]算法中加入了表格內(nèi)容整合和利用公共上位概念的候選集生成的步驟。與Ritze[11]的工作不同的是,我們將中文百科表格與CN-DBpedia匹配。由于WDC Web Tables corpus[11]是來自全網(wǎng)的跨語言表格數(shù)據(jù)集,所以中文百科表格數(shù)據(jù)集可以認(rèn)為是它的子集,同時(shí)CN-DBpedia也可以認(rèn)為是跨語言知識(shí)庫DBpedia的子集。在實(shí)驗(yàn)中,我們首先標(biāo)注了100個(gè)關(guān)系表的實(shí)體鏈接結(jié)果,然后分別比較了這兩個(gè)步驟對T2K算法中實(shí)體鏈接的影響。表3中T2K+M、T2K+C和T2K+MC表示分別加入表格內(nèi)容整合,利用公共上位概念和綜合利用兩個(gè)步驟的T2K算法。如表3所示,表格內(nèi)容整合使得更多的實(shí)體參與到與知識(shí)庫的匹配過程中進(jìn)而提升了召回率,而利用公共上位概念可以為實(shí)體選擇語義相似度更高的候選實(shí)體集合,進(jìn)而提升了準(zhǔn)確率。

5.3 ? 融合結(jié)果

如表4所示,我們挖掘出了近1400萬的三元組知識(shí)。在最終入庫時(shí),除了要保證三元組的可靠度,還需要去重。我們采取了一個(gè)啟發(fā)式方法,對于關(guān)系三元組(賓語是實(shí)體),若頭實(shí)體鏈接的知識(shí)庫實(shí)體不含該三元組的尾實(shí)體,則直接入庫。對于屬性三元組(賓語不是實(shí)體),若頭實(shí)體鏈接的知識(shí)庫實(shí)體的屬性或?qū)傩灾担c該三元組的屬性,或?qū)傩灾翟谙鄬庉嬀嚯x或基于字典的語義相似度上小于閾值則可以直接入庫。去重后,我們可以向CN-DBpedia擴(kuò)充約1000萬三元組。

6 ? 結(jié)論(Conclusion)

我們的工作提出了基于在線百科表格數(shù)據(jù)的知識(shí)庫擴(kuò)充框架,解決了表格識(shí)別和知識(shí)融合的挑戰(zhàn)。實(shí)驗(yàn)結(jié)果證明了從百科中抽取的三元組的數(shù)量和質(zhì)量能夠用于知識(shí)庫的擴(kuò)充。

參考文獻(xiàn)(References)

[1] Bollacker K.,Cook R.,Tufts P.Freebase:A Shared Database of Structured General Human Kowledge[C].AAAI Conference on Artificial Intelligence,Vancouver,2007(22-26):1962-1963.

[2] Mahdisoltani,F(xiàn).,Biega,et al.YAGO3:a knowledge base from multilingual wikipedias[C].Proceedings of the Conference on Innovative Data Systems Research,Asilomar,2015:4-7.

[3] Lehmann,J.,Isele,R.,Jakob,et al.DBpedia-a large-scale,multilingual knowledge base extracted from Wikipedia[M].Semantic Web,2015,6(2):167-195.

[4] Xu B.,Xu Y.,Liang J.,et al.CN-DBpedia:A Never-Ending Chinese Knowledge Extraction System[J].In International Conference on Industrial,Engineering and Other Applications of Applied Intelligent Systems,Springer,Cham,2017:428-438.

[5] Boya Peng,Yejin Huh,Xiao Ling,et al.Improving Knowledge Base Construction from Robust Infobox Extraction[J].NAACL-HLT,2019(2):138-148.

[6] Dong X.,Gabrilovich E.,Heitz G.,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C].The International Conference on Knowledge Discovery and Data Mining,New York,2014:601-610.

[7] Ritze D.,Lehmberg O.,Oulabi Y.,et al.Profiling the Potential of Web Tables for Augmenting Cross-domain Knowledge Bases[C].International Conference on World Wide Web,2016.

[8] Zhihu Qian,Jiajie Xu,Kai Zheng,et al.Semantic-aware top-k spatial keyword queries[J].World Wide Web,2018,21(3):573-594.

[9] Venetis,P.,Halevy A.,Madhavan,J.,Pasca,M.,et al.Recovering semantics of tables on the web[J].Proceedings of the Vldb Endowment,2011,4(9):528-538.

[10] Cafarella M J.,Halevy A.,Wang D Z.,et al.WebTables:exploring the power of tables on the web[J].Proceedings of the Vldb Endowment,2008,1(1):538-549.

[11] Ritze D.,Lehmberg O.,Bizer C.Matching HTML Tables to DBpedia[C].International Conference on Web Intelligence,Mining and Semantics,Cyprus,2015.

[12] Crestan E.,Pantel P.Web-scale table census and classification[C].International Conference on Web Search & Data Mining.ACM,2011:545.

[13] Crestan E.,Pantel P.Web-scale knowledge extraction from semi-structured tables[J].ACM Press the 19th international conference Raleigh,North Carolina,USA Proceedings of the 19th international conference on World wide web,2010:1081.

[14] Yoshida M.,Torisaw K.,Tsujii J.A Method to Integrate Tables of the World Wide Web[C].In:Proceedings of the First International Workshop on Web Document Analysis,2001:31-34.

[15] Fan J.,Lu M.,Ooi B C.,et al.A hybrid machine-crowdsourcing system for matching web tables[C].2014 IEEE 30th International Conference on Data Engineering.IEEE Computer Society,2014.

作者簡介:

宋曉兆(1995-),男,碩士生.研究領(lǐng)域:自然語言處理,知識(shí)圖譜.

鄭 ?新(1990-),男,碩士,工程師.研究領(lǐng)域:自然語言處理,知識(shí)圖譜.

李直旭(1983-),男,博士,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘,知識(shí)圖譜.

許佳捷(1983-),男,博士,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘,時(shí)空數(shù)據(jù)庫.

主站蜘蛛池模板: 国产超碰一区二区三区| 国产天天色| 欧美日韩精品在线播放| 国内a级毛片| 国产欧美在线| 青青草原国产av福利网站| 91精品国产自产91精品资源| 又猛又黄又爽无遮挡的视频网站| 国产区网址| 国产毛片基地| 成人免费网站久久久| 午夜视频免费试看| 免费在线看黄网址| 欧洲一区二区三区无码| 日韩亚洲综合在线| 国产成人亚洲无码淙合青草| 色哟哟国产成人精品| 国产精品免费p区| 欧美成人h精品网站| 波多野结衣久久高清免费| 色精品视频| 99色亚洲国产精品11p| 无码 在线 在线| 日韩毛片免费视频| 日韩免费毛片| 在线色国产| 成人中文在线| 波多野结衣久久精品| 久久先锋资源| 女人一级毛片| 无码免费视频| 99久久精品国产自免费| 1024你懂的国产精品| 色悠久久久久久久综合网伊人| 国产真实乱人视频| 国产成人啪视频一区二区三区 | 国产精品lululu在线观看| 亚洲国产成人精品一二区| 国产午夜精品鲁丝片| 久久动漫精品| 亚洲欧洲日韩国产综合在线二区| 国产99在线| 国产91丝袜在线播放动漫 | 欧美97色| 亚洲无码高清一区二区| 久久国产精品影院| 欧美 国产 人人视频| 99精品免费欧美成人小视频| 伊人查蕉在线观看国产精品| 天天摸天天操免费播放小视频| 五月婷婷综合在线视频| 99久久国产精品无码| 国产精品视频白浆免费视频| 超级碰免费视频91| 中文成人无码国产亚洲| 五月婷婷激情四射| 久久久久久久久亚洲精品| 亚洲视频四区| 国产成人无码AV在线播放动漫 | 亚洲天堂精品在线| 成人福利在线视频| 日本午夜视频在线观看| 久久久受www免费人成| 国产乱人视频免费观看| 国产精品流白浆在线观看| 亚洲视屏在线观看| 欧美成人精品高清在线下载 | 亚洲香蕉在线| 午夜一区二区三区| 亚洲人成色在线观看| 成人噜噜噜视频在线观看| 国产精品视频第一专区| 91色综合综合热五月激情| 99精品一区二区免费视频| 亚洲AⅤ波多系列中文字幕| 成人毛片在线播放| 精品黑人一区二区三区| 都市激情亚洲综合久久 | 不卡无码h在线观看| 国产一区在线观看无码| 中国黄色一级视频| 伊人久久大香线蕉aⅴ色|