李嬌 孫坦 黃永文 鮮國(guó)建,3 羅婷婷 趙瑞雪,3
知識(shí)組織
融合專題知識(shí)和科技文獻(xiàn)的科研知識(shí)圖譜構(gòu)建*
李嬌1孫坦2,3黃永文1鮮國(guó)建1,3羅婷婷1趙瑞雪1,3
(1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 中國(guó)農(nóng)業(yè)科學(xué)院,北京 100081;3. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)
本文為解決領(lǐng)域科技文獻(xiàn)與專題價(jià)值的割裂問(wèn)題提出深度融合科技文獻(xiàn)、科研活動(dòng)等科研對(duì)象與領(lǐng)域?qū)n}數(shù)據(jù)資源的圖譜構(gòu)建方法。通過(guò)主題詞關(guān)聯(lián)設(shè)計(jì),構(gòu)建包含期刊論文、期刊、科研機(jī)構(gòu)、科研人員及專題實(shí)體類型的科研本體,選取機(jī)器學(xué)習(xí)專題構(gòu)建科研知識(shí)圖譜,并基于圖數(shù)據(jù)庫(kù)Neo4J進(jìn)行圖譜管理與查詢驗(yàn)證。該專題科研知識(shí)圖譜可以支持單實(shí)體/屬性、多實(shí)體事實(shí)性問(wèn)題的復(fù)雜圖譜查詢,有效揭示專題、科技文獻(xiàn)的關(guān)聯(lián)關(guān)系,具有較強(qiáng)的應(yīng)用價(jià)值,可以為面向文獻(xiàn)數(shù)據(jù)的智能知識(shí)服務(wù)提供新的思路和方向。
科研本體;專題數(shù)據(jù);科研知識(shí)圖譜;復(fù)雜圖譜查詢
知識(shí)圖譜是采用圖結(jié)構(gòu)來(lái)建模和記錄世界萬(wàn)物之間關(guān)聯(lián)關(guān)系和知識(shí)的技術(shù)[1],可分為語(yǔ)義萬(wàn)維網(wǎng)領(lǐng)域提出的基于RDF三元組存儲(chǔ)的語(yǔ)義知識(shí)圖譜(關(guān)聯(lián)數(shù)據(jù))和數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展形成的基于屬性圖數(shù)據(jù)庫(kù)的廣義知識(shí)圖譜,與之對(duì)應(yīng)的圖譜存儲(chǔ)方式分別是面向RDF的三元組數(shù)據(jù)庫(kù)(如OpenLink Virtuoso、GraphDB等)和原生圖數(shù)據(jù)庫(kù)(如Neo4J、JanusGraph等)。隨著三元組數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)的相互融合發(fā)展,知識(shí)圖譜的構(gòu)建、存儲(chǔ)與管理也呈現(xiàn)交叉豐富之態(tài)。圖情及信息管理領(lǐng)域,語(yǔ)義知識(shí)圖譜是主流的數(shù)據(jù)關(guān)聯(lián)整合及語(yǔ)義組織方式[2],基于RDF三元組的表示方法是構(gòu)建語(yǔ)義知識(shí)圖譜時(shí)的常用方法,其核心在于為數(shù)據(jù)資源嵌入機(jī)器可讀的語(yǔ)義標(biāo)簽,它提供了知識(shí)建模的靈活性,同時(shí)也支持基于實(shí)體模型的實(shí)體、屬性及實(shí)體關(guān)系的擴(kuò)展,支撐推理應(yīng)用。
近年來(lái),知識(shí)圖譜相關(guān)研究取得了極大進(jìn)展,實(shí)踐成果豐富。在以科技文獻(xiàn)資源為語(yǔ)料基礎(chǔ)的學(xué)術(shù)領(lǐng)域,知識(shí)圖譜通常用于支持?jǐn)?shù)據(jù)發(fā)布、知識(shí)搜索、知識(shí)標(biāo)引等形態(tài)的應(yīng)用,服務(wù)于專業(yè)技術(shù)人員或特定行業(yè)從業(yè)人員。其中典型的知識(shí)圖譜有Springer Nature推出的SciGraph[3-4],通過(guò)構(gòu)建本體SciGraphCore ontology并采用序列化N-Triples格式的三元組進(jìn)行數(shù)據(jù)表示,集成整合了如科研機(jī)構(gòu)、資助項(xiàng)目、科研單位、會(huì)議、期刊論文、圖書(shū)和論文附屬數(shù)據(jù)等各種信息,包含15億~20億條學(xué)術(shù)對(duì)象的信息(三元組),并與Springer Nature API Portal集成在一起支持Springer Nature REST API直接查詢數(shù)據(jù)[5];開(kāi)放學(xué)術(shù)組織(Open Academic Society)發(fā)布的億級(jí)學(xué)術(shù)圖譜——開(kāi)放學(xué)術(shù)圖譜(Open Academic Graph,OAG)[6]集成了微軟學(xué)術(shù)圖譜(Microsoft Academic Graph,MAG)及科技情報(bào)大數(shù)據(jù)挖掘與服務(wù)系統(tǒng)平臺(tái)AMiner[7]的數(shù)億篇論文,并生成兩個(gè)圖之間的6?000多萬(wàn)鏈接(匹配)關(guān)系供科研使用;Elsevier Knowledge Graph以Elsevier學(xué)術(shù)資源為基礎(chǔ)語(yǔ)料構(gòu)建科研、生命科學(xué)、醫(yī)療保健3個(gè)領(lǐng)域的知識(shí)圖譜,包含簡(jiǎn)介、機(jī)構(gòu)、基金、論文、機(jī)構(gòu)等信息。
然而,現(xiàn)有基于科技文獻(xiàn)、科研活動(dòng)等科研對(duì)象的圖譜實(shí)踐與領(lǐng)域?qū)n}關(guān)聯(lián)較弱,融合深度欠缺。專題知識(shí)圖譜構(gòu)建語(yǔ)料多來(lái)自百科、垂直網(wǎng)站、開(kāi)源數(shù)據(jù)等,通常采用基于規(guī)則、統(tǒng)計(jì)模型或深度學(xué)習(xí)的知識(shí)抽取方式,依賴大量的樣本與人力標(biāo)注;涉及主題模型的學(xué)術(shù)圖譜則多是基于關(guān)鍵詞匹配且主題內(nèi)詞間關(guān)系不明晰,語(yǔ)料及技術(shù)路徑的差異性導(dǎo)致科技文獻(xiàn)與專題價(jià)值呈現(xiàn)割裂狀態(tài),難以支撐涉及領(lǐng)域及文獻(xiàn)多實(shí)體的復(fù)雜圖譜查詢等應(yīng)用,科技文獻(xiàn)與專題知識(shí)兩者關(guān)聯(lián)關(guān)系的構(gòu)建是解決這一難題的關(guān)鍵。本文在現(xiàn)有研究基礎(chǔ)上,設(shè)計(jì)了涵蓋數(shù)據(jù)預(yù)處理、RDF格式知識(shí)抽取、RDF2PG的科研知識(shí)圖譜構(gòu)建技術(shù)路徑。具體來(lái)說(shuō),基于專題數(shù)據(jù)特征設(shè)計(jì)描述專題內(nèi)詞間關(guān)系的數(shù)據(jù)模型,并結(jié)合科技文獻(xiàn)類的成熟語(yǔ)義描述模型,以主題詞為關(guān)聯(lián)點(diǎn)設(shè)計(jì)構(gòu)建融合專題數(shù)據(jù)模型和科技文獻(xiàn)結(jié)構(gòu)特征的科研本體模型。以機(jī)器學(xué)習(xí)(Machine Learning)專題為例,選取Web of Science核心合集作為文獻(xiàn)來(lái)源檢索篩選出200篇英文期刊論文構(gòu)建專題語(yǔ)義知識(shí)圖譜即RDF圖,繼而基于圖譜映射規(guī)則、Neo4J圖數(shù)據(jù)庫(kù)插件及導(dǎo)入函數(shù)進(jìn)行RDF圖的屬性圖轉(zhuǎn)化,實(shí)現(xiàn)科研知識(shí)圖譜管理并支持事實(shí)型客觀問(wèn)題查詢。
知識(shí)圖譜由模式層和數(shù)據(jù)層兩個(gè)邏輯層次組成,模式層即描述抽象知識(shí)的本體層,是知識(shí)圖譜的核心,構(gòu)建在數(shù)據(jù)層之上并用于約束數(shù)據(jù)層;數(shù)據(jù)層則是由大量描述具體實(shí)體對(duì)象的事實(shí)和數(shù)據(jù)組成。知識(shí)圖譜的建設(shè)核心是建立本體模型和實(shí)體數(shù)據(jù)庫(kù),兩者構(gòu)建順序定義的方法有“自頂向下”和“自底向上”兩種。針對(duì)本次研究選用的專題數(shù)據(jù)情況及知識(shí)體系完備程度,本文采用自頂向下的方式進(jìn)行科研知識(shí)圖譜構(gòu)建。
本體知識(shí)建模是知識(shí)圖譜內(nèi)實(shí)體連通的語(yǔ)義基礎(chǔ),需要設(shè)計(jì)概念集合和框架并對(duì)知識(shí)進(jìn)行合理的組織以準(zhǔn)確描述相關(guān)的類和屬性,即實(shí)體間的關(guān)系。知識(shí)建模需要結(jié)合數(shù)據(jù)及應(yīng)用特征,準(zhǔn)確地描述知識(shí)本身與知識(shí)的關(guān)聯(lián),以盡量減少數(shù)據(jù)冗余、提高應(yīng)用效率為根本原則設(shè)計(jì)科學(xué)高質(zhì)量的模式。
本文選取期刊論文為主要研究對(duì)象,并根據(jù)來(lái)源數(shù)據(jù)特征和應(yīng)用場(chǎng)景,繼承復(fù)用RDF、SKOS等數(shù)據(jù)結(jié)構(gòu)及BIBO[8]、PRISM[9]等成熟本體模型或元數(shù)據(jù)標(biāo)準(zhǔn)中定義的基礎(chǔ)元屬性,建立融合專題數(shù)據(jù)模型和科技文獻(xiàn)結(jié)構(gòu)特征的科研本體,命名空間為http://linked.scikg.com/onts/(前綴scikg:),包含期刊論文、期刊、主題、科研人員、科研機(jī)構(gòu)5種實(shí)體類型,并為其建立URI(見(jiàn)表1)。其中,scikgId為數(shù)據(jù)資源在數(shù)據(jù)庫(kù)中的唯一標(biāo)識(shí)符。

科研本體各實(shí)體類型數(shù)據(jù)關(guān)系模型如圖1所示。期刊論文類通過(guò)對(duì)象屬性scikg:about、scikg:subjectOf與主題類進(jìn)行鏈接,實(shí)現(xiàn)領(lǐng)域主題和科技文獻(xiàn)的關(guān)聯(lián)關(guān)系構(gòu)建;通過(guò)scikg:rightHolder、scikg:hasAuthor、dcterms:isPartOf分別與科研機(jī)構(gòu)類、科研人員類、期刊類進(jìn)行鏈接。同時(shí),期刊論文類數(shù)據(jù)模型提供了12個(gè)數(shù)據(jù)屬性,包括類名、題名、摘要、關(guān)鍵詞、出版日期、文獻(xiàn)重要度(scikg:importantDegree)、期號(hào)、卷號(hào)、起始頁(yè)、結(jié)束頁(yè)、數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,DOI)、被引頻次(scikg:timeCited)。
考慮到面向終端科研用戶的文獻(xiàn)遴選等應(yīng)用場(chǎng)景需求,引入文獻(xiàn)重要度[10]這一重要指標(biāo)屬性,取值為數(shù)值。文獻(xiàn)重要度與科技文獻(xiàn)的多個(gè)屬性相關(guān),如被引次數(shù)、所在期刊的影響因子、作者科學(xué)價(jià)值、文獻(xiàn)內(nèi)容等。
主題類數(shù)據(jù)模型用于描述專題知識(shí)范疇內(nèi)各子概念或術(shù)語(yǔ)的詞間關(guān)系,需在充分分析所選專題特征及知識(shí)服務(wù)需求的前提下進(jìn)行設(shè)計(jì)。本文以機(jī)器學(xué)習(xí)專題為例,通過(guò)相關(guān)調(diào)研的總結(jié)歸納確定了scikg:isKindOf、scikg:useTechnique、scikg:learningParadigm、scikg:subjectOf 4個(gè)對(duì)象屬性,以及類名、術(shù)語(yǔ)名、所屬學(xué)科、術(shù)語(yǔ)簡(jiǎn)稱、應(yīng)用于5個(gè)數(shù)據(jù)屬性。期刊數(shù)據(jù)類主要包括1個(gè)對(duì)象屬性dcterms:isPartOf,以及類名、期刊名、出版商、ISSN、期刊影響因子(Journal Impact Factor,JIF)等8個(gè)數(shù)據(jù)屬性,科研機(jī)構(gòu)類和科研人員類各包括3個(gè)、7個(gè)屬性。
上述為本次研究中結(jié)合可獲取數(shù)據(jù)來(lái)源特征并支撐驗(yàn)證實(shí)驗(yàn)的科研本體數(shù)據(jù)關(guān)系模型,實(shí)際應(yīng)用中可根據(jù)來(lái)源數(shù)據(jù)元數(shù)據(jù)復(fù)雜度進(jìn)行擴(kuò)充或修改,如添加更多實(shí)體類型如資助項(xiàng)目、會(huì)議論文、著作等,以及各類的屬性。
科研本體構(gòu)建后表示知識(shí)圖譜的模式層已經(jīng)建立,本節(jié)將重點(diǎn)介紹知識(shí)圖譜數(shù)據(jù)層(實(shí)例層)的構(gòu)建。隨著信息技術(shù)和大數(shù)據(jù)的發(fā)展,科技文獻(xiàn)的結(jié)構(gòu)化發(fā)布模式極大地方便了科研知識(shí)圖譜的構(gòu)建及語(yǔ)義揭示,批量文獻(xiàn)語(yǔ)料的獲取方式也愈加豐富,如長(zhǎng)期積累自建的文件數(shù)據(jù)、知識(shí)服務(wù)網(wǎng)站(或?qū)W術(shù)信息數(shù)據(jù)庫(kù))以及開(kāi)源數(shù)據(jù)下載等。由于人工標(biāo)注數(shù)據(jù)集的方式成本高且規(guī)模有限,本文面向研究任務(wù)需求遴選了高質(zhì)量開(kāi)放數(shù)據(jù)集并輔以人工補(bǔ)充,主要包括專題數(shù)據(jù)和英文期刊論文數(shù)據(jù)兩部分。
選定的Machine Learning專題模型構(gòu)建數(shù)據(jù)來(lái)源是從AMiner提取的結(jié)構(gòu)化實(shí)體網(wǎng)絡(luò)——Aminer開(kāi)放數(shù)據(jù)集“Knowledge Graph for Machine Learning”[11],通過(guò)百科及其他文獻(xiàn)著作[12]予以修改補(bǔ)充,生成實(shí)例節(jié)點(diǎn)100個(gè),其中一級(jí)節(jié)點(diǎn)及其關(guān)系如圖2所示,知識(shí)圖譜構(gòu)建時(shí)通過(guò)定義的若干對(duì)象屬性實(shí)現(xiàn)URI的內(nèi)部鏈接,包括所屬學(xué)科、術(shù)語(yǔ)簡(jiǎn)稱、應(yīng)用于等。

此外,本文將所有節(jié)點(diǎn)的名稱(術(shù)語(yǔ)名)、別名、單復(fù)數(shù)形式等整合構(gòu)建主題詞表,作為后續(xù)期刊論文主題標(biāo)引的標(biāo)注語(yǔ)料庫(kù)來(lái)源。
基于知識(shí)模型的語(yǔ)料數(shù)據(jù)補(bǔ)全及預(yù)處理是科研知識(shí)圖譜構(gòu)建的重要環(huán)節(jié),主要目的是解決語(yǔ)料數(shù)據(jù)異構(gòu)、缺省等問(wèn)題,并通過(guò)主題匹配的方式在科技文獻(xiàn)數(shù)據(jù)和專題數(shù)據(jù)之間建立相關(guān)關(guān)系。本文以Web of Science核心合集為文獻(xiàn)來(lái)源,選取并導(dǎo)出200篇期刊論文全紀(jì)錄作為本文知識(shí)圖譜數(shù)據(jù)來(lái)源,包括標(biāo)題、摘要、關(guān)鍵詞、作者列表、地址、期刊等信息,本次研究不涉及處理文獻(xiàn)全文。除此之外,通過(guò)人工方式補(bǔ)充機(jī)構(gòu)名、作者record_id、H-index、總發(fā)文量、總被引頻次、期刊影響因子(2019年)、期刊5年影響因子等字段信息,構(gòu)建以實(shí)體類型為主的關(guān)系型數(shù)據(jù)庫(kù)表,并進(jìn)行相應(yīng)的數(shù)據(jù)加工預(yù)處理,如實(shí)體消歧、文獻(xiàn)重要度計(jì)算、文獻(xiàn)主題標(biāo)引與關(guān)聯(lián)。
2.2.1 實(shí)體消歧
實(shí)體歧義是影響語(yǔ)料數(shù)據(jù)質(zhì)量的重要因素,同一實(shí)體名稱對(duì)應(yīng)多個(gè)概念會(huì)直接降低基于知識(shí)圖譜的信息檢索、研究評(píng)估等各類應(yīng)用的準(zhǔn)確性,因此實(shí)體消歧工作必不可少??蒲斜倔w涉及的實(shí)體類型中,主要以科研人員、科研機(jī)構(gòu)兩類數(shù)據(jù)的消歧為主。
(1)科研人員消歧即論文作者消歧。由于部分?jǐn)?shù)據(jù)缺學(xué)術(shù)標(biāo)識(shí)符(如ORCID、ResearcherID),通過(guò)補(bǔ)充添加Web of Science中每篇期刊論文鏈接到作者詳情頁(yè)地址欄中的record字段作為唯一標(biāo)識(shí)符record_id進(jìn)行消歧。
(2)科研機(jī)構(gòu)消歧。Web of Science中導(dǎo)出獲取的是機(jī)構(gòu)地址信息,通過(guò)人工方式補(bǔ)充相應(yīng)的機(jī)構(gòu)名稱并進(jìn)行消歧。
2.2.2 文獻(xiàn)重要度計(jì)算
前文提及科技文獻(xiàn)重要度是期刊論文數(shù)據(jù)模型中的一個(gè)至關(guān)重要的屬性,通常是指依托期刊或會(huì)議發(fā)表的科技論文影響力與學(xué)術(shù)價(jià)值的定量評(píng)估,與論文被引次數(shù)、所在期刊或會(huì)議的影響因子、作者的權(quán)威度、發(fā)表年份及內(nèi)容質(zhì)量等多個(gè)因子緊密相關(guān)。目前常用的評(píng)價(jià)方法主要有依據(jù)文獻(xiàn)被引頻次的引用計(jì)數(shù)算法[13]、Google提出的基于PageRank算法和文獻(xiàn)間鏈接關(guān)系的PR_P排名算法[14]、Teoma中應(yīng)用的鏈接分析算法HITS(Hyperlink - Induced Topic Search)[15]及以此為基礎(chǔ)的Co-Rank模型[16]等,相關(guān)研究成果多應(yīng)用于網(wǎng)絡(luò)中的搜索引擎,圖情領(lǐng)域的案例有Aminer溯源樹(shù)MRT研究中的文獻(xiàn)重要程度[17]。本文在已有研究成果的基礎(chǔ)上結(jié)合可獲取數(shù)據(jù)的屬性特征通過(guò)復(fù)合加權(quán)建模的方式設(shè)計(jì)文獻(xiàn)重要度評(píng)價(jià)算法,指標(biāo)說(shuō)明如表2所示。

根據(jù)數(shù)據(jù)特征,本文分別從內(nèi)容、載體質(zhì)量、作者科學(xué)價(jià)值3個(gè)維度遴選指標(biāo)I(∈[1,5])并確定相應(yīng)權(quán)重W(∈[1,5]),其中作者影響因子(Author Impact Factor,AIF)以H指數(shù)(H-index)表示,且每篇論文的作者科學(xué)價(jià)值為所有作者的平均值。對(duì)于較近年份的需做人工審核,避免因文獻(xiàn)太新導(dǎo)致的重要度低估。
各指標(biāo)歸一化計(jì)算得分如公式(1)所示。

其中,I為指標(biāo)I的最大值,I為指標(biāo)I的最小值。
文獻(xiàn)重要度得分如公式(2)所示。

需要說(shuō)明的是,文獻(xiàn)重要度評(píng)價(jià)中各參數(shù)均為當(dāng)前年份數(shù)據(jù),此項(xiàng)屬性計(jì)算可依據(jù)需求定期更新,或作為期刊論文類的復(fù)合屬性,基于圖譜數(shù)據(jù)中涉及的相關(guān)屬性值進(jìn)行實(shí)時(shí)計(jì)算。
2.2.3 文獻(xiàn)主題標(biāo)引與關(guān)聯(lián)
主題詞是論文數(shù)據(jù)模型與主題數(shù)據(jù)模型的關(guān)聯(lián)樞紐,本文的論文主題標(biāo)引方案主要包括如下步驟。①待標(biāo)引文獻(xiàn)分詞處理與關(guān)鍵詞提取。通過(guò)本體化改進(jìn)的IK分詞工具及構(gòu)建的專題術(shù)語(yǔ)詞典和若干成熟通用詞表如STKOS、CAT等對(duì)待標(biāo)引文獻(xiàn)的題錄信息(標(biāo)題、摘要及作者關(guān)鍵詞)進(jìn)行切詞并提取關(guān)鍵詞。②關(guān)鍵詞語(yǔ)義匹配,即詞串匹配的相符性比較。將提取的關(guān)鍵詞與選定的標(biāo)注語(yǔ)料庫(kù)中關(guān)鍵詞進(jìn)行語(yǔ)義匹配。具體地,該方法在傳統(tǒng)文本匹配(字面匹配)的基礎(chǔ)上同時(shí)進(jìn)行關(guān)鍵詞詞義擴(kuò)展的對(duì)比分析,如單復(fù)數(shù)、縮寫(xiě)等的匹配。其中,標(biāo)注語(yǔ)料庫(kù)是將專題術(shù)語(yǔ)詞典與已有自建庫(kù)及專題相關(guān)領(lǐng)域權(quán)威語(yǔ)料庫(kù)疊加使用。③打分與主題詞確定?;诿械年P(guān)鍵詞及其所在題錄信息的位置(如標(biāo)題、摘要或者作者關(guān)鍵詞)進(jìn)行加權(quán)計(jì)算,最高分指定為論文主題詞。此過(guò)程需要涉及一定的人工審核以確保標(biāo)引質(zhì)量。
文獻(xiàn)主題標(biāo)引完成后,可通過(guò)在專題數(shù)據(jù)表與期刊論文數(shù)據(jù)表添加匹配上實(shí)例的資源唯一標(biāo)識(shí)符的方式實(shí)現(xiàn)關(guān)聯(lián)。如某篇期刊論文關(guān)鍵詞為Electromyography、Supervised learning、Clustering algorithms、Electrodes,即可命中Supervised learning及Clustering兩個(gè)主題詞并將其添加在期刊論文數(shù)據(jù)表的主題字段中,使得后續(xù)知識(shí)圖譜構(gòu)建中將這篇文獻(xiàn)通過(guò)對(duì)象屬性scikg:about關(guān)聯(lián)到這兩個(gè)主題實(shí)例的URI。
知識(shí)圖譜數(shù)據(jù)層構(gòu)建過(guò)程本質(zhì)上是從多源異構(gòu)數(shù)據(jù)中抽取知識(shí)的過(guò)程,面向不同的數(shù)據(jù)源,知識(shí)抽取涉及的關(guān)鍵技術(shù)和需要解決的技術(shù)難點(diǎn)有所不同,需要綜合考慮數(shù)據(jù)的規(guī)模、操作的穩(wěn)定性和效率。語(yǔ)義知識(shí)圖譜的構(gòu)建方式主要是基于本體模型的三元組抽取,具體來(lái)說(shuō),在數(shù)據(jù)預(yù)處理過(guò)程中,將不同實(shí)體類型對(duì)應(yīng)的數(shù)據(jù)文件進(jìn)行分開(kāi)存儲(chǔ),即可在實(shí)體類型已知的前提下通過(guò)工具或者算法進(jìn)行實(shí)體及關(guān)系的抽取并存入知識(shí)圖譜數(shù)據(jù)庫(kù)中,入庫(kù)后的各知識(shí)節(jié)點(diǎn)(實(shí)體)通過(guò)URI對(duì)齊。本研究預(yù)處理后的語(yǔ)料數(shù)據(jù)存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù),專題科研知識(shí)圖譜生成主要是基于本地化改造的RDF ETL工具完成,該工具以開(kāi)源ETL工具Kettle[18]為運(yùn)行環(huán)境,結(jié)合開(kāi)源RDF數(shù)據(jù)處理框架RDF4J進(jìn)行插件擴(kuò)展,支持多源多類型數(shù)據(jù)通過(guò)W3C映射語(yǔ)言Direct Mapping的方式轉(zhuǎn)換生成RDF三元組。
以此種方式構(gòu)建的機(jī)器學(xué)習(xí)專題科研圖譜分別按實(shí)體類型以序列化格式N-Triples的文件形式存儲(chǔ)于本地,最終構(gòu)建的機(jī)器學(xué)習(xí)專題科研知識(shí)圖譜的數(shù)據(jù)記錄如表3所示,共11?426個(gè)三元組。

知識(shí)存儲(chǔ)是支持用戶查詢、檢索、分析等各種應(yīng)用需求的必要條件,隨著語(yǔ)義網(wǎng)領(lǐng)域的三元組庫(kù)和數(shù)據(jù)庫(kù)領(lǐng)域的圖數(shù)據(jù)庫(kù)的交叉融合發(fā)展,數(shù)據(jù)管理者可基于實(shí)際需求選擇或定制知識(shí)圖譜的存儲(chǔ)和管理方式,本文選取原生圖數(shù)據(jù)庫(kù)Neo4J作為科研知識(shí)圖譜存儲(chǔ)和應(yīng)用支撐工具。Neo4J是面向圖的數(shù)據(jù)庫(kù),以屬性圖的方式存儲(chǔ)、處理、查詢和展示數(shù)據(jù),在關(guān)系遍歷和路徑發(fā)現(xiàn)等應(yīng)用中性能優(yōu)越,且數(shù)據(jù)存取效率高,支持知識(shí)圖譜的可視化及聲明式查詢語(yǔ)言Cypher。本文涉及的語(yǔ)義知識(shí)圖譜的Neo4J存儲(chǔ)過(guò)程本質(zhì)上是RDF圖向?qū)傩詧D的轉(zhuǎn)化(RDF2PG),須在遵循圖譜映射規(guī)則的前提下結(jié)合相應(yīng)的工具及函數(shù)實(shí)現(xiàn)。
RDF圖存儲(chǔ)有兩個(gè)關(guān)鍵特征:①以圖形的形式表示、存儲(chǔ)和查詢數(shù)據(jù);②具備語(yǔ)義,可以明確地描述數(shù)據(jù)的含義[19]。語(yǔ)義知識(shí)圖譜的Neo4J存儲(chǔ)過(guò)程本質(zhì)上是RDF圖向?qū)傩詧D的轉(zhuǎn)化,RDF圖數(shù)據(jù)在“非語(yǔ)義”(non-semantic)圖形數(shù)據(jù)庫(kù)Neo4J中的存儲(chǔ)需要解決schema信息及數(shù)據(jù)信息的存儲(chǔ)問(wèn)題,Neo4J在設(shè)計(jì)上支持OWL和RDFS這些基本的本體定義語(yǔ)言,進(jìn)而可以支持語(yǔ)義詞匯表。RDF圖數(shù)據(jù)遷移到屬性圖數(shù)據(jù)庫(kù)的Neo4J首先要做的是模型映射,RDF圖是主謂賓結(jié)構(gòu),主語(yǔ)和謂語(yǔ)都是資源,賓語(yǔ)可以是資源也可以是文本或數(shù)值等字面量(literal),若賓語(yǔ)是字面量這一特殊情況,則不能成為其他三元組的主語(yǔ)。需要說(shuō)明的是,資源都由URI唯一標(biāo)識(shí)。RDF圖到Neo4J中的映射規(guī)則如下[20]。
規(guī)則1(主語(yǔ)映射規(guī)則):RDF三元組主語(yǔ)節(jié)點(diǎn)的映射。Neo4J中表示RDF資源的節(jié)點(diǎn)標(biāo)記為:resource,并具有帶有資源URI的屬性u(píng)ri。

規(guī)則2a(謂語(yǔ)映射規(guī)則):如果三元組的賓語(yǔ)是字面量,那么在Neo4J中三元組的謂詞將映射到節(jié)點(diǎn)屬性。
規(guī)則2b(謂語(yǔ)映射規(guī)則):如果三元組的賓語(yǔ)是資源(resource),那么在Neo4J中三元組的謂詞將映射到關(guān)系。

在遵循圖譜映射規(guī)則的前提下,通過(guò)調(diào)用semantics. importRDF命令將構(gòu)建的知識(shí)圖譜文件導(dǎo)入Neo4J,即可實(shí)現(xiàn)可視化。
在遵循圖譜映射規(guī)則前提下,Neo4J內(nèi)置了支持RDF及其相關(guān)語(yǔ)法(如OWL、RDFS、SKOS等)的插件neosemtics(n10s)[21],提供導(dǎo)入函數(shù)importRDF(???),可以實(shí)現(xiàn)RDF圖數(shù)據(jù)的無(wú)損導(dǎo)入。RDF圖譜數(shù)據(jù)的Neo4J存儲(chǔ)與管理流程如圖3所示。

轉(zhuǎn)換并導(dǎo)入Neo4J的機(jī)器學(xué)習(xí)專題科研知識(shí)圖譜共含2?181個(gè)節(jié)點(diǎn),4?034個(gè)鏈接關(guān)系。期刊論文、期刊、科研人員、科研機(jī)構(gòu)、主題5類實(shí)體類型在Neo4J中的節(jié)點(diǎn)標(biāo)簽分別為scikg_Article、scikg_Journal、scikg_Person、scikg_Organization、scikg_Subject,關(guān)系類型(Relationship Types)也均以“命名空間前綴_關(guān)系”的格式表示,如期刊論文實(shí)體類型和主題實(shí)體類型的“關(guān)于”關(guān)系可表示為scikg_about。
構(gòu)建專題科研知識(shí)圖譜擁有明確的主謂賓結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)清晰,可以支持事實(shí)性客觀問(wèn)題的查詢,揭示專題、科技文獻(xiàn)的關(guān)聯(lián)關(guān)系。事實(shí)型問(wèn)題在知識(shí)應(yīng)用中處理頻率較高,包含多種問(wèn)題類型,如答案為單一對(duì)象的謂詞型問(wèn)題、返回一列結(jié)果的列表型問(wèn)題。具體來(lái)說(shuō),可以分為3類:命名實(shí)體基本定義、實(shí)體屬性及復(fù)雜知識(shí)圖譜查詢。
(1)單實(shí)體/屬性查詢。單實(shí)體/屬性的查詢是指詢問(wèn)命名實(shí)體的基本定義或者實(shí)體數(shù)據(jù)屬性,如查詢“機(jī)器學(xué)習(xí)主題最重要的五篇文獻(xiàn)的標(biāo)題及其重要度”,問(wèn)題可解析為:找出期刊論文實(shí)體類型(scikg_Article)實(shí)例中,節(jié)點(diǎn)屬性為文獻(xiàn)重要度(scikg_importantDegree)且屬性值最大的5個(gè)節(jié)點(diǎn),輸出其節(jié)點(diǎn)屬性標(biāo)題(dc_title),結(jié)果會(huì)返回整個(gè)科研知識(shí)專題科研知識(shí)圖譜中文獻(xiàn)重要度值為top5的期刊論文。
(2)多實(shí)體聯(lián)合查詢。多實(shí)體聯(lián)合查詢則是指詢問(wèn)中涉及多類命名實(shí)體,如問(wèn)題查詢“主題為Supervised learning且影響因子大于5的文獻(xiàn)的標(biāo)題”,涉及期刊論文、主題、期刊3個(gè)實(shí)體類型,scikg_about、scikg_isPartOf 2個(gè)邊屬性和dc_title、scikg_jif 2個(gè)節(jié)點(diǎn)屬性。
知識(shí)圖譜在文獻(xiàn)資源與專題知識(shí)關(guān)聯(lián)整合及復(fù)雜事實(shí)性問(wèn)題查詢方面發(fā)揮著重要作用。本文以機(jī)器學(xué)習(xí)專題為例,采用自頂向下的方式依次構(gòu)建專題科研知識(shí)圖譜概念層及數(shù)據(jù)層,基于“圖譜映射規(guī)則+特定插件+函數(shù)”的方式實(shí)現(xiàn)圖譜格式的轉(zhuǎn)化與原生圖數(shù)據(jù)庫(kù)Neo4J的存儲(chǔ)管理。構(gòu)建的專題科研知識(shí)圖譜語(yǔ)義結(jié)構(gòu)清晰,支持實(shí)體列表、統(tǒng)計(jì)結(jié)果或者實(shí)體關(guān)系等復(fù)雜知識(shí)圖譜查詢,具有一定的應(yīng)用價(jià)值,可以為各類知識(shí)應(yīng)用提供圖譜數(shù)據(jù)及相應(yīng)的技術(shù)支撐。
本文提出的專題科研知識(shí)圖譜構(gòu)建方法中,主題類數(shù)據(jù)模型的合理性及文獻(xiàn)與主題模型的映射關(guān)聯(lián)關(guān)系構(gòu)建是關(guān)鍵。受限于實(shí)驗(yàn)數(shù)據(jù)清洗效率,未將其他類型文獻(xiàn)如會(huì)議、會(huì)議論文、著作等實(shí)體類型納入本次實(shí)驗(yàn)中,未來(lái)的研究將進(jìn)一步擴(kuò)展資源類型,擴(kuò)充該知識(shí)圖譜。此外,本文僅基于科技文獻(xiàn)題錄信息等結(jié)構(gòu)特征及主題語(yǔ)義元素進(jìn)行實(shí)驗(yàn)研究,未來(lái)的研究希望可以在以假設(shè)、觀點(diǎn)、事實(shí)、結(jié)論等科學(xué)陳述為基本形式的陳述型語(yǔ)義特征上有所結(jié)合,豐富專題科研知識(shí)圖譜形態(tài),以期支撐圖譜式研究側(cè)寫(xiě)、智能問(wèn)答、主題溯源等智能知識(shí)服務(wù)。
[1] 王昊奮,漆桂林,陳華鈞. 知識(shí)圖譜:方法,實(shí)踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2019.
[2] 張永娟,劉煒,于建榮,等. 基于IIIF和語(yǔ)義知識(shí)圖譜的印章資源整合與知識(shí)發(fā)現(xiàn)研究[J]. 圖書(shū)情報(bào)工作,2020,64(7):127-135.
[3] Springer Nature. SN SciGraph A Linked Open Data Platform for the scholarly domain[EB/OL].[2021-01-10]. https://www.springernature.com/gp/researchers/scigraph.
[4] 白林林,祝忠明. Springer Nature SciGraph關(guān)聯(lián)開(kāi)放數(shù)據(jù)分析[J]. 知識(shí)管理論壇,2018,3(1):2-11.
[5] SN SciGraph Data Explorer 2019. Springer Nature SciGraph Explorer 2019[EB/OL].[2021-01-10]. https://scigraph.springernature.com/explorer.
[6] Open Academic Graph[EB/OL].[2021-01-10]. https://www.openacademic.ai/oag/.
[7] TANG J,ZHANG J,YAO L,et al. ArnetMiner:Extraction and mining of academic social networks[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM,2008:990-998.
[8] Bibliographic ontology[EB/OL].[2021-01-10]. http://purl.org/ontology/bibo.
[9] PRISM METADATA[EB/OL].[2021-01-10]. http://www.idealliance.org/prism-metadata/.
[10] 張甫. 基于多信息融合的科技文獻(xiàn)重要度評(píng)價(jià)方法的分析與研究[D]. 北京:北京工業(yè)大學(xué),2016.
[11] AMiner. AMiner Dataset[EB/OL].[2021-01-10]. https://www.aminer.cn/data/#AMiner-Knowledge-Graph.
[12] 雷明. 機(jī)器學(xué)習(xí):原理、算法與應(yīng)用[M]. 北京:清華大學(xué)出版社,2019.
[13] BEEL J,GIPP B. Google scholar’s ranking algorithm:The impact of articles’ age(an empirical study)[C]//Proceedings of the 2009 3rd International Conference on Research Challenges in Information Science,RCIS 2009:160-164.
[14] FIALA D,ROUSSELOT F,JEZEK K. PageRank for bibliographic networks[J]. Scientometrics,2008,76(1):135-158.
[15] HITS algorithm[EB/OL].[2020-12-31]. https://en.wikipedia.org/wiki/HITS_algorithm.
[16] ZHOU D,ORSHANSKIY S A,ZHA H,et al. Co-ranking Authors and Documents in a Heterogeneous Network[C]//Proceedings of the 7th IEEE International Conference on Data Mining(ICDM 2007). Omaha,NE,USA:IEEE,2007:739-744.
[17] 溯源樹(shù) 前沿科技探源[EB/OL].[2021-01-10]. https://www.aminer.cn/mrt.
[18] Pentaho Data Integration-Kettle ETL tool[EB/OL].[2021-01-10]. https://etl-tools.info/en/pentaho/kettle-etl.htm.
[19] BARRASA J. Building a semantic graph in Neo4j[EB/OL].[2021-01-10]. https://jbarrasa.com/2016/04/06/building-a-semantic-graph-in-neo4j/.
[20] Importing RDF data into Neo4j[EB/OL].[2021-01-10]. https://jbarrasa.com/2016/06/07/importing-rdf-data-into-neo4j/.
[21] neo4j-labs/neosemantics[EB/OL].[2021-01-10]. https://github.com/neo4j-labs/neosemantics.
Construction of Scientific Knowledge Graph by Integrating Thematic Knowledge and Scientific Literature
LI Jiao1SUN Tan2,3HUANG YongWen1XIAN GuoJian1,3LUO TingTing1ZHAO RuiXue1,3
( 1. Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Chinese Academic of Agricultural Sciences, Beijing 100081, China; 3. Key Laboratory of Agricultural Big Data, Ministry of Agriculture and Rural Affairs, Beijing 100081, China )
In order to solve the problem of the separation of scientific literature and subject value, this paper proposes a method to construct knowledge graph that deeply integrates scientific literature, scientific activities and other scientific research objects and thematic data resources, and constructs including. A scientific ontology with journal article, journal, scientific research institution, and researcher as the main scientific research subjects, is developed through the subject association, and the subject of “machine learning” is selected to construct the thematic scientific knowledge graph, then the graph management and query verification are performed based on the graph database Neo4J. The thematic scientific knowledge graph constructed in this study can support complex graph query of factual issues with single-entity/property or multi-entity, and effectively reveal the relationship between thematic and scientific literature, which shows certain application value and can provide new ideas and directions for intelligent knowledge service.
Scientific Ontology; Thematic Data; Scientific Knowledge Graph; Complex Graph Query
G203
10.3772/j.issn.1673-2286.2021.01.001
李嬌,孫坦,黃永文,等. 融合專題知識(shí)和科技文獻(xiàn)的科研知識(shí)圖譜構(gòu)建[J]. 數(shù)字圖書(shū)館論壇,2021(1):2-9.
*本研究得到國(guó)家社會(huì)科學(xué)基金一般項(xiàng)目“科技論文全景式摘要知識(shí)圖譜構(gòu)建與應(yīng)用研究”(編號(hào):19BTQ061)資助。
李嬌,女,1989年生,博士,助理研究員,研究方向:關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜。
孫坦,男,1970年生,博士,研究員,研究方向:數(shù)字信息描述與組織。
黃永文,女,1975年,博士,副研究館員,研究方向:知識(shí)組織與知識(shí)服務(wù)。
鮮國(guó)建,男,1982年,博士,研究員,研究方向:知識(shí)組織與知識(shí)服務(wù)。
羅婷婷,女,1985年,碩士,助理研究員,研究方向:數(shù)據(jù)融合與管理。
趙瑞雪,女,1968年,博士,研究員,通信作者,研究方向:農(nóng)業(yè)信息管理,E-mail:zhaoruixue@caas.cn。
(收稿日期:2021-01-12)