小麥品種知識圖譜構(gòu)建與可視化研究①

2021-06-28 06:28:22岳金釗趙錦鵬王亞坤馬新明錢學霖

計算機系統(tǒng)應用 2021年6期

許鑫,岳金釗,趙錦鵬,王亞坤,馬新明,錢學霖

1(河南農(nóng)業(yè)大學信息與管理科學學院,鄭州 450002)

2(河南糧食作物協(xié)同創(chuàng)新中心,鄭州 450002)

3(河南農(nóng)業(yè)大學農(nóng)學院,鄭州 450002)

信息化已成為農(nóng)業(yè)現(xiàn)代化的重要組成部分[1],生產(chǎn)數(shù)據(jù)結(jié)構(gòu)復雜且類型多樣,數(shù)據(jù)可視化技術(shù)可以實現(xiàn)復雜的數(shù)據(jù)直觀化、量化和簡化,能大力的推動農(nóng)業(yè)信息化的發(fā)展[2].

知識圖譜作為大數(shù)據(jù)可視化和人工智能的重要組成部分被廣泛應用[3].Google 將知識圖譜應用在搜索引擎上[4],百度和搜狗相繼推出了“知心”和“知立方”[5],蘇寧易購發(fā)布金融企業(yè)知識圖譜系統(tǒng).蔣秉川等[6]利用地理知識圖譜結(jié)合交互式可視化分析COVID-19 疫情態(tài)勢;車金立等[7]構(gòu)建了軍事裝備知識圖譜,實現(xiàn)了軍事裝備領(lǐng)域的知識問答;李曉雪等[8]利用領(lǐng)域知識圖譜技術(shù)進行了農(nóng)作物病蟲害分析和分類;張善文等[9]提出了一種基于知識圖譜與Bi-LSTM 結(jié)合的小麥條銹病預測方法;華東師范大學[10]利用深度學習和自然語言處理構(gòu)建了農(nóng)業(yè)知識圖譜;葉帥[11]將知識圖譜引入到煤礦領(lǐng)域.知識圖譜在各個領(lǐng)域都有應用,但在農(nóng)業(yè)領(lǐng)域的應用和技術(shù)體系尚待研究[12].

目前的農(nóng)業(yè)數(shù)據(jù)分散化、種類多、連貫性差,挖掘有價值的信息是未來研究的重點[13].知識圖譜技術(shù)可以將離散的、不集中的信息與可視語義網(wǎng)絡(luò)關(guān)聯(lián)[14],便于通過圖的形式直觀地掌握和分析關(guān)系錯綜復雜的領(lǐng)域知識,實現(xiàn)精確查詢[12].

本研究以小麥生產(chǎn)知識為研究對象,獲取網(wǎng)絡(luò)中現(xiàn)存的凌亂復雜的知識,探索農(nóng)業(yè)領(lǐng)域知識圖譜的構(gòu)建方法,設(shè)計小麥品種圖譜實體和關(guān)系,通過知識圖譜直觀、清晰地展示錯綜復雜的品種知識,以期為小麥生產(chǎn)知識的精準推薦,農(nóng)業(yè)知識圖譜的構(gòu)建提供技術(shù)方案依據(jù).

1 小麥品種知識圖譜框架設(shè)計

知識圖譜可分為通用知識圖譜和行業(yè)知識圖譜[15].通用知識圖譜都是常識性的知識,面向全領(lǐng)域,覆蓋面較廣,但深度不足,主要應用于互聯(lián)網(wǎng)的搜索、推薦等業(yè)務(wù)場景,如:FreeBase[16]、DBpedia[17].行業(yè)知識圖譜覆蓋特定領(lǐng)域的知識,知識的深度相比通用知識圖譜較深,行業(yè)知識圖譜需要收集特定領(lǐng)域的數(shù)據(jù),結(jié)合業(yè)務(wù)流程在領(lǐng)域?qū)＜业闹笇聛順?gòu)建知識圖譜模式之后構(gòu)建數(shù)據(jù)層[18].本研究結(jié)合互動百科通用知識圖譜和小麥生產(chǎn)行業(yè)知識圖譜,通過獲取小麥品種等生產(chǎn)數(shù)據(jù),經(jīng)過清洗、整理、知識抽取等步驟,構(gòu)建小麥生產(chǎn)領(lǐng)域知識圖譜,如圖1所示.

圖1 圖譜構(gòu)建流程圖

(1) 數(shù)據(jù)獲取、存儲與處理:數(shù)據(jù)獲取之后需要對數(shù)據(jù)進行清洗、預處理,提高數(shù)據(jù)的利用率,增強知識圖譜的準確性.本研究選取行業(yè)垂直網(wǎng)站、在線百科、開放知識庫等多個源頭獲取數(shù)據(jù),提升知識圖譜的豐富性和有效性.對于不同源頭的不同類型數(shù)據(jù),進行分別存儲.結(jié)構(gòu)化數(shù)據(jù)存儲在MySQL 數(shù)據(jù)庫中,非結(jié)構(gòu)化數(shù)據(jù)存儲在MongoDB 數(shù)據(jù)庫中.獲取到的數(shù)據(jù)往往會存在殘缺、錯誤、重復等問題,需要對數(shù)據(jù)進行計量單位統(tǒng)一、處理缺失值等處理.

(2) 知識獲取:針對不同類型數(shù)據(jù)采用不同的知識獲取方式,對于結(jié)構(gòu)化數(shù)據(jù),各項之間存在明確的對應關(guān)系,可以直接構(gòu)建三元組;而半結(jié)構(gòu)化數(shù)據(jù),存在一定的結(jié)構(gòu),需要進一步提取,將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù).非結(jié)構(gòu)化數(shù)據(jù),利用自然語言處理(Natural Language Processing,NLP)技術(shù)對文本進行分段、分句、分詞、去除停用詞等處理,進而進行命名實體識別和關(guān)系抽取.

(3) 知識融合:不同來源數(shù)據(jù)會導致整體數(shù)據(jù)格式復雜,出現(xiàn)實體屬性名稱不一致,數(shù)據(jù)類型沖突等情況.所以需要把將要抽取的知識和知識圖譜現(xiàn)有的知識做融合處理,以消除矛盾和歧義.選取實體的屬性作為特征,構(gòu)建特征向量,利用相似度計算,將新的實體與知識圖譜中現(xiàn)有的實體進行鏈接[19].

(4) 知識存儲與更新:在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲中,存儲大量關(guān)系復雜的數(shù)據(jù)之后,難以直觀的描述實體與實體之間的關(guān)系,每次查詢都需要聯(lián)結(jié)大量表,造成查詢效率低.而基于屬性圖形模型的Neo4j 數(shù)據(jù)庫不僅能夠直觀的反應實體之間的關(guān)系,還能夠大大地提高查詢效率[18].利用Cypher 圖數(shù)據(jù)庫查詢語言來解決知識更新問題,易于理解,方便用戶對不合理的圖數(shù)據(jù)進行更新操作.

(5) 小麥領(lǐng)域知識圖譜的構(gòu)建與應用.將收集和整理好的數(shù)據(jù),結(jié)合小麥領(lǐng)域知識的特點,構(gòu)建知識圖譜.利用Neo4j 來負責小麥知識圖譜的存儲,將構(gòu)造好的三元組——“實體-關(guān)系-實體”,利用Cypher 語言存儲到數(shù)據(jù)庫中.從用戶自然語句中提取實體和屬性,將實體和屬性注入到Cypher 查詢模板中,實現(xiàn)在小麥知識圖譜中進行查詢,在此基礎(chǔ)上,研究開發(fā)小麥知識圖譜查詢系統(tǒng),實現(xiàn)了品種推薦、實體查詢、關(guān)系查詢、可視化查詢等功能.

2 關(guān)鍵技術(shù)設(shè)計

2.1 多源異構(gòu)數(shù)據(jù)的獲取與處理

數(shù)據(jù)來源主要包括3 個部分:從小麥行業(yè)垂直網(wǎng)站上得到小麥品種數(shù)據(jù)、在線百科獲取百科數(shù)據(jù)、開放知識庫獲取領(lǐng)域?qū)嶓w及實體之間的關(guān)系數(shù)據(jù).

品種數(shù)據(jù)作為小麥生產(chǎn)行業(yè)知識主要針對于某一特定領(lǐng)域的專業(yè)性網(wǎng)站或數(shù)據(jù)庫,內(nèi)容集中,專一,內(nèi)容數(shù)據(jù)多偏半結(jié)構(gòu)化數(shù)據(jù),但在數(shù)據(jù)一致性和完整性方面與通用的知識庫相比更加完善,通常需要先分析數(shù)據(jù)結(jié)構(gòu),獲取數(shù)據(jù)后按照其結(jié)構(gòu)解析[15];利用互動百科[20]中的微百科(category system)和詞條信息模塊構(gòu)建本體;目前已有很多開放知識庫,如德國馬普研究所開發(fā)的Yago[21]、復旦大學開發(fā)的CN-DBPedia[22]、多語言并存的DBpedia[17]等.也有垂直領(lǐng)域的知識庫,如浙江大學維護的新冠開放知識圖譜、清華大學的影視雙語知識圖譜[23].本研究利用Wikidata[24]完善本地知識庫中節(jié)點關(guān)系,以便構(gòu)造“實體-關(guān)系-實體”三元組.

獲取到的數(shù)據(jù)往往會存在殘缺、錯誤、重復等問題.需要對數(shù)據(jù)進行清洗,剔除無用數(shù)據(jù).數(shù)據(jù)清洗融合主要包含數(shù)據(jù)中含有干擾字符、字段冗余、非結(jié)構(gòu)化文本處理、計量單位不統(tǒng)一等,按照不同的類型進行單獨的處理與轉(zhuǎn)換.

2.2 知識圖譜的表示和存儲

知識圖譜的表示和存儲是將學術(shù)實體以及實體之間的關(guān)系按照一定的數(shù)據(jù)描述模型,進行存儲的過程[25].知識圖譜中的知識表示方法是以本體為核心,以RDF的三元組模式為基礎(chǔ)框架,但更多的體現(xiàn)實體、類別、屬性、關(guān)系等多顆粒度多層次的語義關(guān)系.

知識圖譜的表示和存儲方法使用較廣泛的有RDF存儲、圖數(shù)據(jù)庫存儲、關(guān)系型數(shù)據(jù)庫存儲3 種.國內(nèi)的一些學者已將其成功的用于醫(yī)學領(lǐng)域知識圖譜的存儲中[26,27].但由于RDF 存儲模型設(shè)計上不夠靈活,且查詢時間復雜度高,所以不適合作為知識圖譜的表示工具.Neo4j是一個圖數(shù)據(jù)庫,屬于非關(guān)系型數(shù)據(jù)庫,它具有高性能、嵌入式、輕量級的優(yōu)勢.Neo4j 以邊、節(jié)點或?qū)傩缘男问酱鎯?而不是以表的形式存儲,對于處理具有復雜關(guān)系的海量的知識數(shù)據(jù)來說是一個利器[28].Fatima 等[29]在社交網(wǎng)絡(luò)場景下,比較了Neo4j 圖數(shù)據(jù)庫和MySQL 數(shù)據(jù)庫的表現(xiàn)力.Neo4j 數(shù)據(jù)庫的關(guān)系模型可以表達面向網(wǎng)絡(luò)的數(shù)據(jù),與關(guān)系數(shù)據(jù)庫相比,Neo4j 可以在存儲數(shù)據(jù)時連接數(shù)據(jù),使其能夠更快地遍歷關(guān)聯(lián)數(shù)據(jù),從而存儲數(shù)以萬計的節(jié)點和關(guān)系,且隨著圖譜數(shù)據(jù)量的不斷增大,關(guān)聯(lián)查詢的效率遠高于關(guān)系型數(shù)據(jù)庫,因此利用Neo4j 實現(xiàn)知識圖譜表示和存儲是較便捷、高效的方法.

2.3 知識圖譜設(shè)計

知識圖譜是一種對于事實的結(jié)構(gòu)化表征,主要由實體、關(guān)系、語義3 部分組成.當數(shù)據(jù)量大,結(jié)構(gòu)和來源復雜時,用知識圖譜將結(jié)構(gòu)復雜、碎片化數(shù)據(jù)關(guān)聯(lián)的方式來表示知識會更加清晰準確.目前,通用知識圖譜構(gòu)建主要包含數(shù)據(jù)獲取與處理、知識抽取、知識融合和圖譜應用4 個階段[30],如圖2所示.

圖2 知識圖譜處理流程

數(shù)據(jù)是知識圖譜的基礎(chǔ),從不同結(jié)構(gòu)數(shù)據(jù)源獲取到的領(lǐng)域相關(guān)知識做預處理,對不同來源不同類型的數(shù)據(jù)進行清洗和入庫處理,目前有很多相關(guān)工具,如清華大學開發(fā)的THULAC[31].

知識抽取是從預處理后的數(shù)據(jù)中自動創(chuàng)建實體和實體關(guān)系的技術(shù)[32],是知識組織和信息融合的跨學科技術(shù),根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同分為結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的知識抽取.對于結(jié)構(gòu)化數(shù)據(jù),有明確的對應關(guān)系,可以直接構(gòu)建.而半結(jié)構(gòu)化數(shù)據(jù)是指存在一定結(jié)構(gòu)但還需要加工整理的數(shù)據(jù),抽取時可采用構(gòu)建包裝器的方式.非結(jié)構(gòu)化數(shù)據(jù)處理起來較麻煩,所使用的方法有基于模板、基于監(jiān)督學習等[19].

經(jīng)過知識抽取后,根據(jù)表1設(shè)計小麥的實體類型和關(guān)系模型,從而構(gòu)建“實體-關(guān)系-實體”三元組,實體設(shè)計如表2所示,關(guān)系設(shè)計如表3所示.

表1 實體、關(guān)系模型

表2 小麥知識圖譜實體設(shè)計

表3 小麥知識圖譜關(guān)系設(shè)計

基于實體和關(guān)系的設(shè)計,將數(shù)據(jù)取出,通過Cypher語句存入Neo4j 數(shù)據(jù)庫中,實體和關(guān)系都能擁有特定的標簽,有利于節(jié)點和關(guān)系的分類,也方便后期查詢系統(tǒng)進行查詢.

在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,采用余弦相似度的方式表示兩個實體對象的相似程度,相似度介于?1和1 之間,其中?1 表示兩個對象完全不同,1 表示完全相似.例如,比較兩個小麥品種時,選取小麥的重要特性(產(chǎn)量、特征特性、抗性等)作為特征值,接著將特征向量化,最后帶入式(1)進行計算.

經(jīng)過知識融合的處理,形成較為標準知識圖譜,在知識圖譜的基礎(chǔ)上開發(fā)語義搜索、可視化管理等應用.

2.4 知識圖譜數(shù)據(jù)物理存儲設(shè)計

知識圖譜數(shù)據(jù)類型多樣化,為了提高效率,針對不同數(shù)據(jù)進行合理存儲設(shè)計,數(shù)據(jù)的存儲架構(gòu)如圖3所示.

圖3 數(shù)據(jù)庫物理架構(gòu)

在數(shù)據(jù)獲取階段,品種數(shù)據(jù)存儲在MySQL 結(jié)構(gòu)化數(shù)據(jù)庫中,而Wikidata 數(shù)據(jù)和百度百科詞條數(shù)據(jù)存儲在MongoDB 非結(jié)構(gòu)化數(shù)據(jù)庫中.

在數(shù)據(jù)清洗階段,處理品種數(shù)據(jù)中存在的字段冗余等問題后,品種數(shù)據(jù)含有的屬性個數(shù)不一致,選取MongoDB 來存儲處理后的數(shù)據(jù),以減少冗余數(shù)據(jù),提升空間利用率.處理后的Wikidata 數(shù)據(jù)和百度百科詞條數(shù)據(jù)仍然存儲在MongoDB 中,對處理后的實體、關(guān)系和屬性數(shù)據(jù)存儲在Neo4j 數(shù)據(jù)庫中.

3 知識圖譜系統(tǒng)構(gòu)建與應用

3.1 品種知識圖譜的構(gòu)建與實現(xiàn)

選取“種業(yè)商務(wù)網(wǎng)”[33]來獲取關(guān)于小麥品種的數(shù)據(jù),用BJSON 的格式存儲在MongoDB 數(shù)據(jù)庫.MongoDB數(shù)據(jù)庫采用,便于保存不同的屬性數(shù)據(jù),共獲取1852條品種數(shù)據(jù),品種類型豐富,包括冬性小麥、半冬性小麥、春性小麥、弱春性小麥、弱冬性小麥等多種.品種的信息包括審定編號、選育單位、品種來源、特征特性、抗性鑒定、品質(zhì)分析、產(chǎn)量結(jié)果等多個維度.

將“農(nóng)業(yè)”的微百科作為種子網(wǎng)站,爬取所有的微百科,然后獲取微百科中的所有詞條,共獲取735 個微百科,詞條數(shù)102 349 個,通過知識抽取出實體和實體與實體之間的關(guān)系,最終構(gòu)建的知識圖譜共有實體258 484 個,關(guān)系 328 933 個,采用圖數(shù)據(jù)庫Neo4j 來存儲實體和關(guān)系,小麥知識圖譜的局部結(jié)構(gòu),如圖4所示,相同顏色的“圓”屬于同一種實體類型,不同“圓”代表不同的實體,“圓”之間的箭頭代表實體與實體之間的關(guān)系.“圓-箭頭-圓”對應 “實體-關(guān)系-實體”三元組,例如:“徐農(nóng)029–品種來源-淮麥20”表示“淮麥20”是“徐農(nóng)029”的品種來源.并且,每種實體類型都有一個中心節(jié)點,用來描述該類實體,例如圖中的“半冬性小麥”所指向的實體類型都是“半冬性小麥”.

圖4 小麥品種知識圖譜

3.2 品種知識精準查詢與可視化

由于Neo4j 數(shù)據(jù)庫高查詢性能以及查詢語言可定制化,不僅可以查詢實體與實體之間的關(guān)系,還可以實現(xiàn)品種的精確查詢,以返回快速、精準、結(jié)構(gòu)化的知識.品種知識的查詢基于Neo4j 圖數(shù)據(jù)庫的可定制化Cypher 查詢語言,將實體和屬性注入到Cypher 查詢模板中查詢出相應的節(jié)點數(shù)據(jù),然后將數(shù)據(jù)封裝利用D3.js 可視化框架將數(shù)據(jù)可視化,從而實現(xiàn)圖譜中結(jié)點和有向關(guān)系的直觀展示,如圖5所示,可以實現(xiàn)品種數(shù)據(jù)的實時可視化展示分析.

圖5 知識圖譜檢索

4 結(jié)論與展望

本研究基于爬蟲技術(shù),利用Neo4j、NLP 以及圖譜構(gòu)建技術(shù),經(jīng)過數(shù)據(jù)收集與整理,知識獲取,知識融合,知識存儲等步驟,解決現(xiàn)存的知識重復、知識間的關(guān)聯(lián)不夠明確等問題.建立了標準的小麥品種知識圖譜體系,在此基礎(chǔ)上,使用Neo4j 圖數(shù)據(jù)庫存儲小麥知識圖譜,建立了小麥品種知識圖譜查詢系統(tǒng),提供品種知識的關(guān)系查詢、實體查詢、品種推薦等功能,實現(xiàn)了品種知識的精準查詢與可視化分析.

基于Neo4j 圖數(shù)據(jù)庫的定制化Cypher 查詢,利用D3.j 進行數(shù)據(jù)可視化,為農(nóng)業(yè)知識的精確查詢和可視化提供了新的途徑,同時也為知識圖譜技術(shù)在農(nóng)業(yè)生產(chǎn)的應用與落地提供了技術(shù)參考.在未來的研究工作中,要不斷的充實建立的知識圖譜體系與系統(tǒng),實現(xiàn)知識的及時更新與充實.此外,利用NLP 技術(shù),結(jié)合知識問答系統(tǒng),實現(xiàn)農(nóng)業(yè)知識的智能問答推薦也是一個很有價值的應用方向.