王昊奮,丁 軍,胡芳槐,王 鑫
(1.同濟(jì)大學(xué) 設(shè)計(jì)創(chuàng)意學(xué)院,上海 200092; 2.海乂知信息科技(南京)有限公司,南京 210008;3.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300354)
知識(shí)是機(jī)器實(shí)現(xiàn)認(rèn)知智能不可或缺的基礎(chǔ),而知識(shí)圖譜則是用于表示、處理與運(yùn)用知識(shí)的關(guān)鍵技術(shù),能夠使機(jī)器理解知識(shí)并在此基礎(chǔ)上進(jìn)行相應(yīng)的推理計(jì)算。知識(shí)圖譜以其強(qiáng)大的語(yǔ)義表達(dá)、存儲(chǔ)和推理能力,為互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)知識(shí)化組織和智能應(yīng)用提供了有效的解決方案。知識(shí)圖譜的構(gòu)建及其應(yīng)用一方面引起了學(xué)術(shù)界的密切關(guān)注,大量研究者對(duì)知識(shí)圖譜相關(guān)技術(shù)進(jìn)行了深入的研究,包括知識(shí)獲取、知識(shí)融合、知識(shí)計(jì)算、語(yǔ)義搜索和知識(shí)問(wèn)答等;另一方面,大規(guī)模知識(shí)圖譜在解決實(shí)際問(wèn)題時(shí)效果顯著,也得到了工業(yè)界的青睞,以微軟、谷歌、臉譜、eBay和IBM為代表的國(guó)際巨頭與BAT、華為和小米等國(guó)內(nèi)大型互聯(lián)網(wǎng)企業(yè)在其產(chǎn)品和產(chǎn)業(yè)應(yīng)用中均使用了知識(shí)圖譜及其相關(guān)的關(guān)鍵技術(shù)[1]。
現(xiàn)有的綜述文獻(xiàn)多數(shù)偏向于闡述知識(shí)圖譜相關(guān)技術(shù)的研究,包括知識(shí)圖譜的總體研究綜述[2-3]以及面向特定子領(lǐng)域的研究,如知識(shí)表示學(xué)習(xí)[4-5]、知識(shí)融合[6-7]、知識(shí)存儲(chǔ)[8-10]、知識(shí)推理[11-13]、知識(shí)補(bǔ)全[14]等,文獻(xiàn)[3,15-16]也系統(tǒng)地介紹了在特定領(lǐng)域場(chǎng)景中使用相關(guān)技術(shù)進(jìn)行知識(shí)圖譜構(gòu)建的研究。但上述工作沒(méi)有涉及工程化流程與知識(shí)圖譜平臺(tái)的建設(shè)。本文對(duì)知識(shí)圖譜的相關(guān)技術(shù)進(jìn)行綜述,著重研究知識(shí)圖譜在企業(yè)級(jí)應(yīng)用場(chǎng)景中的工程實(shí)踐,包括典型的工業(yè)級(jí)知識(shí)圖譜應(yīng)用場(chǎng)景、知識(shí)圖譜工程落地的生命周期、企業(yè)級(jí)知識(shí)圖譜平臺(tái)的構(gòu)建以及中臺(tái)化演進(jìn)等。
知識(shí)圖譜最早于2012年由谷歌公司正式提出[17],其初衷是為了改善搜索性能,提升用戶搜索體驗(yàn)。目前對(duì)知識(shí)圖譜沒(méi)有統(tǒng)一的定義,普遍被接受的一種定義為:知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。一種更為寬泛的定義為:知識(shí)圖譜使用圖作為媒介來(lái)組織與利用大規(guī)模不同類型的數(shù)據(jù),并表達(dá)明確的通用或領(lǐng)域知識(shí)。
從覆蓋的領(lǐng)域來(lái)看,知識(shí)圖譜可以分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜。前者面向開(kāi)放領(lǐng)域,而后者則面向特定的行業(yè)。通用知識(shí)圖譜強(qiáng)調(diào)的是廣度,即更多的實(shí)體,通常難以形成完整的全局性的本體規(guī)范。行業(yè)知識(shí)圖譜主要用于輔助各種復(fù)雜的分析應(yīng)用及決策支持場(chǎng)景,它需要考慮領(lǐng)域中的典型業(yè)務(wù)場(chǎng)景及參與人員的背景和交互方式,因而需要完備性和嚴(yán)格且豐富的模式定義,并保證對(duì)應(yīng)的實(shí)例知識(shí)具有豐富的維度,即一定的深度。行業(yè)知識(shí)圖譜當(dāng)前已經(jīng)在金融證券、生物醫(yī)療、圖書情報(bào)、電商、農(nóng)業(yè)、政務(wù)、運(yùn)營(yíng)商和傳媒等行業(yè)中得到了較多成功的應(yīng)用。企業(yè)級(jí)的知識(shí)圖譜應(yīng)用通常是基于行業(yè)知識(shí)圖譜提供智能服務(wù),可以是面向一個(gè)行業(yè),也可以是多個(gè)行業(yè)的結(jié)合。因此,對(duì)于企業(yè)級(jí)知識(shí)圖譜平臺(tái),將圍繞行業(yè)知識(shí)圖譜的管理進(jìn)行建設(shè)。
隨著知識(shí)圖譜在各行業(yè)應(yīng)用范圍不斷擴(kuò)大,知識(shí)圖譜技術(shù)的相關(guān)研究得到了大量研究者的關(guān)注。文獻(xiàn)[2]從知識(shí)表示學(xué)習(xí)、知識(shí)獲取與知識(shí)補(bǔ)全、時(shí)態(tài)知識(shí)圖譜和知識(shí)圖譜應(yīng)用等方面進(jìn)行了全面的綜述。在此基礎(chǔ)上,本文分別從知識(shí)表示學(xué)習(xí)、知識(shí)獲取與補(bǔ)全、知識(shí)融合、知識(shí)存儲(chǔ)與圖計(jì)算、知識(shí)推理、基于知識(shí)圖譜的問(wèn)答6個(gè)方面介紹知識(shí)圖譜研究進(jìn)展,并闡述事件圖譜與事理圖譜等圖譜發(fā)展熱點(diǎn)。
1.2.1 知識(shí)表示學(xué)習(xí)
知識(shí)表示學(xué)習(xí)是面向知識(shí)圖譜中實(shí)體(或概念)和關(guān)系的表示學(xué)習(xí)。通過(guò)將實(shí)體或關(guān)系投影到低維稠密向量(嵌入表示),實(shí)現(xiàn)對(duì)實(shí)體和關(guān)系的語(yǔ)義信息的表示,能夠高效地計(jì)算實(shí)體、關(guān)系及其之間的復(fù)雜語(yǔ)義關(guān)聯(lián)。
知識(shí)學(xué)習(xí)方法可以分為基于翻譯距離模型的方法和基于語(yǔ)義匹配模型的方法。前者代表模型有高斯嵌入[18]、TransE及其擴(kuò)展[19-21],后者代表模型有RESCAL[22]及其擴(kuò)展模型DistMult[23]、ComplEx[24]和神經(jīng)網(wǎng)絡(luò)匹配模型[25]。另一個(gè)相關(guān)的研究領(lǐng)域是網(wǎng)絡(luò)嵌入[26-28],其側(cè)重于考慮如何充分利用節(jié)點(diǎn)在網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)信息,包括保留網(wǎng)絡(luò)結(jié)構(gòu)與屬性的方法如SDNE算法[29]、保留邊信息的LANE方法[30]和融合節(jié)點(diǎn)文本屬性的方法[31]。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義匹配模型和圖神經(jīng)網(wǎng)絡(luò)成為知識(shí)圖譜表示的研究熱點(diǎn)[32]。
1.2.2 知識(shí)獲取與補(bǔ)全
知識(shí)獲取與補(bǔ)全是知識(shí)圖譜構(gòu)建過(guò)程中最重要的基礎(chǔ)環(huán)節(jié)。前者從數(shù)據(jù)中獲取新知識(shí),主要包括實(shí)體識(shí)別和關(guān)系發(fā)現(xiàn),而后者是對(duì)現(xiàn)有知識(shí)圖譜進(jìn)行擴(kuò)充。
早期的知識(shí)獲取方法主要為基于語(yǔ)言學(xué)模式的方法,而最近的研究主要聚焦于基于深度學(xué)習(xí)的方法[33-34],其中使用Transformer模型的大規(guī)模預(yù)訓(xùn)練模型(如BERT)在實(shí)體識(shí)別等任務(wù)上取得了更佳的性能[35]。同時(shí),遠(yuǎn)程監(jiān)督學(xué)習(xí)[36-38]也被廣泛應(yīng)用于語(yǔ)料難以獲取的場(chǎng)景。
知識(shí)圖譜補(bǔ)全[14,39]通過(guò)相應(yīng)的推理和補(bǔ)全算法擴(kuò)展現(xiàn)有的知識(shí)圖譜,包括基于嵌入的排序補(bǔ)全算法、關(guān)系路徑推理算法、基于深度強(qiáng)化學(xué)習(xí)的算法和基于規(guī)則的推理算法等。
1.2.3 知識(shí)融合
知識(shí)融合是指在多種來(lái)源的碎片化數(shù)據(jù)中獲取結(jié)構(gòu)各異、語(yǔ)義多樣和動(dòng)態(tài)演化的知識(shí),通過(guò)沖突檢測(cè)和一致性檢查,對(duì)知識(shí)進(jìn)行正確性判斷。知識(shí)融合按融合階段分類包括知識(shí)評(píng)估和知識(shí)擴(kuò)充[6];而從人機(jī)協(xié)作角度來(lái)看,知識(shí)融合分為基于知識(shí)庫(kù)的知識(shí)融合[40-42]、基于人工的知識(shí)融合以及基于知識(shí)庫(kù)與人工協(xié)作相結(jié)合的知識(shí)融合[43]。
1.2.4 知識(shí)存儲(chǔ)與圖分析計(jì)算
大規(guī)模知識(shí)圖譜的存儲(chǔ)以三元組存儲(chǔ)為核心,同時(shí)還包括其他類型知識(shí)的存儲(chǔ)。三元組知識(shí)的存儲(chǔ)主要有資源描述框架(Resource Description Framework,RDF)存儲(chǔ)和圖數(shù)據(jù)庫(kù)兩種類型,前者以RDF圖模型為基礎(chǔ),后者多數(shù)采用屬性圖數(shù)據(jù)模型。由于圖數(shù)據(jù)庫(kù)已成為當(dāng)前使用的主流,因此本文重點(diǎn)關(guān)注圖數(shù)據(jù)庫(kù)相關(guān)的工作以及在存儲(chǔ)上的圖分析計(jì)算。
知識(shí)存儲(chǔ)與圖分析計(jì)算相關(guān)研究主要側(cè)重于RDF圖譜數(shù)據(jù)管理[8-9]、圖數(shù)據(jù)查詢[44]、圖譜計(jì)算框架[45-46]等方面。文獻(xiàn)[10]從知識(shí)圖譜數(shù)據(jù)模型、知識(shí)圖譜查詢語(yǔ)言、知識(shí)圖譜存儲(chǔ)管理和知識(shí)圖譜查詢4個(gè)方面對(duì)知識(shí)圖譜數(shù)據(jù)管理相關(guān)研究進(jìn)行了綜述。文獻(xiàn)[45]則從圖計(jì)算框架方面出發(fā)進(jìn)行了綜述。
1.2.5 知識(shí)推理
推理是指基于已知的事實(shí)或知識(shí)推斷得出未知的隱藏事實(shí)或知識(shí)的過(guò)程。面向知識(shí)圖譜的知識(shí)推理[11]通??梢苑譃榛谝?guī)則的推理[47-48]、基于知識(shí)表示學(xué)習(xí)的推理[5]、基于神經(jīng)網(wǎng)絡(luò)的推理[49-50]和混合推理[51]?;谝?guī)則的推理方法具有較高的準(zhǔn)確率,但難以擴(kuò)展和平移;基于神經(jīng)網(wǎng)絡(luò)的推理方法具備更好的推理、學(xué)習(xí)和泛化能力,但神經(jīng)網(wǎng)絡(luò)結(jié)果不可預(yù)測(cè)和解析。因此,研究者提出混合推理以結(jié)合不同推理方法之間的優(yōu)勢(shì)[51]。例如,基于神經(jīng)-符號(hào)整合的推理[13]能夠?qū)⒎?hào)系統(tǒng)的透明性和推理能力與人工神經(jīng)網(wǎng)絡(luò)的健壯性和學(xué)習(xí)能力相結(jié)合。
1.2.6 基于知識(shí)圖譜的問(wèn)答
基于知識(shí)圖譜的知識(shí)問(wèn)答(Knowledge graph Based Question Answer,KBQA)給定自然語(yǔ)言問(wèn)題,通過(guò)對(duì)問(wèn)題進(jìn)行語(yǔ)義理解和解析,進(jìn)而利用知識(shí)庫(kù)進(jìn)行查詢,推理得出答案。
KBQA主要方法有基于語(yǔ)義解析的方法[52]、基于信息抽取的方法[53]和基于向量建模的方法[54]。隨著深度學(xué)習(xí)的發(fā)展,知識(shí)表示學(xué)習(xí)和語(yǔ)義解析得益于神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力對(duì)語(yǔ)義進(jìn)行更好的建模,基于知識(shí)表示學(xué)習(xí)的KBQA和語(yǔ)義解析結(jié)合深度學(xué)習(xí)成為KBQA的主流方向。然而,多樣化理解用戶意圖和語(yǔ)義的歧義性仍然是KBQA的主要挑戰(zhàn)[53]。
1.2.7 事件知識(shí)圖譜
事件知識(shí)圖譜對(duì)于事件的建模具有明顯的語(yǔ)義表達(dá)優(yōu)勢(shì),有利于事件鏈知識(shí)推理。事件知識(shí)圖譜相關(guān)的研究主要聚焦在事件抽取[55]、事件推理和事理圖譜。事件抽取的任務(wù)包括觸發(fā)詞檢測(cè)、觸發(fā)詞事件分類、事件元素識(shí)別和事件元素角色識(shí)別。事件推理的相關(guān)工作主要包括事件因果關(guān)系推理、腳本事件推理、常識(shí)級(jí)別事件產(chǎn)生的意圖和反映推理以及周期性事件時(shí)間推理等,是一個(gè)事理邏輯知識(shí)庫(kù),描述事件之間的演化規(guī)律和模式,結(jié)構(gòu)上是一個(gè)有向有環(huán)圖,其中,節(jié)點(diǎn)代表事件,邊代表事件之間的關(guān)系(順承、因果等)。
知識(shí)圖譜的應(yīng)用需要綜合利用多方面的技術(shù),即知識(shí)圖譜的構(gòu)建涉及知識(shí)建模、實(shí)體識(shí)別、關(guān)系抽取、關(guān)系推理、實(shí)體融合等技術(shù),而知識(shí)圖譜的應(yīng)用則涉及到語(yǔ)義搜索、智能問(wèn)答、語(yǔ)言理解、決策分析等多個(gè)領(lǐng)域??傮w而言,構(gòu)建并應(yīng)用知識(shí)圖譜需要系統(tǒng)性地利用包括知識(shí)表示、數(shù)據(jù)庫(kù)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等多方面技術(shù)。
規(guī)模化的知識(shí)圖譜工程落地需要有完整的工程化流程作為指導(dǎo)。在通常場(chǎng)景下其流程為:首先確定知識(shí)表示模型,進(jìn)行知識(shí)建模;然后進(jìn)行數(shù)據(jù)收集,根據(jù)數(shù)據(jù)來(lái)源選擇不同的知識(shí)獲取方法,并對(duì)不同來(lái)源、不同方法獲取的知識(shí)進(jìn)行融合;其次需要綜合利用知識(shí)推理、知識(shí)挖掘等技術(shù)對(duì)所構(gòu)建的知識(shí)圖譜進(jìn)行質(zhì)量評(píng)估與補(bǔ)全;最后根據(jù)場(chǎng)景需求設(shè)計(jì)不同的知識(shí)應(yīng)用場(chǎng)景,如語(yǔ)義搜索、問(wèn)答交互、圖譜可視化分析等。在經(jīng)過(guò)大量知識(shí)圖譜研究與產(chǎn)業(yè)化落地實(shí)踐后,逐步形成行業(yè)知識(shí)圖譜應(yīng)用落地的全流程,稱為行業(yè)知識(shí)圖譜的全生命周期,包括知識(shí)建模、知識(shí)獲取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)計(jì)算與知識(shí)應(yīng)用階段。
知識(shí)建模的主要目標(biāo)是為知識(shí)圖譜定義本體,其主要挑戰(zhàn)有包括多類型數(shù)據(jù)的知識(shí)表示和自動(dòng)或者半自動(dòng)地生成模式層知識(shí)。知識(shí)建模通常采用兩種方式,一是自頂向下(Top-Down)的、專家定義的方法,二是自底向上(Bottom-Up)的、數(shù)據(jù)驅(qū)動(dòng)的規(guī)約方法,從數(shù)據(jù)中通過(guò)自動(dòng)映射、歸納等方法生成模式知識(shí)。
知識(shí)獲取是指從不同來(lái)源、不同類型的數(shù)據(jù)中進(jìn)行知識(shí)提取并存入知識(shí)圖譜的過(guò)程,其主要挑戰(zhàn)包括從多源異構(gòu)的數(shù)據(jù)中抽取知識(shí)、自動(dòng)或半自動(dòng)地從非結(jié)構(gòu)化的數(shù)據(jù)中抽取所獲取知識(shí)的準(zhǔn)確率以及解決樣本數(shù)據(jù)稀疏問(wèn)題。
知識(shí)融合的目標(biāo)是對(duì)從多源異構(gòu)的數(shù)據(jù)中獲取到的知識(shí)進(jìn)行融合從而形成統(tǒng)一、一致的知識(shí)放入知識(shí)圖譜,通常分為模式層的知識(shí)融合和實(shí)例層的知識(shí)融合。
知識(shí)存儲(chǔ)的目標(biāo)是實(shí)現(xiàn)各類知識(shí)的存儲(chǔ),包括基本實(shí)體知識(shí)、屬性知識(shí)、關(guān)系知識(shí)、事件知識(shí)、時(shí)序知識(shí)和業(yè)務(wù)規(guī)則知識(shí)等,其主要挑戰(zhàn)包括實(shí)現(xiàn)對(duì)多種類型知識(shí)的存儲(chǔ)以及實(shí)現(xiàn)大規(guī)模知識(shí)圖譜數(shù)據(jù)查詢、推理、計(jì)算等過(guò)程的高速存取。
知識(shí)計(jì)算主要包括圖挖掘計(jì)算和知識(shí)推理。圖挖掘計(jì)算是指基于圖論的相關(guān)算法實(shí)現(xiàn)對(duì)知識(shí)圖譜數(shù)據(jù)的探索、挖掘與嵌入,其主要挑戰(zhàn)在于大規(guī)模圖算法的效率。知識(shí)推理的關(guān)鍵挑戰(zhàn)包括大數(shù)據(jù)量下的快速推理以及對(duì)于增量知識(shí)和規(guī)則的快速加載。
隨著知識(shí)圖譜的發(fā)展,其應(yīng)用場(chǎng)景不斷增多,最典型的應(yīng)用為語(yǔ)義搜索、智能問(wèn)答和可視化決策支持。對(duì)于語(yǔ)義搜索和智能問(wèn)答,主要難點(diǎn)在于對(duì)用戶的輸入進(jìn)行準(zhǔn)確的意圖理解;而對(duì)于可視化決策支持而言,一方面需要提供良好的用戶交互方式實(shí)現(xiàn)與數(shù)據(jù)及算法的接口,另一方面還需要下層服務(wù)的有效性以及快速響應(yīng)。
總體而言,行業(yè)知識(shí)圖譜落地是一個(gè)系統(tǒng)性的工程問(wèn)題,需要有上述生命周期的完整理論支撐,同時(shí)還需要有相應(yīng)的技術(shù)、算法和工具落地。因而在工業(yè)級(jí)的應(yīng)用場(chǎng)景中,通常會(huì)圍繞生命周期構(gòu)建相應(yīng)的行業(yè)知識(shí)圖譜平臺(tái),然后在平臺(tái)的基礎(chǔ)上進(jìn)行應(yīng)用的構(gòu)建。
本節(jié)首先描述知識(shí)圖譜相關(guān)的工業(yè)級(jí)應(yīng)用,然后介紹知識(shí)圖譜相關(guān)的系統(tǒng)平臺(tái),以及生命周期各環(huán)節(jié)應(yīng)用的工具。本文所討論的平臺(tái)或工具以開(kāi)源的產(chǎn)品為主,同時(shí)也包含一些在領(lǐng)域中具有較大影響力的商業(yè)產(chǎn)品。
以搜索為主要應(yīng)用場(chǎng)景的案例有谷歌知識(shí)圖譜、微軟必應(yīng)知識(shí)圖譜、百度知識(shí)圖譜和搜狗知識(shí)圖譜等。谷歌知識(shí)圖譜是于2012年提出的用于改善搜索的知識(shí)圖譜,用戶進(jìn)行實(shí)體有關(guān)的查詢時(shí)會(huì)發(fā)現(xiàn)結(jié)果中還包括了知識(shí)圖譜提供的事實(shí)。目前它涵蓋了廣泛的主題,包括超過(guò)10億個(gè)實(shí)體和700億條事實(shí)。微軟必應(yīng)知識(shí)圖譜包含物理世界的知識(shí),如人物、地點(diǎn)、事物、組織、位置等類型的實(shí)體,以及用戶可能采取的行為。覆蓋范圍、正確性和時(shí)效性是該圖譜質(zhì)量和實(shí)用性的關(guān)鍵因素。臉書擁有全球最大的社交圖譜,該圖譜以用戶為中心,同時(shí)包括用戶關(guān)心的其他信息如興趣愛(ài)好、從事行業(yè)等信息。臉書的圖譜主要用于提升用戶對(duì)臉書產(chǎn)品的體驗(yàn),包括內(nèi)容搜索和興趣推薦等。阿里和易趣擁有大規(guī)模的商品知識(shí)圖譜服務(wù)于其電商平臺(tái),實(shí)現(xiàn)了基于大規(guī)模知識(shí)圖譜的快速搜索與推薦,從而提升了用戶體驗(yàn)并提高了商品銷售量。
在工業(yè)級(jí)知識(shí)圖譜應(yīng)用快速增長(zhǎng)的帶動(dòng)下,一些工業(yè)級(jí)的知識(shí)圖譜平臺(tái)也相應(yīng)被推出。
2.2.1 Palantir平臺(tái)
Palantir是用于知識(shí)圖譜創(chuàng)建、管理、搜索、發(fā)現(xiàn)、挖掘和積累的可擴(kuò)展的大數(shù)據(jù)分析平臺(tái)。通過(guò)結(jié)合動(dòng)態(tài)本體論思想和自身數(shù)據(jù)整合能力,形成以知識(shí)圖譜為基礎(chǔ)的知識(shí)管理體系,通過(guò)圖挖掘、本體推理等算法引擎賦能知識(shí)圖譜,為搜索和知識(shí)發(fā)現(xiàn)提供數(shù)據(jù)支撐,同時(shí)支持協(xié)同工作分析,而且整個(gè)分析過(guò)程以可視化、交互式的方式進(jìn)行。Palantir目前擁有兩大產(chǎn)品線:Palantir Gotham和Palantir Metropolis,分別應(yīng)用于國(guó)防安全與金融領(lǐng)域,形成了包括反欺詐、網(wǎng)絡(luò)安全、國(guó)防安全、危機(jī)應(yīng)對(duì)、保險(xiǎn)分析、疾病控制、智能化決策等解決方案。Palantir通過(guò)整理、分析、利用不同來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),構(gòu)成了一種人腦決策和計(jì)算機(jī)智能共生的大數(shù)據(jù)分析環(huán)境及工具系統(tǒng),通過(guò)可視化技術(shù)形成“人機(jī)共生”的可視化大數(shù)據(jù)交互探索分析能力,從而促進(jìn)人腦和大數(shù)據(jù)分析互補(bǔ),提升客戶的決策洞察力。
2.2.2 IBM Watson Discovery知識(shí)圖譜框架
IBM開(kāi)發(fā)了Watson Discovery服務(wù)及其相關(guān)產(chǎn)品所使用的知識(shí)圖譜框架,在外部許多行業(yè)中也進(jìn)行了部署應(yīng)用。IBM Watson知識(shí)圖譜框架有兩種典型的應(yīng)用場(chǎng)景:一是直接使用結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)來(lái)發(fā)現(xiàn)新的知識(shí)為下游產(chǎn)品提供服務(wù);二是該框架允許用戶以預(yù)先構(gòu)建的知識(shí)圖譜為基礎(chǔ)來(lái)構(gòu)建自己的知識(shí)圖譜。該知識(shí)圖譜框架的特性包括:1)使用了多態(tài)存儲(chǔ),支持多種索引、數(shù)據(jù)庫(kù)結(jié)構(gòu)、內(nèi)存數(shù)據(jù)庫(kù)和圖存儲(chǔ),將數(shù)據(jù)分布到多個(gè)存儲(chǔ)庫(kù)中,每個(gè)存儲(chǔ)庫(kù)滿足特定的應(yīng)用需求和工作負(fù)載;2)保留原始“證據(jù)”, 這些元數(shù)據(jù)和其他相關(guān)信息通常在后續(xù)的知識(shí)應(yīng)用非常重要;3)可推遲實(shí)體消歧,因?yàn)樵趧?chuàng)建過(guò)程中消歧通常會(huì)損失實(shí)體的原有信息,這和知識(shí)發(fā)現(xiàn)的目標(biāo)相沖突。
2.2.3 Oracle知識(shí)圖譜平臺(tái)
Oracle知識(shí)圖譜平臺(tái)基于其自身多年的存儲(chǔ)經(jīng)驗(yàn),在具有明顯優(yōu)勢(shì)的存儲(chǔ)層上進(jìn)行構(gòu)建,上層通過(guò)W3C標(biāo)準(zhǔn)的RDF和OWL組織和表示圖譜,使用SPARQL對(duì)數(shù)據(jù)統(tǒng)一查詢服務(wù)。平臺(tái)支持兩種圖的表示方式:屬性圖(Property Graph)和RDF三元組。前者適合各種圖計(jì)算如最短路徑、權(quán)重排序和中心性(Betweenness)等,而后者適合進(jìn)行知識(shí)的推理。Oracle知識(shí)圖譜平臺(tái)的主要特性是對(duì)數(shù)據(jù)存儲(chǔ)與訪問(wèn)的支持性比較好,可以實(shí)現(xiàn)基于內(nèi)存的并行圖計(jì)算,提供許多工具完成從各種大數(shù)據(jù)平臺(tái)、關(guān)系數(shù)據(jù)庫(kù)到知識(shí)圖譜的映射與轉(zhuǎn)換。
2.2.4 Metaphactory平臺(tái)
Metaphactory提供了一套從知識(shí)存儲(chǔ)、知識(shí)管理到知識(shí)查詢與應(yīng)用開(kāi)發(fā)的端到端的知識(shí)圖譜平臺(tái)解決方案。其中:知識(shí)圖譜存儲(chǔ)可以兼容使用常見(jiàn)的三元組存儲(chǔ),如Blazegraph、Stardog、Amazon Neptune、GraphDB和Virtuoso等;數(shù)據(jù)交互使用標(biāo)準(zhǔn)的SPARQL作為交互協(xié)議,從而規(guī)避了存儲(chǔ)使用不同數(shù)據(jù)庫(kù)帶來(lái)的影響,實(shí)現(xiàn)不同數(shù)據(jù)源、不同格式的知識(shí)場(chǎng)景進(jìn)行混合查詢;同時(shí)提供了搜索、可視化和知識(shí)編輯管理的UI接口,并為Tabular等BI工具提供了數(shù)據(jù)接口。但Metaphactory主要還是針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢和管理,并沒(méi)有提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的能力。
2.2.5 Stardog平臺(tái)
Stardog是一個(gè)企業(yè)級(jí)知識(shí)圖譜平臺(tái),通過(guò)將數(shù)據(jù)轉(zhuǎn)換成知識(shí),使用知識(shí)圖譜進(jìn)行組織,對(duì)外提供查詢、檢索和分析等服務(wù)。Stardog能夠把關(guān)系數(shù)據(jù)庫(kù)映射成虛擬圖,并且支持OWL2的推理和Gremlin,但其僅對(duì)結(jié)構(gòu)化數(shù)據(jù)(RDBMS、Excel等)的處理,沒(méi)有針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取,也不具有知識(shí)融合功能。
2.2.6 其他知識(shí)圖譜平臺(tái)
上述平臺(tái)都是商業(yè)的平臺(tái),通常提供試用的版本供非商業(yè)用途學(xué)習(xí)和研究,而開(kāi)源知識(shí)圖譜項(xiàng)目的典型代表為L(zhǎng)OD2。LOD2的主要目標(biāo)是構(gòu)建結(jié)構(gòu)化鏈接數(shù)據(jù)的企業(yè)級(jí)管理工具和方法,提供一個(gè)搜索、瀏覽和生成鏈接數(shù)據(jù)的平臺(tái),其側(cè)重于鏈接數(shù)據(jù)的生命周期管理,而對(duì)于其他類型的數(shù)據(jù)需要首先轉(zhuǎn)換成鏈接數(shù)據(jù)。
目前,以百度(百度AI開(kāi)放平臺(tái))、騰訊(騰訊知識(shí)圖譜(Tencent Knowledge Graph,TKG))、阿里巴巴(藏經(jīng)閣)、華為(華為知識(shí)圖譜云)等為代表的國(guó)內(nèi)互聯(lián)網(wǎng)公司也在積極構(gòu)建知識(shí)圖譜,并且針對(duì)垂直領(lǐng)域構(gòu)建知識(shí)圖譜平臺(tái),促進(jìn)知識(shí)圖譜的發(fā)展和工業(yè)落地。
除了上述知識(shí)圖譜平臺(tái),還有許多與知識(shí)圖譜生命周期中特定環(huán)節(jié)相關(guān)的工具,這些工具通常不像完整的平臺(tái)一樣完成一站式的服務(wù),但是它們也為知識(shí)圖譜的應(yīng)用構(gòu)建提供了便利,可以在構(gòu)建完整的企業(yè)級(jí)知識(shí)圖譜平臺(tái)時(shí)進(jìn)行集成使用。本節(jié)將介紹生命周期各環(huán)節(jié)的相關(guān)工具,并將知識(shí)計(jì)算分為知識(shí)推理和圖挖掘分析兩部分進(jìn)行介紹。
2.3.1 知識(shí)建模工具
Protégé是一個(gè)本體編輯器,其基于RDF(S)、OWL等語(yǔ)義網(wǎng)規(guī)范提供PC圖形化界面和在線Web版本——WebProtégé,通常適用于原型場(chǎng)景構(gòu)建。NeOn Toolkit是一個(gè)適用于本體工程生命周期的工具,其以Eclipse插件的方式為用戶提供服務(wù)。
這些本體編輯工具存在的不足包括:基本只提供單人編輯,而協(xié)同編輯時(shí)需要通過(guò)文件共享來(lái)實(shí)現(xiàn);對(duì)大數(shù)據(jù)量支持不佳;不支持復(fù)雜事件及時(shí)態(tài)的建模;基本依賴手工編輯,難以實(shí)現(xiàn)與知識(shí)圖譜(半)自動(dòng)化構(gòu)建過(guò)程的交互。
2.3.2 知識(shí)獲取工具
知識(shí)獲取指從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)。
從結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)的目標(biāo)通常是把關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換成RDF形式的知識(shí),W3C為此制定了從關(guān)系數(shù)據(jù)庫(kù)映射到RDF數(shù)據(jù)集的標(biāo)準(zhǔn)語(yǔ)言R2RML。典型的開(kāi)源工具有D2R MAP和D2RQ[56]。D2RQ是一個(gè)將關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)庫(kù)的平臺(tái),主要包含D2R Server[57]、D2RQ Engine和D2RQ Mapping Language 3個(gè)組件。這些工具把數(shù)據(jù)直接轉(zhuǎn)換成RDF,難以與知識(shí)建模結(jié)果結(jié)合與映射,也難以同其他類型的知識(shí)進(jìn)行融合,并且對(duì)于大規(guī)模海量數(shù)據(jù)映射以及新數(shù)據(jù)的增量映射支持困難。
從半結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)通常是指使用包裝器的方法從網(wǎng)頁(yè)數(shù)據(jù)中獲取知識(shí),如Lixtio[58]提供了一種用戶可視化配置的方式進(jìn)行半自動(dòng)化生成網(wǎng)頁(yè)包裝器的工具,WIE是一個(gè)通過(guò)網(wǎng)頁(yè)自動(dòng)分析從而輔助生成包裝器的工具,適用于抽取目標(biāo)數(shù)據(jù)中的表格信息。這些工具基本是針對(duì)早期的靜態(tài)HTML頁(yè)面開(kāi)發(fā)的,已經(jīng)難以適用于當(dāng)前的前端動(dòng)態(tài)頁(yè)面技術(shù),因此,需要在它們的基礎(chǔ)上進(jìn)行動(dòng)態(tài)頁(yè)面支持?jǐn)U展。
DeepDive與Snorkel提供了一套面向特定關(guān)系的、基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的抽取框架,使用現(xiàn)有知識(shí)庫(kù)和規(guī)則定義來(lái)自動(dòng)生成語(yǔ)料,框架自動(dòng)完成模型的訓(xùn)練過(guò)程,并使用機(jī)器學(xué)習(xí)算法來(lái)減少各種形式的噪音和不確定性,用戶可以使用簡(jiǎn)單的規(guī)則來(lái)影響(反饋)學(xué)習(xí)過(guò)程以提升結(jié)果的質(zhì)量。DeepKE是浙江大學(xué)開(kāi)發(fā)的基于深度學(xué)習(xí)方法的開(kāi)源中文關(guān)系抽取工具,使用了包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、膠囊神經(jīng)網(wǎng)絡(luò)以及語(yǔ)言預(yù)訓(xùn)練模型等在內(nèi)的多種深度學(xué)習(xí)算法,但該工具同樣僅用于關(guān)系的抽取。上述工具主要針對(duì)關(guān)系的抽取,未提供針對(duì)概念、實(shí)體、事件等知識(shí)的抽取功能。
2.3.3 知識(shí)融合工具
知識(shí)融合的目標(biāo)是對(duì)來(lái)源、抽取方法和結(jié)構(gòu)不同的知識(shí)進(jìn)行合并,形成統(tǒng)一的知識(shí)。DBpedia Mapping Tool是一個(gè)用于把從Wikipedia中抽取的信息通過(guò)映射融入到DBpedia中的工具,其以可視化的方式讓用戶進(jìn)行DBpedia中本體(類、實(shí)體、數(shù)據(jù)類型等)和信息模塊的映射。Knowledge Vault[59]是谷歌推出的一個(gè)互聯(lián)網(wǎng)規(guī)模的知識(shí)庫(kù),它融合了海量的從互聯(lián)網(wǎng)中基于先驗(yàn)知識(shí)庫(kù)抽取的信息,并通過(guò)監(jiān)督學(xué)習(xí)的方法對(duì)這些知識(shí)進(jìn)行融合。這些融合工具通常是針對(duì)特定場(chǎng)景設(shè)計(jì)的,通用性和可配置程度比較低,難以實(shí)現(xiàn)復(fù)雜多變場(chǎng)景下的知識(shí)整合。
2.3.4 知識(shí)圖譜存儲(chǔ)工具
知識(shí)圖譜中最主要的數(shù)據(jù)結(jié)構(gòu)為基于圖的結(jié)構(gòu),圖結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)主要有RDF存儲(chǔ)和圖數(shù)據(jù)庫(kù)兩種方式。在工業(yè)級(jí)的場(chǎng)景下,一般從支持的數(shù)據(jù)規(guī)模、是否支持?jǐn)?shù)據(jù)分布存儲(chǔ)、知識(shí)建模管理能力、查詢語(yǔ)言表達(dá)豐富性、是否支持ACID以及是否有開(kāi)源產(chǎn)品等維度對(duì)知識(shí)圖儲(chǔ)存儲(chǔ)的性能進(jìn)行衡量。常用圖數(shù)據(jù)庫(kù)對(duì)比如表1所示。

表1 常用圖數(shù)據(jù)庫(kù)對(duì)比
Neo4J是第一代圖數(shù)據(jù)庫(kù)的代表,它使用了原生圖存儲(chǔ)結(jié)構(gòu),但不使用schema(即schema free),是一種自由的圖數(shù)據(jù)管理方式,同時(shí)它還支持ACID事務(wù)的處理,并提供Cypher查詢語(yǔ)言。Neo4J在企業(yè)級(jí)數(shù)據(jù)管理中存在的主要問(wèn)題,是不使用schema會(huì)難以從整體組織理解圖譜數(shù)據(jù)以及并未實(shí)現(xiàn)真正意義上的數(shù)據(jù)分布式存儲(chǔ),因此,其在大規(guī)模的數(shù)據(jù)場(chǎng)景下應(yīng)用時(shí)會(huì)遇到性能瓶頸。
JanusGraph是在Titan的基礎(chǔ)上發(fā)展起來(lái)的第二代圖數(shù)據(jù)庫(kù)的代表,設(shè)計(jì)原理是在現(xiàn)有的成熟存儲(chǔ)(如NoSQL)上實(shí)現(xiàn)對(duì)圖的存儲(chǔ)邏輯,底層存儲(chǔ)的分布式能力使其天然具備分布式能力。但此類數(shù)據(jù)庫(kù)最大的問(wèn)題是會(huì)遇到圖連接查詢的性能瓶頸,尤其是在大規(guī)模圖數(shù)據(jù)的多步查詢的場(chǎng)景下;另一方面,這種架構(gòu)也不能有效地支持離線分析,需要使用外部的分析引擎,但這種結(jié)合難以做到數(shù)據(jù)快速加載與更新。
在數(shù)據(jù)量大規(guī)模增長(zhǎng)與實(shí)時(shí)查詢分析要求不斷提高的背景下,基于原生、并行圖設(shè)計(jì)的圖數(shù)據(jù)庫(kù)逐漸成為新興發(fā)展方向,也被稱為第三代圖數(shù)據(jù)庫(kù)。其中的代表產(chǎn)品為商業(yè)數(shù)據(jù)庫(kù)TigerGraph與PlantGraph,它們能夠有效地支持OLTP 和 OLAP 等多種應(yīng)用場(chǎng)景,解決大規(guī)模圖數(shù)據(jù)場(chǎng)景下的多步連接問(wèn)題。目前,第三代圖數(shù)據(jù)庫(kù)還只在一些擁有大數(shù)據(jù)量與高性能要求的商業(yè)場(chǎng)景下得到使用,尚未有開(kāi)源的產(chǎn)品出現(xiàn)。
2.3.5 知識(shí)推理工具
知識(shí)推理分為基于邏輯的推理與基于統(tǒng)計(jì)的推理,邏輯推理又包括本體推理和規(guī)則推理。
RDFox[60]是一個(gè)本體知識(shí)推理工具,其支持共享內(nèi)存并行OWL 2 RL推理。RDFox支持Java、Python多語(yǔ)言APIs訪問(wèn),還支持一種簡(jiǎn)單的腳本語(yǔ)言與系統(tǒng)的命令行交互,但RDFox完全基于內(nèi)存,對(duì)硬件的要求較高,在超大規(guī)模的數(shù)據(jù)場(chǎng)景下難以使用。 Drools是一個(gè)使用Java語(yǔ)言開(kāi)發(fā)的基于RETE算法(一種前向推理算法)的業(yè)務(wù)規(guī)則推理引擎,其使用“If--Then”形態(tài)的句式和事實(shí)的定義,使引擎的使用非常直觀,同時(shí)還支持將 Java 代碼直接嵌入到規(guī)則文件中。Link Prediction Tool是一個(gè)在大規(guī)模網(wǎng)絡(luò)中自動(dòng)發(fā)現(xiàn)缺失的鏈接的工具,主要用于社交網(wǎng)絡(luò)中的鏈接預(yù)測(cè)。SNAP (Stanford Network Analysis Platform)是斯坦福大學(xué)研發(fā)的一個(gè)通用高性能大規(guī)模網(wǎng)絡(luò)分析與操作平臺(tái),能夠高效地實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)中的鏈接預(yù)測(cè)。
2.3.6 圖挖掘分析工具
上文提到的多數(shù)圖數(shù)據(jù)相關(guān)工具只支持OLTP模式的圖查詢功能以及一些簡(jiǎn)單的圖算法,對(duì)于大規(guī)模的圖挖掘分析支持較少?;趫D數(shù)據(jù)庫(kù)實(shí)現(xiàn)圖挖掘分析的模式需要集成第三方的圖挖掘分析工具,如Spark GraphX、GraphLab和Giraph等。最常用的為Spark GraphX,它是在實(shí)時(shí)計(jì)算引擎Spark上為圖計(jì)算設(shè)計(jì)與實(shí)現(xiàn)的一套計(jì)算框架,方便用戶通過(guò)統(tǒng)一的模式進(jìn)行圖算法編程,但由于其基于通用的計(jì)算框架來(lái)實(shí)現(xiàn)圖計(jì)算,因此性能較圖分析的專用系統(tǒng)要低。Plato是騰訊開(kāi)源的一個(gè)支持十億級(jí)別節(jié)點(diǎn)的超大規(guī)模圖計(jì)算框架,其基于自適應(yīng)圖計(jì)算引擎,能夠根據(jù)不同類型的圖算法,提供自適應(yīng)計(jì)算模式、共享內(nèi)存計(jì)算模式和流水線計(jì)算模式等多種計(jì)算模式。但它是一個(gè)重量級(jí)的圖計(jì)算框架,集成成本相對(duì)較高,并且開(kāi)發(fā)者需要基于其獨(dú)特的底層API編程,定制化開(kāi)發(fā)成本也較高。Euler是阿里開(kāi)源的大規(guī)模分布式圖表示學(xué)習(xí)框架,內(nèi)置DeepWalk、Node2Vec等業(yè)界常見(jiàn)的圖嵌入算法。
2.3.7 語(yǔ)義搜索與智能問(wèn)答工具
知識(shí)鏈接是支持語(yǔ)義搜索的重要方法,知識(shí)實(shí)體鏈接工具有Wikipedia Miner和DBPedia Spotlight等。這些早期的工具通常是以開(kāi)放的知識(shí)圖譜(Wikipedia、DBpedia等)為知識(shí)鏈接的目標(biāo)知識(shí)庫(kù)使用字符串匹配、向量相似度等算法進(jìn)行計(jì)算;當(dāng)前,基于深度學(xué)習(xí)、知識(shí)圖譜表示學(xué)習(xí)的方法已經(jīng)成為知識(shí)鏈接的最新發(fā)展方向。
智能問(wèn)答方向知名的開(kāi)源工具有ActiveQA和gAnswer等。ActiveQA是谷歌開(kāi)源的一款使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練AI智能體進(jìn)行問(wèn)答的研究項(xiàng)目,在強(qiáng)化學(xué)習(xí)框架的推動(dòng)下,智能體逐步學(xué)會(huì)提出更具針對(duì)性的具體問(wèn)題并理解、問(wèn)答問(wèn)題,從而得到所尋求的結(jié)果。gAnswer是一個(gè)基于知識(shí)圖譜的自然語(yǔ)言問(wèn)答系統(tǒng),能夠?qū)⒆匀徽Z(yǔ)言問(wèn)題轉(zhuǎn)化成包含語(yǔ)義信息的查詢圖,并將查詢圖轉(zhuǎn)化成標(biāo)準(zhǔn)的SPARQL查詢,將這些查詢?cè)趫D數(shù)據(jù)庫(kù)中執(zhí)行,最終得到用戶的答案。
上述問(wèn)答工具只適用于特定的場(chǎng)景(如gAnswer用于KBQA),而在復(fù)雜企業(yè)級(jí)的場(chǎng)景中通常需要支持所有類型的問(wèn)答任務(wù)。
本節(jié)介紹企業(yè)級(jí)知識(shí)圖譜平臺(tái)的構(gòu)建需求與挑戰(zhàn),并以金融行業(yè)知識(shí)圖譜的構(gòu)建與應(yīng)用為例描述該類知識(shí)圖譜平臺(tái)完整的構(gòu)建過(guò)程。
從確定待采集的原始數(shù)據(jù)到最終的應(yīng)用開(kāi)發(fā),企業(yè)級(jí)的知識(shí)圖譜應(yīng)用落地需要對(duì)數(shù)據(jù)背后的知識(shí)進(jìn)行建模、抽取、融合、校驗(yàn)、補(bǔ)全、分析計(jì)算等一系列加工處理,這些過(guò)程的每一步都需要專業(yè)的圖譜知識(shí)和技能才能完成。如果沒(méi)有平臺(tái)或者工具進(jìn)行支撐,圖譜的應(yīng)用構(gòu)建將是一項(xiàng)要求極高甚至無(wú)法完成的工作。因此,企業(yè)級(jí)圖譜的應(yīng)用普及亟需一個(gè)功能強(qiáng)大的知識(shí)圖譜平臺(tái)。該平臺(tái)需要覆蓋行業(yè)知識(shí)圖譜生命周期的所有環(huán)節(jié),同時(shí)須滿足企業(yè)級(jí)應(yīng)用的各種功能性與非功能性需求:
1)知識(shí)建模:除基本的本體編輯功能外,還必須具備表示多類型知識(shí)的能力,尤其是對(duì)動(dòng)態(tài)事件知識(shí)、多媒體數(shù)據(jù)和業(yè)務(wù)過(guò)程數(shù)據(jù)等的知識(shí)表示;同時(shí),企業(yè)知識(shí)圖譜的建模通常需要支持多人在線協(xié)同工作以及知識(shí)的多版本管理:此外,還需要集成如下文所述的各種知識(shí)抽取能力,其旨在從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)知識(shí),避免純手工構(gòu)建大規(guī)模圖譜帶來(lái)的工作量大、效率低下并易出錯(cuò)等問(wèn)題。
2)知識(shí)獲取:需要提供分別從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)的工具,以本體數(shù)據(jù)模式為基礎(chǔ)支持大規(guī)模、增量數(shù)據(jù)的D2R映射,實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)頁(yè)的包裝器配置與歸納學(xué)習(xí),提供從文本中抽取實(shí)體、關(guān)系、屬性和事件等多維度知識(shí)的方法;同時(shí),需要降低從非結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí)的成本(數(shù)據(jù)標(biāo)注規(guī)模和標(biāo)注代價(jià)),提供弱監(jiān)督或自監(jiān)督學(xué)習(xí)的能力;此外,還需要保障所獲取知識(shí)的質(zhì)量,尤其是從非結(jié)構(gòu)化數(shù)據(jù)抽取知識(shí)的難度最大。
3)知識(shí)融合:提供用戶基于業(yè)務(wù)配置融合規(guī)則與自動(dòng)算法相結(jié)合的知識(shí)融合功能;提供本體映射、實(shí)體對(duì)齊和屬性融合等能力;自動(dòng)進(jìn)行沖突檢測(cè)并能夠依據(jù)(預(yù)先設(shè)定的)策略進(jìn)行解決。
4)知識(shí)存儲(chǔ):首先需要實(shí)現(xiàn)多類型知識(shí)的存儲(chǔ);其次需要支持大規(guī)模圖譜存儲(chǔ)及其之上的高效查詢,在企業(yè)級(jí)的應(yīng)用場(chǎng)景中,圖譜通常包含百億甚至千億級(jí)別的知識(shí)(以三元組形式表示);具備復(fù)雜知識(shí)模式管理的功能,用于支持知識(shí)建模工具的高效交互;提供SPARQL、Cypher、Gremlin和GQL等多種常見(jiàn)圖查詢語(yǔ)言。
5)知識(shí)計(jì)算:需要具有大規(guī)模知識(shí)圖譜推理與圖挖掘的能力,即能夠高效地加載大規(guī)模圖譜數(shù)據(jù)并進(jìn)行推理計(jì)算;支持多種圖挖掘算法并能實(shí)現(xiàn)并行挖掘分析;考慮圖譜的演化或新知識(shí)的持續(xù)加入并實(shí)現(xiàn)高效的增量計(jì)算與推理。
6)知識(shí)應(yīng)用:提供多種知識(shí)可視化視圖及交互方式并與后臺(tái)的存儲(chǔ)、計(jì)算能力相結(jié)合,為用戶提供快速的知識(shí)應(yīng)用服務(wù);基于知識(shí)圖譜提供語(yǔ)義搜索能力;提供能夠支持諸如問(wèn)答對(duì)檢索、交互式分析和閱讀理解等多種場(chǎng)景的綜合問(wèn)答能力。
構(gòu)建企業(yè)級(jí)知識(shí)圖譜平臺(tái)面臨的問(wèn)題主要有:
1)多類型知識(shí)的表示、獲取與存儲(chǔ):首先面臨的問(wèn)題是如何實(shí)現(xiàn)企業(yè)級(jí)應(yīng)用場(chǎng)景中多類型數(shù)據(jù)的統(tǒng)一知識(shí)表示,數(shù)據(jù)類型的復(fù)雜性和多樣性使得傳統(tǒng)的三元組表示方法難以勝任;其次如何從這些數(shù)據(jù)中高效獲取知識(shí)是另一個(gè)難點(diǎn),需要采用不同的方法甚至是多方法的集成來(lái)實(shí)現(xiàn)大規(guī)模知識(shí)的獲取;最后如何統(tǒng)一存儲(chǔ)這些知識(shí)從而能夠同時(shí)支持上層各種任務(wù)與服務(wù)也非常困難。
2)大規(guī)模知識(shí)圖譜的性能:企業(yè)級(jí)知識(shí)圖譜的規(guī)模通常在百億、千億甚至更高的級(jí)別,如何實(shí)現(xiàn)大規(guī)模知識(shí)的可擴(kuò)展存儲(chǔ)并支持其上的高效查詢以及并行計(jì)算與推理服務(wù)是一個(gè)巨大的挑戰(zhàn)。
3)圖譜數(shù)據(jù)的統(tǒng)一消費(fèi)利用,如何無(wú)縫集成可視化、語(yǔ)義搜索和問(wèn)答分析等多種交互方式,在不增加用戶額外學(xué)習(xí)成本和使用門檻的情況下提供統(tǒng)一的知識(shí)圖譜消費(fèi)體驗(yàn),是一項(xiàng)綜合人工智能和人機(jī)交互等多學(xué)科知識(shí)的技術(shù)難題。
此外,知識(shí)的演化與時(shí)效性也是一個(gè)難以回避的難題。隨著外部世界的變化和企業(yè)業(yè)務(wù)的變遷與升級(jí),業(yè)務(wù)數(shù)據(jù)及相應(yīng)的知識(shí)也不斷擴(kuò)展與變更,支持知識(shí)圖譜中知識(shí)的時(shí)態(tài)表示,及時(shí)檢測(cè)知識(shí)的時(shí)效性,并根據(jù)圖譜的演化支持自適應(yīng)知識(shí)推理與計(jì)算同樣是挑戰(zhàn)。
構(gòu)建知識(shí)圖譜平臺(tái)有以下3種可能的方式:1)在現(xiàn)在的開(kāi)源知識(shí)圖譜平臺(tái)上進(jìn)行擴(kuò)展;2)把行業(yè)知識(shí)圖譜生命周期中每個(gè)環(huán)節(jié)對(duì)應(yīng)的工具集成為完整的平臺(tái);3)從零開(kāi)始構(gòu)建。整體而言,第1種方法通常難以執(zhí)行,因?yàn)檫@些開(kāi)源的知識(shí)圖譜平臺(tái)從設(shè)計(jì)、可擴(kuò)展性等方面均難以進(jìn)行深度二次開(kāi)發(fā),而第3種方法則成本過(guò)高,因此,最佳實(shí)踐方法應(yīng)對(duì)行業(yè)知識(shí)圖譜生命周期對(duì)應(yīng)的工具進(jìn)行綜合利用,在此基礎(chǔ)上進(jìn)行滿足上述需求的全流程全局設(shè)計(jì),并且對(duì)缺乏工具的環(huán)節(jié)進(jìn)行針對(duì)性開(kāi)發(fā),對(duì)需要改進(jìn)的工具進(jìn)行完善,從而整合形成完整實(shí)用的企業(yè)級(jí)知識(shí)圖譜平臺(tái)。
3.3.1 知識(shí)建模
企業(yè)級(jí)的知識(shí)建模工具首先需要有多類型知識(shí)表示的能力,實(shí)現(xiàn)概念、實(shí)體、屬性、關(guān)系、事件、業(yè)務(wù)規(guī)則以及多媒體數(shù)據(jù)對(duì)應(yīng)的語(yǔ)義內(nèi)容的統(tǒng)一表示。最佳的實(shí)現(xiàn)方法是把W3C推薦的標(biāo)準(zhǔn)知識(shí)表示模型(RDF和OWL)與其他的知識(shí)表示框架相結(jié)合,這些框架包括產(chǎn)生式規(guī)則和文件對(duì)象等。RDF和OWL能夠良好地以三元組的形式表示概念、實(shí)體、屬性和關(guān)系等知識(shí);事件可以視作一個(gè)特殊的概念,例如可以把“投資事件”定義成一個(gè)概念,并給它定義屬性(金額、時(shí)間等)和關(guān)系(投資方、融資方);業(yè)務(wù)規(guī)則的一種有效表示方法為產(chǎn)生式規(guī)則,例如“IF企業(yè).估值>1億美元THEN企業(yè)是準(zhǔn)獨(dú)角獸”;使用文件對(duì)象來(lái)表示多媒體形態(tài)的數(shù)據(jù)(如視頻、圖片或文檔等),然后使用鏈接標(biāo)引的技術(shù)手段使其與領(lǐng)域圖譜中的相關(guān)知識(shí)進(jìn)行關(guān)聯(lián),形成多模態(tài)知識(shí)圖譜。
為實(shí)現(xiàn)協(xié)同知識(shí)編輯,企業(yè)級(jí)建模工具以在線Web的形式實(shí)現(xiàn)多用戶登錄與權(quán)限管理、并發(fā)控制、編輯過(guò)程主動(dòng)提示與自動(dòng)補(bǔ)全等功能,并依托平臺(tái)存儲(chǔ)能力使得面向大規(guī)模知識(shí)圖譜的可擴(kuò)展建模成為可能。
平臺(tái)通過(guò)以下方法實(shí)現(xiàn)半自動(dòng)化建模能力:1)基于E-R圖模式解析的方法實(shí)現(xiàn)從結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)模式;2)基于“統(tǒng)計(jì)+規(guī)則”的方法從現(xiàn)有知識(shí)中自動(dòng)規(guī)約概念與屬性的算法,在發(fā)現(xiàn)過(guò)程中通常需要進(jìn)行人工干預(yù)、確認(rèn),通過(guò)人機(jī)交互的方式得到最終的圖譜模式層知識(shí)。
3.3.2 知識(shí)獲取
平臺(tái)需要包括對(duì)不同類型數(shù)據(jù)進(jìn)行知識(shí)獲取的工具。具體而言,涵蓋面向結(jié)構(gòu)化數(shù)據(jù)的D2R工具,面向半結(jié)構(gòu)化數(shù)據(jù)的包裝器配置與生成工具,以及面向非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)抽取工具,同時(shí)需要額外支持對(duì)事件等復(fù)雜類型知識(shí)的抽取。
D2R映射工具的一種可行實(shí)現(xiàn)方法是以R2RML映射語(yǔ)言為基礎(chǔ),開(kāi)發(fā)在線Web形式的所見(jiàn)即所得的交互式配置交互頁(yè)面,并把源數(shù)據(jù)與知識(shí)圖譜的模式(定義的概念與屬性)進(jìn)行映射,同時(shí)還需要提供設(shè)置融合合并的規(guī)則配置以及增量數(shù)據(jù)的判斷依據(jù)(例如更新時(shí)間)等。
包裝器的配置同樣需要提供所見(jiàn)即所得的配置方式或配置文件的配置方式,提供基于源碼字符串、正則表達(dá)式、XPath等進(jìn)行知識(shí)元素位置確定的方式?;镜牟襟E如下:1)獲取源碼,通過(guò)集成selenium等引擎實(shí)現(xiàn)動(dòng)態(tài)頁(yè)面加載成HTML;2)預(yù)處理,去除相關(guān)的噪聲如CSS、JS代碼等;3)字段配置,基于定義的模式層知識(shí)配置每個(gè)字段解析數(shù)據(jù),包括前置規(guī)則、后置規(guī)則、正則表達(dá)式等;4)后處理,進(jìn)行結(jié)果的過(guò)濾與轉(zhuǎn)換。同時(shí),平臺(tái)依據(jù)第一節(jié)中描述的模板學(xué)習(xí)方法實(shí)現(xiàn)相應(yīng)的包裝器自動(dòng)學(xué)習(xí)算法,用戶可基于學(xué)習(xí)的模板進(jìn)行配置,從而減少人工工作量。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的抽取,最佳實(shí)踐方法為:首先集成現(xiàn)有開(kāi)源的工具,如上文所述的Snorkel、DeepKE等;其次提供基于規(guī)則的抽取方法,其實(shí)現(xiàn)的過(guò)程與包裝器配置基本相同,基于規(guī)則的方法可以快速獲得準(zhǔn)確率較高的知識(shí),一方面作為抽取結(jié)果,另一方面可作為機(jī)器學(xué)習(xí)模型訓(xùn)練的語(yǔ)料;然后對(duì)于需要定制訓(xùn)練抽取模型的數(shù)據(jù),提供第三方模型集成的能力以及在線訓(xùn)練模型的平臺(tái),集成第三方模型通過(guò)微服務(wù)的注冊(cè)來(lái)實(shí)現(xiàn);在線訓(xùn)練平臺(tái)的后端通常通過(guò)集成現(xiàn)有的深度學(xué)習(xí)框架如TensorFlow、PyTorch等實(shí)現(xiàn),用戶在線標(biāo)注或上傳指定格式的語(yǔ)料后,后端啟動(dòng)模型的訓(xùn)練。
對(duì)于企業(yè)級(jí)的復(fù)雜數(shù)據(jù),為在保證抽取知識(shí)的質(zhì)量同時(shí)降低對(duì)人工標(biāo)注語(yǔ)料的依賴,可以使用如下的多策略最佳實(shí)踐方法:利用不同數(shù)據(jù)源之間的信息冗余,使用較易抽取的知識(shí)(結(jié)構(gòu)化數(shù)據(jù)庫(kù)中的)來(lái)輔助抽取困難的信息(文本信息抽取)。多策略信息抽取方法的整體架構(gòu)如圖1所示,其中圍繞企業(yè)信息的抽取,首先優(yōu)先從工商企業(yè)庫(kù)中通過(guò)D2R配置的方式抽取得到準(zhǔn)確率高的企業(yè)基本知識(shí),然后從專利網(wǎng)站中通過(guò)包裝器配置實(shí)現(xiàn)專利數(shù)據(jù)解析形成企業(yè)的專利信息,最后基于這些已經(jīng)抽取的知識(shí)以及通過(guò)規(guī)則的方法從文本中得到的知識(shí),自動(dòng)生成文本信息抽取模型訓(xùn)練所需的語(yǔ)料,實(shí)現(xiàn)遠(yuǎn)程監(jiān)督學(xué)習(xí)。

圖1 多策略信息抽取方法
3.3.3 知識(shí)融合
對(duì)于模式層的知識(shí)融合,通常采用人工融合的方法,因此,平臺(tái)需要提供交互配置界面進(jìn)行融合編輯。對(duì)于實(shí)例層的融合,首先同樣提供人工融合編輯的功能,用于對(duì)(半)自動(dòng)融合算法結(jié)果進(jìn)行修正;其次需要提供給用戶配置界面實(shí)現(xiàn)基于業(yè)務(wù)規(guī)則的融合,規(guī)則通常包括基于名稱、屬性、置信度等相似程度的方法;最后提供自動(dòng)的融合算法,算法的依據(jù)通常為待融合知識(shí)的相似度,基本計(jì)算方法包括基于字符串匹配、基于向量空間模型、語(yǔ)義距離計(jì)算和圖嵌入向量相似度等。
平臺(tái)還需要提供沖突檢測(cè)與自動(dòng)解決功能。沖突檢測(cè)可基于知識(shí)推理工具來(lái)實(shí)現(xiàn),而沖突自動(dòng)解決通常依據(jù)置信度來(lái)實(shí)現(xiàn)(通常選取置信度高的)。
3.3.4 知識(shí)存儲(chǔ)
企業(yè)級(jí)知識(shí)圖譜中的多類型數(shù)據(jù)和應(yīng)用的多樣性決定了知識(shí)圖譜的存儲(chǔ)必然是一種混合存儲(chǔ)的模型。一種最佳實(shí)踐的方法是以存儲(chǔ)三元組數(shù)據(jù)的圖數(shù)據(jù)庫(kù)為核心,使用關(guān)系數(shù)據(jù)庫(kù)、NoSQL、文件存儲(chǔ)等方式存放記錄型、文檔型、文件等數(shù)據(jù),從而實(shí)現(xiàn)對(duì)多場(chǎng)景應(yīng)用交互的需求。
在存儲(chǔ)性能方面,傳統(tǒng)的圖數(shù)據(jù)庫(kù)(如Neo4J和JanusGraph等)通常難以實(shí)現(xiàn)對(duì)大規(guī)模(百億到萬(wàn)億級(jí)別)知識(shí)的高效存取和查詢,一個(gè)公開(kāi)的性能評(píng)測(cè)報(bào)告如表2所示[61],表中數(shù)據(jù)為時(shí)間,第1列表示從選定節(jié)點(diǎn)出發(fā)進(jìn)行廣度遍歷的步數(shù),數(shù)據(jù)集為公開(kāi)的14.68億關(guān)系的Twitter數(shù)據(jù)集,N/A代表測(cè)試超時(shí)。表2數(shù)據(jù)表明,在十億級(jí)別的三元組中,Neo4J與JanusGraph已無(wú)法滿足深度查詢的要求。原生并行圖是當(dāng)前實(shí)現(xiàn)大規(guī)模知識(shí)圖譜數(shù)據(jù)實(shí)時(shí)存取的最佳解決方案,其基本思想是使用原生的圖存儲(chǔ)結(jié)構(gòu),數(shù)據(jù)存放在文件系統(tǒng)或計(jì)算機(jī)主存中,同時(shí)通過(guò)圖分割實(shí)現(xiàn)數(shù)據(jù)的分布式存儲(chǔ)并提供圖分割場(chǎng)景下的相關(guān)圖算法實(shí)現(xiàn)。這種工業(yè)級(jí)的圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)復(fù)雜度通常非常高,因此,企業(yè)級(jí)的應(yīng)用場(chǎng)景中也可以考慮部署商用的圖數(shù)據(jù)庫(kù)(如TigerGraph、PlantGraph等)。若自行研發(fā)實(shí)現(xiàn),則需要從底層的原生圖存儲(chǔ)開(kāi)始設(shè)計(jì),然后實(shí)現(xiàn)數(shù)據(jù)的分割存儲(chǔ)以及分布式并行計(jì)算,這通常需要投入大量的研發(fā)成本。

表2 常用圖數(shù)據(jù)庫(kù)性能評(píng)測(cè)數(shù)據(jù)
3.3.5 知識(shí)計(jì)算
企業(yè)級(jí)知識(shí)圖譜平臺(tái)中需要包括圖挖掘計(jì)算、知識(shí)推理等功能。
在圖挖掘計(jì)算方面:首先實(shí)現(xiàn)常用的圖算法,包括圖遍歷、路徑發(fā)現(xiàn)、關(guān)聯(lián)分析、社區(qū)發(fā)現(xiàn)、連通子圖等,通常是基于一些開(kāi)源的工具實(shí)現(xiàn),如python-graph、JGraphT等;其次實(shí)現(xiàn)圖挖掘分析引擎,代價(jià)較低的方法是集成現(xiàn)有的開(kāi)源分布式圖分析框架(如上文2.3.6節(jié)提到的Spark GraphX、Giraph等),這種方法適用于對(duì)實(shí)時(shí)性要求不是特別高的場(chǎng)景,而在實(shí)時(shí)性要求較高的場(chǎng)景中,則需要基于原生并行圖存儲(chǔ)單獨(dú)開(kāi)發(fā)相應(yīng)的圖分析引擎,需要考慮分布式協(xié)同計(jì)算、圖分割等復(fù)雜技術(shù)實(shí)現(xiàn)。
知識(shí)推理的主要實(shí)現(xiàn)方法為集成現(xiàn)有的成熟工具RDFox實(shí)現(xiàn)本體知識(shí)推理,以及集成Drools并進(jìn)行一定的擴(kuò)展實(shí)現(xiàn)業(yè)務(wù)規(guī)則推理。當(dāng)數(shù)據(jù)規(guī)模超過(guò)這些工具能夠承載的能力時(shí),可以提供相應(yīng)的篩選方法從而只對(duì)關(guān)心的知識(shí)進(jìn)行推理,另一種方法則是基于這些工具進(jìn)行擴(kuò)展從而實(shí)現(xiàn)分布式推理的能力。
3.3.6 知識(shí)應(yīng)用
企業(yè)級(jí)知識(shí)圖譜平臺(tái)中需要提供知識(shí)可視化、語(yǔ)義檢索、智能問(wèn)答等算法和基礎(chǔ)工具的支持。知識(shí)可視化通常采用基于現(xiàn)有的開(kāi)源工具(如D3.js、ECharts等)進(jìn)行擴(kuò)展開(kāi)發(fā),提供多種可視化視圖如星形圖、樹狀圖、點(diǎn)陣圖等,以及鉆取、放大縮小等交互方式。
語(yǔ)義檢索主要解決傳統(tǒng)的關(guān)鍵詞檢索中遇到的兩個(gè)難題,即自然語(yǔ)言表達(dá)的多樣性和自然語(yǔ)言的歧義性。這兩個(gè)問(wèn)題可以通過(guò)使用基于知識(shí)圖譜的實(shí)體鏈接和意圖理解有效地進(jìn)行解決。同時(shí),語(yǔ)義檢索還為用戶展現(xiàn)類似于實(shí)體搜索所提供的豐富的知識(shí)切面,使用戶能夠更便捷地獲取和理解結(jié)果。
企業(yè)級(jí)的智能問(wèn)答需要支持基于信息檢索的問(wèn)答(Information Retrieval Question Answering,IRQA)、KBQA和基于機(jī)器閱讀理解問(wèn)答(Machine Reading Compre-hension Question Answering,MRCQA)等多種問(wèn)答模式。不同的問(wèn)答技術(shù)擅長(zhǎng)回答的問(wèn)題場(chǎng)景不同,單一地采用一種范式具有一定的局限性,需要將3種問(wèn)答技術(shù)進(jìn)行融合,構(gòu)建多策略問(wèn)答引擎,最大限度覆蓋用戶問(wèn)題,更好地滿足企業(yè)應(yīng)用的需求。多策略問(wèn)答實(shí)現(xiàn)的基本過(guò)程如下:首先根據(jù)問(wèn)題與資源的不同,多策略問(wèn)答引擎會(huì)根據(jù)語(yǔ)義理解的結(jié)果在IRQA、KBQA、MRCQA中選擇一種或多種并行執(zhí)行,對(duì)于單一問(wèn)答技術(shù),也會(huì)使用多種實(shí)現(xiàn)策略并行執(zhí)行來(lái)完成候選答案的生成,同時(shí)為每一組候選答案收集相應(yīng)的證據(jù)并進(jìn)行置信度打分;把收集到的證據(jù)與置信度作為特征送入到下一階段,在此階段中會(huì)根據(jù)上一階段的結(jié)果對(duì)候選答案集進(jìn)行重新排序,選擇得分最高的答案生成最終回答。
工業(yè)級(jí)的知識(shí)圖譜在金融證券、軍工情報(bào)、圖情分析、生物醫(yī)療、電商、農(nóng)業(yè)等行業(yè)均得到有效利用。以金融證券領(lǐng)域?yàn)槔?知識(shí)圖譜在金融情報(bào)分析檢索、反欺詐分析、金融智能化等場(chǎng)景已經(jīng)有諸多成功應(yīng)用落地。
以前述的金融創(chuàng)投場(chǎng)景為例,基于知識(shí)圖譜平臺(tái)的知識(shí)圖譜應(yīng)用過(guò)程如下:1)進(jìn)行應(yīng)用場(chǎng)景分析,依據(jù)分析結(jié)果進(jìn)行知識(shí)圖譜的建模,有公司、人物等概念,以及人物的屬性、投資關(guān)系等;2)選擇數(shù)據(jù)源,包括企業(yè)的基本信息、工商數(shù)據(jù)、專利數(shù)據(jù)、網(wǎng)絡(luò)上的公開(kāi)新聞數(shù)據(jù)等,對(duì)數(shù)據(jù)進(jìn)行接入并預(yù)處理,利用平臺(tái)的知識(shí)獲取工具進(jìn)行知識(shí)的抽取;3)依據(jù)平臺(tái)的自動(dòng)融合功能以及基于業(yè)務(wù)規(guī)則的融合配置,實(shí)現(xiàn)各種知識(shí)的融合并存儲(chǔ)到平臺(tái)中,例如人物可通過(guò)配置身份證號(hào)相同進(jìn)行合并;4)應(yīng)用開(kāi)發(fā),依據(jù)應(yīng)用的場(chǎng)景進(jìn)行算法選擇或定制開(kāi)發(fā)、模型訓(xùn)練和業(yè)務(wù)系統(tǒng)定制化二次開(kāi)發(fā)。
基于知識(shí)圖譜平臺(tái)的應(yīng)用落地范式雖然流程清晰,但是仍然會(huì)碰到以下問(wèn)題:1)從知識(shí)圖譜的建設(shè)到應(yīng)用周期過(guò)長(zhǎng);2)圖譜構(gòu)建過(guò)程難度較高,需要專業(yè)技能;3)跨項(xiàng)目、跨領(lǐng)域遷移成本高;4)數(shù)據(jù)、知識(shí)、模型、算法等可復(fù)用程度低;5)應(yīng)用構(gòu)建復(fù)雜,需要技術(shù)人員深度開(kāi)發(fā)。對(duì)于上述問(wèn)題,當(dāng)前熱門的中臺(tái)相關(guān)技術(shù)可以有效地解決。中臺(tái)是指在一些系統(tǒng)被共用的中間件的集合,通過(guò)使用中臺(tái)可以抽象出可復(fù)用的各種能力(數(shù)據(jù)、知識(shí)、模型、算法、功能模塊等),以達(dá)到縮短應(yīng)用構(gòu)建周期、快速響應(yīng)業(yè)務(wù)需求的目的,同時(shí)降低跨領(lǐng)域的遷移成本。
企業(yè)級(jí)知識(shí)圖譜中臺(tái)是在知識(shí)圖譜平臺(tái)的基礎(chǔ)上引入中臺(tái)相關(guān)的理念和技術(shù),對(duì)平臺(tái)進(jìn)行重構(gòu)升級(jí)的結(jié)果,形成的知識(shí)圖譜中臺(tái)整體架構(gòu)如圖2所示,其中包括數(shù)據(jù)接入層、知識(shí)圖譜平臺(tái)層 (KGBox)、中臺(tái)層(自下而上依次為組件微服務(wù)化、預(yù)構(gòu)建與應(yīng)用編排)和應(yīng)用層。總體而言是在原有知識(shí)圖譜平臺(tái)(簡(jiǎn)化成KGBox)的基礎(chǔ)上進(jìn)行上述3個(gè)過(guò)程的升級(jí)重構(gòu),從而更加靈活地支撐上層的應(yīng)用場(chǎng)景。

圖2 知識(shí)圖譜中臺(tái)整體架構(gòu)
組件微服務(wù)化的過(guò)程是指對(duì)知識(shí)圖譜平臺(tái)的各個(gè)功能進(jìn)行抽象與細(xì)粒度的拆分,一方面降低單個(gè)組件的開(kāi)發(fā)難度,更重要的是能夠在不同的應(yīng)用場(chǎng)景中快速地對(duì)這些細(xì)粒度進(jìn)行重新組織從而達(dá)到利用的目標(biāo)。進(jìn)行抽象的服務(wù)包括知識(shí)圖譜全生命周期的全部服務(wù),涵蓋構(gòu)建相關(guān)的組件及應(yīng)用相關(guān)的組件,如知識(shí)圖譜構(gòu)建組件包括知識(shí)建模組件、知識(shí)獲取組件、知識(shí)融合組件與知識(shí)存儲(chǔ)組件,覆蓋行業(yè)知識(shí)圖譜全生命周期中的知識(shí)圖譜構(gòu)建階段;知識(shí)應(yīng)用組件則包括統(tǒng)一檢索、智能問(wèn)答、智能推薦、圖挖掘分析、事件分析、交互式BI、知識(shí)服務(wù)等組件,涵蓋了知識(shí)圖譜最典型的應(yīng)用場(chǎng)景。
通過(guò)使用統(tǒng)一的微服務(wù)架構(gòu)實(shí)現(xiàn)服務(wù)的統(tǒng)一治理、獨(dú)立運(yùn)行,實(shí)現(xiàn)中臺(tái)的高可用、可擴(kuò)展,通過(guò)使用容器化相關(guān)技術(shù)實(shí)現(xiàn)服務(wù)的快速發(fā)布與擴(kuò)展。
預(yù)構(gòu)建的理念來(lái)自于遷移學(xué)習(xí),遷移學(xué)習(xí)和領(lǐng)域適應(yīng)指在一種環(huán)境中學(xué)到的知識(shí)被用在另一個(gè)領(lǐng)域中來(lái)提高其泛化性能,即反預(yù)訓(xùn)練的模型重新用在另一個(gè)任務(wù)中。典型的應(yīng)用案例包括圖像識(shí)別領(lǐng)域和自然語(yǔ)言處理領(lǐng)域,前者代表有VGG模型、Inception模型和ResNet模型;在自然語(yǔ)言處理領(lǐng)域的應(yīng)用從早期的詞向量模型(word2vec)開(kāi)始,發(fā)展到近兩年熱門的BERT、XLNet等。
在知識(shí)圖譜中臺(tái)中,預(yù)構(gòu)建的使用分為以下層面:直接把預(yù)訓(xùn)練的語(yǔ)言模型應(yīng)用于知識(shí)圖譜構(gòu)建過(guò)程的知識(shí)抽取環(huán)節(jié),在數(shù)據(jù)量非常多的行業(yè)中也可以訓(xùn)練專用的領(lǐng)域語(yǔ)言模型;同時(shí),預(yù)構(gòu)建的思想還可以用于知識(shí)建模的本體、知識(shí)庫(kù)、模型和算法等;在特定的領(lǐng)域應(yīng)用場(chǎng)景或項(xiàng)目中所定義的本體、獲取的知識(shí)庫(kù)以及算法與模型(面向知識(shí)獲取、融合及應(yīng)用),在后續(xù)的相似場(chǎng)景中都可以復(fù)用而不需要從零開(kāi)始構(gòu)建。因此,在新的應(yīng)用場(chǎng)景中進(jìn)行遷移時(shí)能夠在此基礎(chǔ)上快速地進(jìn)行知識(shí)圖譜的構(gòu)建與應(yīng)用,降低應(yīng)用落地的難度與成本。
業(yè)務(wù)編排是指通過(guò)組合基礎(chǔ)服務(wù)來(lái)實(shí)現(xiàn)具體業(yè)務(wù)。實(shí)現(xiàn)業(yè)務(wù)編排的前提是組件微服務(wù)化,既包括后臺(tái)組件的微服務(wù)化,又包括將前端組件轉(zhuǎn)化為微服務(wù)。前端組件的微服務(wù)化需要使用微前端相關(guān)的技術(shù)實(shí)現(xiàn)前端組件的加載、組件注冊(cè)、頁(yè)面路由和數(shù)據(jù)共享。在組件微服務(wù)化的基礎(chǔ)上,可設(shè)計(jì)與開(kāi)發(fā)適用于知識(shí)圖譜可視化、推理、問(wèn)答、統(tǒng)計(jì)等應(yīng)用場(chǎng)景的所見(jiàn)即所得的拖拽式布局編排引擎。
組件微服務(wù)化必須建立在數(shù)據(jù)模型抽象的基礎(chǔ)上,這在靈活多變的業(yè)務(wù)場(chǎng)景中難以實(shí)現(xiàn)。因此,業(yè)務(wù)編排的難點(diǎn)在于業(yè)務(wù)數(shù)據(jù)模型的抽象。而知識(shí)圖譜可動(dòng)態(tài)定義本體的能力使得數(shù)據(jù)模型能夠動(dòng)態(tài)地進(jìn)行定義與擴(kuò)展,建立在此基礎(chǔ)上的微服務(wù)組件極大程度地增強(qiáng)了系統(tǒng)的可編排能力。
在知識(shí)圖譜中臺(tái)上的應(yīng)用將演變成“大中臺(tái)+輕前臺(tái)”的新范式,即重心在于中臺(tái)的構(gòu)建,當(dāng)中臺(tái)構(gòu)建成型后,即可快速實(shí)現(xiàn)業(yè)務(wù)應(yīng)用場(chǎng)景的構(gòu)建。同樣以金融創(chuàng)投業(yè)務(wù)應(yīng)用為例,面向金融領(lǐng)域的知識(shí)圖譜中臺(tái)會(huì)經(jīng)過(guò)不斷積累得到領(lǐng)域相關(guān)的本體、數(shù)據(jù)和知識(shí)、面向金融領(lǐng)域的知識(shí)抽取模型等,以及一些經(jīng)典的企業(yè)競(jìng)爭(zhēng)力分析、企業(yè)風(fēng)險(xiǎn)評(píng)估算法和模型。在此基礎(chǔ)上構(gòu)建應(yīng)用時(shí),用戶只需要補(bǔ)充特有的內(nèi)部業(yè)務(wù)數(shù)據(jù)(如創(chuàng)業(yè)企業(yè)的經(jīng)營(yíng)數(shù)據(jù)),這些數(shù)據(jù)通常是結(jié)構(gòu)化的,通過(guò)簡(jiǎn)單配置即可整合到知識(shí)圖譜中。同時(shí),可直接利用上述算法(企業(yè)競(jìng)爭(zhēng)力分析算法和風(fēng)險(xiǎn)評(píng)估模型等),或是在它們基礎(chǔ)上進(jìn)行微調(diào)(如加入特殊數(shù)據(jù),改變權(quán)重參數(shù)等)得到更新的算法和模型,然后利用編排引擎即可實(shí)現(xiàn)業(yè)務(wù)場(chǎng)景的應(yīng)用。
相較于基于知識(shí)圖譜平臺(tái)的應(yīng)用構(gòu)建范式,基于中臺(tái)的應(yīng)用構(gòu)建具有以下優(yōu)勢(shì):1)在預(yù)構(gòu)建的數(shù)據(jù)模式、知識(shí)庫(kù)、算法模型等基礎(chǔ)上構(gòu)建,從而避免數(shù)據(jù)稀疏和冷啟動(dòng);2)遷移快,能夠有效地復(fù)用之前積累的能力;3)業(yè)務(wù)導(dǎo)向,不需要過(guò)多地理解構(gòu)建知識(shí)圖譜全過(guò)程中涉及的復(fù)雜技術(shù);4)基于業(yè)務(wù)編排快速試探應(yīng)用的構(gòu)建,縮減開(kāi)發(fā)周期,節(jié)約開(kāi)發(fā)成本。
隨著行業(yè)知識(shí)圖譜的應(yīng)用深化,其應(yīng)用場(chǎng)景呈現(xiàn)出如下特征:數(shù)據(jù)向多模態(tài)化、動(dòng)態(tài)化方向發(fā)展和數(shù)據(jù)類型不斷擴(kuò)展,尤其是深度知識(shí)使用需求逐步增加。此外,應(yīng)用所基于的多類型的數(shù)據(jù)的質(zhì)量也參差不齊,這使得知識(shí)圖譜的應(yīng)用變得越來(lái)越復(fù)雜,也難有一種方法(包括知識(shí)的表示、存儲(chǔ)和應(yīng)用)能夠滿足所有的應(yīng)用需求。
在一些專業(yè)的領(lǐng)域如智能運(yùn)維、醫(yī)療輔助診斷等領(lǐng)域,不僅需要概念、實(shí)體和關(guān)系這些基礎(chǔ)的知識(shí)作為支撐,對(duì)于動(dòng)態(tài)的事件以及深度的業(yè)務(wù)經(jīng)驗(yàn)知識(shí)和決策過(guò)程知識(shí)等的需求更加明顯(其中的典型代表是密集的業(yè)務(wù)專家知識(shí)),這對(duì)復(fù)雜的知識(shí)表示與獲取提出了更高要求。
業(yè)務(wù)經(jīng)驗(yàn)和決策過(guò)程等知識(shí)是專家經(jīng)過(guò)長(zhǎng)期積累形成的,通常隱含在大段的文本中,有些甚至僅存在于專家腦中,對(duì)于這些知識(shí)的獲取,知識(shí)眾包是一種可行的解決方案。同時(shí),圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜表示學(xué)習(xí)的發(fā)展也為深度知識(shí)的表示與獲取提供了解決問(wèn)題的方法。
深度學(xué)習(xí)的發(fā)展給知識(shí)獲取帶來(lái)了機(jī)遇,但它往往需要大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù),而在企業(yè)應(yīng)用場(chǎng)景中,高質(zhì)量語(yǔ)料獲取通常需要由領(lǐng)域?qū)<沂止?biāo)注,這使得其構(gòu)建成本通常非常高。
針對(duì)這種數(shù)據(jù)稀疏場(chǎng)景下的知識(shí)獲取,弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)等最新的研究成果提供了解決思路。首先,“無(wú)監(jiān)督的預(yù)訓(xùn)練語(yǔ)言模型加上特定任務(wù)少量語(yǔ)料微調(diào)”的文本處理新范式在信息抽取、語(yǔ)義理解等場(chǎng)景得到了廣泛的應(yīng)用。在公開(kāi)發(fā)布的語(yǔ)言模型的基礎(chǔ)上,使用少量的行業(yè)語(yǔ)料即可完成高可用模型的訓(xùn)練。更進(jìn)一步,基于知識(shí)增強(qiáng)的語(yǔ)言表示模型將知識(shí)圖譜的信息加入到模型的訓(xùn)練中,使模型可以從大規(guī)模的文本語(yǔ)料和先驗(yàn)知識(shí)豐富的知識(shí)圖譜中學(xué)習(xí)到字、詞、句和知識(shí)表示等內(nèi)容,從而有助于其解決更復(fù)雜和抽象的自然語(yǔ)言處理問(wèn)題。
企業(yè)級(jí)知識(shí)圖譜應(yīng)用通常對(duì)知識(shí)的質(zhì)量要求非常高。然而,從不同來(lái)源的數(shù)據(jù)通過(guò)不同方法獲取的知識(shí),很難保證它們的質(zhì)量,尤其是那些通過(guò)一些機(jī)器學(xué)習(xí)方法從非結(jié)構(gòu)化數(shù)據(jù)中提取的知識(shí);另一方面,對(duì)于知識(shí)尤其是高動(dòng)態(tài)知識(shí)的時(shí)效性保證也面臨著巨大的挑戰(zhàn)。
知識(shí)評(píng)估體系相關(guān)研究的新進(jìn)展為知識(shí)質(zhì)量提升提供了評(píng)測(cè)依據(jù),同時(shí)知識(shí)眾包形式的知識(shí)編輯與校驗(yàn)也是保障知識(shí)質(zhì)量與時(shí)效性的有效手段。
隨著知識(shí)圖譜在企業(yè)中的深度應(yīng)用,積累的數(shù)據(jù)日趨龐大,從數(shù)據(jù)中獲取的知識(shí)規(guī)模從初始的萬(wàn)級(jí)別迅速增長(zhǎng)到十億級(jí)別,有些大型的企業(yè)的數(shù)據(jù)規(guī)模甚至達(dá)到了千億和萬(wàn)億級(jí)別。這種超大規(guī)模的數(shù)據(jù)對(duì)知識(shí)存儲(chǔ)和計(jì)算都帶來(lái)了巨大挑戰(zhàn),傳統(tǒng)的圖數(shù)據(jù)庫(kù)都難以適應(yīng)這種超大規(guī)模的知識(shí)。
計(jì)算機(jī)硬件的快速發(fā)展為超大規(guī)模知識(shí)圖譜提供了存儲(chǔ)、算力等方面的支撐。同時(shí),大數(shù)據(jù)時(shí)代積累的分布式計(jì)算、并行處理等技術(shù),也為超大規(guī)模知識(shí)圖譜知識(shí)計(jì)算提供了豐富的經(jīng)驗(yàn)。
知識(shí)圖譜是大數(shù)據(jù)時(shí)代知識(shí)工程的代表技術(shù),是符號(hào)主義與連接主義相結(jié)合的產(chǎn)物,也是實(shí)現(xiàn)認(rèn)知智能的基石。近年來(lái),知識(shí)圖譜在互聯(lián)網(wǎng)以及金融、醫(yī)療、教育等行業(yè)得到廣泛應(yīng)用。本文從工程應(yīng)用角度系統(tǒng)地描述了大規(guī)模企業(yè)級(jí)知識(shí)圖譜的實(shí)踐細(xì)節(jié),介紹已有的知識(shí)圖譜平臺(tái),闡述建設(shè)知識(shí)圖譜所需的主要過(guò)程和關(guān)鍵難點(diǎn),并針對(duì)每個(gè)環(huán)節(jié)分析所需的技術(shù)和相應(yīng)的最佳實(shí)踐。在此基礎(chǔ)上,指出知識(shí)圖譜平臺(tái)中臺(tái)化升級(jí)的挑戰(zhàn)、相應(yīng)的技術(shù)路線和未來(lái)發(fā)展方向。隨著知識(shí)圖譜在企業(yè)級(jí)場(chǎng)景中應(yīng)用的不斷深入,多類型知識(shí)的統(tǒng)一表示與自動(dòng)獲取、海量知識(shí)的高效推理與計(jì)算、知識(shí)的質(zhì)量與時(shí)效性等將成為工程與研究中需要進(jìn)一步解決的問(wèn)題。