崔茜 國家知識產權局專利局專利審查協作天津中心
科學知識圖譜,是顯示科學知識的發展進程與結構關系的一種圖形,是以科學知識為計量研究對象的,是用定量統計方法發現科學知識指數增長規律的科學。隨著計量學的發展,科學知識圖譜從簡單的二維模型開始發展到三維空間模型。在中國,最先命名和引入科學知識圖譜的是在《科學學研究》上發表的一篇文章,開啟了科學知識圖譜在國內的研究與傳播。
60-70 年代語義網絡逐漸興起,語義網絡其實就是一個網絡,類似于一種生物鏈的結構。所有的節點和邊組成了一個網絡,節點代表某一種動物,邊構成了動物之間的食物鏈關系。到了80-90 年代,描述邏輯日漸成熟,學者們一直在尋找如何讓計算機更好的執行邏輯的推理,因此,越來越多的知識圖譜用于構造描述邏輯語言,計算機解決某些問題的研究也從此開始。1995 年前后,知識圖譜被真正用于互聯網語言的邏輯描述上,從HTML、XML 到DAML+OIL 以及后來的OWL2 都見證了知識圖譜從弱語義到強語義的發展過程。
到2006 年的時候,語義網絡的技術堆棧已經變得十分復雜,“語義網蛋糕模型”對語義網絡的不同技術做了羅列,同時,人們逐漸意識到必須將知識語義擴展到一個更高的維度,即我們所稱的“關聯數據”,一個三維的語義網絡。
知識圖譜在醫療、金融、法律、智能制造、通信等各個領域被廣泛應用,在檢索、編輯、校驗、推理、開發等各個工具鏈上完美契合,知識圖譜本質上來說可以看做一種程序,它讓計算機能夠理解真實的世界,同樣人們也能夠利用它去開發真實世界的資源。
知識圖譜以語義分析為基礎,以模型為核心,基于數據,利用深度卷積網絡、NLP 框架語義理解等技術對查詢詞進行深層次的分析,提供了實體、關系、屬性抽取等算法的服務,從而達到構建多領域知識圖譜平臺,服務不同行業、不同應用。
知識圖譜的構建過程是一個迭代更新的過程,包括信息抽取、知識融合和知識加工三個階段。信息抽取階段,用于從數據源中抽取出實體、屬性以及實體間的相互關系,以此形成知識表達。知識融合階段需要對不同數據源獲得的知識進行整合,消除語義矛盾;知識融合一般包括本體對齊和實體匹配兩個步驟。知識加工階段對于融合后的新知識進行評估和衡量,確保知識庫的質量。
針對知識加工階段來說,其具體包括本體構建、知識推理和質量評估三個方面:本體構建實際上是構建知識圖譜上下層級或隸屬度的過程,即網絡的初步構建過程;知識推理技術能夠發現知識圖譜中殘缺的關系,從而使網絡實體的關系更加完善;質量評估的意義在于對知識的可信度進行量化,舍棄置信度低的知識保障整體網絡質量。
知識圖譜中的實體、屬性以及關系不可能一成不變,因此,當有新的元素加入到圖譜時,需要對圖譜進行更新。圖譜的更新包括全面更新和增量更新,全面更新即從零開始重新構建圖譜結構,方法簡單,但計算量大;增量更新僅以新增知識為輸入添加到網絡中,資源消耗小,但是實施起來又十分困難。
搜索引擎本身是一個匹配的過程,通過用戶輸入的查詢返回搜索結果,搜索引擎的后臺來源于互聯網,通過爬蟲技術將互聯網的信息獲取到本地。傳統的搜索引擎返回的僅僅是與查詢詞對應的結果,而引入知識圖譜后,搜索的結果發生了巨大變化,例如在搜索某個明星時,其對應的相關明星以及各自的作品都能夠作為結果展示。
類似的搜索產品有如百度知心、搜狗知立方等等。
知識圖譜的推薦主要是通過實體與實體之間的關系,通過一系列的算法將熱點進行排序,從而使用戶獲得更加準確、多樣的推薦結果。其實現的過程與搜索引擎類似。
隨著人工智能的不斷發展,知識圖譜在聊天機器人、問答系統等智能決策系統有了一定的應用。機器人通過對知識圖譜的學習能夠獲得模擬人的行為,并達到舉一反三的能力,機器學習能力不再單一,學習內容更加廣泛、豐富。
通過知識圖譜能夠得到公司股東、競爭對手、競爭產品、合作伙伴、分紅等一系列經濟數據,研究人員能夠從此圖譜中進行更深層分析,從而為市場提供更優競爭力的咨詢和決策。
知識圖譜對于大數據的分析、數學模型的建立以及風險預測評估等都發揮著重要的作用,其使抽象的、處于不同維度的數據以直觀的、有聯系的形式展示出來。但是知識圖譜的應用絕不僅限于此,隨著科技的進步,越來越多的技術將通過知識圖譜的方式融合發展。