孫利平 劉亮 彭胡萍

摘 ?要:目前,人類已經邁入信息時代的大門,大數據技術得到廣泛化應用,信息數據成為一項寶貴的資源,通過知識圖譜可以對海量數據進行整合、利用,挖掘高價值信息,以便為決策制定等多方面提供重要支持?;诖耍撐膰@知識圖譜的技術實現及相關應用展開深入、全面的探析。
關鍵詞:知識圖譜;技術實現流程;知識檢索;知識組織;大數據
中圖分類號:TP311.1 ? ? ?文獻標志碼:A ? ? ? ? ?文章編號:2095-2945(2024)18-0024-04
Abstract: At present, mankind has entered the door of the information age, big data technology has been widely applied, and information data has become a valuable resource. Massive data can be integrated and utilized through the knowledge graph, and high-value information can be mined. In order to provide important support for decision-making and other aspects. Based on this, this paper makes an in-depth and comprehensive analysis on the technical implementation and related applications of knowledge graph.
Keywords: knowledge graph; technology implementation process; knowledge retrieval; knowledge organization; big data
近些年,隨著信息技術的蓬勃發展,網絡信息數據呈現出指數級增長的態勢,其中對于傳統的Web內容而言,組織結構非常松散,并不能對數據進行高效化、智能化處理,無法滿足大數據技術下關于知識組織、知識應用、知識整合等方面的需求。與此同時,用戶關于知識服務方面的需求日益多元化、復雜化,并且期望值也明顯提高,而在該種環境下對相關知識進行定位漸漸發展成為廣大網絡用戶在未來發展過程中的一種迫切需求。因此,要以大數據環境下的知識組織原則作為重要切入點,積極探尋與網絡信息資源屬性、技術發展特征等多方面密切相關,而且還可以切實滿足廣大用戶多元化認知需求的知識組織方法,從而從更廣維度、更深層次對人類知識的整體性及不同知識之間的關聯度進行剖析[1]。知識圖譜一般是利用“搜索+知識庫”的方法匯總整理網絡數據,并在此基礎上將知識立體化、形象化、直觀化地展現給用戶。另外,通過知識圖譜還可以精準、詳細描述不同層次及不同粒度的抽象概念,從嚴格意義上來講,知識圖譜實質上是對客觀知識的一種映射,可以將其視為互聯網資源組織發展過程中的一個重要基礎,從而使資源的知識整合、智能化檢索等各項功能轉變成為現實[2]。
1 ?知識圖譜的概念及基本功能
知識圖譜是把關聯數據集等作為基礎,對數據資源進行語義標注,明確不同知識資源的關聯,由此開展語義分析及挖掘,根據語義處理能力、開放互聯能力等為用戶提供瀏覽檢索等多項服務。就本質意義上而言,知識圖譜是一種特殊化的語義網絡結構,也是語義網絡技術的一個成果體現。最近幾年,Web資源數量顯著增多,并且RDF數據被發布與共享,在這些因素的共同影響之下,互聯網架構及知識內容也產生了重大變化,即由涵蓋網頁間超鏈接的文檔萬維網轉變為對不同實體間關系進行精準描述的萬維網,經過該方面轉化之后,為知識探索、挖掘、利用等多方面內容提供了重要路徑[3]。
知識圖譜的基本功能包含3個方面:第一,可以為廣大用戶提供智能化的檢索服務,并從本質上規避語言的歧義性;第二,通過信息元側邊欄可以對知識進行歸納、梳理,以便更加職能、高效、全面地展現給用戶;第三,通過信息推薦,可以為廣大用戶提供范圍更廣、涉及內容更多的知識[4]。
2 ?知識圖譜的技術實現流程
知識圖譜的技術實現流程包含5部分,即知識獲取、知識融合、知識存儲、知識檢索和可視化展現結果,詳情如圖1所示。
2.1 ?知識獲取
為了對知識進行豐富、完善,進一步提高知識服務質量,以便為廣大用戶提供高質量的答案,知識圖譜中不僅需要包含多領域的常識性知識,同時還應當對知識內容進行動態化更新、完善。知識圖譜的服務范圍、服務深度等會受到多方面因素的直接影響,比如知識數量、知識質量等,因此在構建知識圖譜時,要將全面、豐富的知識內容作為支撐。通常情況下,不同領域的常識性知識源自多個方面,如百科類站點、垂直站點中的結構化數據等,但是不同站點中的知識也是不斷更新的,所以知識圖譜也需要做好知識獲取工作,以便豐富知識內容[5]。
新時代環境下,用戶交互的頻率日益提升,由此而形成的用戶交互內容不斷增多,越來越多的用戶開始參加網絡信息創建、網絡信息組織、網絡信息傳播等多方面活動,在此過程中也會形成海量的信息數據,該方面也是知識圖譜必須要進行整合的知識內容。與此同時,知識圖譜需要根據用戶的興趣愛好,為用戶推薦一些專業化、豐富化,并且具備較強針對性的知識,若想實現該方面目標,還需要對用戶的行為數據進行抽取、整合,例如表明用戶個人身份的信息、用戶訪問日志數據等。再比如,可以對用戶查詢內容進行提取、整合,然后在此基礎上剖析用戶的興趣愛好,然后再根據用戶點擊的鏈接、用戶搜索時的停留時間等信息評判用戶關于所搜尋答案的滿意度,從而獲取用戶的行為數據,以便后期為用戶提供針對性的知識服務。
當在獲取知識時需要應用多項技術,例如語言處理技術、機器學習技術等,尤其是大數據技術、人工智能技術水平持續提升,對智能化數據進行整合、提取、挖掘和利用是開展分析工作的基礎,也是信息數據價值的一種重要體系,知識資源實質上為知識推理、數據分析等多項工作提供了至關重要的參考[6]。
2.2知識融合
由于知識圖譜中的信息數據是從不同站點、不同領域獲取整合而得,所以知識質量良莠不齊,并且還存在重視交叉重疊、知識關聯度較弱等一系列問題,不利于為客戶提供高質量服務,所以要立足于知識圖譜的發展及用戶需求促進知識融合。知識融合屬于一種層次較高的知識組織,可以在同一個框架中對源自不同層面的知識進行異構數據整合、利用,從而提高重要度計算精準性及推理驗證工作的合理性,對數據、信息、經驗和思想等內容進行高效化整合利用。就嚴格意義上來講,對于知識圖譜構建關系的過程而言,實質上就是對有關實體進行挖掘,即找出用戶查詢過程中的共享實體,或者在查詢同一個鏈接時曾被多次提及的其他實體,并在此基礎上整合鏈接、統計鏈接,積極開展用戶查詢日志分析工作,明確查詢式主題的分布狀況,并利用科學化的方法驗證分析同一主題中的實體類型,從而讓多個主體構建密切關聯[7]。
一般情況下,對于實體重要度而言,是通過PageRank等算法進行計算,其中實體重要度計算結果會受到多方面因素的影響,比如實體屬性與實體間的邏輯關系、不同實體與語義關系的流行度等,所以在計算分析的過程中要對這2個方面進行綜合性考量。如果用戶查詢過程中的實體被識別,那么客戶將可以立體化、形象化、直觀化地查看該實體的結構化摘要,若具體查詢時涵蓋多個實體,則應當選取與查詢存在直接關聯的實體,并利用恰當的方法對更為重要的實體進行展現。例如,當查詢“張偉”這一姓名時,會顯示1 000多個同名實體,而此時要根據重要度結論對這1 000多個實體進行排序,然后再展現給用戶。
2.3知識存儲
在知識圖譜中,知識存儲在知識庫中,而該知識庫屬于一個關聯集合,涵蓋的內容非常多。其中對于一些比較雜亂、繁瑣的信息數據,應當在前期利用科學化的方法進行融合處理,由此使其形成一個規范、有序的知識體系,并按照知識類別存儲知識,將知識存放在各知識模塊中,最后再在此基礎上編制索引,確保用戶在知識檢索時可以獲得精準化、高效化的結果,對知識數據進行深度挖掘及高效化利用[8]。
在對知識圖譜中涵蓋的知識數據進行存儲、利用的過程中,要通過恰當的存儲介質、存儲形式進行存儲,并且還要確保知識快速可讀,不會影響系統運行效率及數據操作管理水平等。當更新、完善、修訂知識庫中的知識時,需要遵循相關性準則,找出新知識、舊知識之間的關聯度,使新舊知識保持較高的連貫性,不會產生新舊知識沖突的問題,從而豐富知識庫內容,為用戶展現更加豐富的知識服務。
2.4知識檢索
知識檢索是將傳統的知識組織體系作為參考,實現知識關聯、概念語義檢索等目標,進而為用戶提供智能化檢索服務。其中在知識圖譜之中,知識檢索包括2類核心,一類是從知識庫中找出的與之表現為對應關系的實體;另一類是根據實體類別、實體關系等找出的關聯實體。
用戶的查詢式是指在語義分析理解的基礎上,對自動生成的標準查詢語句進行整合、利用,然后通過檢索系統進行解析,并把解析結果與知識庫中存在的知識進行匹配,最后再開展統計分析、推理排序、預測判斷等工作。與此同時,系統也會參照查詢詞語表達的基本概念、語義內涵等內容,檢索此詞語的同義詞、近義詞等相關內容,由此對相關概念內容進行豐富、擴充,避免產生漏檢問題。
2.5可視化展現結果
知識圖譜可視化展現結果能夠為用戶帶來直觀化、智能化、高效化的體驗感,即利用可視化技術把原本知識庫中所存在的枯燥、靜態的數據轉變為形象化、立體化的內容,以便用戶進行分析理解。一般是將內容放置于一個信息欄之中,用戶可以直觀、形象地找出自身所需的知識,解答個人疑惑。同時,豐富的可視化展現形式還可以為用戶提供圖片、列表等信息內容展現形式,豐富用戶交互元素,使用戶獲得優良的體驗感,例如試聽、圖片瀏覽等,可以使用戶通過豐富化的形式獲取知識。比如,當對“開國將領”進行搜索時,所呈現的內容不但包含文字介紹,并且還附列有每一位將帥的照片及視頻資料等;再比如,當對“張藝謀導演的電影作品”進行搜索,所展現的信息欄中不但列出了張藝謀導演的所有電影,而且還可以根據時間、觀眾好評度、地區等進行精準化搜索,以便幫助用戶對目標進行快速鎖定。
在知識圖譜可視化展現方面,一方面要確保所展現答案的全面性、精準性,另一方面還應當基于可視化展現要求,合理規劃知識模塊位置、精準把控內容粒度等。在可視化展現過程中,應當應用多項技術,例如Web客戶端技術、可視化技術等,確保用戶可以在最短時間范圍內獲取知識及答案。
3 ?知識圖譜的實踐應用
3.1 ?知識圖譜在現代電商平臺方面的應用
電商平臺在運營過程中,一般需要對所售商品進行可視化展現,具體展示的內容包含商品文字介紹、商品圖片、商品視頻等,使消費者可以更加全面、詳細地了解產品。電商運營平臺所提供商品信息的完善性、關于產品的視覺感官體驗等多方面將直接影響消費者的信息感受,通過知識圖譜能夠對電商平臺的交互性、易用性等多方面進行改進,確保用戶獲得優良的體驗感,而對于電商平臺而言,可以對用戶偏好信息進行整合、挖掘、利用,以便基于用戶偏好信息為用戶提供高質量服務,確保用戶可以購買到滿意的產品。
比如,阿里巴巴在日常運營過程中便應用了知識圖譜。在2011年期間,阿里巴巴立足于業務發展需求,將“淘寶”拆分為3家不同的公司,其一是一淘網、其二是淘寶網、其三是淘寶商城。一淘網主要是對用戶在采購過程中所遭遇的各類問題進行高效化處理,基于用戶需求為客戶制定合理、科學的購物方案,使用戶可以購買到性價比高的商品,提高用戶滿意度及體驗感。當用戶在電商平臺中自主搜索某一個商品關鍵詞時,知識圖譜會根據“關鍵詞”為用戶展現商品信息,具體包含使用建議、搭配信息、選購技巧及流行趨勢等內容,以便使用戶基于搜索結果做出最適宜自身的決策,從而滿足用戶的多元化需求。
3.2 ?知識圖譜在社交網站方面的應用
2013年,Facebook成功設計了“Graph Search”,將人、地點、事情這3個方面進行有效關聯,核心目的是基于知識圖譜分析不同人群是如何關聯的,該系統可以實現精準化的自然語言查詢,比如用戶搜索“附近熱度最高的咖啡店”“與我距離最短的酒店”等信息時,知識圖片將會為用戶展現出社交網站中與自己最相關的人、照片、地點等信息數據,以便使用戶快速找到志同道合的朋友,滿足自身在社交方面的需求。
3.3 ?知識圖譜在問答系統方面的應用
問答系統是一種信息檢索系統,即通過簡潔化、精準化的語言回答用戶問題。問答系統在運營的過程中,需要海量的信息數據及完善化的知識庫作為重要支撐,若想實現該方面目標,一方面要求系統對不同領域、不同層面的知識數據進行抽取及整合,另一方面還需要用戶定期錄入數據,由此對知識庫中的知識內容進行完善及豐富。而在問答系統中引入知識圖譜能夠實現自動抽取一些重要事件的相關信息數據,然后將其直接作為問題的答案,并由此建構合理、科學的知識庫。當精準識別用戶自然語言問題后,要通過適宜、科學、合理的方法提取與之高度匹配的答案,評判時間與空間的吻合度,再通過直觀、形象、立體的形式展現給用戶,使用戶可以通過問答系統獲取所需答案,從而提高客戶滿意度及體驗感。目前,市面上的問答系統均應用了知識圖譜,例如手機中的語音助手,可以自助回答用戶提出的問題等,這些均是知識圖譜在問答系統方面的具體應用。
4 ?結束語
總而言之,知識圖譜是新時代環境下衍生的一種知識組織與檢索技術,為人們的生產生活帶來了極大的便利,得到了極為廣泛的應用。目前,知識圖譜仍處于初期探索階段,在具體應用過程中仍存在諸多難題,比如知識庫自動擴充無法實現、推理規則學習過程復雜、知識可信度低等問題;再比如,采取何種方式對用戶需求進行分析、如何智能化整理用戶搜索結果等,這些均是知識圖譜發展過程中亟待解決的重大問題。相信在未來知識圖譜將會得到進一步發展,應用范圍也會越來越廣,進而造福人類!
參考文獻:
[1] 向光暉,李林蔚,王濤,等.基于知識圖譜的工控網絡安全構建研究[J].工程建設與設計,2023(22):95-97.
[2] 李心雨,鄭湃,鮑勁松,等.基于Self-X認知制造網絡實現認知大規模個性化定制——一種工業知識圖譜及圖嵌入技術使能的途徑(英文)[J].Engineering,2023,22(3):14-19.
[3] 劉佳星,孟繁麗,劉昱鵬,等.基于大數據和算法實現無線規劃方案數字化交付的方法與實踐[J].電信工程技術與標準化,2023,36(1):68-73,83.
[4] 唐銳,李智杰,李昌華,等.基于BIM與知識圖譜的智能化審圖系統設計與實現[J].計算機測量與控制,2022,30(9):155-161,169.
[5] 羅婕溪,劉帥,張玉志,等.基于知識圖譜技術的線上教學資源推薦系統設計與實現[J].數據與計算發展前沿,2022,4(3):3-18.
[6] 嵇晨.基于知識圖譜的非公經濟實體隱藏關系挖掘技術研究及實現[D].北京:中國電子科技集團公司電子科學研究院,2022.
[7] 施仝.基于特定領域知識圖譜的智能問答技術研究與實現[D].北京:中國電子科技集團公司電子科學研究院,2022.
[8] 羅智平.基于語音識別技術和中醫知識圖譜的智能中醫問診系統的設計與實現[D].廈門:廈門大學,2020.