單佩佩



摘要:知識圖譜主要將知識點作為核心內容,同時根據知識點匯集各種模式的學習資源。 將學科知識用知識圖譜構建出來,以網絡結構的形式展現出來,在此基礎上建立資源之間的關系,將知識圖譜中知識間的關聯性應用于學習者學習過程中的資源推送服務。本文從知識圖譜的定義出發,綜述了知識圖譜的知識提取、表達、存儲和檢索以及教育資源個性化推薦方向的應用研究進展。
關鍵詞:信息檢索; 知識表示; 資源推薦
中圖分類號:TP3? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)36-0177-02
知識圖譜的定義:“知識圖譜基本上是語義網絡的知識庫”,它是由谷歌公司提出的。[1]我們可以簡單地將知識圖譜解釋為多關系圖或是一個數據結構,其中包括邊和節點它們之間的關系,多個圖通常包括多個節點類型和各種類型的知識圖譜,一般來說都是把實體用節點表示,關系用邊來表示,實體是來自真實世界的事物,例如人名、地名、藥品、公司、概念,等等,盡管關系用于表示不同實體之間的某種類型的連接,現實世界中的許多假設情況都非常適合于知識圖譜來表達。
本文結合文獻引用和自己的觀點,引用大量的著名理論,搜索相關論文和文獻發表在專業期刊、論壇、雜志和權威網站近年來,總結和排序,比較他們彼此,闡述了教學資源的建議結合自己的專業和知識地圖。
1 知識圖譜的表示
知識圖譜應用的前提是知識地圖的構建,知識圖譜也可以作為知識庫。這就是為什么它可以用來回答一些與搜索相關的問題。在現實世界中,實體和關系也有自己的屬性,如“名”和“齡”。當知識地圖有屬性時,我們可以用它來表示它們。那么我們去描述一個事實以知識圖譜的形式。張四和張武是父子關系,張四有182開頭的電話號碼。此電話號碼于2018年開通,2018年可作為該關系的屬性。同樣,張四本人也有一些屬性值,比如年齡,職業等,這樣的描述就是他們的屬性圖。知識圖譜一般用屬性圖表示,但也可以用RDF表示,RDF由許多三元組組成。RDF在設計中的主要特點是易于發布和共享數據,但不支持實體或屬性關系。如果必須添加屬性,則需要進行一些設計修改。[2]
2 知識圖譜的抽取
知識圖譜的構建是應用的第一步,構建的前提是從不同數據源中提取數據。對于垂直領域的知識映射,其數據源主要來自兩個渠道:一是業務本身的數據,這種數據通常以結構化方式存儲在公司數據庫的表中;另一個是在網絡上打開并捕獲的數據,通常是網頁形式,因此是非結構化數據。前者可以通過簡單的預處理用作后面AI系統的輸入,而后者通常須要借助NLP和其他技術來提取結構化信息。[3]數據源,例如Wikipedia。信息提取的困難在于處理非結構化數據。第一個是實體命名識別,即從文本中提取實體,并對每個實體進行分類/標記。此過程稱為實體命名識別。這是一項相對成熟的技術,并且有一些工具可以實現此戶口卡。其次,我們可以通過關系提取技術從文本中提取實體之間的關系。
在對實體識別和關系抽取的研究過程中,存在比較突出的兩個的問題:其一主要是實體的統一性,即使一些實體的書寫方式不一樣,但在實際上生活中指向的是同一個實體。比如,“CHN”和“China”表面上看是兩個不一樣的字符串,實際上他們所指的就是中國這個國家。實體統一不僅可以減少實體類型,還可以減少圖集的稀疏性。另一個問題是參考的指代性,即文本中所指的是“它”,還是“他”或“她”這個實體。相比較前兩個問題來說,實體統一和回指解析更具有高難度。
3 知識圖譜的存儲
存儲知識圖譜的方式一般有以下兩種形式:1)利用RDF形式存儲。2)利用圖數據庫。它們之間還是有一些區別的。RDF的最大特點是可以輕松發布和共享數據。圖形數據庫主要以可視化的界面進行圖形查詢和搜索。其次,RDF存儲數據以三元組的形式,但是不能夠包括屬性這類信息。[4]然而,圖數據庫的基本表示一般用屬性圖來,這些實體和關系都可以包含屬性,這意味著可以方便地查看當前業務場景;根據最新統計數據,圖數據庫是當前增長最快的存儲系統 但是,關系數據庫的增長幾乎保持穩定,同時,我們還列出了流行的圖數據庫系統及其最新使用排名,其中neo4j系統仍然是使用最廣泛的圖數據庫,它擁有活躍的社區和 查詢效率高,但是唯一的缺點是它不支持準分布。
4 知識圖譜的構建
知識圖譜的構建的方法主要是采用自底向上的方法,這是一個反復的過程。圖譜的每次的構建都需要進行更新。每一輪更新包括三個步驟:信息提取,知識融合和知識處理。[5]如圖1所示。信息提取主要是從各種數據中提取到實體、屬性、關系的過程,這是最基本的步驟。其次進行知識融合,融合的過程主要是消除歧義,例如:apple手機與蘋果。同時還需要進行實體合并,關系的清理或融合。以此來消除冗余。最后就是知識處理。經過上述的過程后,就可以構建出一個知識圖譜的。
5 知識圖譜在資源推薦方面的應用
網絡科學技術的進步,給我們提供了各種各樣的學習資源,這些資源都是沒有分類、魚龍混雜,沒有序列關系,沒法給網絡學習者提供適合他們的學習服務,讓他們更有效率的進行學習,更不可能提供個性化服務。 [6]尤其是對于當前的教育領域來說,經常會談到個性化教育的概念,倡導“因材施教”的理念等。而這些教育理念的核心的前提需要了解學生現有的知識體系,認知風格、學習特點等。[7]要了解學生的知識體系,要依靠于我們從系統上獲得的數據,類如學生學習課程的數據、和同學老師進行互動的數據、對課程評價的數據等等。為了能更好地給學生提供資源推薦服務,我們首先要分析學科的知識結構及可能出現的學習路徑,我們需要這方面的概念知識圖,它只是一個概念拓撲。我們給出了一個非常簡單的概念圖:例如,要學習三角形這個知識點,我們需要先學習什么是角等。為了學習“學習資源”這個章節,我們要知道什么是學習資源等等。對于這些內容的學習,我們對學生的所有評估和互動分析都與概念圖的基礎數據密不可分。
5.1 建立學科知識圖譜
專業學科知識圖譜的建立,首先要從教材、網絡上獲取數據;由于專業學科知識領域的專業性,因此需要專家人員的涉入,進行一定的輔助。教學資源比普通文本結果更復雜,內容更分散。本文所有數據來源專業課程教材及爬去百度百科和豆瓣上數據。但從網絡上獲取的數據屬于非結構化的,因此需要進行實體抽取、關系抽取等這些。通過上面數據加工后,我們對學科資源進行打標簽、關鍵詞提取。為準確獲取知識點的完整性,采用python語言Jieba分詞對數據進得預處理。在用Word2vec對分詞后的詞語進行向量化表示。再進行關系抽取,主要包括前驅關系、后繼關系、兄弟關系等。前期工作完成后,需用到Neo4j圖數據庫進行存儲數據,以展現知識之間的關系,如圖2。
5.2 生成個性化學習路徑
協同過濾算法主要利用用戶行業數據進行推薦。要實現協同過濾首先要收集用戶的偏好。協同過濾推薦的實現過程包括四個關鍵步驟:獲取和表示用戶信息、匹配學習資源、形成鄰居和生成推薦。獲取的數據信息以矩陣形式表示,通過計算矩陣稀疏度來找到數據資源,最后尋找相似的學習者,這里的相似度主要采用的是余弦相似度計算,最后才形成了最終的推薦過程。
5.3 基于知識圖譜的個性化資源推薦框架
基于知識圖譜的資源推薦主要實現個性化學習推薦和資源管理這兩方面。如圖3所示框架結構。[8]學習者信息主要包括學生個人信息及在網絡上學習課程的時間、課程內容選擇的教學資源等。專業知識圖譜存儲的則是專業課程的信息。老師可以從后臺管理學生學習的各種資源,包括上傳、下載、刪除、更新數據等。協同過濾算法獲取學生的信息、學習的信息。根據學生當前認知水平,結合知識圖譜的結構,生成個性化資源推薦,以供學生學習。
因此,我們可以使用知識圖譜來連接有關的學習內容知識點,并將當前所學的知識內容與隨后的相關學習內容相連接,以推薦其相關知識點、習題、視頻等資源。所以,在此基礎上,我們可以根據學習者的需求出發,結合他們選擇學習的課程,來給他們推薦一條適合的學習路徑,從而為他們提供適合的學習資源,這樣更有助于學生的吸收與消化。
綜上所述,在本文知識圖譜構建的基礎上,知識圖譜可以有效地集成數據資源,但在個性化推薦方面還有待改進。同時,知識圖譜以一種新的方式在教育研究方面提供了新的想法和思路。知識圖譜不僅建立相關學習知識之間的聯系,并可將學習者當前的知識內容與后續的相關學習內容聯系起來。基于此,給出學習者適合的學習路徑及推薦相關學習資源。通過 此方法構建出來知識圖譜,更加體現出對學生進行個性化的學習,提供適合學習者的資源。以達到精準推薦的目的。
6 總結
知識圖譜的提出,讓我們可以用一種新的方法來表現知識的表示、存儲和管理。它的主要作用還是在于分析關系,尤其是深度的關系。知識的推理目前處于知識圖譜領域一個非常重要的研究熱點。有了這樣知識的推理,這樣就更有利于對學習者進行個性化的推薦。用知識圖譜展示數字化教學資源,將零散的資源整合在知識圖譜中,使資源不在獨立,而是彼此聯系。這樣學習者就可以一目了然了解知識的難重點。同時知識圖譜也是動態的,新資源也會同時加入。最后,知識圖譜是一個既充滿挑戰又非常有前景的領域。我相信,將來,知識圖譜將滲透到各行各業,并成為一項至關重要的技術。
參考文獻:
[1] 黃恒琪,于娟,廖曉,席運江.知識圖譜研究綜述[J].計算機系統用,2019,28(6):1-12.
[2] 邱立新,張赫.科學知識圖譜在文獻分析中的實用性探究[J].青島科技大學學報(社會科學版),2014,30(4):87-91.
[3] 鐘翠嬌.網絡信息語義組織及檢索研究[J].圖書館學研究,2010,75(17): 68-71.
[4] 曹倩,趙一鳴.知識圖譜的技術實現流程及相關應用[J].情報理論與實踐(ITA),2015,12(38):127-132
[5] 劉嶠,李楊, 楊段宏等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(3):582-600.
[6] 李振,周東岱.教育知識圖譜的概念模型與構建方法研究[J].電化教育研究,2019(8):78-86,113.
[7] 李振,周東岱,王勇.“人工智能+”視域下的教育知識圖譜:內涵、技術框架與應用研究[J].遠程教育雜志,2019,37(4):42-53.
【通聯編輯:張薇】