李艷茹 周子力 倪睿康 馬騰 高書林 王彥冰



摘? 要: 文章以人教版高中數學必修課程為例,探討了面向中學生教學的學科知識圖譜的構建過程與應用,具體闡述了構建學科知識圖譜的方法和步驟。針對傳統知識圖譜中知識點存儲與推理方法的弊端,提出一種CRA模型,可以便捷且有效地構建圖譜,充分發揮圖譜功能。最后,通過已構建的知識圖譜編輯系統,對高中數學課程知識圖譜進行構建與展示。
關鍵詞: CRA模型; 學科知識圖譜; 個性化學習; 可視化
中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)04-65-04
Abstract: Taking the compulsory high school mathematics course of PEP as an example, this paper discusses the construction process and application of the subject knowledge graph for middle school students' teaching, and elaborates the methods and steps of constructing the subject knowledge graph. Aiming at the disadvantages of knowledge point storage and reasoning method in traditional knowledge graph, a CRA model is proposed, which can construct the graph conveniently and effectively and give full play to its function. Finally, the knowledge graph of high school mathematics curriculum is constructed and displayed through the established knowledge graph editing system.
Key words: CRA model; subject knowledge graph; personalized learning; visualization
0 引言
數學作為一門最基礎的工具學科,其教學工作一直廣受社會各界的關注。大量研究發現,中學生不具備對模型和建模本質的深層次的認知,更缺少用模和建模的能力[1],因而學生往往難以記住每一個知識點,無法建立各個知識點之間的聯系,從而不能將知識點靈活應用。而知識圖譜中知識點之間具有關聯性,有助于學生對于知識點的記憶與深層次理解,易于學生形成數學這門課程的認知網絡,從而激發學生自主學習與獨立思考的能力。
文獻[1,2]將知識圖譜引入到教學當中,主要采用構建學科知識圖譜,把學科知識內容的知識點進行梳理,建立起知識點間關系的方法。但其學科知識圖譜的表示、存儲與推理還是基于RDF或OWL,不適合海量知識的表達,使得知識圖譜功能的發揮受到影響。針對以上問題,本文將基于CRA模型,結合知識圖譜編輯器對知識圖譜進行構建與可視化展示。利用此模型既可以更方便地構建圖譜,同時也可以充分發揮知識圖譜在教學中的功能。
1 知識圖譜在教學領域研究現狀
近年來,知識圖譜(Knowledge Graph)無論作為技術工具還是技術理念,逐漸獲得國內外科學研究學者的關注。知識圖譜,是結構化的語義知識庫,用于描述現實世界中的概念及其相互關系[2],本質上,知識圖譜是從語義的角度來表示人們的先驗知識。通過將數據粒度從文件級別降到概念級別,聚合大量知識,從而實現知識的快速響應和推理。隨著國內外科學研究學者對于知識圖譜理論研究的不斷深化,知識圖譜在各個領域逐漸受到廣泛關注。
在教育教學領域,知識圖譜在高校課程設計中的應用較為廣泛,主要包括教師對于課程的構建以及對于學習者學習情況的追蹤,具有促進教學內容、方法和模式的改進以及促進在線學習模式轉變的優勢[3]。國外,由Gregory 等人開發了“HPKMT”——人力績效知識圖譜映射工具[4],可以使學習者通過自主創建概念和定義概念間關系的知識圖譜來表達他們對于所學內容的理解;Knewton[5]在線教育平臺基于數學學科知識圖譜,搭建了學習者個性化學習平臺,為不同學生提供了個性化學習指導。國內,由清華大學知識工程研究室所構建的我國第一個基礎教育RDF知識圖譜——“eduKB”,為學習者提供了基礎的問答等服務;北京師范大學研發的“唐詩別苑”——全唐詩語義檢索可視化平臺,為學習者提供了查詢作者信息、文本釋義等相關功能。
2 基于CRA模型的學科知識圖譜建模
學科知識圖譜建模基于CRA模型建立,即將學科知識圖譜中的概念(C),關系(R),規則(A)利用三元組模型進行表示。此處以人教版高中數學部分章節為例,如圖1所示。
2.1 概念(Concept)
在學科知識圖譜中,概念是指能夠唯一標識一個意義單元的個體。其主要由具體的實例對象和基于實例所構建的抽象概念組成。
⑴ 概念(concept)
集合中,[tc1,tc2,…,tcm]代表m個不同的名稱,而這些名稱均可以用概念c來表示。例如:向量既可稱為歐幾里得向量,又可稱為矢量,可以表示為:[c:Tc(向量)={歐幾里得向量, 矢量}]。
⑵ 概念集合(C)
集合中,[c1,c2,…,cn]代表n個各不相同的概念。例如:集合、函數,它們為各不相同的概念,可以作如下表示:[C={集合, 函數}]。
⑶ 名稱(title)
集合中,[ct1],[ct2,…,cti]代表i個不同的概念,這些概念均可以用名稱t來表示,即多個概念共用一個名稱,代表實體鏈指中一詞多義的情況,此時,[Ct?C]。例如“單位”一詞,在數學中的含義為計量事物的標準量的名稱,而在生活中則指代機關、團體或屬于一個機關、團體的各個部門。可作如下表示:[t:Ct(單位)={標準量, 機關}]。
⑷ 名稱集合(T)
集合中,[t1,t2,…,tj]代表j個各不相同的名稱。例如:真子集、空集、對數函數、指數函數為不同名稱,可以作如下表示:[T={真子集, 空集, 對數函數, 指數函數}]。
2.2 關系(Association)
在學科知識圖譜中,關系是指概念與概念、概念與知識點、知識點與知識點的聯系。
集合中,[tA1,tA2,…,tAj]代表j個各不相同的關系名稱。學科知識圖譜中關系有很多種。例如:概念與概念之間:兩個集合的映射是函數;概念與知識點之間:函數包含反比例函數;知識點與知識點之間:三角函數的有界性是函數最值的應用。對于以上這些不同的關系,作如下表示:[TA={映射, 包含, 應用}]。
2.3 規則(Rule)
在學科知識圖譜中,規則是指對于知識圖譜中的事物的規范且可以用于推理。規則主要功能是保證知識圖譜內部組織結構的規范性,為后續的推理知識和挖掘隱含知識提供前提。可將規則分為約束檢驗規則和知識推理規則。約束檢驗規則可以保證知識圖譜內容與內部組織結構的規范性與統一性,而知識推理則可以通過現有關系,構造或發現未知知識。
在構建知識圖譜的過程中,例如:利用約束檢驗規則限制“值域的性質是函數”,“導數的應用是確定性”等關系的出現。根據規則,可以在知識圖譜中進行關聯查詢,得到知識圖譜中的隱含知識利用規則進行推理,例如:查詢集合這一概念,不僅會得到關于集合的知識點,還會得到關于函數的概念及知識點。
通過以上步驟,形成[KG=(C, R, A)]三元組模型即CRA模型。基于CRA模型構建知識圖譜,使得語義更為清晰,可以使知識圖譜更適合于海量知識的表達、存儲與推理,并充分發揮知識圖譜的功能,為學習者提供更加豐富的學習資料。
3 學科知識圖譜構建
3.1 學科知識圖譜的定義與構建流程
知識點是用于描述某一特定學科內容的基本單元,可分為概念(元知識點)和復合知識點。學科知識圖譜是基于結點之間的語義關系而形成的知識邏輯網絡,其中每個結點由知識點或者與該知識點相關的課程資源構成,并最終通過可視化的形式來揭示學科各個知識點間的邏輯與內在聯系。
學科知識圖譜構建流程可概括為[6]:學科知識點實體識別,學科知識點的關系抽取,學科知識點可視化。構建過程如圖2所示。
3.2 學科知識點實體識別
本文從教學培養目標以及大綱出發,將人教版高中數學必修一教材為參照標準,將里面各個章節的目錄以及每章所包含的概念及知識點作為知識圖譜中節點即實體,從而獲得關于課程知識圖譜的大體框架[7]。
確定好實體類型之后,對數據集進行清洗及分句處理,采用 jieba 分詞加載外部用戶詞典并對收集到的知識源文本進行自動化標[8]。本文采用BIEOS標注策略,以“字”作為標注單位,其中B表示實體的開始,I表示實體的中間位置,E表示實體的結束,O表示不屬于預分類的實體,S表示一個字符即為一個實體。該“字”泛指漢字、標點符號、數字等其他語言字符。即對于輸入的教學資源語句[X{x1, x2, x3,…}],其中,xi表示單個字符,輸出其對應的標注序列[Y{y1, y2, y3,…}],其中yi表示xi對應的標簽序列,完成實體的標注。
經以上處理,完成對于人教版高中數學必修一教材知識點實體識別語料庫的創建。通過分配模型訓練集、驗證集和測試集,分配比例分別是6:2:2,進行模型訓練,并最終完成預測。標注過程如圖3所示。
3.3 學科知識點的關系抽取
經過實體識別后,獲取了關于課程知識圖譜中的各個節點。然而此時,它們之間還不具備聯系,處于相互獨立的狀態,還需要通過關聯關系挖掘才能將各個知識點之間串到一起,連接成一張知識網絡。首先對于上一步由分詞得到的教育資源數據集進行清洗,最大程度保留文本的信息,并且提高文本精確度,為后續處理數據奠定基礎。其次,對于自然語言來說,一句話中往往包含完整的語句信息,并且關系抽取提取的是一句話中的潛在語義,所以對于數據集來說將其進行分句也是必不可少的工作。最后,將各個知識點的關系進行劃分,識別出一句話中的兩個實體,并對其關系做進一步判斷,從而完成關系語料庫的構建。例如:集合元素具有三個性質,分別為確定性、無序性、互異性,關系抽取過程如圖4所示。
3.4 學科知識點可視化
經過以上步驟,獲得各節點的信息及節點之間的關系,即各知識點以及知識點之間的聯系后,通過已構建的知識圖譜編輯器,將學科知識圖譜繪制出來,本文以人教版高中數學必修一集合與函數兩章為例,完成知識圖譜的繪制。如圖5所示。
完成知識圖譜繪制后,通過點擊每一個知識節點,展示與該知識節點相關聯的內容,以及與該知識節點的關聯關系。
4 結束語
本文基于CRA模型,對學科知識進行實體識別與關系抽取,并構建了高中數學知識圖譜,解決了傳統知識圖譜在存儲及表達上的弊端,使得在學科知識圖譜的表示、存儲與推理適合于海量數據的表達。并且運用已構建的知識圖譜編輯系統,可以動態地對知識點進行刪減與展示,從而提高了構建學科知識圖譜的效率。基于知識圖譜的學科知識的構建,有助于學習者清晰地了解所學各個知識點之間的關聯,形成整體的知識網絡,促進學習者對于所學知識的深入思考,深刻了解自己對于所學知識點的掌握情況。同時,在知識圖譜中,學習者還可以通過查詢知識點得到與該知識點相關的知識點及資料,從而高效地進行學習。
參考文獻(References):
[1] 王冬青,殷紅巖.基于知識圖譜的個性化習題推薦系統設計研究[J].中國教育信息化,2019.17:81-86
[2] 戈其平,鐘艷如.基于數學教學的知識圖譜構建[J].計算機技術與發展,2019.29(3):187-189
[3] 袁媛.高中生物理建模能力及其培養對策研究[D].遼寧師范大學,2017.
[4] 陸星兒,曾嘉靈,章夢瑤,郭幸君,張婧婧.知識圖譜視角下的MOOC教學優化研究[J].中國遠程教育,2016.7:5-9,79
[5] Chung G K W K, Baker E L, Brill D G, et al. Automated Assessment of Domain Knowledge with Online Knowledge Mapping. CSE Technical Report 692.[J]. National Center for Research on Evaluation Standards & Student Testing,2006:23
[6] 莊嚴,李國良,馮建華.知識庫實體對齊技術綜述[J].計算機研究與發展,2016.1:165-192
[7] 王冬青,殷紅巖.基于知識圖譜的個性化習題推薦系統設計研究[J].中國教育信息化,2019.17:81-86
[8] Xuezhe Ma, Eduard Hovy,End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF arXiv:1603.01354v5 [cs.LG],2016.5.