盧淑怡,李美子,許 多,張 波,2,3
(1.上海師范大學(xué) 信息與機(jī)電工程學(xué)院;2.上海師范大學(xué) 人工智能教育研究院;3.上海智能教育大數(shù)據(jù)工程技術(shù)研究中心,上海 200234)
知識(shí)爆炸時(shí)代,高等教育已進(jìn)入知識(shí)量大、學(xué)科交叉強(qiáng)、知識(shí)更新速度快的階段,對(duì)學(xué)生專業(yè)知識(shí)交叉融合學(xué)習(xí)提出了更高要求。高校培養(yǎng)復(fù)合型人才過程中亟需為學(xué)生構(gòu)建全面綜合知識(shí)能力體系[1]。然而,傳統(tǒng)教學(xué)模式跨課程知識(shí)的關(guān)聯(lián)學(xué)習(xí)程度較低,無法為學(xué)生提供快速知識(shí)關(guān)聯(lián)獲取工具,主要表現(xiàn)為以下3 個(gè)方面:①傳統(tǒng)高校學(xué)科專業(yè)設(shè)置的課程銜接緊密度低,跨課程綜合課程少[2];②獨(dú)立授課導(dǎo)致課程內(nèi)容差異大,缺乏知識(shí)連貫性;③不同課程、教材間術(shù)語名稱不同、知識(shí)點(diǎn)表達(dá)不同,學(xué)生受自身知識(shí)限制,難以發(fā)現(xiàn)知識(shí)點(diǎn)間隱性和長(zhǎng)路徑關(guān)聯(lián)。這些原因共同導(dǎo)致知識(shí)點(diǎn)不連貫,造成學(xué)生所學(xué)知識(shí)點(diǎn)在跨課程的宏觀角度上呈相對(duì)離散的狀態(tài)。
因此,實(shí)現(xiàn)學(xué)科專業(yè)知識(shí)融合學(xué)習(xí),應(yīng)從智能輔助工具的角度探索創(chuàng)新途徑[3-5]。當(dāng)前,主要的知識(shí)融合技術(shù)利用數(shù)據(jù)融合方法,根據(jù)知識(shí)融合數(shù)據(jù)特征,將數(shù)據(jù)融合方法應(yīng)用于知識(shí)融合[6]。然而,該技術(shù)需要處理海量的龐雜數(shù)據(jù)并達(dá)到復(fù)雜的知識(shí)融合目標(biāo),當(dāng)計(jì)算量過大時(shí)將難以及時(shí)動(dòng)態(tài)反饋調(diào)整,無法保證知識(shí)融合效率[7]。
目前,知識(shí)圖譜技術(shù)被廣泛應(yīng)用于知識(shí)表示、知識(shí)問答和知識(shí)推理等任務(wù),具有大范圍、多樣性和可解釋性的優(yōu)點(diǎn),其中知識(shí)實(shí)體呈顯性連接狀態(tài),能提供良好的關(guān)聯(lián)檢索與推理能力[8-11]。因此,從跨課程知識(shí)關(guān)聯(lián)的角度將課程內(nèi)知識(shí)點(diǎn)實(shí)體及其關(guān)聯(lián)關(guān)系構(gòu)建知識(shí)圖譜,將不同課程知識(shí)圖譜中的知識(shí)點(diǎn)實(shí)體建立連接,實(shí)現(xiàn)跨課程知識(shí)點(diǎn)實(shí)體融合,達(dá)到跨課程知識(shí)點(diǎn)實(shí)體連接的目標(biāo),進(jìn)而完成跨課程知識(shí)推送,滿足學(xué)生交叉融合學(xué)習(xí)的要求[12-14]。
基于上述考慮,本文提出一種基于知識(shí)圖譜的高校跨課程知識(shí)推送工具設(shè)計(jì)方法及其應(yīng)用案例。該工具首先構(gòu)建了高校教育學(xué)科知識(shí)圖譜(Educational Cause Knowledge Graph,ECKG)的基本框架,實(shí)現(xiàn)了學(xué)科層、課程層和知識(shí)點(diǎn)層的3 層知識(shí)圖譜架構(gòu);其次,在ECKG 上設(shè)計(jì)跨課程知識(shí)推送算法,從“標(biāo)準(zhǔn)+個(gè)性”角度提供課程間連接的知識(shí)推送方法;最后,通過ECKG 應(yīng)用案例為智能化知識(shí)融合學(xué)習(xí)提供支持。
高校教育學(xué)科知識(shí)圖譜是一種對(duì)零散知識(shí)進(jìn)行整合并描述知識(shí)間相互關(guān)聯(lián)的方法。本文通過對(duì)ECKG 的形式化構(gòu)建,關(guān)聯(lián)整理高校教育資源的教育知識(shí)點(diǎn)的知識(shí)體系和邏輯結(jié)構(gòu)。
隨著教育革新和社會(huì)發(fā)展需求,學(xué)科交叉與課程融合趨勢(shì)在高校教育中逐漸興起。許多專業(yè)課程存在交集,但不同專業(yè)考察的側(cè)重點(diǎn)不盡相同,相較于其他傳統(tǒng)學(xué)科知識(shí)圖譜,本文從節(jié)點(diǎn)類角度出發(fā),將ECKG 層次結(jié)構(gòu)分為學(xué)科、課程、知識(shí)點(diǎn)3層,如圖1所示。

Fig.1 Hierarchy structure of ECKG for Science and Engineering subjects in universities圖1 理工學(xué)科的高校教育學(xué)科知識(shí)圖譜ECKG層次結(jié)構(gòu)
由圖1 可見,3 個(gè)層次間通過包含關(guān)系自上而下進(jìn)行N-N映射。每個(gè)子類將繼承父類的相應(yīng)祖先類別,通過自上向下的分層構(gòu)建保證ECKG 的知識(shí)覆蓋范圍。具體的實(shí)體與關(guān)系描述如下:①學(xué)科層實(shí)體包括依據(jù)學(xué)術(shù)性質(zhì)而劃分的科學(xué)門類和門類下的具體教學(xué)科目,學(xué)科門類和教學(xué)科目通過組成的關(guān)系進(jìn)行1-N連接;②課程層的實(shí)體根據(jù)不同教學(xué)目標(biāo)和教學(xué)形式,分為理論類課程、實(shí)踐類課程和綜合性課程,各類課程通過前驅(qū)關(guān)系連接或獨(dú)立,以更好地挖掘課程和知識(shí)點(diǎn)之間的隱性關(guān)系;③知識(shí)點(diǎn)層的實(shí)體包括不同粒度知識(shí)點(diǎn),在關(guān)系層面本文以近年來廣受認(rèn)可的牛頓平臺(tái)(Knewton Platform)為基礎(chǔ),主要考慮知識(shí)點(diǎn)間的組成、評(píng)價(jià)、前驅(qū)、分類這4種邏輯關(guān)系。
圖1 為理工學(xué)科為例的ECKG 層次結(jié)構(gòu)示例。其中,學(xué)科層中包含理科、工科兩大科學(xué)門類;科學(xué)門類又由各種不同的教學(xué)科目組成;教學(xué)科目包含多門課程,因此將學(xué)科層和課程層相聯(lián)系;課程層與知識(shí)點(diǎn)層自上而下挖掘潛在關(guān)聯(lián)知識(shí),通過多維角度提高學(xué)科素養(yǎng)。ECKG 的意義在于打破學(xué)科、專業(yè)、課程間的界限,依據(jù)知識(shí)點(diǎn)間邏輯關(guān)系、組織結(jié)構(gòu)等進(jìn)行整理關(guān)聯(lián)。
圖2 展示了本文所提理論構(gòu)建的部分ECKG。具體的,ECKG 通過挖掘教育資源,整合知識(shí)點(diǎn)間存在的關(guān)聯(lián),將不同學(xué)科專業(yè)知識(shí)點(diǎn)構(gòu)建為一張有向的知識(shí)網(wǎng)絡(luò)。

Fig.2 Partial ECKG圖2 部分ECKG
如圖3 所示,ECKG 應(yīng)用流程由3 個(gè)部分組成。具體為:①層次化知識(shí)圖譜模塊。ECKG 抽取不同學(xué)科、專業(yè)學(xué)習(xí)資料數(shù)據(jù),整理關(guān)聯(lián)得到的知識(shí)點(diǎn),整合出知識(shí)網(wǎng)絡(luò)構(gòu)建ECKG;②標(biāo)準(zhǔn)化知識(shí)查詢模塊。通過知識(shí)快速定位算法查詢知識(shí)點(diǎn)或知識(shí)間的關(guān)聯(lián);③個(gè)性化知識(shí)推送模塊。對(duì)歷史數(shù)據(jù)進(jìn)行挖掘分析,構(gòu)建個(gè)性化的學(xué)習(xí)模型,智能化分析用戶可能感興趣的知識(shí)點(diǎn),針對(duì)用戶學(xué)習(xí)習(xí)慣進(jìn)行推送。綜上所述,該應(yīng)用從“標(biāo)準(zhǔn)(基于關(guān)鍵詞的知識(shí)快速定位查詢方法)+個(gè)性(教育知識(shí)點(diǎn)智能推送算法)”的應(yīng)用角度,從課前、課中、課后3 個(gè)時(shí)段全方位輔助學(xué)生進(jìn)行針對(duì)性學(xué)習(xí)。

Fig.3 Application process of ECKG圖3 ECKG應(yīng)用流程
由于海量的教育知識(shí)點(diǎn)及知識(shí)點(diǎn)間錯(cuò)綜復(fù)雜的關(guān)系會(huì)使學(xué)生在學(xué)習(xí)時(shí)無法清晰地厘清知識(shí)間的關(guān)聯(lián),學(xué)生也無法在規(guī)模龐大、結(jié)構(gòu)復(fù)雜的知識(shí)圖譜中快速尋找知識(shí)點(diǎn)間的關(guān)系。因此,本文提出利用關(guān)鍵詞定位目標(biāo)節(jié)點(diǎn)的檢索方法,相較于傳統(tǒng)方法節(jié)省了遍歷索引所耗費(fèi)的時(shí)間。算法描述如下所示:
步驟1:對(duì)大規(guī)模RDF 數(shù)據(jù)圖進(jìn)行子圖劃分。將ECKG 劃分為多棵知識(shí)樹,分別構(gòu)建知識(shí)點(diǎn)索引與關(guān)系索引進(jìn)行分布式檢索。其中,知識(shí)點(diǎn)索引包含頂點(diǎn)下標(biāo)和標(biāo)簽,關(guān)系索引包含關(guān)系下標(biāo)和標(biāo)簽及相關(guān)聯(lián)的父節(jié)點(diǎn)下標(biāo)。圖4 為索引關(guān)系示例,假設(shè)圖4(a)為一個(gè)劃分后的知識(shí)樹,圖4(b)就是針對(duì)該樹構(gòu)建的索引關(guān)系。該方法在實(shí)現(xiàn)查詢時(shí)既能提升大規(guī)模RDF 數(shù)據(jù)圖的檢索速率,又能降低索引的存儲(chǔ)空間。

Fig.4 Index relationship圖4 索引關(guān)系
步驟2:構(gòu)建最小知識(shí)子樹。遍歷每棵知識(shí)樹的節(jié)點(diǎn),定位所有關(guān)鍵知識(shí)點(diǎn),假設(shè)關(guān)鍵知識(shí)點(diǎn)≥2,尋找連通該知識(shí)點(diǎn)的最短距離,構(gòu)建最小知識(shí)子樹。并通過知識(shí)點(diǎn)索引與關(guān)系索引尋找最小知識(shí)子樹的根節(jié)點(diǎn)。若關(guān)鍵知識(shí)點(diǎn)為1,則直接進(jìn)入下一階段。
步驟3:構(gòu)建候選知識(shí)子樹遍歷最小知識(shí)子樹的邊,定位關(guān)系關(guān)鍵詞。對(duì)于未被定位的關(guān)系關(guān)鍵詞,通過索引查尋最小知識(shí)子樹根節(jié)點(diǎn)和葉子節(jié)點(diǎn)連邊是否包含關(guān)系關(guān)鍵詞。若包含,將對(duì)最小知識(shí)子樹進(jìn)行拓展;若不包含,則記下不被包含的關(guān)系關(guān)鍵詞個(gè)數(shù)。當(dāng)關(guān)鍵知識(shí)點(diǎn)為1,將直接遍歷相關(guān)聯(lián)邊查找關(guān)系關(guān)鍵詞。
步驟4:評(píng)分規(guī)則。對(duì)構(gòu)建的候選知識(shí)子樹進(jìn)行評(píng)分計(jì)算,返回前k個(gè)結(jié)果供用戶選擇。本文評(píng)分函數(shù)考慮了候選知識(shí)子樹的緊密度及精準(zhǔn)度,評(píng)分函數(shù)公式如式(1)所示:

其中,t為候選知識(shí)子樹根節(jié)點(diǎn),num(ε)代表ε個(gè)數(shù),sp(a,b)代表a到b的最短距離,α、β在實(shí)際應(yīng)用中調(diào)整緊密度和精準(zhǔn)度對(duì)評(píng)分結(jié)果的影響程度。
假設(shè)已完成對(duì)ECKG 與RDF 數(shù)據(jù)圖劃分得到i棵知識(shí)樹,并且識(shí)別問題關(guān)鍵詞得到n個(gè)知識(shí)點(diǎn)關(guān)鍵詞構(gòu)成集合和m個(gè)關(guān)系關(guān)鍵詞構(gòu)成的集合集Rk=結(jié)合上文對(duì)答案快速定位方法的具體描述,給出快速定位答案的算法偽代碼描述。
算法1基于關(guān)鍵詞的答案快速定位算法

針對(duì)以人為本的智慧教育學(xué)習(xí)理念,本文提出一種對(duì)歷史記錄和特征挖掘進(jìn)行智能化知識(shí)推送的算法。該算法結(jié)合用戶檢索記錄,以每次定位答案中心知識(shí)點(diǎn)為基準(zhǔn),構(gòu)建個(gè)性化模型計(jì)算中心知識(shí)點(diǎn)相關(guān)性,圍繞中心知識(shí)點(diǎn)間的最短路徑挖掘用戶檢索規(guī)律,并結(jié)合節(jié)點(diǎn)重要性增加可推薦知識(shí)間的區(qū)分度,從而構(gòu)建個(gè)性化知識(shí)智能推薦模型。具體算法流程如下:
步驟1:確立中心知識(shí)點(diǎn)oi、知識(shí)點(diǎn)集C。通過尋找子圖每個(gè)點(diǎn)到其他關(guān)鍵知識(shí)點(diǎn)的距離并求和,分別計(jì)算各知識(shí)點(diǎn)的中心度core(ex),選取core(ex)最大的知識(shí)點(diǎn)o為中心知識(shí)點(diǎn)。

其中,N(ex)為ex的鄰居節(jié)點(diǎn),l(ej,ek)=0 代表ej、ek不存在連邊,l(ej,ek)=1 代表ej、ek直接相關(guān)聯(lián)。同時(shí),從平均路徑長(zhǎng)度dist、支持度wl兩個(gè)因素分析一定時(shí)間內(nèi)用戶搜索歷史的知識(shí)點(diǎn)集。

對(duì)不同關(guān)系的支持度表示如下:

其中,num(r)代表關(guān)系r在路徑中出現(xiàn)的次數(shù)。
步驟2:計(jì)算中心知識(shí)點(diǎn)的相關(guān)性sim(oi,oi+1)。不同用戶的個(gè)性化學(xué)習(xí)方式導(dǎo)致知識(shí)相關(guān)性不僅與知識(shí)圖譜中知識(shí)的位置相關(guān),本文提及的知識(shí)相關(guān)性即在個(gè)性化模型限制下從當(dāng)前中心知識(shí)點(diǎn)游走到另一個(gè)中心知識(shí)點(diǎn)的概率。

步驟3:計(jì)算候選知識(shí)點(diǎn)的中心度core(ex)。中心知識(shí)相關(guān)性主要考慮歷史中心知識(shí)點(diǎn)間的路徑關(guān)系,從而預(yù)測(cè)可推薦中心知識(shí)點(diǎn),但可能面臨預(yù)測(cè)結(jié)果較為粗糙的情況,此時(shí)將難以區(qū)分部分節(jié)點(diǎn)可推薦度。為此,本文對(duì)知識(shí)點(diǎn)集合C中的節(jié)點(diǎn)進(jìn)行中心度計(jì)算,提高推薦度的劃分效果。
步驟4:利用T(oi+1)對(duì)答案進(jìn)行打分并排名,將前top-k的知識(shí)點(diǎn)返回給用戶。

結(jié)合上文對(duì)個(gè)性化教育知識(shí)點(diǎn)推送方法的具體描述,給出智能推送算法的偽代碼描述。
算法2個(gè)性化的教育知識(shí)點(diǎn)智能推送算法


以計(jì)算機(jī)學(xué)科的跨課程教學(xué)為例,包含算法、概率論、高等數(shù)學(xué)等課程,證明ECKG 知識(shí)推送工具應(yīng)用及其教學(xué)模式改革的有效性。在傳統(tǒng)課程學(xué)習(xí)的3 個(gè)階段,學(xué)生通常會(huì)遇到以下問題:
(1)課前預(yù)習(xí)時(shí),無法明確跨課程知識(shí)點(diǎn)間的關(guān)聯(lián)關(guān)系。學(xué)生在預(yù)習(xí)時(shí),無法將預(yù)習(xí)知識(shí)和已學(xué)知識(shí)融會(huì)貫通,給預(yù)習(xí)增加很大的困難。通常看似無關(guān)的知識(shí)點(diǎn)卻內(nèi)含強(qiáng)關(guān)聯(lián),使學(xué)生不得不翻閱不同課程教材尋找他們之間的聯(lián)系。
(2)課中學(xué)習(xí)時(shí),無法快速回顧某個(gè)確切的知識(shí)點(diǎn)內(nèi)容。教師在授課時(shí),經(jīng)常通過拓展延伸、反問學(xué)生的方法推進(jìn)課堂教育進(jìn)程。例如,運(yùn)用計(jì)算曲面積分方法可得出答案,學(xué)生則需要快速反應(yīng)計(jì)算曲面積分的方法。
(3)課后復(fù)習(xí)時(shí),無法對(duì)薄弱知識(shí)進(jìn)行針對(duì)性鞏固提高。學(xué)生在復(fù)習(xí)時(shí),遇到多個(gè)薄弱知識(shí)點(diǎn),無法尋找核心知識(shí)進(jìn)行梳理復(fù)習(xí),復(fù)習(xí)效果較差,知識(shí)結(jié)構(gòu)體系散亂。
在應(yīng)用ECKG 工具后,學(xué)生在教學(xué)活動(dòng)中將化被動(dòng)為主動(dòng),從課前—課中—課后3 個(gè)階段完善自身知識(shí)體系,教師也可逐漸改變傳統(tǒng)教學(xué)設(shè)計(jì)。具體的,學(xué)生前期通過ECKG 了解知識(shí)結(jié)構(gòu)關(guān)系,教師通過翻轉(zhuǎn)課堂等形式激發(fā)學(xué)生學(xué)習(xí)積極性,達(dá)到更好的教學(xué)效果。以下將從具體實(shí)例分析入手,展示ECKG 如何運(yùn)用本文設(shè)計(jì)的算法幫助學(xué)生掌握知識(shí)點(diǎn)間的關(guān)聯(lián)性,應(yīng)用流程實(shí)例如圖5所示。

Fig.5 Example of knowledge recommendation process based on knowledge graph圖5 基于知識(shí)圖譜的知識(shí)點(diǎn)推送流程實(shí)例
高校教育知識(shí)繁多復(fù)雜、專業(yè)性強(qiáng),不同課程間存在許多關(guān)聯(lián)知識(shí)點(diǎn),厘清知識(shí)點(diǎn)間的關(guān)聯(lián)是學(xué)好該知識(shí)點(diǎn)的重要保障。通過ECKG,即使用戶提出跳躍性問題,依然能尋找出知識(shí)間的關(guān)聯(lián)。首先,用戶提出問題,例如匹配分析法與樸素貝葉斯分類器間有何關(guān)聯(lián)。ECKG 提取匹配分析法與樸素貝葉斯分類器的知識(shí)關(guān)鍵詞,利用算法1 對(duì)關(guān)鍵詞進(jìn)行定位。根據(jù)算法1 評(píng)分方法計(jì)算3 顆知識(shí)樹中的候選答案評(píng)分排名為a<b<c。假設(shè)系統(tǒng)返回用戶兩個(gè)答案,則用戶將會(huì)收到評(píng)分最高的兩個(gè)答案,即圖5 所示的兩個(gè)關(guān)聯(lián)。通過該知識(shí)關(guān)聯(lián)查詢方法,可解決學(xué)生在預(yù)習(xí)時(shí)遇到的問題,將所學(xué)知識(shí)與預(yù)習(xí)知識(shí)有機(jī)連接。
知識(shí)點(diǎn)的查詢過程本質(zhì)上是關(guān)鍵詞的快速定位問題。例如,用戶希望了解混雜因素的評(píng)價(jià)方法,首先系統(tǒng)將提取混雜因素、評(píng)價(jià)的知識(shí)關(guān)鍵詞定位知識(shí)樹,然后以該知識(shí)點(diǎn)為中心檢索直接相關(guān)的關(guān)系評(píng)價(jià),得出知識(shí)點(diǎn)為匹配分析法和多元回歸法,最后通過該方法解決學(xué)生在課上遇到的問題,輔助學(xué)生高效、快速地理解課堂知識(shí)。
除了根據(jù)ECKG 中直接關(guān)聯(lián)的知識(shí)點(diǎn)進(jìn)行推送外,智能化推送算法還可根據(jù)知識(shí)點(diǎn)間的隱性關(guān)聯(lián)進(jìn)行知識(shí)推送。假設(shè)用戶先后依此檢索了多元回歸法、匹配分析法、樸素貝葉斯。首先,基于檢索記錄的知識(shí)智能推送算法2,尋找知識(shí)點(diǎn)間的最短路徑。然后,根據(jù)數(shù)據(jù)分析知識(shí)點(diǎn)間最短路徑長(zhǎng)度均值為2,尋找所有距離樸素貝葉斯為2 的知識(shí)點(diǎn)。假設(shè)前驅(qū)與評(píng)價(jià)評(píng)分各為0.5,其他關(guān)系評(píng)分皆為0,去除已出現(xiàn)的知識(shí)點(diǎn)匹配分析法,對(duì)知識(shí)點(diǎn)間最短路徑進(jìn)行打分排序。最后,將最高分伯努利模型推送至用戶。
如此,可使用戶更明確自身學(xué)習(xí)路徑和下一步的學(xué)習(xí)知識(shí)點(diǎn)。通過該方法在標(biāo)準(zhǔn)的基礎(chǔ)上增加個(gè)性功能,使每個(gè)學(xué)生可針對(duì)性地發(fā)現(xiàn)自身所需鞏固的知識(shí)點(diǎn)。
本文提出利用知識(shí)圖譜對(duì)高校教育知識(shí)點(diǎn)進(jìn)行組織和整理構(gòu)建ECKG,并結(jié)合ECKG 上的知識(shí)檢索及智能化數(shù)據(jù)挖掘技術(shù)進(jìn)行多角度知識(shí)應(yīng)用。通過本文的論述與假設(shè),可展望通過ECKG 及知識(shí)檢索技術(shù)對(duì)高校教育知識(shí)進(jìn)行挖掘,不僅能打破高校教育中課程、專業(yè)的限制,還能直接對(duì)知識(shí)間的關(guān)聯(lián)進(jìn)行宏觀梳理,使其更適應(yīng)人工智能化教育時(shí)代的技術(shù)融合,從而促進(jìn)高校環(huán)境下智慧教育生態(tài)的形成。
但對(duì)高校教育學(xué)科知識(shí)圖譜的落地還存在以下難題:①對(duì)于大體量數(shù)據(jù),已有深度學(xué)習(xí)技術(shù)在教育資源抽取時(shí)仍需大量人工操作,亟需一種自動(dòng)化程度更高的構(gòu)建方法;②對(duì)于高校教育知識(shí)的隱性推理仍是一個(gè)值得深入探究的問題,如何最大幅度利用隱性關(guān)系挖掘出更多有利信息是當(dāng)前知識(shí)圖譜領(lǐng)域尚未解決的問題之一。