999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

課程知識本體自動構(gòu)建方法研究

2018-08-15 08:02:32呂健穎尚福華曹茂俊
計算機應(yīng)用與軟件 2018年8期
關(guān)鍵詞:資源課程

呂健穎 尚福華 曹茂俊

(東北石油大學(xué)計算機與信息技術(shù)學(xué)院 黑龍江 大慶 163318)

0 引 言

信息化教育下課程資源的建設(shè)取得了一定的成就,產(chǎn)生了數(shù)量可觀、門類齊全的課程教學(xué)資源。課程學(xué)習(xí)平臺中資源數(shù)量巨大,缺乏有效的資源獲取途徑,構(gòu)建有效的個性化資源推送系統(tǒng)具有重要意義[1]。學(xué)科知識點之間相互關(guān)聯(lián)構(gòu)成的知識系統(tǒng)是資源推薦、智能導(dǎo)學(xué)的基礎(chǔ),而現(xiàn)有的在線教育平臺推出的知識體系描述相對粗略,缺乏教學(xué)信息的描述,知識點之間只是單一維度的上下位線性關(guān)系,缺乏知識之間多維度邏輯關(guān)系的體現(xiàn)[2]。課程教學(xué)資源都是按照課本教材章節(jié)順序進行設(shè)計的,缺乏對知識的有效組織,阻礙了信息化、智能化教學(xué)的發(fā)展。本體是關(guān)于概念模型的明確的規(guī)范說明,能夠?qū)χR進行很好地組織[3]。基于本體的知識模型,在知識獲取中具有重要意義。

有關(guān)本體構(gòu)建方法,岳麗欣等[4]將8 種國外較為成熟的本體構(gòu)建方法以及國內(nèi)的領(lǐng)域本體構(gòu)建方法進行系統(tǒng)總結(jié)進行介紹分析和對比總結(jié),得出目前國內(nèi)領(lǐng)域本體構(gòu)建方法存在的主要問題是本體轉(zhuǎn)換效率低,轉(zhuǎn)換質(zhì)量也得不到保證; 領(lǐng)域本體構(gòu)建方法的發(fā)展趨勢將逐漸轉(zhuǎn)向半自動化或自動化構(gòu)建。國外相關(guān)研究對50多個本體構(gòu)建系統(tǒng)及方法進行了分析,得出大部分的本體研究主要關(guān)注領(lǐng)域相關(guān)的本體構(gòu)建,而較少關(guān)注采用自動的方法進行通用領(lǐng)域本體構(gòu)建;本體構(gòu)建過程中概念關(guān)系獲取的研究,主要集中在層次類關(guān)系的獲取,對非層次類關(guān)系獲取的研究較少[5]。在教育領(lǐng)域中,有關(guān)課程知識本體的構(gòu)建,許多研究者進行了相關(guān)的研究,高丹丹[6]提出一種依據(jù)學(xué)科知識地圖與知識字典進行本體構(gòu)建的方法,并在領(lǐng)域?qū)<业闹笇?dǎo)下,構(gòu)建了“離散數(shù)學(xué)”課程知識本體。劉光蓉[7]按照“C程序設(shè)計”課程的相關(guān)教學(xué)步驟以及教學(xué)過程中的知識規(guī)律,將課程知識點中具有代表性的知識概念進行提取,形成了該課程的知識本體。邢科云[8]依據(jù)框架樹的教學(xué)知識結(jié)構(gòu)與知識點網(wǎng)的大腦認(rèn)知方式,將二者相結(jié)合形成課程知識組織模型,并依據(jù)該模型構(gòu)建了“計算機組成與結(jié)構(gòu)”課程知識本體。由此可見,在教育領(lǐng)域中,有關(guān)課程知識本體的構(gòu)建大部分基于具體課程教材,雖然依據(jù)一定的教學(xué)原理,但主要憑借開發(fā)者的主觀經(jīng)驗,存在費時、費力,易受構(gòu)建者主觀意識限制的問題。

知識點是在進行教學(xué)活動時的基本單位,在新知識的教授與學(xué)習(xí)過程中,必須按照教學(xué)目標(biāo)逐個知識點地進行[9]。基于知識點蘊含在課程教學(xué)資源中的共識,本文提出一種課程知識本體自動構(gòu)建的方法,從課程教學(xué)材料中獲取課程知識點及知識點間的關(guān)系,并利用本體將課程知識點及其關(guān)系進行組織,形成課程知識本體。

1 課程知識本體概述

本體是一種能在語義和知識層次上描述或表達某一領(lǐng)域知識的概念模型,是信息系統(tǒng)與人工智能領(lǐng)域的研究熱點,并在許多領(lǐng)域得到廣泛應(yīng)用,如知識工程、自然語言理解等,特別是在信息抽取中具有重要意義。

知識是人對客觀事物的認(rèn)識與規(guī)律的總結(jié)[10]。知識蘊含在課程中,課程中的基本觀念、相關(guān)的概念原理、基本法則以及知識間所存在的內(nèi)在規(guī)律構(gòu)成了課程知識的基本結(jié)構(gòu)[8]。課程知識本體可以被定義為“課程中一套得到認(rèn)同的、關(guān)于概念體系明確、正式的規(guī)范說明”,課程知識本體主要由課程中的有關(guān)知識以及知識間的內(nèi)在關(guān)系組成,構(gòu)建課程知識本體的目標(biāo)是要對該課程知識進行有效組織,形成對該課程知識結(jié)構(gòu)的共同理解與認(rèn)識[11]。

課程的學(xué)習(xí)由許多章節(jié)教學(xué)目標(biāo)構(gòu)成,一個學(xué)習(xí)目標(biāo)包含一個或多個知識點,同一個知識點可以由多個教學(xué)目標(biāo)所共有。知識點分為教學(xué)元知識點和教學(xué)復(fù)合知識點兩種基本類型,元知識點在教學(xué)上具有不可劃分性,而復(fù)合知識點由兩個或兩個以上的知識點組成[12]。一門課程的知識由許多教學(xué)知識點構(gòu)成,從課程教學(xué)資源中獲取課程知識點并從中抽取知識點間的關(guān)系。最終將知識點及知識點間的關(guān)系進行本體表示,形成課程知識本體,實現(xiàn)課程知識的有效組織。

2 課程知識本體構(gòu)建

國外目前比較流行的領(lǐng)域本體構(gòu)建方法有:TOVE、METHONTOLOGY、骨架法、KACTUS、SENSUS、IDEF5、七步法等。國內(nèi)則主要是基于需求分解的本體模型構(gòu)建、基于描述邏輯的本體模型以及知識工程的方法[11]。課程知識本體作為一種教育領(lǐng)域的本體,其構(gòu)建中的核心是知識點及知識點間關(guān)系的獲取。

2.1 課程知識本體構(gòu)建框架

主要包括四個部分,即“文本材料預(yù)處理”、“知識點獲取”、“知識點關(guān)系抽取”、“本體知識組織”,具體如圖1所示。

圖1 課程知識本體構(gòu)建框架

從圖中我們可以看出一個課程知識本體構(gòu)建過程包含以下步驟:

1) 課程材料文本預(yù)處理及分詞:收集課程相關(guān)資源,對收集到的課程資料進行預(yù)處理,轉(zhuǎn)換格式,去除停用詞,并進行分詞。

2) 課程知識點獲取:課程知識點蘊含在課程資源文本中,通過對預(yù)處理后的文本課程資源進行分析,通過統(tǒng)計目標(biāo)詞匯在某文檔以及在整個資源文檔集中出現(xiàn)的頻率判定目標(biāo)詞匯是否為課程知識點。復(fù)合知識點的獲取則通過互信息值的大小來判斷。

3) 課程知識點關(guān)系獲取:包含兩個部分,一是層次類知識點關(guān)系的獲取,二是非層次類知識點關(guān)系的獲取。

4) 本體課程知識組織:利用protégé本體構(gòu)建工具構(gòu)建課程知識本體。對課程知識點及知識點間的關(guān)系進行組織。

2.2 課程材料選取及語料預(yù)處理

收集課程有關(guān)教學(xué)資源,包括有關(guān)教材目錄、教學(xué)課件、課程教學(xué)大綱等,將收集到的課程教學(xué)資源匯入csv格式的語料庫中并進行預(yù)處理,去除課程資源中的無用信息,進而將課程資源處理為txt文本格式,為下一步的分詞做準(zhǔn)備。

分詞系統(tǒng)中,分詞結(jié)果的優(yōu)化方向主要是對未登錄詞以及新詞的識別[13]。本文利用R語言環(huán)境下的Rwordseg分詞工具進行分詞,Rwordseg引用Java分詞工具Ansj。Ansj是李艦于中科院的ICTCLAS中文分詞算法所撰寫出的開源Java分詞工具。利用Rwordseg自帶詞典進行分詞,存在無法識別專業(yè)領(lǐng)域新詞以及專業(yè)術(shù)語的問題,通過自定義詞典的方式將專業(yè)新詞和專業(yè)術(shù)語加入分詞詞典,重新進行分詞,以提高分詞的準(zhǔn)確性。圖2為語料預(yù)處理過程。

圖2 語料預(yù)處理

R語言中加入自定義的詞典,語句如下:

>installDict(“new.txt”,dictname=“new”,dicttype=“text”,load=TRUE)

本文對收集到的“C語言程序設(shè)計”課程的相關(guān)語料進行分詞及詞性標(biāo)注,處理的部分結(jié)果如圖3所示。

圖3 分詞及詞性標(biāo)注

其中,m:數(shù)詞;v:動詞;n:名詞 ;vn:名動詞;en:英文; c:連詞; p:介詞。

2.3 課程知識點獲取

本體術(shù)語抽取方法主要有兩種:基于規(guī)則的方法和基于統(tǒng)計的方法,前者是一種確定性的信息抽取模型,而在目前語言學(xué)理論水平和計算技術(shù)條件下,無法使用確定的規(guī)則描述所有的自然語言現(xiàn)象,因此,概率統(tǒng)計模型適合大規(guī)模語料信息的抽取[14]。

向量空間模型VSM(Vector Space Model)是最流行的文本表示模型,VSM將一篇文檔表示為特征空間中的一個向量,向量中每一維對應(yīng)于文檔中的一個詞,它的權(quán)值為該向量維對應(yīng)的特征在文檔集中的權(quán)值。假定特征t在文檔k中的詞頻為ftk,權(quán)值為dtk,N表示文檔集中的文檔數(shù),nt表示特征t在整個文檔集中的出現(xiàn)頻率。常見的權(quán)值計算方法包括:布爾權(quán)值法、詞頻權(quán)值法以及TF-IDF權(quán)值法等。其中TF-IDF(Term Frequency Inverted Document Frequency)權(quán)值法由Salton 和Buckley提出,作為詞語領(lǐng)域相關(guān)性的評價標(biāo)準(zhǔn),己經(jīng)被公認(rèn)為是一種標(biāo)準(zhǔn)的文本向量表示方法[15]。本文通過統(tǒng)計分析分詞后得到的詞匯頻率,利用TF-IDF權(quán)值法獲取課程語料中蘊含的知識點。

2.3.1TF-IDF權(quán)值法:獲取課程知識點

TF表示分詞后獲取的某個目標(biāo)詞匯在某課程資源文檔中的出現(xiàn)頻率;IDF表示該詞匯在整個課程資源文檔集中的出現(xiàn)頻率。

根據(jù)TF-IDF的定義與公式表示可知:目標(biāo)詞匯t在給定的某課程文檔k中出現(xiàn)的頻率越高,dtk值越大;而該目標(biāo)詞匯在整個課程資源文檔集中出現(xiàn)的頻率越高,dtk值越小。dtk值越大,該目標(biāo)詞匯成為課程知識點的概率也越大。

2.3.2 互信息:獲取復(fù)合知識點

基于TF-IDF的文本向量表示在構(gòu)造時假設(shè)目標(biāo)詞匯之間相互獨立,使詞匯之間的關(guān)系丟失,互信息MI(Mutual Information)用于衡量兩個概念間的相互依賴程度,能有效地彌補VSM模型的不足。而在課程知識中,有很大一部分知識點是復(fù)合知識點,利用自然語言處理中的互信息得出知識點間結(jié)合的緊密程度,通過互信息值的大小判斷復(fù)合知識點。假設(shè)有復(fù)合知識點AB,那么知識點A和B之間的互信息可以表示為:

p(A,B)表示知識點A與知識點B組合作為復(fù)合知識點AB在文檔中出現(xiàn)的概率,p(A)表示知識點A在文檔中出現(xiàn)的概率,p(B)表示知識點B在文檔中出現(xiàn)的概率。

互信息值MI(A,B)用于定量估計知識點A與知識點B之間成為復(fù)合知識點的概率。互信息越大,知識點A與知識點B之間結(jié)合的緊密程度越高,兩個知識點成為復(fù)合知識點的概率越大;互信息越小,結(jié)合的緊密程度越低,兩個知識點成為復(fù)合知識點的概率越小。

2.4 課程知識點間關(guān)系獲取

課程知識點間關(guān)系可分為兩大類:層次類關(guān)系與非層次類關(guān)系。層次類關(guān)系實際上是一種上下位的關(guān)系,即課程知識點關(guān)系中父知識點與子知識點間的關(guān)系。

本文采用聚類的方法獲取知識點間層次類的關(guān)系,非層次類的關(guān)系則通過知識點同時出現(xiàn)概率從而進行關(guān)聯(lián)分析獲得。

2.4.1 層次類關(guān)系獲取

一門具體的課程中,父知識點是子知識點的概述,如,“數(shù)組”是“字符數(shù)組”的父知識點,它們之間按課程知識點劃分為父子關(guān)系,具有層次關(guān)系的特征。

本文采用聚類分析的方法獲取課程知識點間的層次關(guān)系,聚類分析是將相似的數(shù)據(jù)分為同一集群,使集群與集群之間有顯著的差異性。在進行層次聚類前需要計算類間的距離,基于知識點獲取中所構(gòu)建的VSM模型,將文檔集作為概念的向量,從而構(gòu)建“概念-文檔”矩陣,計算概念詞矩陣向量之間的相似度。本文利用余弦系數(shù)獲取向量間的相似度,余弦系數(shù)公式如下:

式中:x=(x1,x2,…,xp),y=(y1,y2,…,yp)為兩個p維度變量。

在獲取類間距離后,本文采用自下而上的方法進行層次聚類,在未對對象做聚類之前,將每個對象當(dāng)作單獨的一個集群,然后根據(jù)集群之間距離大小去合并相近的集群,一直到所有的集群合為一個集群。集群間距離計算公式有三種方法:最短距離,最長距離以及平均連接。

(1) 最短距離(單一連接,single linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的最小值。

(2) 最長距離(完全連接,complete linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的最大值。

(3) 平均連接(average linkage):A和B兩群距離為A群內(nèi)每個元素到B群內(nèi)每個元素的距離的平均值。

從以上定義中可以看出,平均連接法考慮到集群內(nèi)所有元素,不易受單個元素影響。本文利用平均連接法進行層次聚類,圖4是部分知識點的聚類樹狀圖。

圖4 聚類樹狀圖

2.4.2 非層次類關(guān)系獲取

利用關(guān)聯(lián)分析獲取課程知識本體,其基本思想是如果兩個概念經(jīng)常出現(xiàn)在同一個句子、同一段落或者整個文檔中,則這兩個概念之間必定存在著某種聯(lián)系,而它們之間聯(lián)系的緊密程度取決于所在的語法單元包括句子、段落、甚至整個文檔的內(nèi)在聚合度,聚合度越緊,則兩個概念之間的緊密程度越高[16]。同理,從課程知識處理文檔中,分析課程知識點間的聯(lián)系,若兩個課程知識點存在于同一文檔中,則這兩個課程知識點存在關(guān)系,按知識點間關(guān)系劃分,若兩個課程知識點間存在一定關(guān)聯(lián),且這兩個課程知識點具有同一個父知識點,則這兩個課程知識點間的關(guān)系為兄弟關(guān)系;若兩個課程知識點雖然存在關(guān)聯(lián),但擁有不同的父知識點,則這兩個課程知識點間的關(guān)系為依賴關(guān)系。

在進行關(guān)聯(lián)分析時,首先要判斷與某個知識點具有相關(guān)性的知識點,利用R語言tm包中findAssocs進行相關(guān)度判斷。核心語句如下:

〉findAssocs(d.dtm, “數(shù)組”,0.7)

如圖5所示,對“數(shù)組”進行相關(guān)度分析,得出與其相關(guān)度大于0.7的知識點。

圖5 相關(guān)度分析

在對課程知識點進行關(guān)聯(lián)分析時,必須通過判斷知識點間的支持度與可信度以確定它們之間的關(guān)系。

(1) 支持度(Support):若存在兩個課程知識點,課程知識點A與課程知識點B,若在課程資源文檔集中有S%的文檔中,同時存在課程知識點A與課程知識點B,則S%稱為課程知識A→B點的支持度,即支持度表示課程知識點A伴隨知識點B在課程資源文檔集中出現(xiàn)的概率,即Suppor(A→B)=P(A∪B)。那么對于支持度有Support(A→B)=P(CAB/T)×100%,如果課程資源文檔集的總數(shù)為T,CAB代表兩個知識點A和B在課程資源文檔集中的數(shù)量。

(2) 可信度(Confidence):CA代表課程知識點A在課程文檔集合中的出現(xiàn)頻次;CB代表課程知識點B在課程文檔集合中的出現(xiàn)頻次。在所有包括有課程知識點A的文獻中,同時C%的文檔中包含有課程知識點B。則C%稱為課程知識點A→B的可信度。可信度表示在包含課程知識點A的課程資源文檔中,課程知識點B也同時包含在該課程資源文檔中的概率,即在知識點A出現(xiàn)的前提下,知識點B出現(xiàn)的概率P(B|A)。則關(guān)于課程知識點關(guān)系關(guān)聯(lián)分析中可信度的表示為:

Confidence(A→B)=(CAB/CA)×100%

通過關(guān)聯(lián)規(guī)則構(gòu)建課程知識點間的非分類關(guān)系時,只能獲得具有關(guān)聯(lián)關(guān)系的知識點,無法得出具體的關(guān)系。根據(jù)語言學(xué)可以知道,動詞是句子的核心,具有相關(guān)關(guān)系的課程知識點間的動詞,可以判斷知識點間的語義關(guān)系。因此,通過統(tǒng)計文本中具有關(guān)聯(lián)關(guān)系的知識點間的動詞,從而獲取課程知識點間的非分類關(guān)系。

2.5 課程知識本體表示

本體必須用預(yù)先定義的語言來描述。目前本體描述語言可分為三類:基于邏輯的(first-order logic)、基于框架的(frame logic)和基于Web的(RDF,XML,HTML)。主要的本體描述語言有:DAML+OIL、OWL、KIF、CYCL、Loom、CML等[17]。其中,OWL的使用最為廣泛,并成為W3C官方推薦標(biāo)準(zhǔn)。

斯坦福大學(xué)開發(fā)的 Protégé本體構(gòu)建工具支持多種本體表示語言,包括OWL。Protégé中類、關(guān)聯(lián)、關(guān)聯(lián)約束和推理機制四個要素提供了有關(guān)本體概念、類、屬性的構(gòu)建。本文以“C語言程序設(shè)計課程”為例,收集該課程相關(guān)資源,利用本文所述方法從中獲取該課程的知識點及知識點間的關(guān)系,進而用Protégé本體構(gòu)建工具將獲取的課程知識點及知識點間的關(guān)系進行本體表示,如圖6所示為該課程部分知識點的本體表示。

圖6 課程知識本體表示

3 結(jié) 語

課程知識本體作為一種重要的課程知識組織技術(shù),在智能學(xué)習(xí)系統(tǒng)應(yīng)用中具有重要意義。人工構(gòu)建課程知識本體需要借助領(lǐng)域?qū)<遥蚨軐<业挠绊戄^大。

本文利用文本分析相關(guān)技術(shù)從課程語料中獲取課程知識本體。首先對收集到的課程資源進行預(yù)處理,從中獲取課程的知識點,進而利用關(guān)聯(lián)聚類等方法分析知識點間的層次類關(guān)系以及非層次類關(guān)系,最后利用Protégé本體構(gòu)建工具對課程知識點及知識點間的關(guān)系進行組織。

課程知識本體的構(gòu)建的應(yīng)用是知識的推理與知識的有效推送,如何將本體的構(gòu)建與知識的推理有效結(jié)合,以及在智能教學(xué)系統(tǒng)中將知識精準(zhǔn)地推送給學(xué)生,需要進一步探索。

猜你喜歡
資源課程
讓有限的“資源”更有效
基礎(chǔ)教育資源展示
《無機化學(xué)》課程教學(xué)改革
云南化工(2021年6期)2021-12-21 07:31:42
數(shù)字圖像處理課程混合式教學(xué)改革與探索
軟件設(shè)計與開發(fā)實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
一樣的資源,不一樣的收獲
為什么要學(xué)習(xí)HAA課程?
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“學(xué)而時習(xí)之”的課程值得贊賞
主站蜘蛛池模板: 好紧太爽了视频免费无码| 亚洲人成色77777在线观看| 免费一级无码在线网站| 成人av专区精品无码国产 | 91美女视频在线| 亚洲第一中文字幕| 九九热精品免费视频| 五月婷婷伊人网| 亚洲丝袜第一页| 99re经典视频在线| 日韩免费毛片视频| 欧美成人一级| 日韩精品毛片| 亚洲日本中文综合在线| 欧美、日韩、国产综合一区| 日本黄色a视频| 国产欧美日韩免费| 福利视频一区| 亚洲视频色图| 亚洲毛片在线看| 无码人中文字幕| 久久婷婷五月综合97色| 无码精品国产dvd在线观看9久 | 99偷拍视频精品一区二区| 麻豆精品在线| 国产亚洲欧美在线视频| 永久免费精品视频| 国产成人免费观看在线视频| 国产成人高精品免费视频| 久久国产精品77777| 久久这里只精品热免费99| 精品国产一二三区| 国产乱人视频免费观看| 国产精品人成在线播放| 黄色一及毛片| 国产福利微拍精品一区二区| 国内自拍久第一页| 国产麻豆精品久久一二三| 免费高清毛片| 午夜限制老子影院888| 在线观看免费黄色网址| 欧美日本在线观看| 国产亚洲高清在线精品99| 99精品国产自在现线观看| 无遮挡国产高潮视频免费观看| 免费黄色国产视频| 91在线精品麻豆欧美在线| 成人福利一区二区视频在线| 亚洲一区二区成人| 99尹人香蕉国产免费天天拍| 欧美午夜久久| 美美女高清毛片视频免费观看| 国产高清又黄又嫩的免费视频网站| 国产资源免费观看| 国产在线观看一区精品| 亚洲精品第1页| 直接黄91麻豆网站| 欧美日韩成人在线观看| 精品丝袜美腿国产一区| 亚洲性影院| 国产精品女同一区三区五区| jizz国产视频| 国产亚洲精久久久久久久91| 久久大香香蕉国产免费网站| 91毛片网| 国产成人亚洲综合A∨在线播放| 国产青榴视频| 婷婷亚洲最大| 99热这里只有精品免费国产| 免费高清毛片| 久久中文电影| 三上悠亚精品二区在线观看| 亚洲一级无毛片无码在线免费视频 | 亚洲国产成人超福利久久精品| 国产高清在线观看| 有专无码视频| 天天综合天天综合| 视频在线观看一区二区| 亚洲91精品视频| 国产成人无码综合亚洲日韩不卡| 国产精品综合色区在线观看| 亚洲日韩欧美在线观看|