999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的學習資源核心概念提取策略分析

2020-12-05 09:04:52趙嫦花米春橋匡進鵑李曉梅
懷化學院學報 2020年5期
關鍵詞:語義概念文本

趙嫦花 , 米春橋 , 匡進鵑 , 李曉梅

(1.懷化學院計算機科學與工程學院;2.懷化學院武陵山片區健康大數據智能處理和應用實驗室;3.懷化學院武陵山片區生態農業智能控制技術湖南省重點實驗室,湖南懷化 418008;4.懷化軍分區,湖南懷化 418000)

1 引言

自動識別學習資源所涉及的核心概念是實現個性化學習資源推薦的基礎,它有利于教育內容的重新組織[1]和個性化推薦系統的實現[2].通常衡量核心概念的標準是看學習資源中概念的重要程度.在學習資源中有對概念的解釋和標注,對于那些注釋為“核心”的概念通常被認為能提供最多的相關信息.與一組術語不同,概念是明確的實體,通常用來描述知識區域和概念之間的語義層關系.當前基于本體的開發應用已經相對成熟,關于核心概念的自動識別和注釋都是集中在領域本體的構建[3].但是,這些領域知識的描述難以擴展,因為詞匯表在大多數情況下是針對某一個應用領域的[4].因此,本文的設計策略是在開放和可訪問的公共詞匯表的語義層上運行.這不僅可以使所識別的主要概念得到重用,而且還可以挖掘知識之間的聯系.

近年來,研究者開始在語義網標準下構建特定領域的知識庫,目的是促進知識的相互關聯、重用和發現.維基百科就應用了知識圖譜的RDF數據集,它集中了多個領域的知識,指明了概念之間的大量相互關系[5].這些知識庫除了具有開放性和跨領域性外,通常還會不斷地更新.這使得它們成為各領域理想的知識來源.但是,這些資源的關聯性較差,例如在學習領域,學生不能通過已知的相關學習材料,達到資源整合的目的.這就需要獲得關于某個概念的額外信息來呈現學習內容.

本文使用知識圖譜作為概念空間來構建語義知識,應用自動識別學習資源中的核心概念的不同策略.具體過程如下:首先,從學習資源文本中提取概念,為了以可靠、自動和明確的方式識別概念,采用最先進的概念識別和實體鏈接工具.然后,通過不同的擴展策略來提取語義表征.接下來,利用基于圖形的結構語義表征評估不同的概念加權函數,選擇具有最高權重的概念作為資源的核心概念.最后,從語義表征和學習資源結構中提取一組特征使用機器學習方法,最終獲得核心概念集.為了測試所提出的核心概念識別策略的有效性,從MOOCs上提取了部分專家標注的概念.文中所使用的評估策略與專家核心概念基本一致.

2 相關研究

國內外有很多的研究涉及到學習資源的主要概念自動精確定位的問題.Roy等開發了一種使用元數據(如概念、概念類型、主題)注釋文檔和學習資源類型的自動工具[6].為了評估概念的重要性,他們分析了相關概念的頻率.有些文獻定義了關鍵動詞、句型和規則來識別概念的類型.Krieger豐富了學習資源元數據與來自領域本體的語義概念,并根據內容資源以及表示程度的相關權重提取所涵蓋的概念[7].Changuel等提出了一種核心概念識別的半監督方法,他們訓練機器學習分類器,分配基于一組人工注釋特征的標簽[8].這些功能包括所考慮的短語在文本中的依賴性、結構和功能.Changuel通過從Web文檔語料庫中獲取概念以解決確定有效學習路徑的問題.他們采用機器學習方法來預測基于上下文和本地文本特征的概念類別[9].現有研究的重點是識別文本中的概念及其后來與領域本體鏈接的策略.本文專注于評估概念的核心度,選擇具有最高權重的概念作為資源的核心概念.

3 基于知識圖譜的核心概念識別

語義是數據在某個領域上的解釋和邏輯表示,可通過語義表征和監督學習方法等來體現.從廣義上講,我們的語義資源用加權有向圖表示,其中節點表示概念,而直線表示在知識圖譜中的語義關系.

圖1 核心概念識別過程

圖1 顯示了核心概念識別的完整過程.首先,從學習資源文本中提取概念,通過輸入文本再返回一組結構化的URI.其次是基于類別和屬性的擴展,主要用于豐富和完善概念表示,使得概念在知識圖譜中能找到語義的關聯.最后,通過不同的加權函數評估每個概念的重要性,將具有最高權重的功能概念作為核心概念.此外,我們還使用了機器學習方法來發現主要概念,與傳統的機器學習提取概念不同的是,本文中概念特征主要從語義表征中提取.這樣就提高了知識挖掘的廣度與深度.

4 基于知識圖譜的語義表征方法

通過從學習資源文檔中獲取重要的概念,為知識圖譜構建奠定了基礎.知識圖譜由一組概念或實體C和文字L組成,它們通過一組屬性和謂詞P相互關聯.在RDF模型中,知識圖譜數據被描述為S?C×P×(C∪L).每個s∈S都是由主語、謂語和對象組成的三元組.考慮到上述情況,我們的語義表征遵循定義1的規范.

定義1:學習資源ri的語義表征Gi表示為Gi=(Ni,Ei,w(ri,c),w(ri,e)),其中由函數 w(ri,c)定義結點權重:N→R+ 和邊緣函數 w(ri,e):E→R+ 定義關聯程度.節點集 Ni={c1,c2,…,ck}是表示實體 /概念,屬于知識圖譜(cj∈C).節點權重 w(ri,c))表示節點 c 與學習資源相關程度.兩個節點之間的連接邊緣(ca,cb)表示在知識圖譜中存在至少一個語句s連接這兩個概念.邊緣w(ri,e)的權重表示兩個概念的關聯程度.

如前所述,概念注釋模塊(見圖1)是搜尋文本中提及的概念(即注釋),并將它們與知識圖譜中的概念聯系起來.

此外,我們不會對所選的注釋進行其他驗證,因為無法保證自動獲得的注釋的正確性,這里需要進行手動校正.然而,在現實應用中,手動校正過程是不現實的.一般來說,主要存在以下問題:(1)不完整的注釋:并非所有內容中存在的概念都被發現.例如,無法找到合適的概念時,可能會導致不完整實體/概念得到認證;(2)不正確的注釋:概念被錯誤地聯系起來.例如,“云”這個詞通常用來表示一種基于互聯網的計算,可能與氣象學上的“云”概念錯誤地聯系在一起.為了解決上面的問題,我們加入了擴展模塊和加權模塊以降低對概念抽取的影響.

4.1 擴展模塊

擴展模塊用于豐富未在文本中明確提及或者未被注釋服務識別的概念.我們將注釋集(即文本中的概念)擴展為新的概念集,主要使用以下兩種不同的方法:

1.基于類別的擴展(Category-based Expansion,CBE):此類擴展針對語義表征內的每個注釋類別(或知識圖譜中關于概念的其他分層信息).

2.基于屬性的擴展(Property-based Expansion,PBE):此類擴展針對語義表征內的每個注釋屬性,通過遍歷某些屬性找到的概念來豐富知識圖譜.

例如,在計算機程序設計領域關于類的定義為:在面向對象的編程中,類是一個可擴展的程序代碼模塊,用于創建對象,提供狀態(成員變量)的初始值和行為的實現(成員函數或方法).在許多語言中,類名用作類的名稱(模塊本身)、類的默認構造函數的名稱等.這些截然不同的概念很容易混淆.在概念注釋步驟之后,檢索以下幾個概念:“構造函數(面向對象編程)”“成員變量”“方法(計算機編程)”“對象(計算機科學)”,即使文本是知識圖譜概念“類(計算機編程)”的定義,它也不會被使用的挖掘注釋等工具識別.這些概念是通過基于屬性的擴展添加到語義表征中的,因為它連接到注釋:“成員變量”“子程序”“對象(計算機科學)”和“方法(計算機編程)”.以相同的方式,諸如“對象生存期”,“變量(計算機科學)”的概念和類別被添加到語義表征中.

如圖2所示,使用在擴展過程之后得到的概念集合作為節點來構建最終圖形表征Gi.對于邊緣構造,返回知識圖譜中每對節點之間的屬性路徑,并通過SPARQL(用于查詢RDF數據)查詢進行分析.如果找到兩個概念之間的屬性路徑,則可以根據知識圖譜中的連接方向創建Gi中的有向邊,探索不同的屬性路徑長度.本文中我們將搜索限制為長度小于或等于2的屬性路徑.

在圖2中,一級節點是注釋,如Layer,Precipitation,Medium等,二級節點是通過擴展模塊合并的概念.通過w(ri,e)邊緣的厚度表示兩者之間的連接強度,如string.節點的大小與節點權重w(ri,c)成正例,并且在語義表征中起著重要的作用.

4.2 加權模塊

該模塊是學習資源核心概念識別的關鍵.具有最高w(ri,c)權重的概念被認為是核心概念.相比之下,具有最低權重的概念可以被視為表征中的噪聲.與學習資源主題無關的概念往往在文檔中不常見或在表征中顯示為弱連接(即與其它概念很少或沒有聯系).這種無關的概念具有低w(ri,c),因此不會被視為核心概念,主要采用以下策略來解決:

1.概念的頻率.最基本的加權策略是分析表征中概念的頻率:

圖2 語義表征實例

其中fc,Ri表示c出現在學習資源內容中的次數加上概念在擴展過程中出現的次數.使用這種策略的好處在于它強化了經常出現的一般概念.以程序設計課程為例,通常會在第一課中解釋最基本的概念,如“變量”和“數據類型”,如果學習資源中多次提到“變量”的概念,也不一定表明它就是主要概念.為了解決以上問題,我們提出了一種加權策略,這種策略主要參照了基于單詞的向量空間模型[10]中眾所周知的TF-IDF(詞頻-逆向文件頻率)加權方案.因此,所提出的策略Wcf-idf是選取出現在多個表征中的概念.

其中M是學習資源的總數,mc是在其表征中具有概念c的學習資源的數量.

2.擴展概念的折算.為了防止知識圖譜的層級結構中的頻繁屬性或一般類別轉移到表征中,有必要對通過擴展模塊合并的新概念應用折算,對于基于類別的擴展概念應用以下折算方法:

其中SP是屬于該類別的概念集,SC是分類層次結構中的子類別集.這種折算策略是對過于寬泛和通用的類別進行折算.同樣,對于擴展概念,將應用以下折算方法:

其中P是從知識圖譜中得到的概念c∈C的屬性出現的次數.

3.中心度量.這是一種利用圖的結構的加權策略.通過不同的中心度量對每個節點的重要性進行排序,可采用以下中心措施:

(1)度中心性(Degree centrality,DE):節點 c的度中心性是連接到它的節點數與總數之間的關系節點數量.

(2)中介中心性(Betweenness centrality,BET):中介中心性是分數通過的所有最短路徑的節點.

(3)網頁排名(PageRank,PR):網頁排名是一種眾所周知的算法,是一種由搜索引擎根據網頁之間相互的超鏈接計算的技術.本質上,網頁排名是一種在有向圖上對重要節點進行排名的度量.

5 基于知識圖譜的監督方法

給定一對概念學習資源(c,ri),我們預測c是否是ri的核心概念,這是一個二元分類問題.對于每個概念學習資源對(c,ri),我們計算兩種類型的特征:基于文本和基于圖的特征.

5.1 基于文本的特征

第一類特征被設計為對從學習資源中提取的文本內容以及知識圖譜中的概念進行描述.

(1)標題.是否c出現在學習資源標題中(如果有).

(2)前3個句子.c是否為學習資源中的前3個句子.

(3)Wcf(ri,c)和Wcf-idf(ri,c).從權重模塊中獲得權重.

(4)TextRank.TextRank算法是一種用于文本的排序算法.

5.2 基于圖形的特征

這些特征直接從語義表征中提取.

(1)PR(c).語義表示中概念的網頁排名值.

(2)BET(c).概念在語義表達中的中介中心性.

(3)In(c)中.c的傳入鏈接數.

(4)Out(c).c的外出鏈接數.

(5)Hub屬性和Authority屬性.將HITS算法應用于語義表征之后獲得的值.HITS算法的全稱是Hyperlink-Induced Topic Search.在HITS算法中,每個頁面被賦予兩個屬性:Hub屬性和Authority屬性.同時,網頁被分為兩種:Hub頁面和Authority頁面.Hub頁面指那些包含了很多指向Authority頁面鏈接的網頁,比如國內的一些門戶網站;Authority頁面則指那些包含有實質性內容的網頁.HITS算法的目的是:當用戶查詢時,返回給用戶高質量的Authority頁面.

6 結論

本文提出了基于知識圖譜的學習資源核心概念提取策略.語義表征實質上是有向加權圖,其節點表示知識圖譜概念,直線表示它們之間存在語義關系.圖形構建過程由擴展和加權模塊負責結合領域概念和分配節點的重要性評分.我們探索了兩種提取核心概念的方法:第一種方法是通過不同的加權策略從表征中提取更大權重的概念;第二種方法是選擇基于集合的監督方法主要從表征中提取特征.通過加權策略并考慮前3個句子,在提取過程中達到85%的理想精度.盡管監督方法具有優越性,但加權策略沒有經過訓練,還存在一定的偏差,這也是下一步要研究的內容.我們希望通過這種核心概念識別策略,為其他領域研究拋磚引玉,由此創建一個更全面的學習資源數據集.

猜你喜歡
語義概念文本
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 99在线小视频| 亚洲中文在线视频| 色综合手机在线| 日韩欧美国产成人| 久久不卡精品| 很黄的网站在线观看| 国产成人高清精品免费5388| 欧美一区二区三区欧美日韩亚洲| 欧美国产日产一区二区| 亚洲成年网站在线观看| 婷婷亚洲天堂| 丁香六月激情综合| 亚洲精品欧美日本中文字幕| 在线观看免费黄色网址| 国产精品中文免费福利| 日韩精品一区二区三区大桥未久 | 欧美一区国产| 91亚洲精选| 亚洲成人播放| 亚洲男女在线| 免费看久久精品99| 日韩av手机在线| 秋霞国产在线| 精品国产免费观看| 欧美h在线观看| 国产激情无码一区二区免费| 亚洲无码日韩一区| 人妻丝袜无码视频| 欧美人在线一区二区三区| 国产三区二区| 国产人人射| 久久一色本道亚洲| 在线免费a视频| 一级爱做片免费观看久久| 99这里只有精品在线| 538国产在线| 日韩大乳视频中文字幕| 91人妻日韩人妻无码专区精品| 久久久久无码国产精品不卡| 久久中文字幕2021精品| 亚洲一区国色天香| 就去吻亚洲精品国产欧美| 欧美在线精品怡红院| 国产一区二区视频在线| 国产网友愉拍精品| 国产精品永久在线| 日韩高清成人| 黄色网站在线观看无码| 日韩无码精品人妻| 亚洲国产av无码综合原创国产| 自偷自拍三级全三级视频| 手机在线免费毛片| 色欲色欲久久综合网| 亚洲中文精品久久久久久不卡| 最新亚洲人成无码网站欣赏网| 蜜芽国产尤物av尤物在线看| 另类综合视频| 99热这里只有精品在线播放| 国产一级精品毛片基地| 国产精品一区在线麻豆| 亚洲精品国偷自产在线91正片| 91免费国产在线观看尤物| 欧美日韩91| 中文字幕久久亚洲一区| 极品私人尤物在线精品首页 | 一本大道无码日韩精品影视| 天堂网亚洲系列亚洲系列| 色综合天天娱乐综合网| 54pao国产成人免费视频| 亚洲精品无码AV电影在线播放| 成AV人片一区二区三区久久| 婷婷五月在线| 国产菊爆视频在线观看| 久久香蕉国产线看精品| 99精品在线看| 国产成人高精品免费视频| 无码内射中文字幕岛国片| 欧美成人综合视频| 91无码人妻精品一区| 欧美日韩国产精品综合| 88国产经典欧美一区二区三区| 国产乱人视频免费观看|