摘 ?要: 教學資源缺少開發規范和語義信息,導致其可共享性差、檢索查全率或查準率不高。探討教學資源語義系統的設計,基于本體實現教學資源的語義信息,并通過Jena實現語義擴展,結合語義相關度和相似度,有效提高教學資源檢索的有效性和精確度。
關鍵詞: 本體;Jena;教學資源;語義
中圖分類號: G633 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.040
本文著錄格式:黃以寶. 基于本體和Jena模塊的教學資源語義系統設計研究[J]. 軟件,2019,40(4):186189
【Abstract】: Lacking development norms and semantic information, teaching resources may have disadvantages of poor sharing and low retrieval accuracy. The paper discusses design of semantic system of teaching resources, improve effectiveness and accuracy of teaching resources retrieval effectively based on noumenon semantic information of teaching resources, and Jena semantic expansion and semantic relevance and similarity.
【Key words】: Noumenon; Jena; Teaching resources; Semantics
0 ?引言
互聯網技術的發展與普及,促使網絡學習成為了一種越來越多人選擇的新型的學習方式,因此網絡教學資源展開了大規模的建設。然而,正是教學資源量的日益龐大,暴露出了一些亟待解決的問題,主要是:基于關鍵字匹配的傳統檢索技術導致查全率和查準率不高、沒有統一的元數據標準描述教學資源導致教學資源的可共享性差。近年,研究將在語義描述方面有較強能力的本體引入到了教學資源建設中,得以提高了教學資源的統一描述能力和語義檢索能力。本體是實現語義Web的重要基礎和技術,廣泛應用于知識表示、知識共享與重用、邏輯推理等領域。本文提出了一個基于本體和Jena模塊技術的教學資源語義系統模型,它結合課程知識點本體和教學資源元數據標準以構建教學資源本體作為資源語義描述基礎,并通過Jena模塊技術進行知識點推理、語義擴展等,為教學資源的語義檢索提供了語義上的支持,還通過篩選排序返回更合理更有效檢索的教學資源集[1]。
1 ?系統設計目標
根據教學資源語義系統目前面臨的問題,結合本體技術和語義檢索技術,在進行本系統問題分析的基礎上,基于本體和Jena模塊技術的教學資源語義系統需要實現的設計目標主要包括如下幾個方面:
(1)語義擴展,提高隱性知識的發現能力。傳統檢索只是以關鍵詞機械的進行字符串式的擴展,無法表達關鍵詞的語義信息,所以語義的擴展能力有限。由于本體能全面的、精確地描述和定義概念及概念之間的關系,具有較強的語義表達能力,能較好的理解用戶的語義意圖。因此,充分利用本體處理相關技術對關鍵詞進行語義擴展[2]。
(2)語義推理,增強系統的智能特性。Jena自身包含了一系列針對本體的特點而定義的默認通用推理規則,用于檢查概念的可滿足性,不同類之間的關系,以及屬性的傳遞、互逆、不相交等[3],能運用本體查詢語言進行解析本體庫中的知識概念,并且根據推理規則推理出新的概念。
(3)元數據標注,解決異構資源共享問題。元數據是“關于數據的數據”,是描述數據屬性的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能[4]。
(4)合理有效的語義檢索,提高檢索的查全率和查準率。
(5)用戶查詢度排序,使檢索結果符合用戶 ?要求。
(6)常查資源索引庫,提高檢索的效率。
2 ?系統設計思路
2.1 ?教學資源語義化
結合教學資源元數據的統一規范標準和本體的語義能力,對教學資源實現語義標注及格式化存儲,形式化了教學資源的語義信息,達成計算機理解的目標,以實現教學資源的共享和復用。
2.2 ?檢索語義化
在本體技術的基礎上,結合邏輯推理能力,對用戶的檢索請求加以擴展,既使用戶能清晰的表達檢索需求,又使機器更好的理解用戶檢索需求。
2.3 ?檢索流程
①在結合了教學資源元數據標準和課程知識點本體的教學資源本體支持下,對用戶檢索要求進行語義分析的分詞處理和語義擴展的規則推理得到查詢概念集,使計算機明確用戶檢索內容;②根據查詢概念集進行檢索;③根據相關度排序檢索結構,返回有效的結果。
3 ?系統模型設計
根據結合本體技術和語義檢索技術而提出的系統設計目標和系統設計思路,設計基于本體和Jena模塊技術的教學資源語義系統模型共分為三層:查詢應用層、檢索處理層、資源本體層,而主要的功能模塊包括有:語義標注模塊、語義擴展模塊、檢索操作模塊、排序優化模塊、常查資源索引庫模塊,系統模型設計如圖1所示。
基于本系統模型,語義檢索的流程是:用戶輸入查詢請求的查詢問題,系統判斷查詢問題是否是常查問題,如果是直接從常查資源索引庫中返回檢索結果;如果不是則需要進行查詢處理。查詢處理,先是根據核心概念詞庫利用IKAnalyzer對查詢問題進行分詞操作以實現概念的抽取得到查詢概念集,然后將查詢概念集根據Jena定義的推理規則進行語義擴展得到擴展查詢概念集,將擴展查詢概念集中每個概念利用SPARQL語言進行教學資源查詢,將符合要求的元數據文檔集排序優化返回給用戶,用戶根據元數據文檔查看教學資源信息,并提供教學資源下載。語義檢索流程如圖2所示。
4 ?系統模塊功能
4.1 ?語義標注模塊
語義標注模塊的功能,一方面是利用教學資源元數據規范對教學資源進行相關屬性的描述,有利于擴展到其他標準的學習平臺,促進資源的共享和重用;另一方面,在內容組合中還存在諸如異構資源組合等方面的困難,可借助于本體在語義和知識層次上描述資源[5],將教學資源與課程本體知識點概念關聯,可有效的利用本體概念推理出隱含的信息資源,提高教學資源檢索的高效性、準確性。
語義標注的流程:上傳教學資源歸入教學資源文檔集,然后解析課程知識本體供用戶選擇標注知識點,再根據用戶上傳教學資源提交的教學資源描述信息表單來進行教學資源的元數據標注,根據標注的內容生成相對應的教學資源元數據文檔,并將相關元數據信息填充到教學資源本體。由于教學資源一般是多媒體文檔,目前只能采用人工方式對教學資源整體標注,當教學資源涉及多個知識點時,還不能分割知識點處理,只能使用最大相關度的知識點進行語義標注。語義標注流程如圖3所示。
4.2 ?語義擴展模塊
眾所周知,在自然語言中,一個詞語可能表達幾種意義,同樣幾個不同的詞語可能表達相同的意義[6]。使用自然語言作為關鍵詞進行檢索,常常會遇到兩個問題:①同義詞問題,即一個意思可以有不同的詞語表達;還有多義詞問題,即同一個詞在不同的語境中有不同的含義。②隱含關系問題,關鍵詞的查詢無法找到存在語義上或邏輯上的隱含關系。語義擴展是解決這些問題的一個有效方法,把原查詢看作一系列的概念(而不是一系列字符串),從建好的概念語義結構中提取查詢語義及語義關聯關系,實現語義概念擴展[7]。其中作為語義檢索重要部分的語義擴展主要是通過查詢擴展(Query Expansion)來實現,查詢擴展是指利用統計學、語言學等方法,找出與原查詢詞的相關擴展詞并加入原查詢組成新的查詢,使其更清楚地表達用戶的查詢意愿,以改善信息檢索性能[8]。
語義擴展模塊的功能,主要是通過對用戶的查詢問題的基礎上,通過推理機按照同位和下位等邏輯關系,對建立好的領域本體庫進行語義推理,進而對查詢條件進行語義擴展[9],以此得到更全面、更準確的查詢概念集,實現查詢既能檢索到字面之間顯式的語義關系的資源,又能檢索到隱含的語義關系的資源。
語義擴展的流程:根據用戶輸入的查詢問題,利用分詞獲得查詢概念集,先對查詢概念集結合課程本體中概念間的顯性語義聯系進行直接擴展,再結合Jena推理規則推理隱性語義聯系進行推理擴展,從而實現用戶查詢問題的語義擴展,獲取一組符合用戶查詢需求的具有語義聯系的查詢概念集。經過語義擴展后的查詢概念集,可能涉及到的查詢概念很多,要對查詢概念集進行概念篩選,以防止“概念漂移”,主要工作是將查詢概念集中的概念與用戶查詢進行相似度和相關度的計算,然后根據語義相似度計算以排序,以篩選更符合用戶意圖的概念集進行檢索。
4.3 ?排序優化模塊
語義擴展在一定程度上解決了用戶查詢表達不明確的問題,使機器更好的理解用戶的查詢意圖,但也帶來了“查詢漂移”問題:語義擴展有可能導致查詢關鍵詞過多,使得檢索結果出現大量與查詢無關的結果,從而降低了檢索的精度,也就是滿足了查全率而忽略了查準率。為了有限控制結果的數量和質量,有必要對語義擴展得到的結果進行二次篩選。
排序優化模塊的功能,是對語義檢索的結果進行排序和優化返回,主要工作是進行檢索結果的二次處理,目的過濾一些與用戶查詢要求“漂移”過大的結果,并按查詢相似度由高到低的排序,從而實現檢索結果在語義上更接近用戶的查詢需求。
排序優化主要考慮因素:首先對教學資源中的關聯知識點從相關度和相似度上執行進一步的語義處理,主要對知識點的匹配、包含等關系推理,如一個教學資源包含多個知識點,查詢其中一個知識時,根據語義標注中其占用的份量考慮;接著考慮教學資源的選擇率,即用戶使用相同查詢問題時,選擇檢索結果中的某教學資源的次數;國家《網絡教育資源建設技術規范》規定網絡教育資源主要包含以下9類:媒體素材、課件、案例、常見問題、文獻資料、網絡課程、試卷、試題、資源目錄索引 ? ? 等[10],根據這些分類以確定其占用權值,如課件是比較詳細的內容可優先考慮,而習題只是輔助教學資源可相應延遲考慮;最后,對教學資源的文件類型歸類,主要考慮用戶喜好,有些喜歡教學視頻,也有些喜歡教學PPT課件等。
4.4 ?常查資源索引庫模塊
常查資源索引庫模塊功能,主要是針對相同查詢問題時直接獲得檢索結果,避免同一查詢問題多次進行本體解析、語義擴展、檢索操作、排序優化等操作,從而減少系統的響應時間和提高查詢的效率。所以,常查資源索引庫主要存儲了查詢問題、分詞得到的查詢概念集、語義擴展得到的擴展查詢概念集、排序優化后的檢索結果、用戶選擇次數。
5 ?結束語
教學資源語義系統是利用本體和Jena模塊技術實現具有語義的教學資源管理系統,從而解決教學資源標準不統一的異構難以共享或互操作問題和基于關鍵字匹配檢索技術的誤檢或漏檢問題。本系統主要通過結合CELTS元數據的教學資源本體的語義表達、Jena推理機自定義規則的語義推理擴展、基于課程知識本體的語義相似度計算方法、教學資源實體信息抽取標注的元數據文檔,從而提高資源的共享性和檢索的查全率、查準率。但系統還有問題需要進一步的研究解決,如本體構建對開發者的領域專業性要求過高和語義相似度的主觀性太強等。
參考文獻
[1] 馮瑤, 馮錫煒. 面向教學資源查詢的語義相似度和相關度算法[J]. 計算機應用與軟件, 2016, 33(10): 275-278.
[2] 曾維明. 基于領域本體的語義檢索及個性化推薦算法研究[D]. 南京理工大學, 2010.
[3] Kim J Y, Jeong D W, Balk D-K. Ontology-based semantic recommendation system in home network environment[J]. IEEE Transactions on Consumer Electronics, 2009, 55 (3) : 1178-1184.
[4] 王小夢, 郭爽. 數字教學資源的語義標記系統設計研究[J]. 中國教育信息化, 2017(13): 40-44.
[5] 黃洋, 宋俊德, 宋美娜, 等. 基于本體與SSH架構的異構數據集成框架的研究[J]. 軟件, 2014, 35(11): 36-41.
[6] 劉欣, 席耀一, 王波, 等. WordNet和詞向量相結合的句子檢索方法[J]. 信息工程大學學報, 2017, 18(04): 486-491.
[7] 崔航, 文繼榮, 李敏強. 基于用戶日志的查詢擴展統計模型[J]. 軟件學報. 2003(09)
[8] 李衛疆, 王勝, 余正濤. 基于深度學習的概念語義空間查詢擴展研究[J]. 軟件導刊, 2018, 17(05): 26-30.
[9] 于超, 王璐, 程道文. 基于本體的教育資源語義檢索系統研究[J]. 吉林大學學報(信息科學版), 2018, 36(02): 207- 212.
[10] 教育部教育信息化技術標準委員會. CELTS-41. 1. 網絡教育資源建設技術規范[EB/OL]. [2018-04-15]. http://www. celtsc.edu.cn/.