郭勝娟 董峰銘
(1.武漢城市職業學院 湖北 武漢 430070;2.武漢大學 湖北 武漢 430072)
“科學” 是師范類高等院校小學科學教育專業的師范生必須進行的科學教育實踐課,旨在通過小學頂崗實習的模式來為小學培養合格的科學課教師,加強師范院校的 “科學” 教學實踐能力的培養,有利于培養合格的小學科學教師。因此,如何利用人工智能技術來構建學生思維成為科學教育研究領域的熱點問題。
作為人工智能的研究熱點之一,知識圖譜已經由教育工作者融入課程教學,用于更好地構建學生的思維。例如,武漢大學的徐雷教授與袁小群教授通過采用語義技術處理了歷史教育資源,實現了歷史教育知識庫的構建,以此知識庫為基礎設計并實現了包含歷史知識可視化、歷史知識檢索以及在線歷史題庫等功能的歷史教育學習平臺[1]。此外,知識可視化在思政課程、語文課程、數學課程等均有相關的研究。但在科學教育領域,知識庫的構建與可視化分析仍為空白。本文在借鑒前人的研究基礎上,在科學教育領域進行了擴展,探究基于知識圖譜的知識獲取、整合與可視化的方法。
知識圖譜是Google基于本體論、圖理論等相關基礎學科而提出的概念,它采用知識獲取、知識整合、知識處理等技術將非結構化和半結構化知識組織起來,形成復雜的語義網絡,存儲并可視化知識。
知識圖譜的概念源于本體理論。本體 “Ontology” 在計算機領域可以看作描述某個知識領域的一個通用概念模型,該概念在1980年被引入人工智能領域,1998年德國學者Studer給出了本體的相關定義即 “本體是共享概念模型的形式化規范說明”[2],該定義闡釋了本體理論的 “概念特征、共享性、形式化和明確性” 四個特征。概念特征指從客觀世界中的一些現象中抽象出的模型,其所代表的含義獨立于具體的環境狀態;共享性指本體中的知識是共同認可的,反映出的是領域中公認的概念集合;形式化表示本體是可讀的,是可以被計算機識別處理的;明確性指本體中的術語、屬性等都有明確的定義[3]。
知識圖譜在表現上呈現的是圖結構的網狀有向圖,它可以采用資源描述框架表示實體之間的語義關系,采用 “實體―關系―實體” 三元組(SPO)來表示實體與關系。SPO是知識圖譜中知識表示的基本單位,用來表示實體與實體之間的關系,或者用來描述實體的某個屬性的屬性值[4],這種SPO關系由RDF進行數據存儲和交換。RDF由節點和邊組成,節點表示實體及屬性,邊則表示了實體和實體之間的關系以及實體和屬性的關系。OWL(Web Ontology Language)網絡本體語言是W3C開發的一種網絡本體語言,用于對本體進行語義描述[5],其構建在RDF的頂端之上,被設計為供計算機進行解釋。OWL網絡本體語言使用XML編寫,通過使用XML,OWL信息可在使用不同類型的操作系統和應用語言的不同類型的計算機之間進行交換,實現知識圖譜的存儲與傳輸。
如圖1,知識圖譜的主要構建過程分為數據獲取、知識抽取、知識存儲、知識推理和知識應用等幾個階段[6]。知識獲取階段是從相關領域獲取結構化、非結構化和半結構化的數據;以這些數據為基礎,采用自然語言處理、知識規則算法或者人工手段對實體、關系和屬性進行知識提取;采用Neo4j等NoSQL數據庫對知識進行存儲,采用實體對齊、關系對齊算法對知識進行融合;采用本體推理、規則推理和路徑推理的基本算法或者模型對知識進行推理;最后將知識應用于推薦系統、語義搜索和問答系統。
課程知識圖譜首先需要設計 “科學” 課程的知識模塊,確定知識模塊間的關系。在知識模塊確定后,確定每個知識模塊的知識點,形成主要知識點。采用知識提取的理論與方法,手動或者程序化提取實體及其屬性,分析知識點間的關聯關系,設計知識點層級和順序關系,確定知識與知識之間的圖譜關系,構造知識圖譜,并將知識圖譜可視化。構建后的知識圖譜需要專業教師進行審核,并根據審核結果對知識點、知識實體、知識屬性及知識關聯關系進行修改。被學科教師審核通過的知識圖譜可用于課程教學(見圖2)。
課程標準和教材是課程知識點提取的主要依據,任課教師可以根據教學內容、教學對象和教學目標,從中提取課程主要知識點,形成教學的知識點體系。
本文以教科版小學 “科學” 五年級下冊《環境與我們》單元的知識點為例,提取涉及的 “環境問題” “大氣污染” “工業開采” “水資源” “霧霾” “酸雨” “富營養化” “垃圾處理” 等領域的29個知識點。每個知識點以陳述句形式呈現。 “垃圾處理” 所涉及的知識點描述如下。
知識點1:垃圾處理是重要的環境問題,要充分認識垃圾處理的方式及危害,了解生活垃圾的產生,進而減少垃圾產生。
知識點2:垃圾處理的方法主要有焚燒與填埋,這兩種方法對于環境保護都有一定危害。
知識點3:垃圾填埋場會對周圍的環境產生嚴重的危害,例如:垃圾散發惡臭,進而會污染空氣;地下填埋的垃圾會對土壤造成污染,從而影響農作物的生長,影響農業;填埋的垃圾會招引并滋生蚊蠅,從而引發疾病等。
知識實體提取是采用自動化jieba分詞工具對中文知識點進行分詞,或者手工方式提取課程內容中的主要詞匯。比如,上述 “知識點1” 中,采用jieba工具可以提取到 “垃圾處理” “方式” “危害” 以及 “產生” 等4個詞匯,但在句意中 “方式” “危害” 以及 “產生” 存在上下文語義,需采用上下文語義補全的方式對語義進行補全為 “垃圾處理方式” “垃圾危害” 以及 “垃圾產生的原因” 。
關系是知識實體之間的聯系,它從知識點語義表達中進行獲取。知識點可采用jieba進行詞性標注,獲取句子中的謂詞屬性,整合人工校驗技術,分析知識實體之間的包含、屬于、進階、基礎、并列、同義關系。根據這些關系在課程教學的特征,抽象出 “知識涵蓋” “措施” 等知識點關系,形成關系抽提。
本文以 “環境問題與垃圾處理” 為研究對象,采用SPO邏輯表示方法,構建三元組。在環境問題中涵蓋垃圾相關的知識,而垃圾相關知識又涵蓋 “垃圾處理” ,即 “如何處理垃圾” “生活垃圾的分類” “如何減少垃圾” 這三個知識點。這樣,本文構建的SPO三元組如下:(環境問題,知識覆蓋,垃圾)、(垃圾,知識覆蓋,垃圾處理)、(垃圾,知識覆蓋,生活垃圾)、(垃圾,知識覆蓋,減少垃圾)。
知識點除了層次關系外,還有自己的屬性。在知識庫構建中,主要的屬性有 “舉例” 。比如,在 “垃圾處理” 的方法中,有 “回收” “填埋” 和 “焚燒” 等列舉屬性。這些關系采用SPO三元組表示方法如下:(垃圾處理,舉例,回收)、(垃圾處理,舉例,填埋)、(垃圾處理,舉例,焚燒)。
本體是知識表示的重要方式,Protégé是重要的本體構建工具,它是斯坦福大學開發的免費且開源的本體編輯器,其由Java語言編寫,具有圖形化構建本體、對各實體間隱含屬性進行自動化推理以及對本體的一致性進行檢測的功能[6]。
在知識層次的劃分基礎上,在Protégé中構建本體,需要創建類與子類,分析類與子類的繼承關系的知識關系,再對類與子類進行屬性定義。protégé中屬性分為對象屬性與數據屬性,其中對象屬性指兩個對象以及他們之間的關系,即前文在知識分層時所整理的 “關系” ;數據屬性指某個對象的屬性,即前文在知識分層時所整理的 “個體屬性” 。
本文在分析29個知識點的基礎上,構建了 “環境問題” “資源” 等2個主題, “垃圾” “能源” 等8個類別, “酸雨” “霧霾” 等32個實體,以及實體之間呈現出類與子類之間的關系。
知識圖譜屬于非關系型數據,需要采用圖數據進行存儲。圖數據庫允許數據以圖的方式存儲,實體在圖數據庫中作為頂點,而實體間的關系在圖數據庫中作為邊,可以用NoSQL數據庫來存儲。由于NoSQL數據庫去掉了關系數據庫的關系特性,因而數據非常容易擴展。
Neo4j是由Java和Scala寫成的一個NoSQL數據庫,專門用于網絡圖的存儲,它用節點、邊、屬性來高效的存儲知識及關系。 本體模型導出的OWL文件可以借助于擴展插件Neosemantics可以將OWL/RDF文件導入到Neo4j中,通過在Neo4j上創建唯一約束,來通過URL確保資源的唯一性,并通過將資源添加到索引中來加速獲取過程。
為了加快查詢速度,根據案例中提取的實體關系,將 “環境問題” “資源” “能源” “垃圾分類” 等實體設置不同標簽,這樣,既起到頁面美觀的作用,又方便管理圖數據庫中的節點與關系。Neo4j同一節點標簽下的多個節點可視作同一類節點,從而實現了實體與實體之間的關聯性問題。
Neo4j數據庫支持Cypher查詢語句,可以采用 “MATCH(n)RETURNn” 查詢語句來查詢知識庫。Cypher是圖數據庫Neo4j的聲明式查詢語言,其通過匹配數據庫中的節點與關系,來提取信息或修改數據。從而Neo4j數據庫支持由業務邏輯層傳遞,如節點id、節點標簽、關系標簽、節點名等組成的關鍵字查詢。例如采用 “MATCH(n:`垃圾`)RETURNn LIMIT 25” ,可以返回如圖3所示的知識實體 “垃圾” 的知識圖譜。
本文采用主題探究教學模式,將教學內容整合成知識圖譜[7]。主題探究是建構主義教學理論的分支,在分析學生自我認知的基礎上,以場景教育為錨點,以明確的教學目標為依據,通過自主學習、實驗觀察、獨立思考、小組協同等多種模式展開新課程內容的學習,從而構建知識體系。它以 “認知理論” 發展為基本規律,采用 “需求定位、實驗探究、總結分析、知識驗證” 為核心流程的學習模式,構建學習者的認知規律。
在課程設計上,教師以 “垃圾” 為主題,以知識圖譜的方式展示 “垃圾” 主題,讓學生展開討論。通過可交互式知識圖譜,讓學生掌握 “減少垃圾的方法” “垃圾處理的方式” 等知識點。通過實體關系分析,引出并動態展示 “生活垃圾” 知識圖譜,討論垃圾分類問題。整個教學過程,以知識圖譜構建 “知識錨點” ,探究知識要點,構建學生的思維過程,形成思維邏輯方法。
基于以上教學策略,本文選擇武漢市某小學的 “科學” 教學班為研究對象,采用對比分析方法,對教學效果進行實驗分析。為了驗證教學策略效果,本項目隨機選擇了小學五年級實驗班和對照班各43人進行對比實驗,教學效果如表1所示。本文從學生課堂參與度、學生滿意度和學生知識增益程度三個方面評估教學效果。課堂參與度由任課教師在課堂上觀察并記錄,評估積極參與課堂教學的學生人數占總人數的百分比。學生滿意度是課后通過問卷調查獲取學生對課堂教學是否滿意的人數占總人數的百分比。學生知識增益程度是通過課前測試和課后測試,評估學生科學知識的提高程度。對同一知識點通過課前和課后測試,評估學生在本課堂學習了新知識后,對該知識點得分提高的平均值。實驗表明:課前進行學生知識測試的對照班和實驗班平均成績分別為32.32分和33.12分,課程學習后對照班和實驗班的平均成績分別為92.52分和96.46分。

表1 教學效果表
知識圖譜是人工智能領域中的重要研究內容,它通過圖結構對學科知識進行存儲并可視化表示,能夠清晰表示學科知識點之間的關聯關系,從而構建學生的思維邏輯。
本文采用知識圖譜的方式,以 “科學” 課程為例,探究了知識圖譜在教學中的應用。通過實驗分析表明該方法能有效提高學生的參與度和學生課程滿意度。對比實驗表明采用知識圖譜的教學策略后,學生獲取知識的增益度比對照班級高5.26分。