基于知識圖譜的課程思政素材庫構建

2022-07-14 12:56:26湯宇軒申彥明王宇新張紹武

軟件導刊 2022年7期

湯宇軒，齊恒，申彥明，王宇新，張紹武

（大連理工大學計算機科學與技術學院，遼寧大連 116024）

0 引言

“培養什么人、怎樣培養人以及為誰培養人是教育的根本問題，立德樹人成效是檢驗高校一切工作的根本標準”，人才培養中思想建設是第一位。2016 年，習近平總書記在工作會議中指出：高校立身之本在于立德樹人。只有培養出一流人才的高校，才能夠成為世界一流大學。教育部印發的《高等學校課程思政建設指導綱要》提到人才培養中思想建設的重要性，以及課程思政在思想建設中所起的重要作用，明確指出：“建設高水平人才培養體系，必須要在專業的課程內容當中融入思想政治教育體系，必須要全面、全方位地提高人才培養能力，專業知識和思想政治知識兼顧，從而培養出愛黨愛國、能為社會、為人民服務的人才。”在設計課程思政內容的過程中，要讓思政內容自然而然地融入課程各方面，從而激發學生的學習興趣，引導學生深入思考。

思政建設對于計算機專業相關課程而言必不可少。信息時代，計算機及信息化相關技術已成為公認的“雙刃劍”，一方面能服務于大眾，另一方面也能對社會產生不良影響。如果在培養計算機專業人才時，缺少思政教育和正確價值觀引導，極有可能給社會和個人帶來危害。因此，在傳授相關技能和知識的同時，引入相應的思政內容極其必要。

在設計課程思政內容時，任課教師往往需要根據課程性質針對性進行設計。計算機課程屬于工學專業課程，在進行課程思政內容設計時，需要將馬克思主義方法和科學精神培養結合起來，提高學生正確認識問題、分析問題和解決問題的能力，同時還要強化學生的工程倫理教育，激發學生科技報國的家國情懷和使命擔當。在設計課程思政內容的過程中，經常需用到章節相關資料，包括相關的新聞、人物，或者相關課程的課程思政設計實例等。比如：一位計算機系統結構教師可能會想獲得一些有關神威·太湖之光的新聞，從而激發學生的自豪感，或者是一些華為被美國制裁的新聞，讓學生們認識到芯片技術對計算機乃至對中國科技發展的重要性。搜集資料這一過程十分耗時耗力，目前可供教師查閱素材的知識庫還很少，大多情況下需要從互聯網中自行查找、篩選和整合相關素材和參考資料，如果能有一個素材庫支撐課程思政內容設計，將為教師開展課程思政建設提供很大幫助。

素材庫可以基于不同種類的數據庫構建。知識圖譜作為一種有著良好多源異構數據整合能力的數據庫，是素材庫構建的較好選擇。知識圖譜是基于有向圖的數據結構，由節點和邊構成的語義網絡，也是以圖的形式表現客觀世界中的實體（概念）及其之間關系的知識庫，其概念于2012 年被Google 提出，之后為人工智能領域注入了新的活力。由于異質圖可以很好地對客觀世界中種類繁多的事物和關系建模，因此知識圖譜備受相關研究者的青睞，并且已經被用于支持諸如智能問答、搜索引擎等一系列知識驅動型的任務。目前，比較有代表性的知識圖譜包括Google 知識圖譜、YAGO、NELL、搜狗搜立方、百度知心，以及復旦大學開發的zhishi.me等。知識圖譜在特定領域也有其應用，比如以天眼查為代表的企業知識圖譜可以建模企業和企業、企業和人物之間的關系，醫藥知識圖譜可以建模藥品和病癥之間的關聯，諸如此類。鑒于此，本文提出一種基于知識圖譜的課程思政素材庫構建方案，并在此方案基礎上構建一個計算機課程思政素材庫。

1 相關研究

1.1 課程思政建設

近年來，國家對高等院校的思想政治建設越來越重視，并指出要將思政內容有機地融入課堂。同時，教育者逐漸認識到課程思政的重要性，相關研究與探索也層出不窮，從不同的維度對課程思政展開了思考與實踐。高德毅等從宏觀層面對課程思政內容進行解讀，闡明了高校課程思政建設理念和思路，以及思政內容在不同類型課程中的定位和作用。張大良闡述了課程思政在當今時代的重要作用和深遠意義，同時對課程思政建設提出了自己的見解。除宏觀層面外，教育者還針對各學科和課程，給出課程思政建設方案。文秋芳針對大學外語相關課程教學中的不同維度，給出一些關鍵策略和教學方法。代丹丹等針對Python 程序設計課程中的思政建設以及師范生的特點，采用不同的技術手段，將愛國主義教育、法制教育等思政內容融入課堂。

1.2 基于知識圖譜的素材庫構建

由于異構圖對知識的強大表示能力，知識圖譜已經成為素材庫構建的熱門方案之一，很多領域都在嘗試使用知識圖譜構建領域素材庫和知識庫。朱鵬等提出課程知識圖譜的構建方案，將課程中出現的概念、內容融入圖譜之中，并且實現了基于該素材庫的搜索應用。任東亮等提出抗疫相關的輿情知識圖譜構建方案，并基于此方案進行抗疫意見領袖熱點話題檢測與分析。韓普等提出醫療知識圖譜構建框架，并基于多種數據源構建出醫療知識圖譜。

通過上述分析可以看出，課程思政建設正在全面開展，但目前還缺乏可用的大型素材庫。知識圖譜技術在構建知識庫、素材庫及搜索引擎方面有著極大優勢，但尚無該技術與課程思政相結合的研究。本文創新性地提出基于知識圖譜的課程思政素材庫構建方案，并嘗試依照此方案構建出相應的素材庫，以進一步推動課程思政建設進程。

2 課程思政素材庫設計方案

本文所提出的素材庫構建方案包含應用層、計算層和存儲層3 個模塊，其中計算層中的爬蟲模塊需要與外部數據源進行對接。總體結構如圖1所示。

課程思政素材庫的數據源包括新聞網站、課程網站等，不同數據源的數據通常有著不同的形式和獲取方法，素材庫可以將各模塊整合，從而支撐其上層應用。

Fig.1 Structure of material database圖1 素材庫結構

計算層是素材庫架構的核心部分，包含數據收集、處理及信息抽取功能。同時，還可以充當應用層和存儲層數據交換的通道，負責應用層到存儲層再到應用層這一過程中的數據形式轉換和過程控制。

存儲層負責存儲數據，并為上層應用提供數據支撐。本文素材庫是基于知識圖譜結構而構建，因此選用圖數據庫以實現數據持久化。對于不適合放到圖數據庫的大型文本而言，可使用外部文件或外鏈的形式存儲數據。

應用層負責素材庫具體應用（比如搜索引擎）的實現，是最能直觀展現素材庫功能的部分。就課程思政素材庫而言，最常見的功能可能就是搜索引擎，教師可以通過搜索自己任教的課程以搜索與課程相關的素材和參考資料。除搜索引擎，圖譜可視化也可以作為應用層功能之一。

3 課程思政素材庫構建

3.1 本體設計

本體設計指數據庫中數據類型和數據關系的設計，在知識圖譜中表現為實體和關系類型的設計。由于課程思政知識圖譜的本體規模較小，因此可以依靠人工設計完成。本文構建素材庫本體結構如圖2所示。

Fig.2 Ontology of material database圖2 素材庫本體設計

本文素材庫主要包含7 種實體：課程、大章節、小章節、新聞、人物與企業、思政論文以及思政課程設計的例子。

課程是課程思政素材庫中的核心實體，無論是課程思政內容設計，還是學生上課時的思政教育，都是圍繞課程進行。課程通常有課程—大章節—小章節三級結構，因此從課程相應介紹中可以提取出課程的大章節和小章節。在設計課程思政內容時，課程是主題和核心，但思政內容與當堂課的大小章節相關，因此大小章節在素材庫本體設計中非常必要。

新聞、人物和企業實體是知識庫的主體，在知識庫的實體中占絕大部分比例。這些實體可以為思政教育提供素材，比如天河一號、神威·太湖之光相關新聞，姚期智的經歷和獲得圖靈獎的故事，美國制裁華為和字節跳動的事件，都可以作為課程思政的具體內容。

課程思政論文和課程思政設計是知識庫的補充，可以作為教師設計課程思政內容的指引和參考。二者的區別在于課程思政設計多為方法論，而思政論文更有助于加深教師對課程思政的理解。

素材庫還設計了實體間的關系。目前，素材庫中大致可以分為5 種關系：課程與課程之間的先修課關系、課程與思政論文/思政指引之間的關系、課程/大章節/小章節與新聞的關系、課程/大章節/小章節與人物和企業之間的關系，以及課程與大章節、大章節與小章節之間的關系。

3.2 信息獲取

信息獲取是對本體設計中各實體或關系類型的實例化，首先獲取各類實體，然后獲取實體間的各種關系。在本文素材庫中，其過程如圖3所示。

Fig.3 Construction process of curriculum ideology and policies knowledge graph圖3 課程思政知識圖譜構建流程

3.2.1 實體獲取方法

（1）課程實體獲取。從中國大學MOOC 網站按學科分類獲取200 多門計算機專業相關的課程及其相關信息。MOOC 上的課程由不同的學校開設，因此存在著重復現象，需要去重，方法分為兩種：手動篩選或文本聚類。手動篩選是人為地挑選出最合適的課程；文本聚類是使用課程的標題、簡介等信息進行課程信息聚類，先使用分詞工具進行分詞（比如python 的jieba 分詞庫），然后將詞語變成詞向量（比如使用one-hot 編碼或一些模型的預訓練向量），最后使用聚類算法（比如K-means算法）對課程進行聚類，最后從每個簇中選取一門合適的課程即可（比如選取課程名最短的課程，或者選取簇中所有課程名字符串的交集，等等）。前者效果更好，但是只適用于小規模的數據，由于中國大學MOOC 網站上的計算機相關課程總量不多，因此在實際構建素材庫時采用的是這種方法；依照課程文本聚類去重的方法效果稍次，但是可以擴展到大規模數據。去重后素材庫獲取了60 門不同的課程，獲取課程后，素材庫從每一門課程的課程目錄中抽取出了課程的大章節和小章節信息。雖然部分大章節和小章節的標題沒有實際意義（比如章節可能僅僅是“01”、“02”、“第n 講”之類的表示順序的標識），但是它可以表示出課程的結構，也有相應的價值，因此本文選擇了保留。大章節和小章節的獲取方法如下：由于每一門課程的大章節形式固定（比如“第n 講”、“第n 周”等），因此當首次匹配到大章節時，就可以通過正則匹配的方法確定這門課程大章節的形式，然后沿著課程目錄依次往下遍歷，遍歷到不同形式的文本便是小標題，反之則是大標題，從而確定大小標題以及它們之間的關系。

（2）素材獲取。從新華網、人民網、中國政府網等10余個網站上，通過HTML 解析等爬蟲技術獲取新聞數據。本文使用兩種方法獲取新聞素材：第一種方法是通過關鍵詞定向檢索新聞，比如以“人工智能”為關鍵詞在新聞網站上搜索，其結果必然大都與“人工智能”課程有關，進而可以收納到素材庫中，但是這種方法的缺點在于關鍵詞需要通過人工定義，工作量大；第二種方法是通過處理后的課程章節名稱進行搜索，比如說將小章節、大章節和課程名拼接，作為一次搜索的3 個關鍵詞進行搜索，其結果相對于第一種方法而言比較雜亂，只有小部分符合思政素材庫的要求。這主要由以下原因造成：在計算機相關課程中，專業知識居多，與現實事件相關的新聞很少，進而導致思政內容較少，比如C++課程中的“類”“模板”等幾乎沒有相關內容，但是這種方法可以保證素材覆蓋到絕大部分章節。獲取新聞時，可以先在第一次爬取的過程中將搜索結果中所有新聞的標題、鏈接等信息記錄下來，再在第二次爬取中獲取新聞具體內容。

（3）課程思政論文和設計實例獲取。從知網、新華思政網上獲取計算機課程的思政設計論文和實例，同樣可以基于HTML 解析和用戶操作模擬的爬蟲技術實現。從知網上獲取論文也可以用關鍵詞搜索的方法，由于論文大多都有其相應的關鍵詞，而且計算機相關思政論文的關鍵詞大多包含“計算機”“互聯網”等字樣，因此只用關鍵詞搜索便可以獲取到絕大部分論文內容，由于論文數量相比新聞而言更少，因此使用章節名稱拼接的方法很難搜索到論文。從新華思政網站上獲取思政內容設計則比較簡單，只需按照網站課程分類，選取計算機類課程以獲取即可。

（4）課程相關人物和企業數據獲取。從百度百科上獲取與課程相關的人物和企業信息，這些信息可以作為背景知識引入課堂。獲取方法有以下兩種：一是關鍵詞定向獲取，比如通過“圖靈獎”關鍵詞，獲取所有獲得過圖靈獎的科學家相關信息，其優點在于獲取的人物信息對課程思政素材庫有價值，但也有其缺點：人工定義關鍵詞費時費力，且網絡上缺少相關關鍵詞的信息或者相關人物數據庫，比如百度百科沒有收納“IEEE 計算機先驅獎”的名錄；二是通過課程名稱和章節獲取，與獲取新聞類似，可以通過課程、大章節和小章節的名稱在百度百科進行搜索。但與獲取新聞不同的是，搜索章節名獲取的通常是專業名詞、書籍等詞條，此時需要在相應詞條的作者、發明人等信息中獲取其姓名，然后在百度百科中二次搜索。這種做法的優點是獲取的人物和企業信息較多，而且能覆蓋的小章節更多，缺點是噪聲多，比如有些重復的人名會產生義項，在百度百科上搜索章節名可能并不會獲取到素材庫想要的信息。

3.2.2 關系抽取方法

（1）獲取實體后需進行關系的抽取。課程—大章節、大章節—小章節兩種關系在抽取實體時就可以直接構成聯系，在遍歷課程目錄時，將遍歷到的小章節與當前的大章節構成聯系即可。一些課程信息中包含了先修課程之間的文本信息，需要用命名實體識別（NER）技術抽取，然后與當前已有的課程對應并構成聯系。識別課程方法有以下兩種：①使用人工定義關鍵詞的方法在文本中抽取。這種方法準確率高，但是想要得到較高的召回率費時費力，只在小樣本數據集上可行；②使用深度學習的方法。由于素材庫的課程數據相對太少，因此可以選擇帶有預訓練模型的NER 模型以引入外部知識。在實際構建中，本文選取BERT+CRF 的NER 模型，采用關鍵詞定義的方法，先標定一部分數據，然后送入模型中進行訓練和識別。經統計，這種模型對課程名稱的識別可達到75%～80%的精確率和召回率，在小樣本的情況下可以接受。識別出文本中的課程名后，可以按照判斷識別出來的字符串與課程名稱之間相似度的方法進行實體鏈接，進而產生課程與課程之間的聯系。

（2）獲取課程、大章節和小章節與新聞實體之間的關系。上文提到兩種獲取新聞的方法：關鍵詞獲取和章節名稱獲取。其中，關鍵詞獲取的新聞可以通過字符串匹配和課程名稱、大章節和小章節的名稱匹配進行關聯，而根據章節名稱獲取的新聞則可以直接與關鍵詞中的實體進行關聯。

（3）課程與人物、企業之間的關聯。上文提到兩種獲取人物的方法：關鍵詞獲取和章節名稱獲取。其中，關鍵詞獲取的新聞可以通過字符串匹配與課程名稱、大章節和小章節的名稱匹配進行關聯，而根據章節名稱獲取的人物可以直接進行關聯。

（4）課程思政論文和實例。論文可以通過其關鍵詞中的課程建立聯系，實例則直接與其課程建立聯系即可。最終素材庫獲得的數據規模如表1所示。

4 素材庫內容分析

為了檢驗素材庫中思政素材的完整性，確保教師可以從知識庫中獲取相應的素材，本文針對大學計算機基礎課程，依照文獻［18］給出的課程思政設計方案測試庫中素材的覆蓋性。

Table 1 Scale of material database表1 素材庫規模

文獻［18］圍繞章節給出的方案大體如下：圍繞“數據在計算機中的表示”一節，引導學生進行哲學思維教育；圍繞“計算機硬件系統”引出美國制約華為事件，進而引出芯片技術的重要性，以激發學生的愛國意識；針對“計算機軟件系統”，引用習近平總書記有關于網絡強國的講話進行思政教育；圍繞“操作系統”，倪光南院士的話說明其重要性；針對“辦公軟件”一節，講述一些自主研發的辦公軟件以增強民族自豪感；圍繞“數據管理與信息處理”，講述國產軟件WPS 在該領域的發展；圍繞“計算機網絡”，講述網絡安全對國家安全的重要性；圍繞“多媒體技術基礎”，讓學生認識到融合媒體發展的重要性。

針對以上課程思政設計方案，本文素材庫可以提供以下素材作支撐。“數據在計算機中的表示”沒有提及素材；“計算機硬件系統”一節，素材庫可以提供“‘高通急了’，美國封殺華為‘害人害己’”、“華為芯片斷供‘卡脖子’倒逼攻堅”、“芯片斷供華為尋路‘滿天星光’”之類的華為、芯片、美方制裁相關新聞；“計算機軟件系統”一節，素材庫可以提供“向著網絡強國新時代昂首邁進”、“奮力譜寫網絡強國建設新篇章”、“青平：推進網絡強國建設，習總書記這樣說”等新聞和訪談；“操作系統”一節，素材庫中暫時沒有倪光南院士對操作系統重要性的評價，但有關于操作系統的其他新聞；“辦公軟件”一節，素材庫可以提供很多國產辦公軟件相關新聞，比如“頭條系內部辦公軟件在國內及海外分別上線，爭奪辦公場景”、“迎接1024 程序員節辦公軟件上線‘程序員友好’功能”等；“數據管理與信息處理”提及的WPS Office 在素材庫中暫時沒有相關新聞，但素材庫中有關于數據管理和信息處理的其他新聞；針對“計算機網絡”中提及的網絡安全，素材庫可以提供“加強網絡意識形態建設維護網絡政治生態安全”、“掌握新發展階段切實維護國家網絡安全的密鑰”等材料；針對“多媒體技術基礎”一節，素材庫可以提供“新基建浪潮奔涌，人工智能·多媒體信息識別技術大賽逐鹿廈門”、“遵義匯川區上海路街道多媒體消防教育新體驗”之類的新聞。

綜上，對于大部分思政內容，素材庫都可以提供相應的素材；對于少部分無法提供指定素材的思政設計，素材庫也可以提供相關素材。這說明本文所構建的素材庫有其合理性與覆蓋性。

5 結語

綜上所述，本文提出了一種基于知識圖譜的課程思政素材庫的構建方案，并基于該方案構建了面向大學計算機基礎課程的課程思政素材庫，從而驗證了方案的可行性與有效性。在本文所提出的方案中，已針對不同類型的數據分別設計了數據獲取、實體識別和關系抽取的方法，但尚未進一步完善搜索、問答等內容。由于基于知識圖譜構建搜索引擎及問答系統屬于領域常規操作，今后可遷移一套成熟方案繼續完善素材庫。此外，互聯網中的思政素材除文本數據，還有大量的圖片、視頻等數據。如何將這些信息進一步融入圖譜，設計并完成多模態知識圖譜，構建全方位的課程思政素材知識庫，則是后續研究的重點。