劉爽 陳鵬 孟佳娜



摘? 要: 構建社會主義核心價值觀垂直領域知識圖譜,鑄牢網絡空間的中華民族共同意識,實現思想政治教育、計算機學科、新興交叉學科多學科融合。知識圖譜構建包括知識建模,知識抽取、知識融合、知識存儲四部分。。構建完成的知識圖譜有助于增強網絡空間中華民族共同體意識傳播的智力支持,豐富網絡傳播內涵,提升中華民族的凝聚力和向心力。
關鍵詞: 網絡空間; 中華民族共同體意識; 知識圖譜; 社會主義核心價值觀
中圖分類號:G642? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)02-105-04
Abstract: Constructing the vertical domain knowledge graph of the socialist core values, forges a strong sense of Chinese national community in cyberspace to realize the multi-discipline integration of ideological and political education, computer discipline and emerging interdisciplinary. The construction of knowledge graph includes knowledge modeling, knowledge extraction, knowledge fusion and knowledge storage. The knowledge graph is helpful to enhance the intellectual support of the spread of the sense of Chinese national community in cyberspace, enrich the connotation of network communication, and enhance the cohesion and centripetal force of the Chinese nation.
Key words: cyberspace; the sense of Chinese national community; knowledge graph; socialist core values
0 引言
黨的十八大在總結改革開放四十年的成功經驗和豐碩成果,以及展望未來社會主義建設宏圖的基礎上,高瞻遠矚地運用馬克思主義的歷史唯物觀提出了社會主義核心價值觀[1]。社會主義核心價值觀以“富強、民主、文明、和諧”為價值目標,以“自由、平等、公正、法治”為價值取向,以“愛國、敬業、誠信、友善”為價值準則,這三者相互聯系、相互貫通,將政治理想、社會導向、個人行為有機地統一在一起,實現了國家、社會、個人三方主體在價值目標上的統一,集中體現了國家、社會、個人三個不同層次的愿望與訴求[2]。
社會主義核心價值觀是對中華優秀傳統文化的繼承和升華,它把涉及國家、社會、公民的價值要求融為一體,賦予中華優秀傳統文化以新的時代內涵。
中華民族作為具有數千年歷史的文明古國,雖然歷經千百年的滄桑卻生機勃勃,一個不可忽視的重要因素就是中華文化的世代傳承、源遠流長。作為一個多民族國家,各民族能共享福祉、榮辱與共,一個不可忽視的重要因素是我們擁有中華文化帶給我們的精神歸根的家園,以及由此而來的強烈文化認同感和價值觀認同[3]。正如習近平總書記所指出:“我們生而為中國人,最根本的是我們有中國人的獨特精神世界,有百姓日用而不覺的價值觀。我們提倡的社會主義核心價值觀,就充分體現了對中華優秀傳統文化的傳承和升華”[4]。
隨著國家政策的導向和信息的傳播,人們越來越意識到社會主義核心價值觀的重要性。截至2019年6月,我國網民規模達8.54億,較2018年底增長2598萬,互聯網普及率達61.2%,較2018年底提升1.6個百分點;我國手機網民規模達8.47億,較2018年底增長2984萬,網民使用手機上網的比例達99.1%,較2018年底提升0.5個百分點[5]。移動互聯網接入流量消費達553.9億GB,同比增長107.3%。由上述數據可知,互聯網正以爆炸式的方式迅猛發展?;ヂ摼W上的社會主義核心價值觀數據大部分以網頁或文檔形式存在。用戶在預覽和搜索相關知識時,會比較耗時耗力,而且搜索結果不具有直觀性。針對這一需求,開發實現了一款社會主義核心價值觀知識圖譜可視化系統,借助自然語言處理技術和深度學習前沿技術對這些海量數據進行分析處理和結構化整理,利用知識圖譜技術得到科學可視化結果和智能搜索功能,實現網絡空間的社會主義核心價值觀培育的引領作用,鑄牢網絡空間的中華民族共同體意識建設。
1 社會主義核心價值觀知識圖譜構建流程
本文開發實現的社會主義核心價值觀知識圖譜可視化系統構建流程如圖1所示。該系統可以滿足如下兩種需求:一是能夠以知識圖譜的形式存儲和表現社會主義核心價值觀的相關知識,將數據與數據之間建立起聯系,提高檢索效率;二是能夠以直觀,簡潔的形式將知識圖譜進行可視化展示,并實現智能搜索,為用戶獲取知識提供了便利,提高了用戶體驗。
2 技術實現細節
社會主義核心價值觀知識圖譜可視化系統,以構建社會主義核心價值觀知識體系為目的,主要實現知識圖譜的構建、知識可視化展示功能。利用了知識圖譜的結構化存儲特點,將一些分布在各個網站中的社會主義核心價值觀相關知識進行整理和融合,方便用戶進行查找和使用。
知識圖譜的結構以三元組的形式為主,即(實體,關系,實體)和(實體,屬性,值)。知識圖譜構建方式包括自頂向下與自底向上兩種流程[6]。自頂向下的構建方式是基于對構建領域相關知識的深入了解,借助于百科類網站等結構化資源信息,劃分知識的類別與范疇,以知識之間的邏輯關系與層級結構為框架,從點到面、從中心到外圍,將實體進行手動鏈接;而自底向上的構建方式是借助相關的知識抽取技術,從公開規范或專業領域的數據集中提取信息資源,挖掘其中蘊含的實體與關系,選擇可靠性強、相關度高的填充到知識庫,從而實現圖譜構建。本系統最終采用自底向上的構建方式。知識圖譜構建流程涉及知識建模,知識抽取、知識融合、知識存儲四部分。
1.1 知識建模
知識建模又叫業務建模,是根據社會主義核心價值觀的一些規則和定義,對要構建的知識圖譜進行設計,主要包括實體定義、關系定義、屬性定義及事件定義等。設計社會主義核心價值觀知識圖譜是構建應用過程中最重要的一步。根據其相關知識的特點,從百科類網站、人民網、中國文明網等相關網站經過信息對比,分析后,確定社會主義核心價值觀知識涉及的領域,將其規劃統一,確定知識圖譜中的實體類別,實體屬性和實體關系。初步設定該圖譜以“社會主義核心價值觀”為中心實體節點,“富強”、“民主”、“文明”、“和諧”、“自由”、“平等”、“公正”、“法治”、“愛國”、“敬業”、“誠信”、“友善”為一級實體節點。
圖譜中其余包含的實體類別如表1所示。
每個實體類別包含多個實體,部分實體包含一些特定屬性,如富強的簡介會當作富強這一實體節點的屬性。根據實體類別之間的聯系創建關系,如“愛國”和政策之間可創建三元組(愛國,相關政策,《新時代愛國主義教育實施綱要》)。
1.2 知識建模
原始數據主要來源為百度百科、某些相關新聞網站。其數據類型主要包括結構化數據、半結構化數據,非結構化數據。對于半結構化數據大都采用爬蟲技術+包裝器+正則表達式。對于非結構化數據主要采用命名實體識別技術,關系抽取方法以及相關自然語言處理工具。對于部分非結構化數據,本系統使用命名實體識別技術進行實體抽取。命名實體識別本質上可以看作是一種序列標注問題,其實現的中心思想是根據輸入的句子,預測出其標注序列的過程。經過調查后,本系統選擇了采用BIO標注和基于字符嵌入的Bi-LSTM+CRF神經網絡實體識別模型。BIO標注又稱為三位標注。它的基本形式為B-begin,I-inside,O-outside。B-begin 代表一個實體的開頭,I-inside代表這個實體的結尾,O則代表不屬于任何類型。
Bi-LSTM+CRF神經網絡實體識別模型主要包括Bi-LSTM模塊和CRF模塊。主要實現過程為使用預訓練字向量,作為embedding層輸入,然后經過雙向LSTM層進行編碼,編碼后加入dense層,最后送入CRF層進行序列標注。
Bi-LSTM是Bi-directional Long Short-Term Memory的縮寫,是由前向LSTM與后向LSTM組合而成[7]。長短時記憶模型的優勢在于保留了RNN處理序列模型的特點,其特有的門結構也在一定程度解決了梯度爆炸和梯度消失的問題。前向的LSTM與后向的LSTM結合成Bi-LSTM。Bi-LSTM模型在保留其優點的同時,通過分別訓練前后向序列兼顧了上下文信息,可以更好的提取深層次的語義信息。
1.3 知識融合
知識融合又分為模式層的融合以及數據層的融合,模式層的融合主要包括概念、概念的上下位、概念的屬性這些統一;數據層的融合主要是將不同數據來源的數據的相同實體的不同表達形式進行融合,包括實體的合并、實體屬性與關系的合并等。這一步工作涉及的技術有實體對齊、指代消解等。
1.4 知識存儲
根據業務的特點和需求,以及數據的規模選擇合適的存儲方式。目前市面上的知識圖譜,按存儲形式劃分可以分為兩類。一種是使用以RDF為存儲結構的知識圖譜;另一種是使用圖數據庫的知識圖譜。這里選擇使用Neo4j圖數據庫進行數據存儲。
將經過數據預處理和知識融合后的數據,導入到圖數據庫Neo4j中,根據知識建模中的設計原則創建實體節點和節點關系。本文選擇 Cypher語句構建初始的知識庫。
1.5 智能搜索
智能搜索是從海量的信息源中通過約束條件和額外信息運用算法找到問題所對應的答案。在本系統中,實現智能搜索的主要步驟為:首先使用自然語言處理技術對用戶輸入的句子進行解析,根據分詞,詞性標注等方法識別出句子中的實體;然后使用關系抽取模型Attention+Bi-LSTM,進行句子中的關系檢測操作;最后將前兩步獲取到的結果即實體和關系相結合,使用cypher語言到知識圖譜中進行檢索,并將檢索到的結果返回給用戶。
2 可視化設計及結果
系統通過Django框架來連接前后端。Django框架[8]的核心包括一個輕量級的Web服務器,用于接受HTTP請求,一個基于正則表達式的URL分發器,一個數據庫模型用于建立數據模型與數據庫相映射,一個視圖系統用于處理請求,以及一個模版系統。本系統使用Django框架實現前后端的交互頁面。對于知識查詢功能主要采用實體查詢,即通過對用戶輸入的實體名稱在圖數據庫Neo4j 中檢索,返回結果為相應節點以及其一級關系節點圖,并通過 D3.js 將數據渲染成導向圖進行可視化展示。除單個實體查詢功能外,本系統提供知識圖譜全局顯示的功能,即可展示所構建的社會主義核心價值觀知識圖譜全貌。圖2是部分圖譜可視化效果,圖中每個節點代表一個對象,節點之間的連線代表對象之間的關系。
3 結束語
本文從網絡空間的中華民族共同體意識多模態數據出發,構建社會主義核心價值觀垂直領域知識圖譜。這有助于占領和鞏固意識形態斗爭的網絡陣地,強化網絡空間的中華民族共同體意識,強化文化認同感、政治認同感、共筑網絡智慧家園,為網絡空間的中華民族共同體意識鑄牢提供智力支持。
參考文獻(References):
[1] 中國共產黨新聞網.http://theory.people.com.cn/n1/2017/0906/c413700-29519535.html[EB/OL].last accessed 2020/07/10.
[2] 魏波.論社會主義核心價值觀三個層面之間的關系[J].理論探討,2015.3:26-30
[3] 中國共產黨新聞網.http://theory.people.com.cn/n/2014/1007/c40531-25782571.html[EB/OL].last accessed 2020/07/10.
[4] 中國共產黨新聞網.http://theory.people.com.cn/n1/2017/0609/c40531-29328920.html[EB/OL].last accessed 2020/07/10.
[5] 第44次《中國互聯網絡發展狀況統計報告》發布, http://www.cac.gov.cn/gzzt/ztzl/yjzt/wlcbzz/jiuy/ts/webinfo/2020/05/1590838527373652.htm[EB/OL].訪問時間2020/05/20.
[6] 知識圖譜的構建方法.https://www.cnblogs.com/coodream2009/p/10213819.html,訪問時間2020/05/20.
[7] Wang Y, Chen Q, Ding M, et al.: High Precision Dimensional Measurement with Convolutional Neural Network and Bi-Directional Long Short-Term Memory (LSTM)[J].Sensors, 2019.19(23):5302
[8] 白相辰.基于Django框架的Web在線教育平臺的設計與實現[D].北京交通大學,2019.