劉 爽,孟佳娜,于玉海,楊 輝,李佳宜
(大連民族大學 計算機科學與工程學院,遼寧 大連 116650)
黨的十八大以來,習近平總書記對鑄牢中華民族共同體意識做出了一系列重要論述。在2019年9月召開的全國民族團結進步表彰大會上[1],習近平總書記要求“以鑄牢中華民族共同體意識為主線,把民族團結進步事業作為基礎性事業抓緊抓好”。隨著互聯網的蓬勃發展以及知識的爆炸式增長,虛擬空間與現實世界深度融合,網絡空間已成為廣大人民群眾生活的一個重要組成部分。面對數字化、互動性、個性化的新媒體時代,鑄牢中華民族共同體意識不僅應該涵蓋物理空間,還應涵蓋虛擬化的網絡空間。要鑄牢網絡空間的中華民族共同體意識,必須發揮大數據挖掘、云計算、知識圖譜技術的優勢,整合網絡資源,豐富中華民族文化互聯網傳播內涵,滿足公眾文化需求,實現價值引領、文化傳承,繁榮社會主義文化建設事業,培育中華民族認同感,為鑄牢網絡空間的中華民族共同體意識提供支持。
網絡空間作為廣大人民群眾賴以生存的第五空間,其在鑄牢中華民族共同體意識中發揮著不可替代的重要作用,現從以下三點加以闡述。
中國自古以來就是一個多民族國家,各族人民密切交往、相互依存、休戚與共,形成了中華民族“多元一體”的格局,共同推動了國家發展和社會進步。在網民規模達8.54億,互聯網普及率達61.2%,手機網民規模達8.47億,移動互聯網接入流量達553.9億GB的新情況[2]下,必須鞏固和強化網絡空間的中華民族共同體意識教育。特別是青年一代不僅是國家的未來,也是網民的主力軍,必須加強青少年獲取的網絡信息的導向性教育作用,加大價值認同、文化認同、網絡引領、國家認同、政治認同、民族認同、文化自信的互聯網資源供給,貫穿網絡空間中華民族共同體意識教育全過程,實現網絡空間的中華民族共同體意識培育的引領作用。依托統一的開放式、交互式、多層級的大數據采集處理云平臺,采用“云+端”的解決方案,全方位監測網絡傳播大數據,滿足民眾個性化、碎片化文化需求,實現網絡文化傳播的價值引領、文化傳承、實踐教育等多重功效。
2016年7月1日,習近平總書記在慶祝中國共產黨成立95周年大會上的講話[3]時指出:“文化自信,是更基礎、更廣泛、更深厚的自信。在5000多年文明發展中孕育的中華優秀傳統文化,在黨和人民偉大斗爭中孕育的革命文化和社會主義先進文化,積淀著中華民族最深層的精神追求,代表著中華民族獨特的精神標識。我們要弘揚社會主義核心價值觀,弘揚以愛國主義為核心的民族精神和以改革創新為核心的時代精神,不斷增強全黨全國各族人民的精神力量。”網絡空間是意識形態斗爭的重要陣地[4],要在對中華民族共同體意識科學分析和智慧傳播的基礎上建設和鑄牢意識形態的網絡陣地,強化廣大民眾的民族歸屬感,培育政治認同感,強化黨的領導和政治引領功效,增強社會主義主流意識形態的網絡凝聚力。在網絡文化傳播過程中要牢固樹立以中華文化為底蘊的網絡文化意識,提升中國網絡文化的影響力,豐富網絡文化傳播內涵,增強文化創新力,增強文化傳播吸引力,增強社會主義核心價值觀、中華民族認同感、歸屬感的凝聚力,為我國網絡文化傳播提供強有力的智力支持,實現當代中國更加堅定的文化自信。
關于網絡空間,習近平總書記強調網絡治理要交流、合作、共贏[5],他指出:“網絡空間是億萬民眾共同的精神家園。網絡空間天朗氣清、生態良好,符合人民利益。網絡空間烏煙瘴氣、生態惡化,不符合人民利益。”在網絡空間、互聯網信息傳播過程中引發的反動思潮影響、民族分裂言論、危害國家、民族安全、國家利益的言論、行為必須采取有效的治理措施,確保網絡輿論的正確性、導向性,打造綠色網絡空間。可以采用多學科融合的思路[6],引入大數據、深度學習神經網絡的最新技術進行網絡文化傳播大數據分析,實現分析的精準性、實時性,分析識別涉及分裂活動、恐怖主義、反華、散布謠言、攻擊政府等非正常文化傳播文字、圖片、視頻信息,及時發現及時預警,采取有效治理措施,保證網絡輿論的正確引導。構建以社會主義核心價值觀、文化自信、國家認同、政治認同、民族認同為主流的中國特色社會主義網絡文化,鞏固和強化民族認同感,深入挖掘鑄牢中華民族共同體意識的時代內涵和發展空間,鑄牢網絡空間的中華民族共同體意識。
建立在社會主義文化基礎上的文化自信與中華民族共同體意識,是中國各民族共同創造的精神財富。中國民族地區和少數民族的文化資源,不僅是中華文化的瑰寶,也是世界文化藝術的瑰寶。借助互聯網大數據技術,充分利用互聯網中優秀的民族文化、民族團結等數字化資源,建立基于互聯網傳播的中華民族文化數字化資源知識圖譜,在此基礎上采用融合語義相似度的協同過濾推薦算法實現數字化資源的智能搜索和精準推送,強化民族歸屬感、文化認同感、政治認同感、共筑網絡智慧家園。
為了傳播和弘揚中華少數民族文化,本文采用如下流程構建了中華民族文化知識圖譜。
(1) 基于Hadoop的互聯網大數據采集。基于Hadoop集群環境的數據采集系統,利用分布式網絡爬蟲進行數據抓取,以HDFS作為底層存儲系統,在其上構建基于HBase的分布式數據庫對數據進行統一存儲管理。然后根據采集的數據,通過檢索的形式分類數據,進行一個深層次的數據分析工作。總體分為底層、中層、上層三個層次,其中底層計算引擎提供海量數據存儲和高速計算能力;中層大數據工作臺為數據資產的開發、管理、挖掘、服務化提供工具;上層應用通過各種形式發揮數據的價值。采用Hadoop實現對BMO域數據的全面接入、融合、處理及統一建模,并引入爬蟲、流計算等技術實現對互聯網數據的處理和實時業務支撐。該系統分為五層架構,分別是數據源層、數據獲取域、數據域、數據應用域、數據管理域。
(2) 中華民族文化數字化大數據知識圖譜搭建。根據民族領域的規則和定義對要構建的知識圖譜進行設計。再經過數據獲取、數據處理后,使用基于深度學習的命名實體識別方法將部分結構化數據進行知識抽取,刪除重復數據后獲得實體和關系。經過知識融合,將數據導入Neo4j圖數據庫中,構建出包含多個實體的少數民族藝術資源數字化知識圖譜。
知識圖譜構建主要包括知識建模,知識抽取、知識融合、知識存儲四部分[7]。其中知識建模指少數民族藝術資源數字化知識圖譜的結構設計,包括實體定義、關系定義、屬性定義及事件定義等等。知識抽取指原始數據的獲取和數據處理。其數據類型主要包括結構化/半結構化/非結構化數據。對半結構化數據采用爬蟲技術+包裝器+正則表達式。對非結構化數據采用命名實體識別、關系抽取等方法。知識融合分為模式層的融合以及數據層的融合,模式層的融合指概念、概念的上下位、概念的屬性這些統一;數據層的融合是將不同數據來源的相同實體的不同表達形式進行融合,采用實體對齊、指代消解等實現實體的合并、實體屬性與關系的合并等。知識存儲中使用Neo4j圖數據庫進行數據存儲。
具體實現細節為:經上一步大數據采集的數據包括結構化數據、半結構化數據和非結構化數據。針對不同的數據采取不用的方式進行處理,針對結構化數據,通常是關系型數據庫的數據,數據結構清晰,把關系型數據庫中的數據轉換為RDF數據;針對半結構化數據,主要是指那些具有一定的數據結構,但需要進一步提取整理的數據。比如百科的數據,網頁中的數據等,可以使用正則表達式的方式寫出XPath和CSS選擇器表達式來提取網頁中的元素;針對非結構化的數據(例如網頁中的文本數據),需要抽取的知識包括實體、關系、屬性。對獲取的數據進行處理。數據清洗主要包括去停用詞、去網頁標簽、清理無效值和缺失值以及分詞等操作。對于非結構化數據,清洗完成后需要對數據進行標注以方便下一步中進行實體識別和關系抽取操作。將爬取的網頁中信息框內格式為“屬性-屬性值”的半結構化數據處理成構建知識圖譜所需要的“實體-關系-實體”或“實體-屬性-屬性值”這樣的三元組形式。將得到的實體關系三元組數據進行存儲,這里采用Neo4j圖數據庫存儲中華民族文化數據三元組。采用前端技術HTML/CSS/JavaScript和 Django web框架將知識圖譜進行可視化展示,并結合圖查詢語言實現智能搜索功能。
(3) 智能問答系統構建。在問答系統中融合基于雙向長短時記憶循環神經網絡+條件隨機場的命名實體識別技術、關系檢測技術、短文本分類技術,并采用基于字-詞編碼的問句實體識別方法,提高實體邊界的預測率,提高實體檢測率;在問句分類中,選用TextCNN與注意力機制Attention相結合算法來提高分類的準確率。這里采用一種在問句分類模型中融入知識圖譜中實體和關系的三元組信息的分類方法,分為四個模塊。第一個模塊是問句實體識別,采用基于字詞編碼的Bi-LSTM+CRF神經網絡模型實現;第二個模塊是圖譜映射與相似度計算,包括將問句中識別的實體映射到知識圖譜中,再利用余弦相似度和DP編輯距離兩個指標來篩選與問句匹配較高的三元組;第三個模塊是問句分類,使用TextCNN將問句意圖與知識庫關系進行映射,同時在輸入層和卷積層之間加入attention層有效解決提取信息時忽略非連續詞間的相關性問題;第四個模塊是構建答案,根據模塊三得到的問句類型結合模塊一識別出的實體,生成Cypher語句在圖數據庫中查詢答案。
本文根據民族知識的特點、已構建的中華文化民族知識圖譜內容和用戶習慣提問的問題,自定義了29類問題模板,并且根據不同的提問方式和不同的查詢目標構造了一個含有5 000條樣本數據的自然語言問句數據集。其中70%數據作為為訓練集,30%數據作為測試集。實驗過程中為了證明本文采用的TextCNN-Attention分類器的有效性,將其與MultinomialNB和textcnn兩種方法進行了實驗結果對比。評價指標采用查準率、查全率和F1值,結果分析見表1。

表1 模型結果分析 /%
從實驗結果數據可知,采用TextCNN-Attention分類器的問答結果查準率、查全率和F1值均高于其它兩種方法。
Hadoop平臺采集的大數據經分析、處理之后,把復雜的多模態信息通過計算處理成計算機能夠結構化表示的知識,所表示的知識采用Neo4j圖數據庫進行數據存儲,可以通過編程繪制展現給用戶,為網絡空間海量知識提供有效組織、管理和理解的技術手段,為快速信息檢索提供便利。實驗中使用的數據來源于百度百科和民族網,經過大數據采集處理后,得到19類實體,分別是:民族名稱、別稱、人口數、分布地區、民族屬性、語言、語族、語系、文字、信仰、節日、建筑、文學、醫學、音樂、舞蹈、工藝美術、飲食、圖騰、民族人物、民族風景、民族禁忌、民族簡介。基于雙向長短時記憶網絡-條件隨機概率的命名實體識別方法識別出實體節點6 712個,關系10 740個。
已搭建的中華民族文化知識圖譜部分節點可視化效果如圖1。
利用知識圖譜可視化結果可以進行民族文化互聯網傳播大數據分析。檢索系統主要包括實體查詢、實體可視化展示、實體百科類檢索查詢等功能。讓用戶能更加便捷、輕松的獲得到所需數據,并采用圖文并茂、音頻、圖像、視頻、影像多種方式的直觀可視化結果返回給用戶。基于知識圖譜的智能搜索結果如圖2。
創新實踐路徑,采用多學科融合的方式,多學科聯動,協同推進,協同創新,多學科聚力網絡空間鑄牢中華民族共同意識。以網絡空間的鑄牢中華民族共同意識為核心,實現思想政治教育、計算機學科、新興交叉學科多學科融合,兼具學理性和實踐性,各學科在加強、深化鑄牢中華民族共同體意識建設中相互借鑒,在交叉融合中守正創新;深入挖掘鑄牢中華民族共同體意識的時代內涵和發展空間,避免單一學科的局限性。
從網絡空間的中華民族共同體意識多模態數據出發,充分利用大數據深度學習技術,實現海量數據的分析和處理,較好地解決數據稀疏問題,建立跨模態的中華民族共同體意識分析模型,構建中華民族共同體意識垂直領域知識圖譜,發揮示范性引領作用,實現靶向聚焦精準,按需提供資源,堅定文化自信,建設和鞏固意識形態斗爭的網絡陣地,營造健康的網絡空間,強化網絡空間的中華民族共同體意識,共筑網絡智慧家園,為鑄牢中華民族共同體意識提供支持。