999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的詩人行走足跡圖

2020-12-23 07:16:49牛文鈺許若柯李揚陽繆學聰高晨田英愛
科學導報·學術 2020年48期
關鍵詞:數據挖掘

牛文鈺 許若柯 李揚陽 繆學聰 高晨 田英愛

摘? 要:歷史上某位詩人所處的位置可能隨著時間因素,因其經歷而發生變化,因此從詩人對應的經歷數據中,抽取任務、地點、時間和事件等屬性類,將其軌跡動態映射到地圖上。

關鍵詞:詩詞;知識圖譜;數據挖掘;足跡圖

第一章 概述

1.1研究背景:

詩詞作為中華民族文化的瑰寶,在歷史長河中閃爍著熠熠光輝。然而,現代對中華詩詞精通的人卻特別少,學習中華古典文化需要付出相當大的精力,這在時間方面不利于我們學習與傳承中華文化歷史。

1.2 項目意義:

本課題希望通過對中華詩詞的分析,按照時間、地點等脈絡以及人物關系,結合歷史背景,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力。

1.3 項目方案:

課題主要工作包括:中華詩詞的文本數據采集、標注技術研究、作者和詩詞內容關聯分析等主要工作,同時基于此研究,將其應用于生成詩人的行走足跡圖。

本項目從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。之后,將采集到的信息進行處理,并通過neo4j以圖數據庫的形式存儲數據,之后借由圖數據庫達到生成詩詞相關信息——詩人的行走足跡圖的目的。

第二章 數據技術相關介紹

2.1數據收集

從“古詩文網”上抓取作者及詩詞信息,并采集網頁上已有的中國歷史上所有詩詞曲的基本信息。

在本次項目中使用的是基于python語言的CrawlSpider爬蟲框架,通過分析網頁的頁面編排模式,獲取所需詩歌的內容。

屬性確定:本次項目所需的數據包括詩歌的標題、詩人、朝代、內容、注釋、賞析。

2.2數據清洗

初步獲取到的數據大致存在以下問題:

2.2.1對應屬性值為空

某些詩歌可能存在詩人不明,朝代空缺,沒有注釋與賞析的情況。

處理方案:將原本網頁中缺失的數據自動補齊,向其中填寫“無”。

2.2.2雜項數據

從html上獲取的文本信息,可能含有大量無意義的換行符,以及混在正常數據中的UI界面文本。

處理方案:分析雜項數據的內容,對其進行替換。

2.2.3指代消解問題

數據中包含一些指代相同的詞語,如“唐朝”和“唐代”,兩個詞本身意義相同,為了消除指代消解問題,這里統一將“代”改為“朝”。

2.2.4作者不詳,年代不詳的詩歌處理

數據中具有作者為佚名、年代不詳的詩歌,將其單獨清洗成一個json文件。

2.3數據挖掘(分詞+建立三元組)

首先,我們對對每首詩中的賞析部分進行分詞,文本后的符號代表該詞的詞性。

之后我們建立不同的三元組——詩與詩人、詩與地點、詩與詩、詩與詩人、詩與年代,以及對文本內容補充抽取關系,從而便于知識圖譜的建立。

2.4數據可視化(建立知識圖譜)

將所有三元關系集合起來存放到一個表中,建立知識圖譜可視化。

2.5環境搭建

在虛擬機/本機上裝好Windows系統,在Windows上安裝必要的python環境,配置好Neo4j。

第三章 分析方法總結及結果展示

3.1 詩歌數據處理

為了實現詩人行走足跡圖的生成,對爬蟲方式收集的數據進行清洗,將清洗后的數據按每個詩人名作的相關數據從原本的詩詞數據庫中提取出來,并且按照其創作時間排序。

3.2基于詩歌數據知識圖譜生成詩人行走足跡圖

得到數據之后,利用python的畫圖工具,如pyecharts來實現足跡圖的生成。

將表格中的數據格式化后,按照時間創建時間軸對象后,按照每條數據的元組數據生成足跡圖。

圖例中圖標信息:

白色點:詩人去過的地方

紅色點:當前時間點詩人所在地

箭頭:詩人從某地移動到目的地

附地圖生成代碼數據讀取和足跡圖生成部分:

poet_name = "杜甫"

dataset = pd.read_csv('dataset_'+ poet_name +'.csv')

data=np.array(dataset).tolist(? )

timeline.render('active_map_'+ poet_name + '.html')

依照該部分代碼,將表格數據文件以dataset_詩人名.csv的格式讀取時,可以實現生成每個詩人的行走足跡圖。

第四章 總結概括

4.1項目總結

系統的分析方法可以有效地挖掘出詩詞數據背后所蘊含的價值,提取出詩詞間的關聯關系,并通過可視化的技術展現出來,輔助我們學習詩詞,同時也為中華文化的傳承做出努力,為社會提供更多的價值。

4.2結束語

本文論述了知識圖譜技術在詩詞數據的部分前景,歷史上某位詩人所處的位置可能隨著時間因素,因其不同的經歷而發生變化,因此從詩人對應的經歷數據中,抽取地點、時間等屬性類,將其軌跡動態映射到地圖上。在分析數據的同時挖掘出隱藏在數據背后的價值,以便大家更好地學習詩詞。

參考文獻

[1]? 王紅 張青青 蔡偉偉 姜洋.基于Neo4j的領域本體存儲方法研究[J].計算機應用研究.2017,34(08):2404-2407.

[2]? 周莉娜 洪亮 高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作.2019,63(02):24-33.

[3]? 劉嶠 李楊 段宏 劉瑤 秦志光.知識圖譜構建技術綜述[J].計算機研究與發展.2016,53(03):582-600.

基金項目:由北京信息科技大學2020年大學生創新創業訓練計劃項目資助(5102010805)。

This work is supported by 2020?College Student Innovation and Entrepreneurship Training Program of BISTU(5102010805)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 中国丰满人妻无码束缚啪啪| 在线观看国产精品一区| 免费网站成人亚洲| 亚洲欧美精品日韩欧美| 欧美三級片黃色三級片黃色1| 日韩国产黄色网站| 精品无码一区二区在线观看| 国产玖玖玖精品视频| 秋霞午夜国产精品成人片| 2022国产无码在线| 无码电影在线观看| 台湾AV国片精品女同性| 91丝袜乱伦| 国产精品视频第一专区| 欧美日韩北条麻妃一区二区| 熟妇人妻无乱码中文字幕真矢织江| 日韩不卡高清视频| 中文国产成人精品久久| 国产成人a毛片在线| 国产日韩欧美精品区性色| 国产在线麻豆波多野结衣| 久久香蕉国产线| 国产欧美日韩va另类在线播放| 国产女人水多毛片18| 久青草免费视频| 精品国产美女福到在线不卡f| 狂欢视频在线观看不卡| 热久久综合这里只有精品电影| 午夜啪啪网| 色综合婷婷| 国产后式a一视频| 97青草最新免费精品视频| 免费一级无码在线网站 | 毛片一区二区在线看| 成人在线综合| 欧美在线视频不卡第一页| 老司国产精品视频| 少妇人妻无码首页| 精品三级在线| 露脸国产精品自产在线播| 亚洲国产日韩视频观看| 中文字幕有乳无码| 色综合久久久久8天国| 亚洲一区二区在线无码| 国产精品自在线天天看片| 亚洲美女一级毛片| 无码国内精品人妻少妇蜜桃视频| 国产成年无码AⅤ片在线| 国产黄色片在线看| 国产成人高清精品免费| 中文字幕第4页| 国产色网站| A级毛片无码久久精品免费| 国产欧美亚洲精品第3页在线| 免费看a毛片| 亚洲另类国产欧美一区二区| 免费国产不卡午夜福在线观看| 亚洲成A人V欧美综合| 91美女视频在线| 国产成人亚洲无吗淙合青草| 在线日韩日本国产亚洲| 亚洲精品卡2卡3卡4卡5卡区| 久久亚洲美女精品国产精品| 婷婷色中文| 久久精品66| 亚洲精品少妇熟女| 欧美成人一级| 精品成人一区二区三区电影| 亚洲精品视频在线观看视频| 三上悠亚在线精品二区| 久久精品视频一| 99久视频| 亚洲色图欧美在线| 日本日韩欧美| 亚洲精品在线观看91| 国产主播福利在线观看| 91精品国产无线乱码在线| 亚洲福利视频网址| 无码av免费不卡在线观看| 欧美亚洲国产一区| 久久无码av三级| 国产欧美自拍视频|