999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古文識別平臺的設計與實現(xiàn)

2020-08-17 09:24:23馮力方吳蘆婷劉敏王穎高榮
現(xiàn)代信息科技 2020年9期
關鍵詞:深度學習

馮力方 吳蘆婷 劉敏 王穎 高榮

摘? 要:為推動古文數(shù)字化,促進古文資源共享,需要借助現(xiàn)代技術進行古文識別的工作,但現(xiàn)階段能提供古文識別功能的平臺非常匱乏,并且這些平臺能實現(xiàn)的功能有限,不能從根本上解決古文識別難、不準確、傳播難等問題。針對這些情況設計了古文識別系統(tǒng),該系統(tǒng)為用戶提供古文資料識別和用戶資源共享兩種主要功能,能夠有效滿足古文研究工作者和古文愛好者的需求,也能夠對古文資源進行有效保護和利用。

關鍵詞:古文識別;深度學習;系統(tǒng)設計

中圖分類號:TP391? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)09-0079-03

Design and Implementation of Ancient Prose Recognition Platform

FENG Lifang,WU Luting,LIU Min,WANG Ying,GAO Rong

(School of Information and Statistics,Guangxi University of Finance and Economics,Nanning? 530003,China)

Abstract:In order to promote the digitization of ancient scripts and promote the sharing of ancient scripture resources,it is necessary to use modern technology to perform ancient script recognition. However,at this stage,platforms that provide ancient script recognition capabilities are very scarce,and the functions that these platforms can achieve are limited and cannot be fundamentally solved difficulties in identifying,inaccurate and difficult to disseminate in ancient texts. In response to these situations,an ancient text recognition system was designed. This system provides users with two main functions:ancient text data recognition and user resource sharing and exchange,which can effectively meet the needs of ancient text researchers and ancient text lovers,and can also effectively protect ancient text resources use.

Keywords:ancient text recognition;deep learning;system design

0? 引? 言

古文是數(shù)千年中華傳統(tǒng)文化的重要載體之一,對古文資源進行保護和有效利用不僅有利于傳承和發(fā)揚中華傳統(tǒng)文化,也有利于研究人員對中華傳統(tǒng)文化的研究。因此古文數(shù)字化具有重要意義。2017年,我國出臺的“十三五規(guī)劃”中明確指出需要加強古籍文檔的數(shù)字化工作,推動古籍文檔數(shù)字化,促進古籍資源共享[1]。實現(xiàn)古文數(shù)字化,能提高在大量的古文資源中進行檢索和歷史溯源等任務的效率,也為古文的深度加工提供了編輯基礎。古文存在于古籍中,為了減少對古籍的損壞,古文數(shù)字化可以把古籍以圖片的形式保存下來供人參考,但是圖片中的文字存在不可編輯、不好查找、不方便檢索的問題,而要將古籍通過人工錄入的方式完成數(shù)字化又存在浪費人力物力的問題。為了有效解決古文數(shù)字化的問題,提高古文數(shù)字化的效率,需要利用現(xiàn)代互聯(lián)網技術,構建包含古文資料識別和用戶資源共享功能平臺的智能工作系統(tǒng)。目前已有一些針對古文數(shù)字化的研究,黃偉國[2]設計了一種古籍文檔圖像智能標注系統(tǒng),但功能比較單一,不支持基于整張圖片的文字檢查和識別功能。王春穎[3]設計了一種方書古籍數(shù)字化平臺,但缺少在線交流平臺,對古文資源共享和用戶交流有較大影響。為了更好地解決這個問題,基于國家級大學生創(chuàng)新創(chuàng)業(yè)項目資金支持,本文設計實現(xiàn)了一個新的古文識別平臺,該平臺的主要用戶是古文研究工作者和古文愛好者,能降低古文研究工作者的工作難度,促進古文資源開放化。

1? 系統(tǒng)總體結構

古文識別系統(tǒng)采用B/S架構即瀏覽器和服務器架構模

式。系統(tǒng)前端頁面結合采用HTML、CSS、AJAX、Bootstrap、jQuery等技術框架來構建,采用這些框架使得Web開發(fā)更加快捷,提升了前端開發(fā)的效率,降低了開發(fā)成本,縮短了開發(fā)周期。

平臺后臺架構由Python、Django 2.1、MySQL等技術框架實現(xiàn),具有效率高、穩(wěn)定性強、移植性好、便于維護等特點。在前期進行數(shù)據(jù)準備時,利用Python語言編寫程序爬取網絡上的古文資料,存入數(shù)據(jù)庫中作為數(shù)據(jù)集,并對數(shù)據(jù)集進行數(shù)據(jù)清洗后用于后續(xù)卷積神經網絡模型的訓練。其中數(shù)據(jù)采集階段使用Scrapy框架編寫爬蟲程序進行數(shù)據(jù)采集,Scrapy是一個成熟的爬蟲框架,支持異步爬取,并發(fā)性強,性能較高。數(shù)據(jù)清洗則先采用OCR技術對數(shù)據(jù)集進行初步的識別后,再通過人工進行篩選與校驗,完成數(shù)據(jù)集的標注。運用TensorFlow框架來進行模型的訓練,TensorFlow框架被廣泛應用于多種機器學習和深度學習領域,具有跨平臺、接口豐富、易部署等優(yōu)點。

系統(tǒng)總體架構圖如圖1所示,整個系統(tǒng)可分解為三層。應用層提供圖片識別、PDF識別、古文論壇、識別任務區(qū)等應用功能。策略層中共享平臺功能通過積分統(tǒng)計、用戶管理的方式實現(xiàn);識別模型為CNN模型,使用圖像灰度化、圖像二值化、OCR識別、傾斜矯正等圖像處理技術處理后的古文圖像數(shù)據(jù)和用戶反饋數(shù)據(jù)來建立;基礎數(shù)據(jù)處理通過Python提供的功能庫來完成數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)緩存等操作。數(shù)據(jù)層通過MySQL數(shù)據(jù)庫對業(yè)務數(shù)據(jù)和日志數(shù)據(jù)進行緩存。

2? 系統(tǒng)模塊功能

古文識別平臺由兩個子平臺組成,分別為古文資料識別和用戶資源共享功能平臺,平臺界面圖如圖2所示。

2.1? 古文資料識別平臺

古文資料識別平臺的主要功能是接收用戶上傳的文件,可以是圖片文件或PDF文件。平臺將識別上傳文件中的古文文本,將其轉換成簡體中文,并以現(xiàn)代閱讀習慣重新排列展示。

該平臺分為圖片識別模塊和PDF識別兩大模塊。圖片識別模塊用于上傳一張或多張含有古文文本的圖片,將圖片文件中的古文文本轉換為現(xiàn)代文本后進行展示,支持上傳BMP、JPG、PNG、GIF等多種圖片文件格式。PDF識別模塊用于上傳古文文本PDF文件,將PDF文件中的古文文本轉換為現(xiàn)代文本后進行展示,一次僅支持上傳一份PDF文件,支持的文件大小為最大200 MB。

兩個識別模塊都具有文件校驗、修改識別結果、下載識別結果的功能。文件校驗功能會在用戶選擇上傳文件時對文件的格式進行校驗,若用戶上傳的文件格式不正確,則觸發(fā)彈窗提醒用戶重新上傳,此功能保證了后續(xù)識別文件格式的正確。修改識別結果功能是為了在識別完成后,用戶能夠對識別結果中不正確的文字進行修改,使識別結果更加準確,且用戶修改的結果會被記錄在數(shù)據(jù)庫中用于修正未來的識別結果,提升識別的準確率。下載識別結果功能用于將識別的最終結果保存到用戶指定格式的文件中,可選的文件格式有TXT、DOC、DOCX、PDF等,方便用戶將識別結果用于后續(xù)所需的工作。

PDF識別界面如圖3所示。

圖片轉換示例如圖4所示。

2.2? 用戶資源共享功能平臺

用戶資源共享平臺設置的主要目的是給用戶之間提供更好的交流環(huán)境,同時通過人工識別的方式來識別平臺無法正確識別的古文文本。

用戶資源共享平臺主要有“古文論壇”和“任務區(qū)”兩個功能板塊。“古文論壇”為用戶之間的交流提供了一個交流論壇,同時也給古文愛好者和社科研究人員提供了一個古文交流平臺,用戶可以實時討論在識別過程中遇到的古文文本問題。“古文論壇”內含有“簽到處”“交流區(qū)”和“活躍排行”“論壇公告”四個模塊。在“簽到處”用戶可進行每日簽到獲得用戶積分;“交流區(qū)”分為“閑談灌水”“經驗分享”“古籍咨詢”三大板塊,用戶可選擇相應板塊暢所欲言;而“活躍排行”則是根據(jù)日、月、年的時間段展示積極發(fā)帖的用戶,鼓勵用戶積極進行討論交流,增加網站的流量;“論壇公告”用來展示管理員發(fā)布的公告。

在“任務區(qū)”用戶可接受其他用戶發(fā)布或本平臺發(fā)布的識別古文文本任務,通過完成這些平臺未能成功識別的任務賺取用戶積分,以此來兌換古文文本的識別次數(shù)。這樣可以通過人工識別的方式提高平臺識別的正確率,提高用戶積極性。

3? 結? 論

古文識別平臺以系統(tǒng)實用、結構合理、技術規(guī)范作為基本設計原則,規(guī)劃了系統(tǒng)的整體架構,為用戶提供了清晰簡潔,智能友好的交互界面。操作簡便靈活、便于管理和維護,實現(xiàn)了古文資料識別和用戶資源共享功能平臺的集成,且平臺之間能夠進行數(shù)據(jù)共享。平臺初期通過爬蟲程序采集古文資料,使用OCR技術與人工標注等方式來獲得訓練模型所需的數(shù)據(jù)集。在得到初步訓練的模型后,數(shù)據(jù)集來源則主要為用戶上傳的古文資料,在用戶進行識別后,修改識別結果并下載這一過程,相當于無形中完成的一次清洗標注。隨著用戶使用次數(shù)的增加,模型所獲得的訓練樣本不斷擴大,模型的識別率也逐漸提高。用戶資源共享平臺中每位普通用戶用于進行古文識別的積分有限,在消耗完積分之后,可通過完成此平臺中發(fā)布的識別古文任務來賺取積分,鼓勵用戶自發(fā)地進行古文的識別,增加了用戶獲取積分的途徑來避免用戶的流失,任務中用戶所上傳與識別的古文資料也是數(shù)據(jù)集的來源之一。

數(shù)千年的中華文明留下浩如煙海的古籍,這些古籍對現(xiàn)代人了解古代歷史、社會和文化發(fā)展具有重要的價值。古文文獻數(shù)字化是時代和社會的呼聲,也是構建中國特色哲學社會科學的重要步驟。古文識別系統(tǒng)順應古籍資料數(shù)字化、智能處理和相關人文計算研究的發(fā)展潮流,充分利用信息技術手段,將古文資源識別和用戶資源共享功能模塊一一實現(xiàn),為古文研究人員和古文愛好者提供了一個技術支持和交流的平臺。

參考文獻:

[1] 中國政府網.文化部關于印發(fā)《“十三五”時期全國古籍保護工作規(guī)劃》的通知 [EB/OL].(2017-09-06).http://www.gov.cn/xinwen/2017-09/06/content_5223039.htm.

[2] 黃偉國.古籍文檔圖像智能標注系統(tǒng)的設計與實現(xiàn) [D].廣州:華南理工大學,2019.

[3] 王春穎.方書古籍數(shù)字化實踐研究 [D].哈爾濱:黑龍江中醫(yī)藥大學,2015.

作者簡介:馮力方(1999.09—),女,漢族,海南瓊海人,本科,研究方向:數(shù)據(jù)挖掘;吳蘆婷(1998.11—),女,漢族,廣西北海人,本科,研究方向:數(shù)據(jù)挖掘;劉敏(1999.01—),女,漢族,廣西賀州人,本科,研究方向:數(shù)據(jù)挖掘;王穎(1999. 08—),女,漢族,廣西桂林人,本科,研究方向:數(shù)據(jù)挖掘;通訊作者:高榮(1979.02—),男,漢族,山東濰坊人,講師,碩士研究生,研究方向:數(shù)據(jù)挖掘。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數(shù)據(jù)遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據(jù)技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 91精品专区| 亚洲区一区| 欧美日韩一区二区三| 伊人网址在线| 在线99视频| 亚洲三级影院| 啊嗯不日本网站| 中国精品久久| 亚洲国产日韩在线观看| 久久精品人人做人人爽97| 国产午夜无码片在线观看网站| 成·人免费午夜无码视频在线观看| 午夜高清国产拍精品| 日韩精品一区二区三区视频免费看| 97人妻精品专区久久久久| 国产主播在线一区| 国产在线观看成人91| 91精品日韩人妻无码久久| 88国产经典欧美一区二区三区| 国产精品99一区不卡| 亚洲AV一二三区无码AV蜜桃| 色综合中文| 精品国产欧美精品v| 日韩一级二级三级| 国产精品亚洲五月天高清| 久久人人爽人人爽人人片aV东京热| 国产91蝌蚪窝| 日韩小视频在线观看| 国产欧美中文字幕| 欧美无遮挡国产欧美另类| 丰满人妻被猛烈进入无码| 婷婷六月天激情| 国产成人AV男人的天堂| 无码AV日韩一二三区| 亚洲AV无码久久天堂| 亚洲欧美日韩天堂| 亚洲国模精品一区| 欧美午夜在线视频| 制服无码网站| 国产精品乱偷免费视频| 毛片久久久| 97国产在线观看| 久久一色本道亚洲| 成人精品午夜福利在线播放| 日本国产在线| 全部免费毛片免费播放 | 无码中文字幕乱码免费2| 日韩在线永久免费播放| 国产99在线观看| 免费一级毛片在线观看| 伊人福利视频| 午夜精品福利影院| 91久久精品日日躁夜夜躁欧美| 99久视频| 91人人妻人人做人人爽男同| 91精品国产丝袜| 性色在线视频精品| 亚洲天堂首页| 日韩国产一区二区三区无码| 免费在线一区| 国产美女精品一区二区| 草草线在成年免费视频2| 亚洲人成成无码网WWW| 日韩一区二区三免费高清| 精品久久久久无码| 青青久视频| 亚洲无码精彩视频在线观看| 久久久精品久久久久三级| 天天综合亚洲| 亚洲天堂视频在线观看免费| 国产黄在线免费观看| 91娇喘视频| 免费无码一区二区| 亚洲欧美综合精品久久成人网| 久久永久免费人妻精品| 青青草国产免费国产| 91网红精品在线观看| 超碰免费91| 97超爽成人免费视频在线播放| 亚洲无码免费黄色网址| 丰满的少妇人妻无码区| 97视频精品全国免费观看|