999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語言難檢字讀音查詢app研究與開發(fā)

2020-03-19 07:41:46吳博世田英愛王浩翔
科學(xué)咨詢 2020年53期
關(guān)鍵詞:數(shù)據(jù)庫文本信息

吳博世 田英愛 王浩翔

(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院 北京 100000)

近期,越來越多的人了解并喜歡上了國(guó)學(xué)文化,人們紛紛投入對(duì)國(guó)學(xué)文化學(xué)習(xí)的行列,掀起了一陣國(guó)學(xué)文化的學(xué)習(xí)熱潮。隨著人們對(duì)國(guó)學(xué)文化的逐步學(xué)習(xí),我們發(fā)現(xiàn)人們?nèi)鄙賹W(xué)習(xí)國(guó)學(xué)文化的工具。調(diào)查了解到,人們學(xué)習(xí)國(guó)學(xué)文化的一大阻礙就是有很多生僻字不認(rèn)識(shí)、不會(huì)讀、不了解是什么意思。為了有效推動(dòng)國(guó)學(xué)文化的學(xué)習(xí),我們經(jīng)過組內(nèi)討論決定利用OCR技術(shù),以及相關(guān)的Android頁面設(shè)計(jì),還有相關(guān)的難檢字識(shí)別算法,如attention,設(shè)計(jì)一款有助于學(xué)習(xí)國(guó)學(xué)文化的app,解決漢語言難檢字讀音的困難。

一、實(shí)現(xiàn)app的過程

在項(xiàng)目開始時(shí),我們先規(guī)劃了本app大概要實(shí)現(xiàn)的功能,理清了設(shè)計(jì)思路。我們要實(shí)現(xiàn)通過圖像識(shí)別技術(shù)、手寫輸入技術(shù),將要識(shí)別的字轉(zhuǎn)化為文本信息,再基于《山海經(jīng)》中的生僻字創(chuàng)建一個(gè)數(shù)據(jù)庫,最后通過連接數(shù)據(jù)庫將文本信息和數(shù)據(jù)庫中的字進(jìn)行匹配,然后調(diào)用數(shù)據(jù)庫中的信息,從而實(shí)現(xiàn)本app所既定的功能。我們的設(shè)計(jì)思路是通過Andorid Studio來構(gòu)建這個(gè)手機(jī)app的框架,然后再通過接口連接到一些其他技術(shù),最后連接Andorid Studio內(nèi)部的數(shù)據(jù)庫[1]將收集到的字的信息導(dǎo)入其中,最終完成一個(gè)功能豐富的app。

(一)應(yīng)用OCR技術(shù)

我們首要學(xué)習(xí)的技術(shù)就是OCR技術(shù),OCR技術(shù)是光學(xué)字符識(shí)別(Optical Character Recognition, OCR)[2],是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。

我們將OCR技術(shù)應(yīng)用到我們的項(xiàng)目過程中遇到了較大的困難,在文字檢測(cè)部分的困難是要定位字的位置。在給定的一張圖像中,我們需要找出這張圖里文字出現(xiàn)的位置,這就需要用到attention技術(shù)。為了區(qū)分出是不是字,除了從整體對(duì)圖片進(jìn)行把握,更關(guān)注的是局部信息,也就是字的特點(diǎn),包括筆畫,字形,結(jié)構(gòu)等內(nèi)容。至于圖像中其他無關(guān)緊要的信息,對(duì)于字的識(shí)別并不能起作用,所以,注意力機(jī)制就是一個(gè)關(guān)鍵的技術(shù),讓深度學(xué)習(xí)模型更關(guān)注某個(gè)局部的信息。

(二)應(yīng)用RA-CNN技術(shù)

在文本識(shí)別部分的困難是首先是用戶將想要識(shí)別的字拍照上傳,由于用戶拍照的過程比較隨意,圖像的場(chǎng)景不固定,文字布局多樣,導(dǎo)致上傳了各式各樣的圖像,圖像歪斜、模糊,文本布局扭曲、褶皺、換向都是不可避免的,也會(huì)遇到低亮度、低對(duì)比度、光照不均、透視變形和殘缺遮擋等問題,這就需要進(jìn)行校正,通過幾何變換、畸變校正、去除模糊、圖像增強(qiáng)和光線校正等文字檢測(cè)對(duì)用戶上傳圖像中的文字進(jìn)行處理[3]。其次是對(duì)文本內(nèi)容進(jìn)行識(shí)別,將圖像中的文本信息轉(zhuǎn)化為文本信息,要識(shí)別得出每個(gè)文字是什么,然后根據(jù)識(shí)別出來的文字匹配我們數(shù)據(jù)庫中的文字,將數(shù)據(jù)庫中與之匹配的文字信息調(diào)用出來。將圖像中的文本信息轉(zhuǎn)化為文本信息是重中之重,它也需要attention技術(shù)的支持才能實(shí)現(xiàn),我們借鑒了一個(gè)基于CNN的注意力機(jī)制,叫做Recurrent attention convolutional neural network (RA-CNN)[4],該模型遞歸地分析局部信息,從局部信息中提取必要的特征,讓整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)不僅關(guān)注整體信息,還關(guān)注局部信息,拿“木”字舉例,之前通過文字檢測(cè)的attention技術(shù)來定位到“木”這個(gè)字的位置,然后根據(jù)RA-CNN技術(shù)遞歸地將“木”字放大成一個(gè)個(gè)局部的筆畫,比如一撇,一捺,一橫,一豎,然后再通過Attention Proposal Sub-Network (APN)技術(shù),迭代地生成子區(qū)域,并對(duì)這些子區(qū)域進(jìn)行必要的預(yù)測(cè),將這些子區(qū)域所得到的預(yù)測(cè)結(jié)果進(jìn)行必要的整合,從而得到整個(gè)字的預(yù)測(cè)概率。

總體來說,Attention機(jī)制就是從整個(gè)圖像出發(fā),判斷出字分布的位置,然后輸出一個(gè)坐標(biāo)值和尺寸大小,在這個(gè)基礎(chǔ)上,下一個(gè)子圖就是從上一個(gè)判斷出的圖像中出發(fā),再輸出一個(gè)坐標(biāo)值和尺寸大小;然后再迭代持續(xù)放大圖片,從而不停地聚集在圖片中的某些關(guān)鍵位置,不同尺寸的圖片都能輸出不同的信息,再將其進(jìn)行必要的融合,最終得出整個(gè)圖像中識(shí)別出來的字。

(OCR的技術(shù)路線)

(三)Android Studio中的接口調(diào)用

要想使用OCR技術(shù),就必須使用接口調(diào)用。我們通過Android Studio來實(shí)現(xiàn)接口調(diào)用,要實(shí)現(xiàn)的功能是用手機(jī)拍照,然后將照片信息傳遞給服務(wù)器,參數(shù)以POST的形式發(fā)送,按照百度OCRapi的要求[5],需要加上@FormUrlEncode注釋,我們使用@Field的方式將參數(shù)加入請(qǐng)求體,Observable中的是RecognitionResultBean類型,我們可以從里面拿到服務(wù)器返回的文字識(shí)別信息。調(diào)用此方法,便可以把圖片類型轉(zhuǎn)化成字符串類型,之后的操作便是對(duì)網(wǎng)絡(luò)接口調(diào)用之后的回調(diào)方法進(jìn)行定義,我們?cè)谡{(diào)用成功后的onNext操作中,拿到了RecognitionResultBean類型參數(shù),這個(gè)參數(shù)里含有圖片所包含文字的信息,我們將所有的文字一一取出,用StringBuilder連接成一個(gè)字符串,返回給View層,調(diào)用View層的updateUI進(jìn)行UI界面的更新,對(duì)于這個(gè)字符串我們?cè)谥筮€可以進(jìn)行進(jìn)一步的分析操作。

要使用相機(jī)功能調(diào)用,就需要請(qǐng)求權(quán)限。分別是網(wǎng)絡(luò)請(qǐng)求權(quán)限,數(shù)據(jù)的讀存取權(quán)限,以及相機(jī)權(quán)限。在Android 6.0 之前應(yīng)用的權(quán)限在安裝時(shí)全部授予,也就是說只要在AndroidManifest中申請(qǐng)過的權(quán)限,都會(huì)給予。而在Android 6.0 或更高版本之后,對(duì)權(quán)限的管理作出了改變,對(duì)某些涉及用戶隱私的權(quán)限可在運(yùn)行時(shí)根據(jù)用戶的需要?jiǎng)討B(tài)授予,也就是說,在AndroidManifest中申請(qǐng)的權(quán)限,在用戶使用的過程中還得詢問用戶是否給予,用戶給予權(quán)限了,應(yīng)用才能進(jìn)行相關(guān)的權(quán)限操作。如果拍照成功,我們就把照片作為參數(shù)傳遞給之前定義好的接口方法,調(diào)用進(jìn)行圖片文字識(shí)別。可以看到,我還把照片放入imageview中方便與識(shí)別結(jié)果進(jìn)行對(duì)比。等服務(wù)器成功返回識(shí)別結(jié)構(gòu)之后,就會(huì)調(diào)用VIew層的updateUI,更新textview顯示識(shí)別結(jié)果。

在測(cè)試階段,我們先就《山海經(jīng)》一書來選取難檢字進(jìn)行數(shù)據(jù)處理,錄入安卓的數(shù)據(jù)庫,進(jìn)行測(cè)試,其中印刷體字的識(shí)別準(zhǔn)確率還是比較高的,幾乎達(dá)到了100%,手寫體識(shí)別,因?yàn)槿藶橐蛩剌^大,識(shí)別率不盡人意,但是還是可以識(shí)別出來大部分。目前在山海經(jīng)中收錄難檢字300余字,以后會(huì)添加入《詩經(jīng)》等生澀難懂的書目的難檢字,或找到相關(guān)難檢字庫。

二、結(jié)束語

此項(xiàng)目在歷經(jīng)一年之后,我們終于完成了對(duì)本app的研究,并完成了真機(jī)的試驗(yàn),還得到了很不錯(cuò)的識(shí)別率,真的很不錯(cuò),我們覺得這是一款對(duì)于國(guó)學(xué)愛好者很友好的軟件,后續(xù)我們還會(huì)增加字庫,研發(fā)更加方便的識(shí)別模式,美化成更精致簡(jiǎn)潔的頁面,使用戶的體驗(yàn)達(dá)到最佳。

猜你喜歡
數(shù)據(jù)庫文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 久久99国产综合精品女同| 亚卅精品无码久久毛片乌克兰| 欧美日韩精品一区二区视频| 色综合热无码热国产| 国产成人精品免费视频大全五级| 狠狠做深爱婷婷综合一区| 欧美午夜小视频| 91青青视频| 久久久久亚洲精品成人网| 国产a在视频线精品视频下载| 婷婷五月在线视频| 六月婷婷精品视频在线观看| 免费久久一级欧美特大黄| 欧美人与牲动交a欧美精品| 亚洲一区二区三区国产精品| 亚洲天堂久久| 欧美精品1区| 国产鲁鲁视频在线观看| 欧美日韩在线亚洲国产人| 亚洲国产天堂久久综合226114| 999国产精品| 丰满的熟女一区二区三区l| 中文字幕 日韩 欧美| 精品视频在线观看你懂的一区 | 婷婷激情五月网| 国产丝袜啪啪| 2018日日摸夜夜添狠狠躁| 亚洲色偷偷偷鲁综合| 日韩精品无码免费一区二区三区| 午夜毛片福利| 精品亚洲国产成人AV| 欧美成人精品欧美一级乱黄| 精品国产亚洲人成在线| 露脸国产精品自产在线播| 国产福利免费视频| 在线观看欧美精品二区| 狠狠五月天中文字幕| 丝袜亚洲综合| 亚洲网综合| 九九热这里只有国产精品| 欧美国产在线一区| 亚洲成a人在线观看| 成人国产一区二区三区| 爱做久久久久久| 免费不卡视频| 美女视频黄频a免费高清不卡| 中国一级特黄大片在线观看| 成人午夜亚洲影视在线观看| 伊人久久大香线蕉aⅴ色| 永久免费无码成人网站| 国产一级在线观看www色| 国产精品自在线天天看片| 亚洲第一成年人网站| 亚洲黄网视频| 欧美色图第一页| 国产精品林美惠子在线观看| 免费在线一区| 日韩在线观看网站| www精品久久| 毛片视频网址| 欧美午夜性视频| 中文字幕日韩视频欧美一区| 久久99蜜桃精品久久久久小说| 国产清纯在线一区二区WWW| 日本AⅤ精品一区二区三区日| 激情無極限的亚洲一区免费| Aⅴ无码专区在线观看| 亚洲综合色区在线播放2019| 亚洲国产看片基地久久1024| 青草91视频免费观看| 99久久成人国产精品免费| 四虎国产成人免费观看| 毛片在线看网站| 精品無碼一區在線觀看 | 色成人综合| 91美女视频在线| 又黄又湿又爽的视频| 午夜无码一区二区三区在线app| 天天综合天天综合| www.亚洲一区二区三区| 97在线观看视频免费| 亚洲高清无码精品|