999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)下MongoDB數(shù)據(jù)庫數(shù)據(jù)文檔存儲去重研究

2017-12-07 01:01:20李興武
數(shù)字技術(shù)與應用 2017年9期
關(guān)鍵詞:大數(shù)據(jù)

李興武

摘要:隨著現(xiàn)代科技的逐漸發(fā)展,我國對于檔案存儲的研究也得到了社會各界的廣泛重視,因此需要利用對存儲檔案文檔管理進行重復的去重操作。

關(guān)鍵詞:大數(shù)據(jù);MongoDB數(shù)據(jù)庫;檔案文檔存儲;去重研究

中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)09-0099-01

1 傳統(tǒng)的檔案存儲

在傳統(tǒng)的檔案存儲的過程當中,主要是對文檔來進行文件的形式進行存儲,對于原本的數(shù)據(jù)需要根據(jù)實際情況來建立起檔案文件和數(shù)據(jù)的鏈接,并把該鏈接的路徑存儲在關(guān)系數(shù)據(jù)庫中。在此種方式下對文件進行存儲的過程當中,會產(chǎn)生相當多的重復文件。[1]因此在其存儲的過程當中為了避免出現(xiàn)重復的現(xiàn)象,都需要進行人工的方式來檢查。在這種方式下,存儲空間很快會被耗盡,要靠不斷的增加存儲設備來解決大量檔案數(shù)據(jù)存放的問題,同時在管理方面也是相當不利的,在擴展性方面是相對較差的。在此種情況下,就需要利用MongoDB數(shù)據(jù)庫來存儲這些非結(jié)構(gòu)化的數(shù)據(jù),并且在存放之前就完成對重復檔案文檔的去重操作。

2 MongoDB數(shù)據(jù)庫存儲和管理機制

2.1 多用戶存儲機制

在進行存儲的過程當中,MongoDB數(shù)據(jù)庫提供主從復制和副本集復制2種方式滿足冗余備份與高可用性。一般來說都是需要主從復制的,可以在進行復制的過程的當中對數(shù)據(jù)做出有效的轉(zhuǎn)移和優(yōu)化。并且在對MongoDB數(shù)據(jù)庫當中還可以實現(xiàn)自動切片功能,易于實現(xiàn)橫向擴展。此項功能主要適用于在用戶存儲量相對較大的情況下,其中所產(chǎn)生的數(shù)據(jù)量和頻繁的I/O操作也是相對較多的,因此可以采用自動切片與副本集復制相結(jié)合的方式,來實現(xiàn)對不同的數(shù)據(jù)集合進行分層存儲,這樣一來在每一個分片當中都會具備不同的多個副本,從而對數(shù)據(jù)庫服務器端實現(xiàn)故障轉(zhuǎn)移以及自動擴展的現(xiàn)象,[2]其流程圖如圖1所示。在客戶對其中的數(shù)據(jù)進行讀取的時候,可以調(diào)用路由進程,并從配置服務器中讀取數(shù)據(jù)與片的對應關(guān)系等信息,實現(xiàn)對數(shù)據(jù)信息的有效讀取。

2.2 矢量空間數(shù)據(jù)存儲

在對數(shù)據(jù)進行存儲的過程當中,需要對數(shù)據(jù)的格式進行掌握和了解,一般情況下,在傳統(tǒng)的矢量型空間數(shù)據(jù)格式包括Shapefile、TAB、GML、GeoJSON等類型。因此在對其數(shù)據(jù)進行存儲到MongoDB數(shù)據(jù)庫的時候,需要在中間件來對矢量的數(shù)據(jù)文件進行讀取,最后將其轉(zhuǎn)化成為MongoDB數(shù)據(jù)庫可以存儲讀取的數(shù)據(jù)。除此之外,在對空間數(shù)據(jù)進行存儲到MongoDB數(shù)據(jù)庫的時候需要充分的借鑒geojson格式的空間數(shù)據(jù)表達形式,將每個空間對象轉(zhuǎn)化為一個 json 對象,并以 key/value的方式存儲空間對象的空間屬性及非空間屬性。

2.3 海量數(shù)據(jù)處理機制

隨著現(xiàn)代化檔案文檔的增加,需要處理的數(shù)據(jù)量也在逐漸的提高,因此需要對海量的數(shù)據(jù)作出快速處理,其中主要利用到了MapReduce模型來對其進行計算分割,對于數(shù)據(jù)需要分割并且發(fā)布到不同的計算群當中的來進行計算。在計算的過程當中,MongoDB 內(nèi)置了 Map函數(shù)和 Reduce 函數(shù)對數(shù)據(jù)進行批處理和聚合操作。

3 MongoDB中的去重算法

在MongoDB數(shù)據(jù)庫對檔案文檔的實際應用當中,主要是去重算法進行分析,在對檔案文檔的分析當中,需要根據(jù)文檔檔案的相關(guān)信息來生成一個userInfo.users集合中的一條記錄。在對其記錄進行計算的過程當中需要對文檔中的MD5校驗碼進行獲取,之后對于數(shù)據(jù)庫當中的文件名進行逐條的遍歷搜索,從而可以對該文檔的校驗碼進行重復情況的查找。如果在數(shù)據(jù)庫當中發(fā)現(xiàn)重復的校驗碼,就需要對其文檔進行大小的獲取,從而確定該上傳文檔的存儲總塊數(shù),并把該值記錄到 fileInfo.files 集合中對應記錄中。然后對檔案文檔進行上傳并對文檔內(nèi)容按固定的分塊大小存放到 fileContent.chucks集合中。對于該條相同的記錄進行加1處理,其中需要利用其中的上傳地點來判斷是否在同一個地點當中對相同的檔案文件進行了上傳。如果在數(shù)據(jù)庫的集合中沒有發(fā)現(xiàn)相同的記錄,就需要對其做出存儲。從而可以保證在下次訪問這個檔案的時候,可以利用userInfo.users集合中的 upLoadfileID來對其fileInfo.files集合進行查找,最后利用其集合訪問到需要訪問的檔案文檔,最大限度的避免了檔案文檔中所出現(xiàn)的重復存儲的現(xiàn)象,也可以實現(xiàn)對不同類型的文檔檔案進行不同編碼流程的存儲。在這個過程當中,需要對數(shù)據(jù)庫計算當中所需要用到的及種類進行定義,其中分別是 UserInfo,F(xiàn)ileInfo,F(xiàn)ileContent ,主要對應的是不同的三個集合,其中在對數(shù)據(jù)庫操作類的定義當中可以用DBObj來表示,定義去重的類用RemoveRepeat來表示。

在對其進行分析計算的過程當中,在進行方法判斷的過程當中對于已經(jīng)存在的集合記錄中并沒由發(fā)現(xiàn)和將要上傳的檔案文檔重復的現(xiàn)象,因此需要利用一定的方法來是否存在重復上傳檔案文檔的數(shù)據(jù)記錄,也就是需要在進行數(shù)據(jù)記錄導入的時候做出批量的判斷。

最后,在對其進行10臺主機組成的集群當中進行在實驗的情況下,對于數(shù)據(jù)庫存儲的文件在不同的格式下對文檔進行單個上傳驗證,可以充分的顯示出在該種去重方法當中去重率達到了90%,去重效果還是相對比較理想的,同時對于其系統(tǒng)的擴展應用也可以得到最大限度的提高。

4 結(jié)語

綜上所述,在對文檔信息進行存儲的過程當中,由于其數(shù)據(jù)信息當中本身存在的特點,需要充分的利用MongoDB數(shù)據(jù)庫來實現(xiàn)對檔案文檔的存儲和去重研究,充分的利用MongoDB數(shù)據(jù)庫當中的功能來對其中不同類型以及不同大小的檔案文檔做出分析和研究處理,最終在去重算法的基礎上,最大限度的提高對檔案文件的去重效果,從而可以對我國的檔案管理工作進行工作效率的提高。

參考文獻

[1]劉愉,王立軍.基于MongoDB的EHR存儲方案研究與設計[J].中國數(shù)字醫(yī)學,2013,(6):20-24.

[2]賀建英.大數(shù)據(jù)下MongoDB數(shù)據(jù)庫檔案文檔存儲去重研究[J].現(xiàn)代電子技術(shù),2015,38(16):51-55.endprint

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 欧美翘臀一区二区三区| 色综合手机在线| 亚洲二区视频| 黄片在线永久| 亚洲国产91人成在线| 高清码无在线看| 国产在线观看第二页| 中字无码av在线电影| 最新亚洲av女人的天堂| 成年人久久黄色网站| 久久国产亚洲欧美日韩精品| 欧美日韩国产在线播放| 亚欧美国产综合| 人妻一区二区三区无码精品一区| 久久这里只有精品66| 午夜无码一区二区三区在线app| 一区二区无码在线视频| 狠狠色狠狠综合久久| 亚洲精品国产成人7777| 国产一级小视频| 亚洲高清在线天堂精品| 日韩av在线直播| 亚洲一区二区三区中文字幕5566| 国产熟睡乱子伦视频网站 | 波多野结衣视频一区二区| 亚洲中文字幕在线观看| 欧美激情首页| 亚洲国产日韩视频观看| 四虎国产精品永久一区| 91久久性奴调教国产免费| 99视频在线看| 丰满的熟女一区二区三区l| 999福利激情视频 | 国产成人久久综合一区| 看你懂的巨臀中文字幕一区二区| 成人福利在线看| 99在线视频精品| 在线观看91香蕉国产免费| 8090成人午夜精品| 久久黄色一级片| 精品午夜国产福利观看| 亚洲成av人无码综合在线观看| 四虎国产永久在线观看| 97国产精品视频自在拍| 亚洲日韩精品无码专区| 成人va亚洲va欧美天堂| 国产精品亚洲五月天高清| 亚洲色图欧美视频| 片在线无码观看| 亚洲精品视频免费| 色综合激情网| 91麻豆精品国产91久久久久| AV不卡国产在线观看| 日韩无码黄色| 又爽又大又光又色的午夜视频| 日韩欧美国产另类| 国产成人精品一区二区三在线观看| 欧美日韩中文国产| 一本综合久久| 色综合中文综合网| 一级黄色片网| AV在线天堂进入| 成人在线观看不卡| 国产黄在线观看| 欧美五月婷婷| 久久久亚洲国产美女国产盗摄| 久久国产高清视频| 青草视频网站在线观看| 精品丝袜美腿国产一区| 91国内视频在线观看| 色综合久久无码网| 99在线观看国产| 狠狠亚洲五月天| 中文字幕亚洲无线码一区女同| 91网在线| 99热这里都是国产精品| 国产欧美日韩视频怡春院| 国产亚洲欧美日韩在线观看一区二区| 亚洲天天更新| 美女被操91视频| 色135综合网| 亚洲高清无码精品|