內(nèi)存映射技術(shù)在大數(shù)據(jù)實時存儲中的應用

2017-05-30 10:48:04劉平賈林林

河南科技 2017年5期

劉平賈林林

摘要：大數(shù)據(jù)的高速實時存儲是某圖像采集設備研發(fā)過程中所要面對的一項問題，為了解決數(shù)據(jù)吞吐量大、系統(tǒng)并行處理任務多等問題，不進行數(shù)據(jù)緩沖存儲以及文件I/O操作的內(nèi)存映射文件正是解決多個進程間數(shù)據(jù)共享的最有效方法。結(jié)合某測控設備的實際研發(fā)，對內(nèi)存映射技術(shù)的運行機制和具體實現(xiàn)流程進行進一步的研究，并針對實際情況進行特殊處理，以保證數(shù)據(jù)存儲的實時性和穩(wěn)定性。最后經(jīng)過測控設備的實際測試，內(nèi)存映射技術(shù)表現(xiàn)出良好的性能，滿足系統(tǒng)數(shù)據(jù)存儲方面的要求，而且相比較其他方式占用極少的物理資源，不會影響系統(tǒng)的性能。

關(guān)鍵詞：內(nèi)存映射；大數(shù)據(jù)；多線程；實時

中圖分類號：TP311 文獻標識碼：A 文章編號：1003-5168（2017）03-0039-03

Abstract： The high-speed real-time storage of big data is a problem faced in the process of equipment research and development of an image acquisition， data throughput， in order to solve the problem of parallel processing system more tasks， not the data buffer storage and file I/O operation of the memory mapped file is the most effective method to solve the data sharing between multiple processes. Combined with the actual research for measurement and control equipment， the memory mapping technology operation mechanism and implementation process were further studied， and according to the actual situation of the special treatment to ensure the real-time and stability of data storage. The result of test and control equipment， memory mapping technology shows good performance， to meet the requirements of the data storage system， and compared with other means occupy very little physical resources， will not affect the performance of the system.

Keywords： memory mapping；large data；multithread；real-time

某128×128元圖像采集系統(tǒng)用于紅外產(chǎn)品圖像高速實時的連續(xù)處理，系統(tǒng)要求紅外圖像能夠無差錯地實時存儲1h。按照產(chǎn)品每秒100幀頻計算，1h的數(shù)據(jù)存儲量大約為11.15GB，對于如此大數(shù)據(jù)量的存儲，采用普通文件進行操作受限于Windows進程空間有限，無法實現(xiàn)4GB以上數(shù)據(jù)文件一次性存儲。另外，基于文件I/O操作的普通文件操作，其存儲速度慢，容易在此類實時性要求較高的系統(tǒng)中出現(xiàn)圖像采集丟幀、顯示速率不達要求、存儲壓力過大、運行可靠性低等問題，從而導致任務要求無法完成[1，2]。

通過設計專門的內(nèi)存映射機制實現(xiàn)高速實時的紅外圖像實時存儲，可以解決大數(shù)據(jù)量的實時存儲問題。同時，該設計具備的高效率與高可靠性，也能夠滿足整個系統(tǒng)的其他要求。

1 內(nèi)存映射存儲特點

現(xiàn)在，一般采取內(nèi)存映射技術(shù)完成大文件的實時存儲操作。內(nèi)存映射技術(shù)是Windows的一種內(nèi)存管理方法。通過這種方式，在不占用額外的磁盤空間和內(nèi)存空間條件下，就能實現(xiàn)目標磁盤文件與進程虛擬地址空間的對應關(guān)系。由于省去了數(shù)據(jù)緩沖存儲及文件I/O操作，內(nèi)存映射處理文件存儲，速度很快而且能夠一次性處理16EB（64位機）的數(shù)據(jù)量。

2 內(nèi)存映射技術(shù)實現(xiàn)機制

內(nèi)存映射文件與虛擬內(nèi)存技術(shù)從本質(zhì)上比較接近，兩者雖然都是在磁盤空間內(nèi)保留一定地址空間的區(qū)域用于完成大文件的存儲，但是地址空間的性質(zhì)有所不同，內(nèi)存文件映射的物理存儲器不是虛擬內(nèi)存所采用的系統(tǒng)頁文件，而是使用某個已經(jīng)存在于磁盤上的文件，而且在對這個文件進行操作之前先期以一種類似于將文件整體從磁盤加載至內(nèi)存的方式完成映射操作。

內(nèi)存映射技術(shù)最大的優(yōu)點在于，不對文件執(zhí)行I/O操作就能處理存儲于磁盤上的文件，這樣做在數(shù)據(jù)處理的過程中將不需要為所有的文件重新申請并分配緩存，這類緩存操作將由系統(tǒng)直接進行管理，從而大大提高了系統(tǒng)的運行效率。

在處理大數(shù)據(jù)量的文件時，采用內(nèi)存映射文件技術(shù)與其他數(shù)據(jù)存儲方式相比，有其顯而易見的優(yōu)越性，因為在整個過程中將不再需要進行將文件數(shù)據(jù)加載至內(nèi)存的操作，也不需要完成將數(shù)據(jù)從內(nèi)存回寫至文件和釋放內(nèi)存塊等操作。

實際應用的系統(tǒng)很少采用單一線程模式運行，一般都是具有數(shù)據(jù)共享性質(zhì)的多線程同時工作。共享的數(shù)據(jù)量小仍可以采取采取靈活多變的處理方式，但是如果共享數(shù)據(jù)的容量巨大，那么如果不使用內(nèi)存映射文件技術(shù)而過多操作磁盤和內(nèi)存，將會使系統(tǒng)資源不堪重負。從這一點來說，多線程數(shù)據(jù)共享處理方法首推內(nèi)存映射文件技術(shù)。

3 內(nèi)存映射技術(shù)運行流程

軟件設計過程中，為了實現(xiàn)一次性存儲大于4GB圖像數(shù)據(jù)，并保證存儲的實時性，應用內(nèi)存映射文件處理方式來滿足要求，并在映射中作了特殊處理保證存儲的穩(wěn)定性。圖1給出了內(nèi)存映射文件的流程圖。

受Windows系統(tǒng)的限制，一個32位進程最大可分配4GB的虛擬地址空間，實際工程應用過程中不可能將大于這一容量的文件通過一次映射操作就完成存儲。當需要處理的文件容量超過4GB時，就只能將此大文件的各個部分映射到進程的地址空間之后取消映射，然后重新映射文件的下一部分數(shù)據(jù)。這需要對上面的一般流程進行適當?shù)母模纬扇鐖D2的大文件內(nèi)存映射流程圖。

該函數(shù)中的主要參數(shù)說明：將要映射到進程的地址空間的文件句柄通過hfile參數(shù)指定，其就是之前CreateFile（）函數(shù)得到的文件句柄。同時，當需要將存儲器映射到進程的地址空間中時，系統(tǒng)首先確認物理存儲器頁面的應被賦予何種保護屬性，而且該屬性必須與CreateFile（）函數(shù)打開文件時所指定的訪問標識相匹配。

Windows可以采用64位值來進行文件操作，那么就需要劃分一定大小的物理存儲器空間用來存儲內(nèi)存映射文件，這時可以用2個重要參數(shù)“dwMaximumSizeHigh”與“dwMaximumSizeLow”分別指定內(nèi)存映射文件內(nèi)核對象大小的高32位值和低32位值。如果將其都設置為0，那么將為創(chuàng)建的“文件映射”內(nèi)核對象保留與物理文件實際容量相同大小的區(qū)域。

關(guān)鍵問題是上面2個參數(shù)所指定的大小必須是系統(tǒng)最小分配粒度的整數(shù)倍，即64KB的整數(shù)倍。在某圖像采集系統(tǒng)軟件設計中圖像數(shù)據(jù)一次性存儲為12GB左右，因此設定15GB的存儲空間，即2個參數(shù)分別為0x00000003和0xc0000000。

已經(jīng)打開的內(nèi)核對象需要在使用完畢之后通過CloseHandle（）函數(shù)將其關(guān)閉，這與Win32的大多數(shù)對象相同。假如此時不進行關(guān)閉對象的操作，那么程序繼續(xù)運行將出現(xiàn)資源泄露的現(xiàn)象。那么即使程序退出運行后操作系統(tǒng)會自動關(guān)閉在進程中打開而未關(guān)閉的任何對象，也會在隨后的進程運行過程中必然不斷積累過多的資源句柄。所以，通過CloseHandle（）函數(shù)將那些不再使用的內(nèi)核對象關(guān)閉是必須的。

4 存儲效果及特殊處理

實際測試證明，進行大數(shù)據(jù)文件處理時采用內(nèi)存映射文件技術(shù)具有很好的效果，系統(tǒng)可以能夠穩(wěn)定存儲數(shù)據(jù)1h，滿足設計要求。采用此處理方式與通常用CFile類和ReadFile（）和WriteFile（）等函數(shù)的方式相比對系統(tǒng)性能的影響微乎其微，因為其所消耗的物理資源極少。

由于實際應用中圖像數(shù)據(jù)每次存儲量均不同，可能僅有幾秒鐘的圖像即數(shù)十兆的數(shù)據(jù)量，為了使存儲滿足按需分配，在結(jié)束存儲時要進行特殊的處理。圖4給出了實現(xiàn)此要求的主要步驟。

其中，以實際長度創(chuàng)建文件映射中將原文件映射的最終偏移量作為創(chuàng)建映射對象函數(shù)的內(nèi)置參數(shù)，即創(chuàng)建了實際大小的文件映射對象。此外，要注意的是每次拷貝的數(shù)據(jù)量不能太大，最大不要超過進程的可分配地址空間2GB；也不要太小，以免拷貝次數(shù)太多，影響系統(tǒng)性能。在本圖像采集系統(tǒng)軟件設計中取320、640、800MB做試驗，發(fā)現(xiàn)取640MB為一次拷貝運行良好，對系統(tǒng)性能無太大影響。

參考文獻：

[1]張澤清.淺析Windows內(nèi)存映射文件[J].福建師大福清分校學報，2006（2）：20-25.

[2]吳志紅，孫力，閻杰.高速紅外圖像實時采集存儲與顯示技術(shù)[J].紅外技術(shù)，2003（5）：56-59.