最小通信開銷的Direct Send并行圖像合成方法

2018-04-16 12:02:59楊平利黃少華林成地孔龍星

計算機研究與發(fā)展 2018年4期

王攀楊平利黃少華林成地孔龍星

(西北核技術研究所西安 710024) (weaponfire2005@foxmail.com)

隨著高性能計算技術的不斷發(fā)展，科研工作者進行的數(shù)值計算規(guī)模不斷擴大，數(shù)值模擬精度不斷提高，所產(chǎn)生的數(shù)據(jù)量也隨之不斷增大.在大規(guī)模、高精度模擬條件下，所產(chǎn)生的數(shù)據(jù)規(guī)模常常達到TB級甚至PB級，對如此大規(guī)模的數(shù)據(jù)進行可視化處理已成為目前高性能計算領域的一個巨大難題.

并行數(shù)據(jù)可視化技術[1-3]是解決當前大規(guī)模科學數(shù)據(jù)后處理難題的重要手段之一，是科學可視化技術領域的研究熱點.在如今模擬計算規(guī)模不斷擴大的時代背景下，并行可視化技術越來越受到科研工作者的重視，目前已成為幫助科研人員探究大規(guī)模科學數(shù)據(jù)中隱含物理規(guī)律的有力工具.

按照繪制體系結構的不同，可將并行可視化技術劃分為3類，即Sort-first,Sort-middle,Sort-last[4].其中Sort-last方法是唯一適用于大規(guī)模分布式集群的并行可視化方法.因此，目前針對大規(guī)?？茖W數(shù)據(jù)的并行可視化研究成果大多數(shù)均基于Sort-last方法[5].

Sort-last并行可視化流程可以分為3個主要階段：1)將原始數(shù)據(jù)進行劃分，分配到各個繪制節(jié)點；2)各個繪制節(jié)點獨立繪制本地數(shù)據(jù)形成局部子圖像；3)將各繪制節(jié)點的局部子圖像進行全局合成，形成最終的結果圖像.當繪制節(jié)點數(shù)較少時，由于單個節(jié)點所需繪制的數(shù)據(jù)量較大，因而繪制性能的瓶頸通常在于各個節(jié)點的數(shù)據(jù)處理及繪制階段.然而隨著節(jié)點數(shù)不斷增加，單個節(jié)點所需繪制的數(shù)據(jù)量逐漸減少，圖像合成階段的并行通信開銷將逐步增大，并行可視化的性能瓶頸將從單節(jié)點繪制階段遷移至并行圖像合成階段，因而設計實現(xiàn)一種高效的并行圖像合成方法對于提升大規(guī)模并行可視化的總體性能至關重要.

另一方面，在目前研究較多的原位可視化技術[6-7]當中，并行圖像合成性能直接決定著原位可視化的總體性能，只有圖像合成的時間開銷足夠小，才能夠不影響到數(shù)值模擬計算，原位可視化技術才具有更好的實用價值.除此之外，高分辨率顯示[8]也是大規(guī)模數(shù)據(jù)可視化的一項重要需求，更高的分辨率顯示能夠獲得更多的數(shù)據(jù)細節(jié)，從而進一步加深科研人員對于科學數(shù)據(jù)的理解，而分辨率的提高必將導致并行圖像合成開銷的增加，因而研究高效的圖像合成算法也是實現(xiàn)高分辨率實時顯示的必然要求.

在大規(guī)?？茖W數(shù)據(jù)的并行可視化領域，現(xiàn)有的經(jīng)典圖像合成方法主要有Binary Swap[9],Direct Send[10],Radix-k[11],2-3 Swap[12]等方法.其中Direct Send方法是目前圖像合成應用中使用最為廣泛的一種方法，這不僅僅是因為Direct Send方法本身能夠完成大規(guī)模并行繪制的圖像合成，還在于Direct Send方法是其他圖像合成算法的構建基礎.例如，在Radix-k合成算法中，各個繪制節(jié)點被劃分為若干組，而組內的多個節(jié)點則需要使用Direct Send方法實現(xiàn)圖像合成.因而，Direct Send方法性能的優(yōu)劣，將會直接影響到其他合成策略性能的好壞.

針對如何減少Direct Send方法中的合成通信量問題，本文提出一種指導圖像子塊并行合成的動態(tài)劃分方法.該方法以統(tǒng)計各子圖像中有效像素前綴和為基礎，使用動態(tài)規(guī)劃方法計算出最佳圖像合成劃分位置，使得按照該劃分位置進行Direct Send圖像合成時，合成通信開銷最小.該方法改變了以往Direct Send方式按照均勻位置靜態(tài)劃分圖像進行合成的方式，理論證明了本文方法能夠使得通信計算量最小，并用實驗驗證了本文方法的有效性.

1 并行圖像合成

1.1 并行圖像合成方法

在大規(guī)模并行可視化情況下，以往最常用的并行圖像合成方法包括Binary Swap[9],Radix-k[11],2-3 Swap[12]方法，其中Radix-k方法是一種更加通用方法，該方法可通過選擇不同的k向量值，實現(xiàn)各種不同圖像合成方式.

但上述3種方法存在共同的缺陷，即每一輪合成完畢之后都需要明確的通信同步操作，致使整體合成性能受到影響.文獻[10]使用異步通信合成技術重新實現(xiàn)了Direct Send方法，實驗表明:在小規(guī)模(節(jié)點數(shù)小于16)并行可視化情況下，異步通信的Direct Send方法性能優(yōu)于Binary Swap算法，但由于Direct Send方法的通信復雜度在O(N2)量級，因而其并不適用于大規(guī)模并行可視化環(huán)境.最近，文獻[13]借鑒了文獻[10]中異步通信合成的思想，將Direct Send方法與樹形合成方法結合，實現(xiàn)了一種基于TOD-tree結構的合成方法，實驗表明，在大規(guī)模并行情況下，TOD-tree方法性能優(yōu)于Binary Swap和Radix-k方法.

1.2 圖像合成優(yōu)化方法

在上述并行圖像合成方法的基礎上，可以進一步疊加諸多合成優(yōu)化方法以減少通信開銷，提高并行圖像合成效率.這是因為在Sort-last繪制方法中，隨著節(jié)點數(shù)目的增加，節(jié)點上分配的數(shù)據(jù)量將不斷減少，因而單個節(jié)點繪制產(chǎn)生的圖像將越來越稀疏，將稀疏圖像進行壓縮將獲得很好的壓縮比，從而降低合成通信開銷，因此有必要設計實現(xiàn)高效的圖像壓縮方法，以有效減少通信開銷，提高圖像合成效率.

有效像素包圍盒技術[14]是一種直觀而高效的加速優(yōu)化技術，使用簡單的坐標軸平行包圍盒即可快速剔除掉與合成無關的背景像素，節(jié)省網(wǎng)絡傳輸帶寬，但該方法的缺點是包圍盒僅能劃定繪制圖像的最外層邊界，在處理內部存在空洞或分布不連續(xù)的圖像時，剔除背景像素的效率不高.

RLE(run-length encoding)方法[15-16]是一種常用的無損壓縮方法，能夠將有效像素序列進行統(tǒng)一的行程編碼表示，完全去掉圖像中的無效像素.雖然能夠最大限度地去掉圖像中的無效像素，但RLE方法的最大問題在于進行編碼表示的計算非常耗時，這一缺陷也限制了RLE 編碼方法在并行圖像合成應用當中的使用范圍.

ROI(region of interest)方法[17]是近年來提出的一種CPU與GPU協(xié)同實現(xiàn)的無效像素區(qū)域剔除方法，該方法采用探測最大無效像素空洞的方式，將原始圖像分割為多個有效像素分布密集的子塊，從而提高圖像傳輸與合成的效率.雖然ROI方法的執(zhí)行效率優(yōu)于RLE方法，但是由于ROI方法是一個遞歸尋找無效像素空洞的過程，遞歸終止條件的選擇對算法性能的影響很大，很難根據(jù)不同的具體應用給出一個統(tǒng)一的遞歸終止閾值，因此在算法執(zhí)行效率以及無效像素剔除效果方面，ROI方法依然有待進一步改進.

針對RLE及ROI方法的不足，以往我們曾提出一種起始索引編碼[18]的圖像壓縮方式，雖然性能優(yōu)于RLE及ROI方法，但在實踐使用當中發(fā)現(xiàn)，使用一維像素子向量方法對圖像進行壓縮存在局限，不能夠很好地發(fā)揮二維圖像的空間局部性，因而也存在進一步改進提升的空間.

2 最小化通信開銷的Direct Send圖像合成

2.1 Direct Send并行圖像合成方法

Direct Send方法的合成步驟簡單直觀，每個繪制節(jié)點只需直接將某一圖像子塊發(fā)送到負責合成該圖像子塊的節(jié)點進行合成即可，定義不參與網(wǎng)絡傳輸?shù)膱D像子塊為本位圖像子塊，則合成過程如圖1所示.

圖1中Pi j表示第i個節(jié)點的第j個圖像子塊，箭頭指向表示數(shù)據(jù)傳輸方向.要使Direct Send圖像合成過程中的像素傳輸開銷最小，顯然需要將具有最大有效像素數(shù)的圖像子塊作為本位圖像子塊，而傳輸有效像素數(shù)相對較小的圖像子塊.依照這一原則，文獻[18]給出了一種近似最優(yōu)的貪心算法(以下簡稱貪心算法)，該算法首先將原始圖像均勻劃分成大小相等的若干圖像子塊，再從中挑選出滿足圖像合成條件的前N個具有最大有效像素數(shù)的圖像子塊作為本位圖像子塊，令剩余的N(N-1)幅圖像子塊傳輸?shù)竭h程節(jié)點參與完成圖像合成.

Fig. 1 Direct Send image composition on 4 nodes圖1 Direct Send方法完成4個節(jié)點圖像合成的過程

雖然貪心算法比經(jīng)典Direct Send算法能夠減少通信開銷，但也存在2個方面缺陷：1)貪心算法本身并不能獲得最優(yōu)解，尤其針對不同的圖像數(shù)據(jù)而言，使用貪心算法性能相比于最優(yōu)性能的差異較大，難于控制與最優(yōu)解的近似程度；2)該貪心算法的前提是圖像子塊源自于對原始圖像的靜態(tài)均勻切分，但顯然不同的圖像切分方法會導致有效像素數(shù)在圖像子塊中的不同分布，從而影響貪心算法的最優(yōu)解或近似解的取值，因此要進一步縮小合成通信開銷，必須改變靜態(tài)均勻劃分圖像子塊的合成策略.

由于圖像子塊切分位置的選擇直接依賴于有效像素數(shù)的統(tǒng)計，因此下面首先給出基于二維像素塊的無效像素剔除方法和有效像素前綴和計算過程，然后闡述如何利用有效像素前綴和列表計算最優(yōu)圖像子塊劃分方式，以使得合成通信開銷最小.

2.2 基于二維像素塊劃分的無效像素剔除方法

文獻[18]給出了一種基于起始位置索引編碼GPU圖像壓縮方法，該方法使用一維結構的像素子向量提取并存儲有效像素，但一維向量結構不能充分發(fā)揮圖像的空間局部性，對無效像素剔除能力有限.

本文對文獻[18]中的方法進行擴展改進，使用二維像素塊代替原有的像素子向量結構，在原有壓縮開銷不變的情況下，進一步發(fā)揮了有效像素分布的空間局部性，有助于提升無效像素剔除率.同時在剔除計算過程中，生成了有效像素前綴和列表，為后續(xù)確定圖像子塊的切分位置提供了計算依據(jù)，整個計算流程如圖2所示.

Fig. 2 Image compression based on 2D pixel blocks by GPU圖2 GPU實現(xiàn)的基于二維像素塊的無效像素剔除方法

圖2給出了一個32像素圖像的無效像素剔除過程，其中白色方塊表示無效像素，灰色方塊表示有效像素，啟用8個GPU線程進行并行計算.下面簡要描述圖2中各步驟進行的主要操作：

步驟1. 將原始圖像按照二維像素塊進行劃分(例如圖2中每4個像素定義為一個二維像素塊)，并指定每一個GPU線程處理一個二維像素塊，每個像素塊大小為D(例如圖2中D=4).

步驟2. 啟動第i號GPU線程Ti(例如圖2中有0≤i≤7，下同)，掃描所分配的像素塊Pi，若像素塊中存在有效像素，則有效像素標志表(FA)的對應位置FA[i]寫入1，否則寫入0；再將像素塊內的有效像素數(shù)寫入有效像素計數(shù)表(SA)的相應位置SA[i].

步驟3. 計算SA和FA包容前綴和(inclusive prefix sum)，生成有效像素數(shù)前綴和列表(PSA)以及有效像素標志前綴和列表(PFA)；并令線程T0將列表PFA的末位值寫入變量OAL中.

步驟4. 線程Ti判別FA[i]的值，若FA[i]=1，則將Pi的像素內容寫入數(shù)組PA，將Pi的坐標位置寫入數(shù)組OA,其中PA與OA的寫入位置均為D×PFA[i]；若FA[i]=0,則線程Ti執(zhí)行結束.

上述步驟執(zhí)行結束后，產(chǎn)生的數(shù)組PA,OA,OAL即為剔除無效像素后的原始圖像表示，而數(shù)組列表PSA則將用于下一步的圖像子塊切分計算.

2.3 最小化合成通信開銷

在經(jīng)典Direct Send方法中，原始圖像按固定位置被分割成均勻大小的圖像子塊，完成各圖像子塊的合成即完成圖像合成過程.但是由于各圖像子塊的有效像素數(shù)目不同，因此采用均勻劃分方式很難保證合成通信開銷最小.本文將打破傳統(tǒng)Direct Send方法中靜態(tài)均勻劃分圖像子塊的限制，提出一種動態(tài)圖像子塊劃分方式，使合成通信開銷最小.

假設有M個繪制節(jié)點使用Direct Send方式合成分辨率為N的圖像，且每個節(jié)點的本地圖像有效像素前綴和列表(PSA)已經(jīng)計算完畢，那么最小化合成通信開銷的圖像子塊分割問題可等價轉化為如下問題：

問題1. 假設有M個長度為N的前綴和向量組成的集合ψ={Ph|(1≤h≤M)}，且已知Ph(1≤h≤M)的第k(1≤k≤N)個元素取值為Fh(k).要將集合ψ中的向量按照一致的分割位置E=(e1,e2,…,eM-1)切分成M段,如圖3所示，其中向量E中的每一個元素為前綴和向量的位置下標(包含當前下標元素)，且E中的元素滿足0

(1)

Fig. 3 The M prefix sum vectors are divided into M pieces. 圖3 M個前綴和向量分成M段

問題1中前綴和向量集合ψ即對應各PSA組成的集合.之所以認為Q(E)取得最大值時合成通信開銷最小，是基于準則：為了使合成通信開銷盡量小，需要將有效像素數(shù)最大的圖像子塊作為本位圖像保持不動，傳輸其他有效像素相對較少的圖像子塊進行圖像合成.

因此當存在一種劃分方式Ev使得Q(E)取到最大值時，令組成Q(Ev)的各個分段圖像子塊作為本位圖像子塊，傳輸其他圖像子塊進行合成，便能夠達到通信開銷最小，Q(Ev)即表示此時各個本位圖像子塊的有效像素數(shù)之和Qv，可將Qv表示為

(2)

其中Ω為劃分序列集合，表示ψ上所有滿足條件的劃分序列E所組成的集合，顯然Ev∈Ω.

分析可知，求取Ev的問題是一個典型的動態(tài)規(guī)劃問題，因此定義價值函數(shù)w(i,j)表示從下標位置i(不包含i)到位置j(包含j)區(qū)段內，各前綴和向量的最大值，w(i,j)表達式為

(3)

定義函數(shù)g(n,m)為把前綴和向量前n列劃分成m段所能夠求得的本位有效像素數(shù)之和的最大值，由圖像劃分步驟可得遞推公式：

(4)

根據(jù)題目假設，顯然有初始條件g(0,0)=0成立.由定義可知Qv=g(N,M)，利用遞推式(4)計算生成的k值序列即為劃分序列Ev.

當圖像分辨率N較大、繪制節(jié)點數(shù)M較多時，使用動態(tài)規(guī)范方法搜索最優(yōu)解將是一個非常耗時的過程，為了滿足實時繪制要求，在實踐當中可以使用較大粒度的像素塊數(shù)目N′代替像素數(shù)N，從而降低問題復雜度，在滿足實時性要求的情況下求取近似最優(yōu)解，實驗部分將對這一求解方法做進一步討論.

3 實驗結果與分析

實驗部分主要測試3個方面:1)將測試二維像素塊大小對于壓縮比率的影響;2)對動態(tài)規(guī)劃計算開銷展開測試;3)將本文算法與RLE算法及貪心算法進行性能對比，在不同繪制節(jié)點數(shù)目上實現(xiàn)Direct Send算法的圖像合成，驗證本文算法的有效性.

實驗在一個16節(jié)點的GPU集群上展開測試，每一個繪制節(jié)點的配置如下：雙路12核Intel Xeon E5 2697 v2 CPU，主頻2.7 GHz；內存96 GB；配備Nvidia Quadro 5 000 GPU；Seagate 磁盤，容量3TB；1 Gbps以太網(wǎng)互聯(lián).選取3個不同放大比例的數(shù)值模擬數(shù)據(jù)作為測試數(shù)據(jù)，其中測試數(shù)據(jù)1和測試數(shù)據(jù)2是不同時間步電磁場PIC數(shù)值模擬的電場強度標量數(shù)據(jù)，網(wǎng)格維度均為750×750×1 000，測試數(shù)據(jù)3為激光等離子體PIC數(shù)值模擬的X方向電場標量數(shù)據(jù)，網(wǎng)格維度為500×500×800，使用KD-tree劃分的Ray-casting方法進行體繪制可視化.繪制圖像分辨率固定為4096×2048像素，通過選取不同的觀察視點設置，統(tǒng)計得到測試數(shù)據(jù)1、測試數(shù)據(jù)2及測試數(shù)據(jù)3的有效像素數(shù)分別約占總像素數(shù)的13%,43%,71%(數(shù)據(jù)繪制結果如圖4所示).

Fig. 4 The Ray-casting rendering results of the testing datasets圖4 測試數(shù)據(jù)的Ray-casting體繪制結果

3.1 無效像素剔除測試

由基于二維像素塊的無效像素剔除過程可知，選擇不同像素塊大小，勢必將對圖像壓縮性能造成一定影響，圖5給出了不同像素塊大小對于圖像壓縮比率大小的影響.

Fig. 5 The compression ratios of testing images (compressed by 2D pixel block method)圖5 二維像素塊壓縮方法的圖像壓縮比率

圖5選取了6種不同大小的像素塊做性能測試，在像素塊小于16×16的情況下，像素塊大小的選擇對圖像壓縮比率影響效果并不明顯，基本都能夠獲得較好的無效像素剔除效果，當像素塊大小超過32×32時，壓縮效果顯著下降，因而像素塊大小應選擇在16×16以下為宜.從3個測試數(shù)據(jù)的綜合壓縮性能看，像素塊為8×8的壓縮比率較好，因而后面的實驗測試均使用這一大小的像素塊.

圖6給出了本文方法與文獻[18]中的一維子向量方法的壓縮效果對比.從圖5可以看出，使用二維像素塊方法比一維子向量方法壓縮比率有一定提升，在8×8像素塊(一維子向量長度為64)的情況下，平均壓縮比率性能提升在10%左右.因而在耗費相同計算開銷的情況下，應當選擇二維像素塊方式對無效像素進行剔除.

Fig. 6 The compression ratio improvement of 2D pixel block method compared with 1D vector method圖6 二維像素塊方法相對于一維子向量方法的壓縮比率性能提升

3.2 優(yōu)化求解計算

如2.2節(jié)所述，若在原始前綴和列表的基礎上，使用動態(tài)規(guī)劃方法求解最優(yōu)圖像劃分位置，所要搜索的解空間過于龐大，不可能滿足圖像實時顯示的要求.因而，為了降低計算量，有必要將原始前綴和列表進行合并處理，使用一定粒度大小的圖像次子塊有效像素前綴和代替原始像素塊的前綴和.

像素塊、圖像次子塊、圖像子塊三者之間的關系如圖7所示，其中一個圖像次子塊包含若干個像素塊，而一個圖像子塊則包含若干個圖像次子塊.

Fig. 7 The relationships among subimage, secondary subimage and pixel block圖7 圖像子塊、圖像次子塊、像素塊之間的關系

Fig. 8 The consuming time of dynamic programming in varying rendering nodes圖8 不同節(jié)點數(shù)情況下動態(tài)規(guī)劃求解的計算時間

圖8中數(shù)據(jù)顯示，當合成節(jié)點數(shù)較少時(如4節(jié)點情況)，優(yōu)化計算時間將會降到10-3s級，因此根據(jù)繪制節(jié)點數(shù)目選擇適當?shù)膱D像次子塊個數(shù)，對于優(yōu)化合成性能至關重要，目前還需要在實踐過程中不斷調整才能夠獲得較為滿意的性能結果，這也是一個有待進一步研究探索的新問題.

另一方面，由于優(yōu)化計算之前需要從各個節(jié)點收集各節(jié)點生成的前綴和列表，但由于動態(tài)規(guī)劃的計算開銷原因，僅需要收集若干個由像素塊合并后的圖像次子塊前綴和列表，因而在現(xiàn)有高速網(wǎng)絡帶寬的情況下，前綴和列表的收集開銷基本可以忽略不計.

3.3 總體性能對比測試

本節(jié)將對本文提出的方法、貪心算法以及RLE編碼方法做總體性能對比.本文方法使用8×8像素塊對無效像素進行剔除，選取24個圖像次子塊前綴和進行動態(tài)規(guī)劃計算.

在8繪制節(jié)點、16繪制節(jié)點情況下，3種方法的圖像合成時間對比如圖9、圖10所示.

Fig. 9 The composition time of the three methods on 8 nodes圖9 在8個繪制節(jié)點上使用3種方法的合成時間對比

Fig. 10 The composition time of the three methods on 16 nodes圖10 在16個繪制節(jié)點上使用3種方法的合成時間對比

由圖9、圖10可知，本文算法在不同繪制節(jié)點情況下，合成性能均優(yōu)于貪心算法和RLE編碼的傳統(tǒng)Direct Send方法，因而進一步證明了使用最優(yōu)分割點位置合成的Direct Send方法合成性能優(yōu)于傳統(tǒng)均勻分割圖像方法.

實驗中發(fā)現(xiàn)，使用本文方法在動態(tài)規(guī)劃求解后，可能會出現(xiàn)單個繪制節(jié)點合成多幅圖像子塊的問題，這一點與傳統(tǒng)Direct Send方法有所不同(傳統(tǒng)Direct Send方法每個繪制節(jié)點僅指定合成一幅圖像子塊)，正如文獻[13]所述，在目前單個節(jié)點硬件配置條件下，合成負載不均衡所帶來的合成性能影響遠小于通信開銷所帶來的影響，由于實驗中采用高性能GPU實現(xiàn)圖像合成，因而實驗中單個節(jié)點合成多幅圖像子塊并沒有影響本文提出方法的有效性.

4 結束語

本文介紹了GPU上實現(xiàn)的基于二維像素塊的有效像素剔除及前綴和計算過程；基于有效像素的前綴和列表，本文提出一種動態(tài)劃分合成圖像子塊的方法，改進了現(xiàn)有Direct Send方法使用靜態(tài)方式均勻劃分圖像子塊的不足，降低了Direct Send合成通信開銷，理論與實驗均證明了本文方法的有效性.

限于硬件條件的限制，本文僅使用了16個節(jié)點的GPU集群做了實驗測試，下一步將尋找更大規(guī)模的GPU集群做進一步的擴展性測試.對于如何依據(jù)合成節(jié)點數(shù)目選擇圖像次子塊的數(shù)量，目前仍無統(tǒng)一的標準規(guī)律可循，有待于進一步探索研究.此外，目前使用的動態(tài)規(guī)劃方法求解效率較低，研究該問題的并行求解方法，或者探索新的高效求解方法也是下一步研究的重點內容.

致謝感謝國防科技大學理學院卓紅斌研究員提供實驗測試數(shù)據(jù)!

[1]Singh J P, Gupta A, Levoy M. Parallel visualization algorithms: Performance and architectural implications[J]. IEEE Computer, 1994, 27(7): 45-55

[2]Vo H T, Bronson J, Summa B, et al. Parallel visualization on large clusters using MapReduce[C]Proc of IEEE Large Data Analysis and Visualization (LDAV). Piscataway, NJ: IEEE, 2011: 81-88

[3]Shi Liu, Xiao Li, Cao Liqiang, et al. Two level parallel data read acceleration method for visualization in scientific computing[J]. Journal of Computer Research and Development, 2017, 54(4): 844-854 (in Chinese)(石劉, 肖麗, 曹立強, 等. 面向科學計算可視化的兩級并行數(shù)據(jù)讀取加速方法[J]. 計算機研究與發(fā)展, 2017, 54(4): 844-854)

[4]Molnar S, Cox M, Ellsworth D, et al. A sorting classification of parallel rendering[J]. IEEE Computer Graphics and Applications, 1994, 14(4): 23-32

[5]Moreland K, Kendall W, Peterka T, et al. An image compositing solution at scale[C]Proc of 2011 Int Conf for High Performance Computing, Networking, Storage and Analysis. New York: ACM, 2011: 25-31

[6]Shan Guihua, Tian Dong, Xie Maojin, et al. In-situ visualization for peta-scale scientific computation[J]. Journal of Computer-Aided Design & Computer Graphics, 2013, 25(3): 286-293 (in Chinese)(單桂華, 田東, 謝茂金, 等. 千萬億次科學計算的原位可視化[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 286-293)

[7]Wang Fang, Li Sikun, Zhao Dan, et al. Advances in research and application of in-situ visualization[J]. Journal of System Simulation, 2015, 27(10): 2589-2599 (in Chinese)(王昉, 李思昆, 趙丹, 等. 原位可視化研究與應用進展[J]. 系統(tǒng)仿真學報, 2015, 27(10): 2589-2599)

[8]Tao Ni, Schmidt G S, Staadt O G, et al. A survey of large high-resolution display technologies, techniques, and applications[C]Proc of 2006 IEEE Virtual Reality Conf. Piscataway, NJ: IEEE, 2006: 223-236

[9]Ma Kwanliu, Painter J S, Hansen C D, et al. Parallel volume rendering using binary swap compositing[J]. IEEE Computer Graphics and Applications, 1994, 14 (4): 59-68

[10]Eilemann S, Pajarola R. Direct send compositing for parallel sort-last rendering[C]Proc of the 7th Eurographics Conf on Parallel Graphics and Visualization. Aire-la-Ville, Switzerland: Eurographics Association, 2007: 29-36

[11]Peterka T, Goodell D, Ross R, et al. A configurable algorithm for parallel imagecompositing applications[C]Proc of High Performance Computing Networking, Storage and Analysis. New York: ACM, 2009: 1-10

[12]Yu Hongfeng, Wang Chaoli, Ma Kwanliu. Massively parallel volume rendering using 2-3 swap image compositing[C]Proc of High Performance Computing, Networking, Storage and Analysis. Piscataway, NJ: IEEE, 2008: 1-11

[13]Grosset A V P, Prasad M, Christensen C, et al. TOD-Tree: Task-overlapped direct send tree image compositing for hybrid MPI parallelism[C]Proc of the 15th Eurographics Symp on Parallel Graphics and Visualization. Aire-la-Ville, Switzerland: Eurographics Association, 2015: 67-76

[14]Takeuchi A, Ino F, Hagihara K. An improved binary-swap compositing for sort-last parallel rendering on distributed memory multiprocessors[J]. Parallel Computing, 2003, 29 (11): 1745-1762

[15]Ahrens J, Painter J. Efficient sort-last rendering using compression-based image compositing[C]Proc of the 2nd Eurographics Workshop on Parallel Graphics and Visualization. Aire-la-Ville, Switzerland: Eurographics Association, 1998: 145-151

[16]Moreland K, Wylie B, Pavlakos C. Sort-last parallel rendering for viewing extremely large data sets on tile displays[C]Proc of the 2001 IEEE Symp on Parallel and Large-Data Visualization and Graphics. Piscataway, NJ: IEEE, 2001: 85-92

[17]Makhinya M, Eilemann S, Pajarola R. Fast compositing for cluster-parallel rendering[C]Proc of Eurographics Symp on Parallel Graphics and Visualization. Aire-la-Ville, Switzerland: Eurographics Association, 2010: 111-120

[18]Wang Pan. Research on parallel visualization for large scale dataset[D]. Changsha: National University of Defense Technology, 2013 (in Chinese)(王攀. 大規(guī)模數(shù)據(jù)并行可視化關鍵技術研究[D]. 長沙: 國防科學技術大學, 2013)

HuangShaohua, born in 1981. Assistant research fellow in Northwest Institute of Nuclear Technology. His main research interests include high performance visuali-zation, parallel computing and computer graphics.

LinChengdi, born in 1986. Engineer of Northwest Institute of Nuclear Technology. His main research interests include visuali-zation in scientific computing and computer graphics.