999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GPU的雷達(dá)信息處理并行設(shè)計優(yōu)化技術(shù)研究

2018-02-26 09:45:22韓文俊王嘎丁琳琳
電子技術(shù)與軟件工程 2018年16期

韓文俊 王嘎 丁琳琳

摘要

雷達(dá)信息處理應(yīng)用的運(yùn)算復(fù)雜、數(shù)墩居量大,需要高速實時處理本文針對雷達(dá)系統(tǒng)的脈壓、MTI等應(yīng)用,研究了GPU在雷達(dá)實時信號處理方面的并行設(shè)計優(yōu)化技術(shù),利用數(shù)據(jù)劃分、線程組織、緩存優(yōu)化、核函數(shù)合并等設(shè)計方法實現(xiàn)應(yīng)用,性能和CPU集群平臺相比較,提高了4-23倍左右。

【關(guān)鍵詞】雷達(dá)信息處理 GPU 異構(gòu)并行

1 前言

目前,雷達(dá)系統(tǒng)的發(fā)展正在向數(shù)字化、軟件化的方向發(fā)展,未來的趨勢是智能化雷達(dá),硬件處理器已經(jīng)由單核進(jìn)入多核時代,并且向著異構(gòu)、眾核的趨勢發(fā)展,雷達(dá)的各種功能和工作流程由軟件完成。目前,雷達(dá)系統(tǒng)采用的硬件平臺有多核CPU、多核DSP、FPGA,GPI等,其中基于圖形處理器(Graphic Processing Unit,GPU)的異構(gòu)系統(tǒng)成為現(xiàn)階段高性能計算體系的一種主流設(shè)計方法。GPU具備高度并行、多線程多核心等特點,最新一代的圖形處理器浮點運(yùn)算能力己達(dá)TFLOPS(1012FLOPS)數(shù)量級,其主要用途由圖形渲染已經(jīng)過渡到通用計算方面。美國Army Research Laboratory研究了基于異構(gòu)系統(tǒng)的超寬帶合成孔徑雷達(dá)的信號加速處理,將不同型號的GPU作為計算設(shè)備,得了較好的加速性能。從2007年公開發(fā)布通用并行計算架構(gòu)CUDA(Compute Unified DeviceArchitecture,CUDA)以來,它己被證明在許多計算密集型的信號處理等應(yīng)用上得到顯著的速度提升。

對于異構(gòu)眾核處理器應(yīng)用來說,最終要解決的問題就是軟件,主要涉及算法并行化、并行編程模型和框架等方面。本文針對雷達(dá)信息處理領(lǐng)域涉及到的應(yīng)用,研究基于雷達(dá)信息處理高性能計算的并行算法、并行設(shè)計框架、性能調(diào)優(yōu)等方面的技術(shù)和方法。

2 并行優(yōu)化設(shè)計技術(shù)

并行優(yōu)化設(shè)計的作用是盡量發(fā)揮硬件提供的全部計算資源,以減少延遲,即更快地完成

計算任務(wù),或提高吞吐量。針對雷達(dá)信號處理,進(jìn)行并行優(yōu)化設(shè)計一般包括5個步驟

(1)分析問題,理解算法,分解問題的串行/并行的工作負(fù)載;

(2)選擇硬件,確定高效的GPU型號;

(3)數(shù)據(jù)、任務(wù)劃分,確定計算劃分的粒度和硬件資源最佳匹配;

(4)選擇并行編程模式,確定并行設(shè)計架構(gòu);

(5)并行計算性能優(yōu)化,反復(fù)迭代至性能最優(yōu)。

2.1 算法并行化設(shè)計

算法并行化設(shè)計包括:應(yīng)用的并行/串行部分在GPU/CPU上的分解、數(shù)據(jù)劃分、劃分后的計算粒度與GPU的粒度最佳匹配。

以雷達(dá)信號處理來說,雷達(dá)信息處理算法之間的數(shù)據(jù)交互,會影響并行算法設(shè)計。在并行算法設(shè)計之前要進(jìn)行數(shù)據(jù)相關(guān)性分析、指令依賴分析,進(jìn)而決定劃分、映射的維度。對于MTI來說,由于通道之間、距離門之間不依賴,劃分以通道或距離門劃分?jǐn)?shù)據(jù);對于脈沖壓縮來說,通道之間、脈沖之間不依賴,劃分以總的脈沖數(shù)為劃分依據(jù)。劃分后的計算粒度要和GPU的線程匹配。

2.2 并行編程框架

CUDA使用的是單指令多線程(SIMT)的并行模式,硬件GPU包含了大量的基礎(chǔ)計算核心,多個核集成在一起稱為多流處理器(SM)。將一個計算任務(wù)分解成多個子任務(wù),稱其為線程,多個線程被組織為線程塊,線程塊被分解為大小與一個SM中核數(shù)量相同的線程束(warp),每個線程束由一個特定的多流處理器執(zhí)行。

對于雷達(dá)信號處理的應(yīng)用,一個核函數(shù)執(zhí)行在一個Grid上,一個Grid分為多個Block,而一個Block分為多個Thread,將數(shù)據(jù)映射到軟件線程,然后軟件線程調(diào)度到硬件線程執(zhí)行。數(shù)據(jù)到線程的映射如圖1所示。

核函數(shù)的執(zhí)行過程中,把應(yīng)用程序分解為大小合適的網(wǎng)格、線程塊、線程,是保證CUDA內(nèi)核性能的關(guān)鍵,比如,NVIDAIQuadro K4200型號的GPU一個線程塊包含32個線程,那么在構(gòu)造核函數(shù)的線程參數(shù)時,應(yīng)該將Thread設(shè)置為32的倍數(shù),利于線程調(diào)度。

2.3 并行性能優(yōu)化

并行計算性能優(yōu)化基礎(chǔ)是并行加速比性能定律:Amdahl定律和Gustafson定律。性能優(yōu)化方法主要有:性能優(yōu)化循環(huán)模式、自上而下的方法、分層性能優(yōu)化方法以及性能分析工具的使用。

(1)性能優(yōu)化循環(huán)模式:借助性能分析工具,不斷發(fā)現(xiàn)、消除性能瓶頸的迭代過程。

(2)自上而下的方法:從系統(tǒng)配置、應(yīng)用設(shè)計、底層優(yōu)化,自上而下進(jìn)行優(yōu)化。

(3)分層性能優(yōu)化方法:從硬件層、運(yùn)行層、編譯層、代碼層多個層次進(jìn)行性能優(yōu)化。

(4)并行分析工具,借助CUDAProfiler、Intel Parallel Studio等分析工具可以監(jiān)測到CPU使用率、緩存命中缺失率等,有助于性能優(yōu)化。

并行性能優(yōu)化,要選擇在性能最優(yōu)的算法并實現(xiàn)。以分析為導(dǎo)向,以程序熱點為目標(biāo),以并行優(yōu)化方法為后盾,借助于性能分析工具,一次一個目標(biāo),最終把代碼性能優(yōu)化到最佳。

3 并行應(yīng)用實驗

基于NVIDAI Quadro K4200和Intel Xeon(R)CPU的集群平臺E5-2648L V2,利用2.1、2.2、2.3的并行設(shè)計方法,對雷達(dá)信息處理的脈沖壓縮、MTI進(jìn)行實驗。

3.1 軟硬件平臺

NVIDIAd的GPI,K4200包含7個SM處理器,每個處理器包括:192個CUDA計算單元,總線帶寬是172.8GB/s,一級數(shù)據(jù)緩存是48KB。CPU集群平臺是Xeon(R)E5-2648L V2,10個核心,20個線程,主頻1.9GHz,總線帶寬 8G/s,一級數(shù)據(jù)緩存320KB。

GPU的軟件開發(fā)環(huán)境是基于VS2013和CUDA Toolkit 8.0,基于LINUX操作系統(tǒng)的VPX集群,開發(fā)環(huán)境使用的是Eclips,包括使用MKL函數(shù)庫。

3.2 并行設(shè)計框架

利用2.1、2.2的方法進(jìn)行并行設(shè)計程序,如圖2所示,脈壓的并行設(shè)計框架如圖2所示。

(1)利用流從主存到顯存異步拷貝輸入數(shù)據(jù);

(2)顯存的數(shù)據(jù)傳輸?shù)終200的硬件線程上,通過CPU處理指令,利用NPP庫、cuBLAS庫實現(xiàn)FFT和向量乘,將補(bǔ)0、FFT、點乘、逆FFT、截取合并在一個核函數(shù)內(nèi)部,參數(shù)傳遞通過共享內(nèi)存;

(3)GPU核心計算結(jié)束,更新顯存的處理結(jié)果;

(4)從顯存copy利用流從主存到顯存異步拷貝數(shù)據(jù);

(5)將計算結(jié)果,利用流從顯存到主存異步拷貝數(shù)據(jù);

3.3 實測性能對比

經(jīng)過

2.3 的性能優(yōu)化方法,反復(fù)迭代并行性能優(yōu)化,經(jīng)過CUDA Profiler分析過,CPU-GPU的傳輸速率達(dá)到理論值的30%,線程數(shù)活躍程度達(dá)到100%,實驗測試的性能如表1所示。

3.4 分析

分析并行應(yīng)用實驗的實測結(jié)果,并行效率顯著主要是基于以下幾點:

(1)1344個高速并行處理的核心;

(2)流式處理,異步拷貝掩蓋掉數(shù)據(jù)拷貝的時間消耗;

(3)并行設(shè)計框架采用核函數(shù)合并的方法;

(4)并行設(shè)計框架采用共享內(nèi)存?zhèn)鬟f參數(shù)的方法;

(5)線程組織中設(shè)置每個線程塊線程的個數(shù)是32的倍數(shù),利于線程調(diào)度;

(6)核函數(shù)避免分支進(jìn)行。

4 總結(jié)

本文設(shè)計了基于GPU平臺的雷達(dá)信息處理的并行處理框架,利用線程組織、流處理、異步處理、共享內(nèi)存、核函數(shù)合并等方法,設(shè)計實現(xiàn)了典型雷達(dá)應(yīng)用功能的并行算法設(shè)計,實現(xiàn)結(jié)果證明,基于GPU的雷達(dá)信息處理并行優(yōu)化設(shè)計具有高實時、高吞吐量等優(yōu)勢。

參考文獻(xiàn)

[1]The OpenCL Specification [S].KhronosOpenCL Working Group.2014:23.

[2]Zhang Bo,Xue Zhenghui,Ren Wu,et al.Acceleration 3D FDTD Algorithm UsingGPU Computing [J].Chinese Journal ofRadio Science,2011,26(05):864-868.

[3]Song J P,Ross J A,Shires D R.HybridCore Acceleration of UWB SIRERadar Signal Processing[J].IEEETrans on Parallel and DistributedSystem,2011,22(01):46-57.

[4]NVIDIA Corporation.NVIDIA NsightVisual Studio Edition 4.7 UserGuide.NVIDIA Gameworks,2015.

[5]NVIDIA Corporation.“NVIDIA CUDARuntime API,”NVIDIA Developer Zone,Coda Toolkit Documentation,2015.

[6]Ruiz A,Ujaldon M,Cooper L,etal.Non-rigid registration forlarge sets of Microscopic imageson graphics processors[J].Journal of Signal ProcessingSystems,2009,55(1-3):229-250.

[7]劉文志著.并行算法設(shè)計與性能優(yōu)化[M].北京:機(jī)械工業(yè)出版社,2016(01).

[8]Timothy G.Mattson等.ParallelProgramming Pattern.2015(02).

主站蜘蛛池模板: 国产一在线观看| 亚洲一级毛片免费看| 亚洲精选高清无码| 亚洲欧美不卡中文字幕| 黄色a一级视频| 国产精品免费露脸视频| 国精品91人妻无码一区二区三区| 热re99久久精品国99热| 影音先锋丝袜制服| 亚洲国产成人精品青青草原| 亚洲浓毛av| 免费国产不卡午夜福在线观看| h网站在线播放| 久久黄色一级视频| 国产成人喷潮在线观看| 18黑白丝水手服自慰喷水网站| 免费久久一级欧美特大黄| 婷婷开心中文字幕| 无码高潮喷水在线观看| 国产精品黑色丝袜的老师| 亚洲午夜综合网| 欧美日韩北条麻妃一区二区| 二级特黄绝大片免费视频大片 | 色婷婷电影网| 免费观看男人免费桶女人视频| 国内精品久久久久鸭| 精品免费在线视频| 国产女人综合久久精品视| 久久久久国产一级毛片高清板| 亚洲有无码中文网| 亚洲国产精品国自产拍A| 亚洲aaa视频| 91香蕉视频下载网站| 中文字幕天无码久久精品视频免费 | 国产精女同一区二区三区久| 成人夜夜嗨| 伊人久久综在合线亚洲2019| 怡春院欧美一区二区三区免费| 国产欧美日韩va| 国产欧美日韩资源在线观看| 亚洲成人一区二区三区| 凹凸国产熟女精品视频| 国产第一页免费浮力影院| 天堂av综合网| 国国产a国产片免费麻豆| 国产成人1024精品下载| 亚洲AV免费一区二区三区| 国产视频大全| 原味小视频在线www国产| 露脸一二三区国语对白| 亚洲三级成人| 欧美亚洲国产精品久久蜜芽| 亚洲欧美一区二区三区图片| 在线精品自拍| 久久黄色毛片| 不卡视频国产| 国产精品观看视频免费完整版| 国产99在线| 成人免费网站久久久| 青青草原国产av福利网站| 中文字幕丝袜一区二区| 亚洲中文久久精品无玛| 伊人色在线视频| 激情成人综合网| 在线va视频| 国产成年女人特黄特色毛片免| 视频一区亚洲| 精品视频第一页| 67194成是人免费无码| 性激烈欧美三级在线播放| 四虎影视国产精品| 亚洲第一成年人网站| 欧美午夜网站| 97免费在线观看视频| 国产亚洲欧美日韩在线观看一区二区| 精品福利国产| 九九线精品视频在线观看| 人人91人人澡人人妻人人爽| 久久国产精品77777| 伊人欧美在线| 欧美日韩资源| 人妻精品全国免费视频|