性能炸裂增長神經網絡渲染新紀元

2022-10-27 09:10:16戴寅

電腦報 2022年40期

關鍵詞：游戲

戴寅

9月20日，NVIDIA正式發布了第三代RTX架構AdaLovelace，并推出了基于該架構的旗艦GPU———GeForceRTX4090。它配備了第四代TensorCores和第三代RTCores，AI性能和光追性能相對上代最高可提升2～4倍，并支持全新的DLSS3技術。10月11日，NVIDIAGeForceRTX4090FoundersEdition性能解禁，那么RTX4090為何如此強大？其采用的全新NVIDIAAdaLovelaceGPU架構到底有哪些進化？且看我們全面的解析與測評。

NVIDIA Ada Lovelace架構帶來革命性進化

完整的Ada AD102 GPU包含了12個GPC、共計18432個CUDA單元、144個RT Cores（第三代）、576個Tensor Cores（第四代）以及576個紋理單元，晶體管數量高達760億個，遠遠超過了NVIDIA Ampere的280億個。

在Ada GPU的1個GPC中，包含了6個TPC，每個TPC包含1個多邊形引擎和兩個SM單元，每個SM單元包含128個CUDA單元、1個第三代RT Core和4個第四代Tensor Core。

得益于定制的TSMC 4N制造工藝，NVIDIA Ada Lovelace GPU架構規模達到了空前的強大，同時在工作頻率方面也有了巨大的提升。以當前RTX 40中的旗艦GeForce RTX 4090為例，它包含了11個GPC、共計16384個CUDA單元、128個RT Cores（第三代）、512個Tensor Cores（第四代）以及512個紋理單元，默認加速頻率為2520MHz，已經遠遠超過了上代RTX 3090 Ti的1860MHz，而在游戲中甚至還能更高。總而言之規模和頻率的全面提升，為NVIDIA Ada Lovelace GPU架構強悍的性能打下了堅實的物理基礎。

從NVIDIA官方數據來看，NVIDIA Ada Lovelace GPU架構的著色器數據吞吐量最高可達90 TFLOPS（GeForce RTX 4090為83 TFLOPS），而上代NVIDIA Amere大約為40 TFLOPS，這當然與新一代GPU規模大幅提升不無關系。除了規模暴增之外，NVIDIA Ada Lovelace GPU架構還有一項進化就是支持Shader Executing Reordering（SER）著色器執行重排序。該技術的出現，就可以把這些雜亂的工作任務進行分類，動態重組為更高效的任務，從而提升著色器的執行效率。

從RTX 20到RTX 30再到RTX 40，RT Cores當然也進化到了第三代。簡單地從有效光線追蹤計算能力來看，NVIDIA Ada Lovelace GPU架構的第三代RT Cores吞吐量達到了191 TFLOPS，是上一代的2.8倍之多。在Ada GPU的第三代RT Cores中，引入了被稱為“微映射透明度引擎”（OMM）和“微網格置換引擎”（DMM）的新模塊。

微映射透明度引擎的作用是優化光纖追蹤渲染，大幅降低著色器的工作負載，這對于處理復雜物體光追特性來講提升是很大的。具體的原理是將光線追蹤特性烘焙到不透明的蒙版中，讓那些不規則的形狀與半透明的對象都能更快更精準地被渲染出來。

微網格置換引擎則可以將面數非常多的復雜圖形做簡化，創造出更加簡單的模型，從而實現用基本三角形渲染復雜幾何圖形的目的，大大減少了計算量對顯存的占用。從官方數據來看，微網格置換引擎可以讓光線追蹤的BVH速度最多提升15倍，而顯存占用最多可降低到原先的1/20，總之就是越復雜的模型，微網格置換引擎的優化效果越突出。

Ada GPU上，Tensor Cores已經進化到了第四代，而這次Tensor Cores的升級尤其重磅。它配備了全新的FP8引擎，張量處理性能高達1.32 PetaFlops（相對上代提升了五倍之多）。當然，第四代Tensor Cores最具革命性的進步還得數全新加入的光流加速器（Optical Flow Accelerator），而它就是NVIDIA DLSS3黑科技的核心所在。

和之前的DLSS2不同，DLSS3在原有的超分辨率功能基礎上進一步引入了光學多幀生成技術，簡單來說就是可以通過AI計算生成新的幀，而不像之前那樣只是生成像素。而這個幀生成的工作，是由在第四代Tensor Cores中加入的光流加速器來完成的，當然這就意味著DLSS3中的“幀生成”功能是RTX 40獨享的。

DLSS3擁有新的光學多幀生成技術

光流加速器可以在DLSS2的基礎上計算兩幀之間的光流場，捕捉游戲畫面中從第1幀到第2幀之間變化的方向與速度，包含粒子、光線照射、反射等像素信息，通過計算運動矢量和光流來精確重建畫面。

簡單來說，DLSS2做的是通過AI計算出畫面上剩余的像素，而DLSS3則在此基礎上還能計算出下一幀完整的畫面，這樣算下來DLSS3等于是完全重建了實際顯示畫面7/8的像素，也可以說是重建了相當于實際渲染像素7倍的像素。此外，由于DLSS3的“幀生成”在GPU中后處理，所以即便是CPU性能出現瓶頸，也能提升游戲幀率。

按照官方數據，DLSS3最多可帶來4倍的游戲性能提升，讓8K與全景光追游戲成為了現實。DLSS3包含了“光學多幀生成技術”“超級分辨率”和“NVIDIA Reflex”三大部分，開發者只要整合DLSS3，就可默認支持DLSS2。目前DLSS3已經得到了游戲開發者與游戲引擎的支持，超過35款游戲和應用都將支持該技術，首批游戲與應用將在10月內推出。

在生產力方面，NVIDIA GPU必然是設計師們優先考慮的高效工具，而RTX 40系列在NVIDIA Studio方面的優化配合NVIDIA Studio驅動也將會為內容創作者們提供更加出色的選擇。總的來說，目前RTX 可以加速 110 多款主流創意應用，此外，SDK的提供使這些應用更加高效，并提供獨家的功能，例如Optix、DLSS和Maxine。NVIDIA Studio 還提供了全套創意應用，包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。

我們知道AV1相比H.264等編碼方式可以在同碼率下提供更加清晰的視頻畫面，而且AV1還支持一些更先進的編碼特性，例如HDR與低延遲。RTX 40的編碼器（顯存12GB以上的RTX 40系列甚至還提供了雙NVENC編碼器）提供了對AV1硬件編碼的支持，而OBS和Discord等推流軟件都將在不久之后提供對NVENC AV1的支持，讓玩家享受到更加精美而流暢的直播視頻畫面。

總的來說，全新TSMC 4N工藝打造的NVIDIA Ada Lovelace GPU在架構、頻率與能效比方面帶來了巨大的升級，提供了相對上代數倍的性能，全新的RT Cores、Tensor Cores設計、光流加速器加持的DLSS3技術等等都堪稱革命性的進步。它不但為玩家帶來了速度與畫面雙絕的光追游戲體驗（甚至直接進入了8K游戲的時代），更是為內容創意設計者們帶來了極致高效的生產力利器，稱得上是GPU發展史上又一個里程碑式的存在。

巨大壓迫感的經典外觀設計散熱效能再次提升

我們知道，NVIDIA的Founders Edition一直都是N飯的信仰神器，在工業設計方面非常前衛，非常具備收藏價值，同時在電氣性能方面也是眾多AIC廠商的重要設計參考。

RTX 4090 Founders Edition的外觀沿用了上代的設計思路，銀色與黑色的搭配張弛有度，中央的X造型更顯科技力量的神秘。散熱器方面同樣采用了一只軸流風扇位于顯卡正面負責推風，另一只軸流風扇位于顯卡背面負責拉風，從而在機箱中制造出更為高效的散熱風道，提升顯卡的散熱效果。它搭載了新的散熱鰭片和氣流設計，相比RTX 3090 FE，RTX 4090 FE的最大氣流多出了20%，在同噪聲等級情況下，氣流可以多出15%，以提供更好的散熱效果。

本次的RTX 4090 FE也是有史以來體積最龐大的FE設計，厚度已經達到了3.5槽，重量接近2.2kg，散熱器的體積也是相當的夸張，給人強烈的力量感。電源接口則是新規范的12+4Pin接口，使用老電源的玩家也不必擔心，包裝盒里附送一條12+4Pin轉4×8Pin的轉接線。

在RTX 4090 FE的側面，有著GeForce RTX的信仰燈，通電后會亮起白光，頗具儀式感。顯卡尾部設計了一個磁吸蓋板，打開后會露出機架安裝孔位，方便放入服務器機柜。接口方面，RTX 4090 FE提供了3個DP 1.4接口和1個HDMI 2.1接口，可以支持8K/60Hz HDR10輸出，為8K游戲與超極清視頻提供了物理規格上的支持。

RTX 4090 FE的PCB造型和上代相似，均采用了異型PCB設計。但本次加強了供電設計，全新設計的20+3相豪華供電可以提供更加平穩的高負載輸出曲線，減少電源負載波動，帶來更穩定的使用環境。

性能暴增，DLSS3開創AI渲染新方向

測試平臺

顯卡：NVIDIA GeForce RTX 4090 Founders Edition

處理器：Intel酷睿i9 12900K

主板：ROG MAXIMUS Z690 HERO

內存：Kingston FURY Renegade RGB 32GB DDR5 6000MT/s

硬盤：Kingston KC3000 2TB

電源：ROG THOR雷神1200W Platinum II

操作系統：Windows 11專業版

顯示器：AGON PD32M

基準性能測試

在測試DX11 2K分辨率性能的Fire Strike Extreme項目中，RTX 4090直接達到了46000分以上，兩年前我們還在感嘆3090終于突破了單卡2萬分，RTX 4090直接再加了2萬分上去，比RTX 3090 Ti高出了78%。

代表DX12 2K分辨率性能的Time Spy項目中，RTX 4090跑到了36690分，相比RTX 3090 Ti提升了75%。在4K分辨率的Time Spy EXTREME中，RTX 4090依舊能比RTX 3090 Ti提升78%，提升非常明顯而且很穩定。

光追性能方面，PortRoyal測試中，RTX 4090的得分比RTX 3090 Ti高了一萬多分，有82%的提升。純光追場景的DXR測試就更明顯了，性能幾乎翻倍了，畢竟128個第三代光追單元對上84個第二代光追單元，優勢不言而喻。

光柵游戲性能測試

游戲實測部分，對于RTX 4090這種旗艦顯卡來講，使用1080P分辨率對GPU的壓力太小，只會凸顯出處理器等子系統的瓶頸，因此我們只在2K和4K分辨率下測試。

從經典游戲《古墓麗影：暗影》我們可以看出一些負載方面的問題。在2K分辨率下，RTX 4090比RTX 3090 Ti多出了70幀，提升幅度為38%，在4K分辨率下則多出了75幀，提升達到了71%。RTX 4090在高分辨率下的優勢明顯更大，如果仔細看的話就會發現，在2K分辨率下，RTX 4090是跑不滿450W功耗的，甚至不到300W的功耗，GPU占用也沒跑滿，這說明現在部分游戲的2K分辨率下，12900K已經給RTX 4090造成了一定的瓶頸。

總體來看，在傳統的光柵化游戲部分，在測試的這10款主流3A大作游戲中，2K分辨率下RTX 4090相對RTX 3090 Ti的平均幀率提升在30%左右，GPU的性能受制于CPU瓶頸比較明顯。隨著分辨率提升到4K，RTX 4090的性能優勢就越來越明顯了，大部分游戲的提升都在70%左右，最高幀率提升甚至高達80%。綜合下來，RTX 4090的4K游戲平均幀率相對于RTX 3090 Ti提升了64%，提升非常巨大。這也讓我們對其在高分辨率高畫質的光追游戲中的表現充滿了期待。

在這里也可以看到，普通的4K游戲也沒有完全壓榨出RTX 4090的真正實力，GPU性能還顯得有不少盈余，那么，接下來就該光追游戲上場了！

光線追蹤游戲+DLSS2性能測試

同樣先來看看《古墓麗影：暗影》。4K分辨率下不開光追，RTX 4090比RTX 3090 Ti提升了71%，開啟光追后，提升進一步加大到了78%，可以看到這一代的光線追蹤性能確實是有提升的。

總體來看，2K分辨率的光追游戲對于RTX 4090來說毫無壓力，甚至在所測試絕大部分游戲中，它在4K分辨率下的幀速表現都能高于RTX 3090 Ti在2K分辨率下的幀率，所以我們直接看4K光追游戲部分，并加入了DLSS2質量模式下的測試對比。

在4K最高畫質和極致光追的超高負荷壓榨之下，RTX 4090相對RTX 3090 Ti的優勢再次得到提升，在大多數游戲中，都保持了70%～80%的優勢，在《F1 2022》《消逝的光芒2》中，RTX 4090真的實現了接近RTX 3090 Ti兩倍的性能。

綜合來看，在開啟最高畫質光追的情況下，無論是否啟用DLSS2，RTX 4090的領先優勢都保持在70%左右。即使不開啟DLSS，RTX 4090也能在大多數開啟光追的3A大作中以高于60幀的幀率流暢運行。而開啟DLSS2后，它在很多游戲中都實現了巨大的性能提升，讓4K極致光追游戲也能運行在超過100fps甚至是200fps的流暢幀率上。

總而言之，就目前熱門游戲的情況來看，只有在4K極致光追畫質設置下，才能盡量發揮出RTX 4090的強悍性能。

DLSS 3性能測試

通過前面的測試，玩家們可能覺得上面的游戲還不足以真正榨干RTX 4090的性能，而未來的光線追蹤游戲必然也會為玩家帶來更真實的畫面表現，從而更好的應用新硬件的性能。在RTX 40系發布的同時，我們也可以看到新的RTXDI直接照明技術將搭載在未來的游戲中，提供更好和更方便應用的光影效果。而在這種情況下，DLSS3成為了RTX40系列的靈魂。

而DLSS3的幀生成同樣需要面臨這個問題，所以在DLSS3技術中，我們可以看到它還綁定了NVIDIA Reflex，從而解決延遲問題。目前已經有35款游戲和應用宣布即將支持DLSS3技術，而本次測試我們選用了其中的幾款測試版。在支持DLSS3的游戲中都提供了DLSS超分辨率、幀生成、NVIDIA Reflex的開關選項，這其實就是DLSS3的三個組成部分，而關閉幀生成則等效于使用DLSS2，但如果打開了幀生成，那Reflex就必須開啟。

從測試結果可以看到，《賽博朋克2077》中，有了DLSS3的幀生成加持，同樣在4K+DLSS性能模式下，RTX 4090的平均幀率甚至超過了RTX 3090 Ti的2.3倍！《逆水寒》的DLSS3測試版更為夸張，專為DLSS3打造的測試副本光追效果直逼電影畫面，對GPU的壓力堪稱變態，就連RTX 4090在4K無DLSS的設置下也只有17fps，開啟DLSS3性能模式后，幀率直接提升了接近4倍達到了84fps，而沒有光流加速器的RTX 3090 Ti在4K+DLSS性能模式下只有25fps，RTX 4090足足領先了236%！由此可見，游戲中光追特效越多越復雜，DLSS3帶來的性能提升幅度越大，因此要面對未來的全景光追游戲大作，擁有光流加速器支持DLSS3的RTX 40系列顯然是必備之物。《Lyra》對于顯卡的壓力相對較小，而在開啟DLSS3和幀生成之后，RTX 4090相對RTX 3090 Ti也有最多約65%的幀率優勢。

當然呢，大家比較關心的就是DLSS3的幀生成帶來的延遲問題。我們通過NV的FrameView工具記錄了在開啟關閉時的延遲數據。

《賽博朋克2077》中，在原生4K模式下，平均PC延遲為83ms，而開啟DLSS3后，平均延遲則只有35ms，Reflex帶來的延遲降低非常明顯。《逆水寒》測試中，由于幀率較低，原生4K下的平均延遲高達367ms，而開啟DLSS3后，平均延遲則降低到60ms，同樣有非常明顯的降低。在《Lyra》Demo中則可以一窺未來FPS游戲中加入DLSS3的延遲表現，可以看到，原生模式下的延遲達到了60ms，而開啟DLSS3后，平均延遲則已經降至了23ms。

從這樣來看，玩家應該是不用太擔心DLSS3的幀生成帶來的延遲增長問題。

我們還簡單比較了一下DLSS3加持的游戲畫質。從圖中可以看到，經過AI機器學習，目前DLSS對于畫質的優化已經比較出色了，就算是注重性能的DLSS性能模式，畫面的銳利程度和細節甚至都好于關閉DLSS的原生畫面（注意看車尾燈的紋理），這也是為什么NVIDIA也推薦大家在4K分辨率下選擇DLSS3性能模式的原因，目前來看也確實做到了畫質與高幀率兼得。

生產力性能翻倍，AV1雙編碼器帶來效率飛躍

對于設計師用戶來講，NVIDIA Studio那可是太熟悉了，而擁有24GB GDDR6X大顯存的RTX RTX 4090除了游戲之外，也將會有不少用戶將其作為生產力工具的首選，CUDA生態也一直是行業標準之一，那這次RTX 4090有多少提升呢？

SPEC Viewperf 2020 v3.1

SPEC包含了大量的工業軟件測試項目，在最新的2020 v3.1版本中，RTX 4090相對于RTX 3090 Ti的提升相當明顯。整體的提升和游戲中的提升比較接近，大部分測試都擁有50%以上的提升。其中Energy能源測試集的提升最大，是RTX 3090 Ti的2.64倍。

渲染性能測試

常規的3D渲染軟件方面，Blender Benchmark 3.3中，RTX 4090在三個測試場景中都有非常明顯的提升，其中monster和classroom相對RTX 3090 Ti實現了性能翻倍，而junkshop也有64%的提升。

RTX 4090在V-Ray中的表現也非常不錯，無論是使用RTX還是CUDA相對于3090 Ti都能實現翻倍的渲染效率提升。再加上V-Ray和NVIDIA最近合作很緊密，GPU渲染的全新時代應該會來得更快一些吧。同樣，在OC渲染器這邊，無論開關RTX，RTX 4090相對于3090 Ti的提升也都在80%以上。

視頻編碼與AI性能測試

達芬奇18提供了支持雙編碼器和AV1的預覽版本，我們在這里可以獲得雙編碼器的編碼輸出性能展示。從測試來看，將同樣的4K和8K兩段Prores422HQ的視頻分別導出成H265，RTX 4090所用的時間不到RTX 3090 Ti的一半。

而AV1編碼由于3090 Ti不支持，所以這里沒法比較。但是我們同樣可以看到，RTX 4090在編碼4K AV1視頻時，所用的時間和H265是一樣的，8K則稍微慢一點，AV1編碼的整體效率還是非常高的。

除了編碼，達芬奇在解碼、特效和AI方面對GPU也有很好的支持，比如說我們用達芬奇里廣受好評的MagicMask魔法遮罩做一個簡單的跟蹤，RTX 3090 Ti需要28秒才能完成，而RTX 4090則只需要17秒，效率上的提升也是非常明顯的。

這次還有一個使用非常廣泛的國產剪輯軟件在老黃的發布會上亮相，那就是剪映專業版。它率先支持了RTX 40系的雙編碼器和AV1輸出。現在官網上已經能下到這個測試版。

從測試來看，在使用剪映專業版輸出H265的時候，RTX 4090確實也做到了相較于RTX 3090 Ti效率翻倍，AV1的輸出時間同樣和輸出H265差不多，具有非常高的效率。

從測試來看，對于3D設計師或者視頻特效與剪輯工作者來講，從RTX 3090 Ti升級到RTX 4090基本上就等于獲得了高出一倍的處理效率，顯然是非常值得的。

功耗溫度與超頻測試

最后再來看看溫度和功耗的表現。RTX 40系列采用了TSMC 4N制造工藝，頻率和能效都相對上代大幅提升，這也讓它的默認GPU頻率就非常高，而且有輕松沖擊3 GHz的潛力。而且本次RTX 4090 FE夸張的散熱器體積，也為不錯的溫度表現打下了基礎。

在26℃的室內，使用FurMark連續考機半小時，可以看到GPU溫度為70℃左右，GPU節點溫度為78℃左右。使用TimeSpy穩定性測試考機時，FE版的溫度表現和Furmark考機時差不多，GPU最高頻率可以跑到2760MHz。而實際游戲中因為負載不會一直處于最高狀態，所以GPU的溫度一般都在60多攝氏度。

另外，本代FE版還加強了顯存散熱，可以看到即使連續考機，HWINFO報告的顯存節點溫度也只有74℃左右，相比上代FE散熱表現優秀了不少。

功耗方面，在FurMark單考GPU時，GPU-Z報告的顯卡整卡功耗為440～450W左右，電源上的功耗儀顯示整機功耗為570W左右。在游戲中因為有處理器的加入，整機功耗則在600多瓦。整體來看，功耗方面RTX 4090相比之前RTX 3090 Ti并沒有明顯增長，不超頻的旗艦平臺使用1000W電源也是能夠hold住的。何況這一代還改進了供電，不會像上代那樣出現劇烈的峰值電壓和電流波動，高負載供電更平穩，玩家們應該無須擔心。

總結：光追時代的性能飛躍，次世代硬件發展的新探索

基于TSMC 4N工藝打造的新一代NVIDIA Ada Lovelace GPU架構，讓RTX 40系列相對于上代RTX 30系有著性能上的飛躍，除了從制程工藝獲得的超大芯片規模與高頻率增益之外，第三代RT Cores和第四代Tensor Cores也大放異彩。NVIDIA一直走在圖形業界的前端，在新技術的演進上老黃還是非常認真且激進的。

全新加入的光流加速器，讓DLSS3技術的AI幀生成得以實現，從而大幅增加游戲幀率，最終帶來2～4倍的光追游戲性能提升，讓4K極致光追游戲以電競級幀率流暢運行變得輕而易舉，也讓玩家可以從容應對未來畫面更加真實的全景光追游戲與8K超極清游戲。它從另一個方面嘗試解決光線追蹤對硬件性能的恐怖需求，通過神經網絡渲染為未來的硬件發展方向進行了探討，并獲得了不錯的效果。

單看RTX 4090的性能，就已經能夠實現讓3A大作跑在4K/144Hz的游戲幀率了，說實話之前是沒想到這一天能來得這么快的。而在DLSS3的加持下，確實也能最高特效光追跑4K/144fps，GPU的性能表現“趕上”了顯示器能提供的性能呈現，從另一個方面來看的話，RTX 40系列也將為相對疲軟的硬件市場帶來一些活力。

當然，你可能覺得DLSS3對于本身就能在4K下流暢跑光追的RTX 4090來說沒那么驚艷，但是如果想一下，這個技術是RTX 40系全系搭載的，如果放到未來將要發布的甜品卡上，對于玩家和市場的觸動就非常有意思了。所以DLSS3毫無疑問是這代的重點技術了。

此外，從前面的測試也可以看到，RTX 4090在3D渲染輸出與視頻剪輯方面相對上代也有成倍的性能增幅，對“時間就是金錢”的生產力應用來講真的稱得上是必買的頂級高效工具。