技嘉RTX 4080 MASTER超级雕首发评测：极致的堆料，绝对的旗舰！

1前言 | 规格介绍回顶部

前言

距离GeFore RTX 4090性能解禁已经过去了有1个多月的时间，相信大家对这张卡皇的性能也已经比较了解了，不得不说Ada lovelace架构和4N工艺带来的性能提升还是十分喜人的。终于，GeFore RTX 4080的性能也迎来了解禁，这一次FE公版显卡和AIC非公显卡是同时解禁性能。今天我们PConline评测室要来评测的就是来自技嘉的GeForce RTX 4080 MASTER超级雕。

这张卡采用了全新风之力散热系统，拥有24+3相供电，整体的用料规格极其豪华，已经足以比肩不少RTX 4090显卡的堆料规格。那么这张技嘉GeForce RTX 4080 MASTER超级雕的性能表现究竟如何，能否对得起玩家的期待？下面就带大家一起一探究竟。

*“技嘉GeForce RTX 4080 MASTER超级雕”以下简称“技嘉RTX 4080 MASTER”

规格介绍

正式开始评测前我们先来简单了解下RTX 4080的一个核心规格。这次RTX 4080所采用的是AD103-300核心，工艺为TSMC 4N，对比上一代由三星8N工艺打造的GA102核心，晶体管的数量有了近乎翻倍的提升。

CUDA核心数量上，RTX 4080标配了9728个，同时搭载了128个第三代RT Cores，512个第四代Tensor Cores，光追性能相较上一代显卡应该会有不错的提升。

同时这一代核心的频率也有了进一步的提升，基础频率就来到了2205MHz，Boost频率更是来到了2505MHz。显存方面则是用了16GB的GDDR6X显存，不过显存的位宽并不是384bit，仅为256bit。

值得一提的是，目前RTX 4080上配备AD103-300核心并不是完整的AD103核心，完整的AD103核心应该包括7个GPC（图形处理集群）、40个TPC（纹理处理集群）以及80个SM（流式多处理器）。

而目前的AD103-300核心只有4个完整规格的GPC（图形处理集群，每个内建6个TPC），与3个非完整的GPC（两个内建5个TPC，一个内建4个TPC），共组成38个TPC，SM单元则剩下76个。

并且在核心编解码器上，对比拥有2个NVENC编码器和4个NVDEC解码器的完整AD103核心，这个AD103-300核心只保留了仅保留了2个NVENC编码器和1个NVDEC解码器。

只能说老黄的刀法确实是精准，不过后续应该会有搭载完整AD103核心的RTX 4080Ti也说不定。

2开箱&外观回顶部

开箱&外观

简单聊完了RTX 4080的规格，下面我们就正式来看看这张技嘉RTX 4080 MASTER。

作为技嘉显卡中的旗舰系列，这张超级雕上手给人的第一感觉确确实实也对得起“旗舰”二字，整个外包装箱十分的硕大，基本上是完全沿用了RTX 4090超级雕的一个包装规格。

打开包装盒后，里面除了显卡本体外还有一条转接线和一个显卡支架，毕竟这张技嘉RTX 4080 MASTER和技嘉RTX 4090 MASTER一样都是一个四槽卡的大小，重量也不低，显卡支架还是相当有必要的。

外观方面呢，这张技嘉RTX 4080 MASTER也是延续了和技嘉RTX 4090 MASTER一样的设计，显卡正面采用光面、磨砂的材质拼接而成，配合大量的线条和切割纹理，整体的风格还是相当的硬朗炫酷的。

新一代的风之力散热系统正面采用了3把110mmAORUS鲨鱼仿生风扇采用正逆风道的设计，能有效减少三风扇间的气流干扰，提高散热效能。

全新设计的鲨鱼仿生风扇表面采用了类鲨鱼盾鳞的纹理设计，能实现更好的风扇动平衡，在提高风压的同时，也让运转的噪音能够低至3dB。

其实这套散热系统此前我们在评测技嘉RTX 4090 MASTER时就已经给我们留下了极其深刻的印象，这次下放到技嘉RTX 4080 MASTER，表现应该是无需担心的。

技嘉RTX 4080 MASTER的背板采用的是一整块金属背板覆盖的设计，背板表面采用了喷砂工艺，同时也做了大量的线条设计，和显卡的正面相呼应，还是相当的耐看。背板上还开有散热窗口，用于进一步辅助散热。

显卡侧面，除了有GEFORCE RTX的logo字样，还有AORUS的logo以及一块液晶显示屏，给显卡提供更高的可玩性。

接口方面，技嘉RTX 4080 MASTER采用的依旧是全新的16pin供电接口，上方还贴心的做了指示灯，能够更好的判断显卡供电状态。

接口方面，技嘉RTX 4080 MASTER依旧是常见的三个DP1.4a加一个HDMI2.1a的配置，支持3+1输出。

上机看一下技嘉RTX 4080 MASTER的RGB灯效和个性化设计。不得不说，技嘉RTX 4080 MASTER的这个经典“三环灯”设计确实好看，璀璨、彩虹环、鹰爪等预设灯效各有各的味道。

显卡正面和背面的RGB灯效也是恰到好处，不会过于浮夸，喧宾夺主。

侧面的液晶显示屏，可以显示卡的工作参数，显示各种自定义的文本、图片或GIF动图，利用GCC控制中心就能随意进行更改，可玩性还是相当高的。

总的来说，技嘉RTX 4080 MASTER的外观设计在众多AIC非公显卡中，个人绝对最好看的一张，整体的灯效恰到好处，和极具设计感的造型相得益彰。极富科技感的三环灯还有好看实用的液晶显示屏，让这块技嘉RTX 4080 MASTER无论是竖装还是正装，都十分的好看。

3显卡拆解回顶部

显卡拆解

从这硕大的外观体积，应该也能看出这张技嘉RTX 4080 MASTER的用料是极其豪华的。下面我们就来实际拆解一下。

技嘉RTX 4080 MASTER的PCB十分的紧凑小巧，特别是和巨大的散热模块一对比更加显得小巧了，不过越肩式的设计以及整洁紧凑的元器件布局，使得技嘉RTX 4080 MASTER的PCB虽然要比上代RTX 3080Ti小，但是却容纳了更多的元器件。

PCB正中间就是RTX 4080的GPU核心，采用TSMC 4N NVIDIA定制工艺的AD103-300 GPU芯片。

核心四周是8颗镁光的GDDR6X显存，编号为2PU47-D8BZF，单颗容量2GB，8颗组成16GB内存。

供电部分，技嘉RTX 4080 MASTER采用了极其豪华的24+3相供电，23相位核心供电，3相为显存供电。这样的供电规模只能用夸张来形容，要知道技嘉RTX 4090 MASTER也仅仅比这张技嘉RTX 4080 MASTER多了一相显存供电，这样的供电规模甚至已经超过了许多AIC非公RTX 4090显卡的供电规模。

每相供电均采用独立的DrMos，芯片来自来自万国半导体Alpha & Omega Semiconductor，编号为BLN0 1111，具体型号为AOZ5311NQI，可以实现55A的持续电流输出。

PCB右上角为全新的12VHPWR供电接口，附近是两颗封闭电感用于保证供电稳定。

相比元器件密布的正面，技嘉RTX 4080 MASTER的PCB背面就相对简洁一些，核心背部电容采用了两个钽电容代替MLCC电容，整体电气性能更强。

供电的三颗PWM控制芯片也位于背面，型号分别为uP9529Q、uP9512R以及uS5650Q。其中uP9529Q与uP9512R共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

整体看完PCB，我们再来看看技嘉RTX 4080 MASTER这个硕大的全新风之力散热系统，这个散热系统的规格和技嘉RTX 4090 MASTER上的相当，足见这张技嘉RTX 4080 MASTER堆料的豪华。

风之力散热系统采用了均热板设计，均热板和GPU、显存、电感、MOS管接触的地方采用了大量的高系数的导热垫辅助散热，跟不要钱似的。

均热板上，是极其恐怖的12根复合式热管，仅比技嘉RTX 4090 MASTER少一根。

热管上覆盖的是大面积的散热鳍片，可以看到鳍片的厚度将近5cm厚。

散热器上则是3把110mm的仿生鲨鱼风扇，正逆风道的设计能够有效的减少乱流干扰，配合经过空气动力学优化的扇叶，能够大幅提高散热效率。

总的来说，这样的散热规模即使是用来压制RTX 4090的AD102核心都绰绰有余，何况是用来应对RTX 4080，堪称降维打击。

4测试平台 | 理论性能测试回顶部

测试平台

看完了外观和拆解，下面就到了性能的测试，为了让这张技嘉RTX 4080 MASTER的性能得到最充分的释放，我们的测试平台也是采用了当下最旗舰的一个配置，Intel i9-13900K搭配技嘉Z790 AORUS MASTER超级雕主板，以及金士顿的64GB DDR5-6000高规格内存。

技嘉M28U电竞显示器

为了直观清晰的看到技嘉RTX 4080 MASTER带来的游戏画面和帧率提升，我们用了一台采用4K 144Hz SS IPS面板（SuperSpeed IPS 快速液晶）的旗舰显示器，技嘉M28U。4K分辨率能让我们清晰的观察到画面的变化，144Hz刷新率能让我们之观的感受到技嘉RTX 4080 MASTER带来的丝滑画面，用来搭配技嘉RTX 4080 MASTER再合适不过了。

在测试开始前，通过GPU-Z可以看到技嘉RTX 4080 MASTER的基准频率为2205MHz，Boost频率可以达到2550MHz，略高于FE公版的2505MHz。并且可以看到此时主板的Resizable BAR功能已开启，显卡能够做大限度的发挥出其全部性能。

理论性能测试

照例先来测试下技嘉RTX 4080 MASTER的理论性能，通过3DMark理论性能测试可以看到，技嘉RTX 4080 MASTER的表现还是相当让人惊喜的，相比上一代的RTX 3080Ti和RTX 3090Ti整体有30%和14%左右的提升，并且随着分辨率的提高，技嘉RTX 4080 MASTER对比上一代的提升就更为明显。与RTX 4090相比，技嘉RTX 4080 MASTER也有着RTX 4090 71%的性能，整体性能还是十分符合我们预期的。

具体到光追和DLSS的单项测试中，技嘉RTX 4080 MASTER无论是对比RTX 3080Ti还是RTX 3090Ti，提升都是相当明显的，看得出这代显卡在光追和DLSS方面有着更加强大的性能表现。

在3DMARK最先推出的DX12基准测试工具，SpeedWay性能测试测试中，技嘉RTX 4080 MASTER在4K画质下跑出了7203分，相比FE公版RTX 4080的7152还要高。

AIDA64的GPGPU理论性能测试中，技嘉RTX 4080 MASTER运算性能相比RTX 3080Ti和RTX 3090Ti的提升分别为42%和33%，哈希算力则是和上一代RTX 3080Ti持平，好在矿潮基本已经褪去，不用担心RTX 4080变成空气卡。

5游戏测试回顶部

游戏测试

显然大家对RTX 4080最为关注的肯定是游戏性能，前面的理论性能测试我们以及知道技嘉RTX 4080 MASTER相比上一代RTX 3080Ti有着30%的提升，整体的性能大概是旗舰卡皇RTX 4090的71%。那么具体到实际的游戏中，技嘉RTX 4080 MASTER的表现有如何呢？

我们选取了多款主流热门的3A游戏进行实测，考虑到即便是上代的RTX 3090Ti已经足以完美的应对2K分辨率，所以技嘉RTX 4080 MASTER的1080P、2K的游戏测试我们就直接看表，重点还是看4K 和8K的游戏测。

通过实测结果可以看到，在4K游戏方面，技嘉RTX 4080 MASTER基本上能够很好的应对。实测大多数游戏都能跑到100左右的帧数。即使是《赛博朋克 2077》这样对显卡压力较大的游戏中，在开启超级光追的情况下，在DLSS性能挡位下技嘉RTX 4080 MASTER也能跑出平均86的帧率，相比上一代的RTX 3080Ti勉强60的帧率，流畅度的提升相当明显。

在另一款光追游戏《光明记忆：无限》中，在光追质量，DLSS性能的挡位下，技嘉RTX 4080 MASTER相比RTX 3080Ti有着44%的提升。

总体来看，技嘉RTX 4080 MASTER在4K分辨率的游戏性能要强于RTX 3080Ti 40%左右，整体有着RTX 4090 76%左右的一个性能，用来应对4K高画质游戏基本上是完全没有问题的，在高特效开启光追的情况下已经能够有超过60的帧率，部分游戏甚至已经能够达到4K 144Hz的电竞水平了，表现还是相当可观的。

那么在8K游戏方面，技嘉RTX 4080 MASTER的表现如何？经过实测，技嘉RTX 4080 MASTER在8K分辨率下，部分游戏在超高画质的情况下能够跑到60帧以上的成绩，像《古墓丽影：暗影》在开启DLSS超级性能的情况下甚至能有过百的帧率。

相比RTX 3080Ti，8K游戏完全是一个可玩的状态。不过对比RTX 4090，RTX 4080的16GB显存在8K分辨率下还是有点不太够看的，想要超高画质体验8K游戏，对于RTX 4080还是有一定的压力的，不过选择将画质降低到中、高的挡位，还是可以获得较为不错的8K游戏体验的。

不过需要注意的是，目前8K显示器的价格普遍都还处于较高的水平，即使是相对便宜的8K电视产品，一台电视也要抵得上一张显卡的价格了，所以现阶段8K游戏还是有钱玩家的玩具，。RTX 4080 16GB的显存其实只是刚好只够尝鲜一下8K游戏，想要能够称得上丝滑流畅的体验，那还是要RTX 4090，从这点看又不得不佩服老黄刀法之精准！

6DLSS 3测试回顶部

DLSS 3测试

这一代40系显卡，相比上一代显卡除了架构和工艺带来的性能提升，另一大提升毫无疑问就是DLSS 3了，在RTX 4090上我们已经看到了DLSS 3的实力。那么在技嘉RTX 4080 MASTER上DLSS 3带来的帧数提升又能否和RTX 4090一样惊喜呢？

在3DMark的DLSS 3 BenchMark中，实测技嘉RTX 4080 MASTER的性能表现还是相当不错的，在4K分辨率下开启DLSS 3，帧率有着超过3倍的提升。而当分辨率来到了8K，提升更加惊人，在不开启DLSS 3的情况下，仅有1.6帧，开启DLSS 3后帧率直接暴涨到了70帧，提升幅度甚至比RTX 4090还要大。

当然3DMark毕竟只是理论性能跑分，具体到游戏中表现有如何呢？我们选择了多款已经支持DLSS 3的游戏和一些测试DEMO来进行测试，分别测试在2K、4K以及8K分辨率下，技嘉RTX 4080 MASTER的DLSS 3所带来的帧率提升。

首先是2K和4K分辨率，通过实测的数据可以看出，基于新一代Ada Lovelace架构，采用TSMC 4N工艺的技嘉RTX 4080 MASTER性能确实强劲，即便是开启DLSS 2，帧率提升也要比上代RTX 3080Ti明显要强的多。而在开启了DLSS 3后，帧率的提升幅度是更加的明显，很多游戏甚至以及达到了RTX 3080Ti开启DLSS 2后帧数的两倍。

《瘟疫传说：安魂曲》

以10月份刚刚发布的新游《瘟疫传说：安魂曲》为例，虽然技嘉RTX 4080 MASTER的性能，在4K分辨率下即便不开DLSS，60左右的平均帧也是能流畅的游玩这款游戏。但是开启DLSS 2功能后，游戏帧数直接来到了119，1%帧数也达到了97 FPS，提升直接翻倍；开启DLSS 3后，帧率更是直接飙升到了157帧，即使是1%帧数也有134帧，这样的帧数已经完全能够达到电竞的水准了，游戏的流畅度和不开DLSS完全不是一个量级的。

Unreal Engine 5 Enemies DEMO

Unreal Engine 5作为次世代游戏开发引擎，用其制作打造的游戏对显卡的压力还是相对巨大的。不过在Unreal Engine 5 Enemies DEMO中，DLSS 3也展现出极其强大的实力，在4K分辨率下技嘉RTX 4080 MASTER可达77 AVG/66 1%FPS/55 ms的水平，而关闭DLSS3后仅有22 AVG/17 1%FPS/195 ms，基本就是超过3倍的游戏流畅度提升。

只能说在2K、4K这个分辨率下，绝大部分游戏已经不能给这张造成技嘉RTX 4080 MASTER太大的压力了，那么就我们直接把分辨率升级到8K。

可以看到，来到8K分辨率后，即便有强大的DLSS 3技术加持， RTX 4080还是面临着较大的压力的。最大的问题就是显存不太够用了，主要表现就是主要表现为显存占用达到了16GB，游戏帧数也较低，像《光明记忆：无限》，开启DLSS 3后帧率反而较DLSS 2还下降了，可能是DLSS 3或比DLSS 2占用更多的一个显存。这一代的RTX 4080想要跑8K还是有一定困难的，还是那句话，老黄的刀法着实精准。

总的来说，DLSS 3给游戏帧率带来的提升确实是相当的给力，而且目前DLSS 3游戏支持发展迅速，截至11月15日，已有《瘟疫传说：安魂曲》、《光明记忆：无限》、《毁灭全人类2：重新探测》、《暗影火炬城》、F1 ® 22、《逆水寒》等10款可玩的DLSS 3游戏发布。

此外，WRC Generations、《极品飞车:不羁》、《战锤40K：暗潮》三款新游也将支持DLSS 3技术，整个DLSS 3游戏库的扩展速度还是相当令人惊喜的。

7创作力性能测试回顶部

创作力性能测试

虽然大部分更多关注的是RTX 4080的游戏性能，当然我们还是有必要了解一下它的创作力性能的。这里我们选择PugetBench、PCMark 10这两款常见的测试软件，来测试技嘉RTX 4080 MASTER在日常办公、视频内容生产等方面的性能表现。

其实在日常办公和视频内容创作这块，并不是很依赖GPU，更多是依赖CPU的一个性能，所以总体来看，技嘉RTX 4080 MASTER相比上一代RTX 3080Ti整体提升并不大，仅有8%左右，表现基本和RTX 4090持平。对于想用来办公或视频剪辑的用户来说，RTX 4080确实有些大材小用了。

在更为专业的软件，比如建模、渲染、工业设计等软件上，技嘉RTX 4080 MASTER的表现就和上代显卡拉开了明显的差距。在Blender渲染软件中，技嘉RTX 4080 MASTER对比RTX 3080Ti有着52%的提升，在Octanebench和SPEC中，也有着近52%和34%的提升，整体性能仅比RTX 4090低25%左右，表现还是相当可以的。

当然这一代40系显卡还配备了第八代NVIDIA NVENC编码器，加入了对AV1编码的支持。作为下一代的视频编码技术，AV1编码拥有更加快速的视频编码和更高质量的流媒体传输性能，目前许多主流媒体都已经支持AV，像达芬奇或万兴喵影等软件也开始逐步支持AV1编解码，未来AV1编码或许会成为一个新趋势。

AV1和H.265容量对比

所以这里我们也测试了技嘉RTX 4080 MASTER的编解码性能，我们使用NVIDIA提供的8K片源与工程文件进行测试，同样的素材，AV1编码相比H.265编码所需时间更短，而即使同为H.265格式导出，技嘉RTX 4090 MASTER的导出时长相比RTX 3080Ti也快了近62%左右。

值得一提的是，因为编码器的数量都为2个，所以技嘉RTX 4080 MASTER对比RTX 4090两者在视频编解码性能方面表现持平。这意味着对于想要在未来全面拥抱AV1和H.265编码的视频工作室来说，如果只看编解码性能，技嘉RTX 4080 MASTER似乎是比RTX 4090更加划算的选择。

8超频 | 散热&烤机 | 总结回顶部

超频

对于这么一张用料豪华的显卡，相信大家对他的超频能力还是比较感兴趣的。下面我们就来简单的小超一下技嘉RTX 4080 MASTER。

超频软件我们用的是技嘉自家的GCC软件，将风扇转速拉到100%，同时解锁GPU核心电压限制以及功耗限制。在默认频率下，技嘉RTX 4080 MASTER在3DMark的Port Royal测试中跑出了18102的分数，通过频率曲线可以看到，GPU的有效频率来到了2850MHz。

经过简单的尝试，我们将GPU的BOOST频率拉到了2710MHz，此时3DMark的Port Royal测试跑分来到了18748，GPU有效频率来到了3015MHz，相比默频情况下有着3.5%的提升，还是较为可观的。

散热&烤机

最后我们再测试一下技嘉RTX 4080 MASTER的功耗和散热表现，其实这样的散热规模大可让人放心，感觉都不用测试了。当然为了看下这张技嘉RTX 4080 MASTER究竟有多凉快我们还是跑了一下Furmark甜甜圈。

在室温25°C的情况下，Furmark甜甜圈1280 x 720分辨率，在烤机20分钟后，显卡占用率达到了99%，满载功耗为310W，显卡核心频率为2550MHz，核心满载温度稳定在56.9℃。这样的温度表现可以说是毫无意外了。

值得一提的是，技嘉RTX 4080 MASTER此时的风扇转速也才70%左右，噪音表现控制的相当的出色，丝毫感觉不到明显的噪音。看这核心温度和风扇噪音，要不是看到显卡占用率99%，我差点都有以为这张卡没在烤机，只能说技嘉RTX 4080 MASTER的这个全新风之力散热系统确实猛。

总结

玩家在苦等了几年后，终于等来了全新的40系显卡，从目前性能解禁的RTX 4090和RTX 4080看，玩家过去这几年没有白等。而相比旗舰卡皇RTX 4090，售价相对较低的RTX 4080无疑在游戏玩家中享有更高的关注度。通过目前的测试下来，RTX 4080虽然售价相比上一代有所提升，但性能提升还是没有让人失望的。在游戏方面，在4K分辨率下，RTX 4080能够以超高画质流畅运行绝大部分游戏，当然想要上到8K可能就需要选择将低一些画质，在中、高画质下，RTX 4080也能提供较为不错的体验。而在创作力性能方面，RTX 4080相比旗舰RTX 4090也又没落后多少，专业创作者来说或许是一个更有性价比的选择。

回到这张技嘉RTX 4080 MASTER显卡上，硬朗的造型，配上经典的三环灯设计，恰到好处的灯效还有液晶显示屏，让这张卡在的颜值相当出众，极具科技感，个人认为是众多AIC非公显卡中最具设计感的一张显卡之一。

而在用料方面，技嘉RTX 4080 MASTER可以说是豪华到“离谱”，全新的风之力散热系统，24+3相供电，可以说用料规格基本上就是RTX 4090的规格，也可以看出技嘉对RTX 4080的重视。而恐怖的堆料带来的则是十分出色的性能释放，简单超频就能轻松跑到3000MHz以上的频率，同时温度表现相当出色，56.9°C的烤机温度只能说“离谱”。

总的来说，RTX 4080对得起我们的期待，是一张极其出色的4K游戏显卡。如果你也想要入手一张RTX 4080感受新显卡带来的极致游戏体验，那么这张极致堆料的技嘉RTX 4080 MASTER就是一个绝对的“旗舰”之选！

9Ada Lovelace架构讲解回顶部

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元，以及面向AI推理的Tensor Core单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RT Core和三代Tensor Core基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元，同时加入众多新颖的黑科技，从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

Ada Lovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores（张量核心）、4个Texture Units（纹理单元）、256 KB Register File（寄存器堆），以及128 KB L1 数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32 计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看Ada Lovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForce RTX 4080拥有76个SM，9728个CUDA核心，那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了，比上一代的RTX 3090 Ti显卡的40 TFLOPS，还真是提升了两倍有多。

另外缓存方面Ada Lovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128 KB的缓存，这样RTX 4080显卡中就实现了97MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD103核心与RTX 4080都是64MB二级缓存，相比RTX 3080 Ti可以说是质的飞跃。

10技术讲解：第三代 RT Cores与第四代 Tensor Cores回顶部

技术讲解：第三代 RT Cores与第四代 Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

第三代 RT Cores

RT Cores用于光线追踪加速，第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS，是上一代产品 2.8 倍。

在Ampere架构中，第二代RT Cores支持边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代 RT Cores增加了两个重要硬件单元：Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine，主要是用于alpha通道的加速，可以将 alpha 测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染，例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha 通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

Displaced Micro-Meshes Engine

如果说Opacity Micromap Engine加速的是面处理，那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示，在Ada Lovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RT Cores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在Ada Lovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时Ada Lovelace架构SM中新增了着色器执行重排序（Shader Execution Reordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用 GPU 资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代 Tensor Cores

Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎，具有高达 1.32 petaflops 的张量处理性能，超过上一代的 5 倍。

11技术讲解：DLSS3回顶部

技术讲解：DLSS3

或者说第四代 Tensor Cores太硬核你不会知道是啥？提升意义在哪？但是Tensor Cores最经典的应用DLSS你肯定会知道，这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS 帧生成、DLSS 超分辨率（也称为 DLSS 2）和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS 帧生成技术；而后两技术中，DLSS 超分辨率只需要GeForce RTX显卡都能使用上，NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

想实现DLSS 帧生成可不简单，这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是：利用 AI 技术生成更多帧，以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而Ada Lovelace架构的光流加速器升级到了第二代，其提供了高达300 TeraOPS (TOPS) ，比安培架构的初代光流加速器（Optical Flow Acceleration，OFA）快 2 倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS 帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS 3是建立在DLSS 2基础之上的，游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能，所以DLSS 3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIA Reflex

NVIDIA Reflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后，直接达到1440p分辨率360 FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布，包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz，而最猛的是ASUS ROG Swift 360 Hz PG27AQN ，刷新率直接来到了360Hz。

但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p 360Hz是很美好，但现实也是相当的骨感。

12 技术讲解：双 NVIDIA 编码器（NVENC）回顶部

技术讲解：双 NVIDIA 编码器（NVENC）

GeForce RTX 40 系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式 AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1 编码器可将效率提高 40%，同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

13回顶部

技嘉RTX 4080 MASTER超级雕首发评测：极致的堆料，绝对的旗舰！

河南一豫剧团冒雪坚持演出2小时，台下观众寥寥，却有3万网友在线围观

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

山东省济南市政府党组成员、副市长谢堃接受纪律审查和监察调查

宁波一旅游团所乘邮轮滞留迪拜，船上有约200名中国游客

上海著名主持人直播中泪目！中东战火下，有人平安返航、有人新婚分离、有人只想回家

男子爬到何仙姑雕像头顶拍照，山东蓬莱阁景区回应：“八仙过海”石雕属于公共区域无人值守，后续会加强巡逻

“刚付完尾款，迪拜机场就被炸了……”杭州女子原旅行计划途经中东，纠结要不要取消

极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

宁德时代贵州基地招人！月薪最高3万！

开学了！上海182万中小学生迎来“超短学期”

“沪七条”新政首周末显效，申城楼市迎来看房热潮

又是熟悉的配方！新赛季，海港准备好了吗？

欧洲天然气价格涨幅扩大至42%，创2022年3月以来最大涨幅

专家呼吁：国家层面尽快出台充电桩安装统一标准

首次、首创、新突破！上周，我国科技发展再添新成果

最新！油价调整通知

河南店主在上海卖早餐被催开门！一天接到200多个陌生电话