聊聊昨晚发布的40系列显卡_杨振互联网服务中心

简单聊聊40系列显卡吧，昨晚23点，老黄为我们带来了GTC Sept 2022 Keynote with NVIDIA。当然同时也有GeForce RTX 40 系列显卡，并且将于10月12日正式发售。

NVIDIA这次发布了三款GeForce RTX 40系列显卡，分别是GeForce RTX 4090以及GeForce RTX 4080的12GB和16GB版本。

这回的几款显卡用上了NVIDIA与台积电合作定制的4N工艺，性能不用说肯定很强（想想之前高通骁龙8gen1三星工艺和8gen1+台积电工艺的区别），有咩有想买的？

4090！

GeForce RTX 4090 GPU是GeForce RTX 40系列的旗舰产品，基于Ada Lovelace架构。
这玩意儿具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存，据说在4K分辨率的游戏中可以超过100 FPS了。

强啊~
不过价钱，NVIDIA GeForce RTX 4090建议零售价12999元起。
个人感觉还行，值得这个价格，不过一般玩家用不上哈哈。

4080

这两种配置版本的RTX 4080将于11月上市，建议零售价分别为¥9499元起和¥7199元，对应16G显存和12G显存（终于有16g显存的4080桌面级了，上一代只有笔记本laptop版有16g的3080）。

RTX 4080 16GB拥有9728个CUDA核心和16 GB高速美光GDDR6X显存，性能比GeForce RTX 3090 Ti强，接近3080ti两倍性能，有点爽。

RTX 4080 12GB则拥有7680个CUDA核心和12GB 美光 GDDR6X显存，搞一下性能也比上一代旗舰RTX 3090 Ti强。

不过价格有点小贵，可能是为了和上一代拉开差距，清一波库存。

Ada Lovelace架构

重点看下Ada Lovelace架构给40系显卡带来的几个重要的变化吧~

首先SM（Streaming Multiprocessors），流式多处理器，最高90 TFLOPS的性能，吞吐量是上一代Ampere架构的2倍。

然后引入了一套全新的着色器执行重排序（SER）技术，咋说呢，可以将其理解为GPU的乱序执行，通过即时重新安排着色器负载来提高执行效率，从而更好地利用GPU资源。该技术可实时重新调度任务，将光线追踪性能提升 2-3 倍，和 CPU 的乱序执行一样是一项重大创新（高级）。

另一个是全新的 RT Core 。

有着两倍的光线与三角形求交性能以及两个全新的重要硬件单元，全新的 Opacity Micromap 引擎将光线追踪的 Alpha-Test 几何性能提升 2 倍，也是全新的Micro-Mesh 引擎可提升几何图形的丰富度而不会带来更多的 BVH 构建和存储资源消耗（这里有点不懂了）。

着色器执行重排序（SER）的引入能够更好的利用一致性来提升着色器的执行效率，从而减少了光线追踪技术在GPU上低效率的问题，因此Ada Lovelace的实时光线追踪性能也将比前一代更好。

第四代Tensor Core

还有第四代Tensor Core，之前H100中已经提到过，相比第三代Tensor Core多了FP8的精度选项。

而且牛逼的Hopper FP8 Transformer Engine可提供 1.4 petaFLOPS 的张量处理性能。

由于计算量庞大，Transformer AI 网络的训练时间会延长到几个月。与 Ampere 上的 FP16 相比，Hopper 新增的 FP8 精度可提供高达 6 倍的性能。FP8 用于 Transformer 引擎，后者是一项专门为加速 Transformer 模型训练而打造的 Hopper Tensor Core 技术。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度格式，大幅加速 Transformer 训练的 AI 计算，同时保持准确性。FP8 还可大幅提升大型语言模型推理的速度，性能提升高达 Ampere 的 30 倍。

FP16和INT8相比上一代也提升了3倍的吞吐量，记得第三代比第二代是提升了2倍，这回直接三倍了…

INT8的3倍也是很香。

实际使用中模型性能提升肯定有损耗，但肯定更强就不用说啦。

DLSS 3

AI在游戏方面的应用，与常年来小版本更新不同，这一次DLSS直接升级到了DLSS 3，是一种全新的AI解决方案，厉害的地方在于可以生成整个帧，而不仅仅是图像中的部分像素。换而言之，之前的DLSS局限于同一帧下图像的细节，现在DLSS 3将考虑到前后帧的变化趋势。实通过软硬件插值提升元器件特定环境下的性能并不稀奇，稀奇的是通过AI的形式剥渲染后，仍然能产生有效帧是相当厉害的。也因为如此，DLSS 3能够帮助游戏性能提升4倍。

在技术构成上，DLSS 3由第四代Tensor Core和全新的光流加速器实现。其中第四代Tensor Cores具有高达1.32 Petaflops的FP8张量处理性能，超过上一代使用FP8加速性能的5倍。

全新的光流加速器如前面所说，可分析两帧连续的游戏图像，并计算帧到帧中物体和元素的运动矢量数据，而不使用传统游戏引擎的运动矢量进行建模。这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。

通过综合游戏中的一对超级分辨率帧，以及引擎和光流运动矢量，并将其输入至卷积神经网络，就能计算生成出新的一帧，这在实时游戏渲染中是首次实现。将DLSS生成的全新帧与DLSS超级分辨率帧相结合，使DLSS 3能用AI重建八分之七的显示像素，与没有DLSS相比，游戏性能提升了4倍。

由于DLSS生成帧在GPU上作为后处理执行，即使游戏受到CPU性能限制，也能从中获得游戏性能提升。对于受到CPU限制的游戏，例如物理计算密集型游戏或大型场景游戏，DLSS 3 令GeForce RTX 40系列GPU以高达两倍于CPU可计算的性能渲染游戏。

如同手机界的计算摄影，游戏行业脱离渲染的计算帧普及也将离我们不远了。

AI创作

最后NVIDIA强调了GeForce RTX 40系列的创作性能，以及NVIDIA Studio带来的变化。新GPU使用的双NVIDIA编码器（NVENC）将输出时间至多缩短一半，并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1编码器。

真漂亮。

视频编辑和直播也因GPU性能的提升和全新第八代编码器中AV1的加入而得以提升。NVIDIA Broadcast软件开发工具包有三个更新，包括面部表情预估，眼神追踪，以及虚拟绿幕的质量改进。

总结

新卡出来，之前的老卡感觉又不香了，不知道我的3080-16g-laptop还能战几年…

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/47798.html

聊聊昨晚发布的40系列显卡