聊聊昨晚发布的40系列显卡

简单聊聊40系列显卡吧,昨晚23点,老黄为我们带来了GTC Sept 2022 Keynote with NVIDIA。当然同时也有GeForce RTX 40 系列显卡,并且将于10月12日正式发售。

NVIDIA这次发布了三款GeForce RTX 40系列显卡,分别是GeForce RTX 4090以及GeForce RTX 4080的12GB和16GB版本

这回的几款显卡用上了NVIDIA与台积电合作定制的4N工艺,性能不用说肯定很强(想想之前高通骁龙8gen1三星工艺和8gen1+台积电工艺的区别),有咩有想买的?

4090!

GeForce RTX 4090 GPU是GeForce RTX 40系列的旗舰产品,基于Ada Lovelace架构。
这玩意儿具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存,据说在4K分辨率的游戏中可以超过100 FPS了。
图片
强啊~图片
不过价钱,NVIDIA GeForce RTX 4090建议零售价12999元起。
个人感觉还行,值得这个价格,不过一般玩家用不上哈哈。

4080

这两种配置版本的RTX 4080将于11月上市,建议零售价分别为¥9499元起和¥7199元,对应16G显存和12G显存(终于有16g显存的4080桌面级了,上一代只有笔记本laptop版有16g的3080)。


RTX 4080 16GB拥有9728个CUDA核心和16 GB高速美光GDDR6X显存,性能比GeForce RTX 3090 Ti强,接近3080ti两倍性能,有点爽。


RTX 4080 12GB则拥有7680个CUDA核心和12GB 美光 GDDR6X显存,搞一下性能也比上一代旗舰RTX 3090 Ti强。


不过价格有点小贵,可能是为了和上一代拉开差距,清一波库存。
图片

Ada Lovelace架构

重点看下Ada Lovelace架构给40系显卡带来的几个重要的变化吧~


图片
首先SM(Streaming Multiprocessors),流式多处理器,最高90 TFLOPS的性能,吞吐量是上一代Ampere架构的2倍。


图片
然后引入了一套全新的着色器执行重排序(SER)技术,咋说呢,可以将其理解为GPU的乱序执行,通过即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源。该技术可实时重新调度任务,将光线追踪性能提升 2-3 倍,和 CPU 的乱序执行一样是一项重大创新(高级)。


图片
另一个是全新的 RT Core 。


有着两倍的光线与三角形求交性能以及两个全新的重要硬件单元,全新的 Opacity Micromap 引擎将光线追踪的 Alpha-Test 几何性能提升 2 倍,也是全新的Micro-Mesh 引擎可提升几何图形的丰富度而不会带来更多的 BVH 构建和存储资源消耗(这里有点不懂了)。


图片
着色器执行重排序(SER)的引入能够更好的利用一致性来提升着色器的执行效率,从而减少了光线追踪技术在GPU上低效率的问题,因此Ada Lovelace的实时光线追踪性能也将比前一代更好。

第四代Tensor Core

还有第四代Tensor Core,之前H100中已经提到过, 相比第三代Tensor Core多了FP8的精度选项。


而且牛逼的Hopper FP8 Transformer Engine可提供 1.4 petaFLOPS 的张量处理性能。

图片

由于计算量庞大,Transformer AI 网络的训练时间会延长到几个月。与 Ampere 上的 FP16 相比,Hopper 新增的 FP8 精度可提供高达 6 倍的性能。FP8 用于 Transformer 引擎,后者是一项专门为加速 Transformer 模型训练而打造的 Hopper Tensor Core 技术。Hopper Tensor Core 能够应用混合的 FP8 和 FP16 精度格式,大幅加速 Transformer 训练的 AI 计算,同时保持准确性。FP8 还可大幅提升大型语言模型推理的速度,性能提升高达 Ampere 的 30 倍。

图片
FP16和INT8相比上一代也提升了3倍的吞吐量,记得第三代比第二代是提升了2倍,这回直接三倍了…


图片
INT8的3倍也是很香。


图片
实际使用中模型性能提升肯定有损耗,但肯定更强就不用说啦。

图片

DLSS 3

AI在游戏方面的应用,与常年来小版本更新不同,这一次DLSS直接升级到了DLSS 3,是一种全新的AI解决方案,厉害的地方在于可以生成整个帧,而不仅仅是图像中的部分像素。换而言之,之前的DLSS局限于同一帧下图像的细节,现在DLSS 3将考虑到前后帧的变化趋势。实通过软硬件插值提升元器件特定环境下的性能并不稀奇,稀奇的是通过AI的形式剥渲染后,仍然能产生有效帧是相当厉害的。也因为如此,DLSS 3能够帮助游戏性能提升4倍。

图片

在技术构成上,DLSS 3由第四代Tensor Core和全新的光流加速器实现。其中第四代Tensor Cores具有高达1.32 Petaflops的FP8张量处理性能,超过上一代使用FP8加速性能的5倍。

全新的光流加速器如前面所说,可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而不使用传统游戏引擎的运动矢量进行建模。这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。


通过综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。将DLSS生成的全新帧与DLSS超级分辨率帧相结合,使DLSS 3能用AI重建八分之七的显示像素,与没有DLSS相比,游戏性能提升了4倍。


由于DLSS生成帧在GPU上作为后处理执行,即使游戏受到CPU性能限制,也能从中获得游戏性能提升。对于受到CPU限制的游戏,例如物理计算密集型游戏或大型场景游戏,DLSS 3 令GeForce RTX 40系列GPU以高达两倍于CPU可计算的性能渲染游戏。


图片
如同手机界的计算摄影,游戏行业脱离渲染的计算帧普及也将离我们不远了。

图片

AI创作

最后NVIDIA强调了GeForce RTX 40系列的创作性能,以及NVIDIA Studio带来的变化。新GPU使用的双NVIDIA编码器(NVENC)将输出时间至多缩短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1编码器。


真漂亮。


图片
视频编辑和直播也因GPU性能的提升和全新第八代编码器中AV1的加入而得以提升。NVIDIA Broadcast软件开发工具包有三个更新,包括面部表情预估,眼神追踪,以及虚拟绿幕的质量改进。

总结

新卡出来,之前的老卡感觉又不香了,不知道我的3080-16g-laptop还能战几年…

图片

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/47798.html

(0)
联系我们
联系我们
分享本页
返回顶部