https://pc.watch.impress.co.jp/docs/column/kaigai/1275220.html盗贴不要转。另外文中多有推测内容,实际情况以未发表的白皮书为准。
NVIDIA全新构架GPU Geforce RTX 30 系列解析
向量运算与矩阵运算,哪边才是重点?
NVIDIA刚刚发布了安培架构中图形向的产品GeForce RTX 30系列。其中包含高端产品的RTX 3080/3090(GA102)和中端产品的RTX 3070(GA104)。制程工艺为三星的8nm(由10nm派生而来),GeForce RTX 3080/3090(GA102)拥有280亿个晶体管,数量为消费级GPU中最多的。 但是和安培架构中计算向NVIDIA A100(GA100)的540亿相比还是小巫见大巫了。A100(GA100)是由高成本的7nm工艺制造的,显存也是采用的需要硅中介层(interposer)的HBM2显存。 反观GeForce RTX 3080/3090(GA102)是由成本较低的8nm制造,显存也是采用可以直接在基板上集成的GDDR6X。同样是安培架构,根据市场的不同芯片的制造方法也有着显著的不同。


浮点运算性能达到两倍的新型SM设计
NVIDIA的GPU核心是由一个个计算单元聚集成小簇(Streaming Multiprocessor)作为基本单元构成的。在安培构架中,每个SM中由4个执行块(Processing Block)组成。这四个执行块共享贴图单元(TMU)、光线追踪加速器(RT Core)与L1缓存。 每个SM内部都有4个执行块,每个执行块里都有一个命令单元,该单元可以通过SIMT(单指令多线程)的方式将32个线程打包成为一个批次(Warp)交付执行单元进行执行。命令单元在Warp执行的过程中可以进行动态调整,通过交替切换Warp来隐藏执行的延迟。



1.png (89.22 KB, 下载次数: 0)
架构改良的RT Core
SM中4个执行块所共享的资源包含贴图单元和RT Core。这种结构是近期发布的高端GPU比较常见的构成。下图是微软的新游戏机XSX的CU构成图。XSX就是基于AMD的RDNA构架然后添加了光线追踪单元而成的。其中也是有多个指令发射单元,以及位于指令发射单元下方的计算单元组,同时贴图单元与光线追踪单位为共享资源。为了解决因为内存访问导致的延迟变化问题,这种调度分离的设计思想是共通的。

3D空间中的物体使用基于树结构的BVH进行组织管理。首先判断是否与树中的包围盒(Bounding box)是否发生交叉,如果发生交叉,再将发生交叉的三角形找出来。


同样是安培,但是却大有不同的tensor core GA102同样也搭载了面向深度学习的矩阵运算单元,即tensor core。该单元自伏打架构引进,在图灵中也被采用,同时安培构架中进行了进一步的强化。不过在安培中,计算向的GA100与图形向的GA102,对tensor core的改进方向是不同的。 伏打架构与图灵架构中,每个执行块配备了2个tensor core单元。Tensor core可以执行4x4矩阵与4x4矩阵的半精度浮点内积运算,该计算性能与64个半精度FMA单元相当。所以拥有两个tensor core单元等于每个执行块拥有等效的128个半精度FMA单元,而整个SM就等效于包含了512个半精度FMA单元。 有趣的是,GA102构架中,各执行块中却只有一个tensor core了。目前还没有作出详细说明,但是该tensor core却可以执行8x4与4x4矩阵的半精度内积运算,等效于128个半精度FMA单元。因为只有一个tensor core的缘故,所以单个执行块仍然等效于拥有128个半精度FMA单元,SM整体还是等效512个,没有变化。






GA102核心的6个GPC中,每个GPC推测都含有14个或更多的SM单元。所以,在物理层面上包含的SM总数量为84个。这次发表的GPU中最大配置的GeForce RTX 3090的SM数量为82个,所以这6个GPC中的某一个单元实际上只有12个SM单元。 为了提高良品率应用冗余设计的话,在物理层面可能有着更多被屏蔽的SM被集成在核心中。通过冗余设计,将有缺陷的SM屏蔽的话,可以确实的提高良品率。例如说图灵架构的TU102中实际装载了72个SM,但在2080TI中仅有68个SM被启用了。那些可以同时开启72个SM的SSR核心则被特别挑选出来做成TITAN RTX卖给你。



如前文所述,GA102构架中每个SM所搭载的FP32 FMA单元数量为128个。因此在RTX 3090上FP32 FMA单元总数量为10496个。和图灵构架相比,不仅SM数量增加了,而且SM中的FP32 FMA单元数也翻倍了,所以FP32的性能被大幅度的增强,其中RTX 3090的峰值性能达到了36 TFLOPS。 如果再算上价格的话,那么差距就更明显了。虽然GA102的3080被阉割到只有68个SM,但是因为SM架构本身的剧变,FP32单元的数量整体上却变成了8704个。和3080相同价格区间的图灵架构RTX 2080 SUPER却只有3072个单元,3080几乎是他的2.8倍。结果就是相同价格区间里面,向量性能却有着3倍的提升。

采用带宽高达19Gbps的GDDR6X显存 另一方面,G102的深度学习向矩阵运算性能每SM中包含了等效于512个单元的tensor core计算能力,和前代相同,所以理论性能的提升是和SM数量紧密相关的(仅指半精度计算性能)。GA102将晶体管用在了向量单元上,从而抑制了矩阵单元规模的提升。 所以(在SM数量也没有大变化的情况下)tensor core的半精度性能在RTX 3090上是142T,在RTX 3080上是118T,和TITAN RTX基本上没什么太大差距。只不过GA102的tensor core添加了稀疏神经网络的硬件自动剪枝的能力。因此针对稀疏化后的神经网络而言,实际推理性能达到了2倍以上。例如RTX 3090的推理性能相当于285 T,是图灵的两倍。 光线追踪性能也受益于硬件的强化,虽然数量上还是一个SM一个单元,但性能已经今非昔比了。比如3080的光追性能是34 RT TFLOPS,是2080 SUPER的34T的1.7倍。 GA102上搭载了12个内存/显存控制器。内存界面位宽仍然是384bit。支持的显存颗粒为GDDR6X,GA102是地球上第一支持的。GDDR6X是一种采用PAM4提升传输率的新型DRAM。所以在RTX 3080/RTX 3090上达到了19Gbps的传输率,比起GDDR6的15Gbps有35%的提升,内存带宽终于开始摸到1 TB/sec的大门了。

在RTX 3090中,12个内存界面同时启用可以达到384bit,内存带宽为912 GB/sec。只启用10个的时候内存带宽为320bit,例如RTX 3080,其内存带宽为760GB/s。而在GDDR6时代,12个内存界面同时激活也只有496GB/s的2080 super是无法匹敌的。 在IO方面还实装了最新的PCIE 4.0界面。另外GPU间通讯技术NVLINK这次只有最高端的产品才有。 以上,就是NVIDIA最新投入市场的图形向GPU,GeForce RTX 30系列。NVIDIA在计算向GPU A100上强化了面向深度学习的矩阵运算性能。而在GeForce RTX 30系上,却以提高图形计算性能为目的。NVIDIA现在通过不同的配置将GPU设计进行区分开来,在最大限度保留构架共通部分的前提下,再根据偏好不同设计不同的芯片。在安培这一代上,该战略显得越来越明确。
评论
日文机翻也就看看这种技术文还好,注音基本就是一种外来语,文法也还好
日常自然言语真是毁灭性的
评论
那么……在Turing之前的所有GPU(当然,NV40之后),游戏中的INT32指令是怎么执行的?
评论
fp32单元
评论
更新RT Core的内容。
评论
话说问个问题,AMD GPU的int32是靠什么单元运行的,貌似int32比int24慢很多
评论
看了下原文,他好像认为ga102是6gpc?
评论
那不就是了,,如果FP32单元本来就能执行INT32指令,那现在就是两个FP32单元,为啥还搞得不太一样,一个纯FP32和一个FP32+INT32?
或者说执行效率有差?
评论
树导你这课程越来越高深快看不懂了

评论
fp32单元在执行int32指令的时候整个管线都会停下来等待,所以现在是分割为两个部分,一个fp32单元不停歇,一个fp32/int32交替执行,这样效率就提高了
评论
话说老黄这个32个线程打包成warp的行为是不是从G80开始一直没变?
评论
这样理解的话也就是增加一组执行单元(并且需将INT32只往这里送)来保证另一组执行单元和发射单元持续满载?
评论
更新完了。内容好多,有错误可以指出。另外内容是作者推测,最终结果以白皮书为准。
评论
他说的情况应该是volta/turing之前
volta/turing引入了和fp32单元1:1的int32单元,问题是实际中int32指令量远低于fp32,造成发射单元长期闲置一半(32线程分16 fp32+16 int32)
而这代的初衷是让发射单元尽量不空载,所以把fp32:int32=1:1改成了fp32:(int32+fp32)=1:1,有int32指令的时候还是16 fp32+16 int32,没有int32指令时才是32 fp32
评论
老黄还是没忘本
游戏还是要FP32
评论
SSR核心则被特别挑选出来做成TITAN RTX卖给你
评论
反正他认为ga102是图灵的小改款。
评论
FP32:INT32的比例是一部分问题,
另一部分是Shader性能与纹理性能,几何形能,像素填充率的比例问题。
想当年G80/G92/GT200凭借超高的纹理填充率(差不多1.7倍到4.7倍)把AMD的几代卡打的满地找牙,然后强行污蔑说是因为当时VLIW的架构效率低,我们Nvidia牌标量(伪)架构效率高来体现自己的先进性。
这次怕是Nvidia要自吞苦果了。
评论
当时媒体疯狂炒作G80架构是”MIMD“
整整误导了一代人。。。。。
评论
后藤老贼再次脑壳卡
7GPC都在官方图上了他还六个哈哈
评论
官方给的rtx 3080图确实是6gpc。。。你可以看那个图右下角有nvidia的标志,是来自GeForce RTX 30-Series Tech Sessions的图。
你说的7GPC是die shot,那个迷惑性太大了,因为包含了冗余设计的部分,根本看不懂。
评论
官方3080当然是啊,因为阉割了一组,你看他MC也是320bit,这明显不是完整的核心图
但是后藤写的是GA102,而且他自己画的3080阉割图和官方图的阉割也对不上
后藤再次犯错罢了,还记得skylake吗?
评论
112rop
评论
从ga102完整版割到3080来有两种,一个是完整割掉一个gpc,一个是每个gpc再割下2组sm。
评论
你再算算。
你的说法和NV的图就对不上。
评论
确实对不上,应该是每组12,有两组只有10个 = ga100-3080。ga102−3090应该也是6gpc不是完整的,每组14,有一组12。
完整的ga102为止,按照die shot,就是7gpc。
评论
原本的CUDA CORE里头分为FP跟INT

20180525113627598.png (29.54 KB, 下载次数: 0)
现在分出来做了
老黄的架构图画的并不详细
用sub core来表示才能看的出来
现在的CUDA CORE的意思已经变了,以前是图上所指,现在FP32 ALU也配叫CUDA CORE。
评论
但是按照7gpc算3090感觉也很合理:12x7 - 2 = 82。ROP数量现在和gpc绑定:2x8x7=112。这样满状态应该是14x7=98组sm,有点夸张,泰坦王。如果按12x7的话,这就是史上和次旗舰区别最小的旗舰,图灵好歹差了4组sm。可能真没安培titan了。
评论
而且他那个图应该是早就画好的,rop按照新的说法应该在gpc里面了
评论
今天刚听了nv的人介绍A100,根据他说的a100能独立的切成7个虚拟GPU来看的话,GA100应该是7GPC?然后看了一眼白皮书GA102确实是7个GPC
评论
粗略看了一下,意思是说30系还有巨大潜能? 等新技术推广和游戏的跟进优化?
评论
潜能是挺大的,不过跟游戏关系不大了。
评论
游戏卡肯定关注游戏,3090那种另算。
评论
A100我已经测试过了,不过只跑了计算方面的,没跑这个拆分。
评论
我觉得对于机器学习来说A100是优于RTX A6000的,但是对于高性能计算来说还是A6000更强一些,并且不知道TF32相对于FP32精确度会对模型影响有多大
评论
A100有8个gpc,但好像现在的只开放了7个
评论
是的,看到白皮书写的八个gpc但是开了7个
评论
volta到生命末期才开到84sm,而且对于普通人来说只能算纸上发布。
评论
主要还是看能否用到tensor core。
然后A100是hpc卡,要求不能挑精度。
评论
v100从头到尾都是5120sp和4块hbm。每个阶段的旗舰都切的不多,最后也没出完整版。
a100上来切了1/8的gpc和额外的sm以及一块hbm。算是大刀了。
评论
出了v100s。 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?