日本电子维修技术显卡<後藤弘茂>NVIDIA全新构架GPU Geforce RTX

日期：2021-09-30 栏目：维修经验

https://pc.watch.impress.co.jp/docs/column/kaigai/1275220.html盗贴不要转。另外文中多有推测内容，实际情况以未发表的白皮书为准。
NVIDIA全新构架GPU Geforce RTX 30 系列解析
向量运算与矩阵运算，哪边才是重点？
NVIDIA刚刚发布了安培架构中图形向的产品GeForce RTX 30系列。其中包含高端产品的RTX 3080/3090（GA102）和中端产品的RTX 3070（GA104）。制程工艺为三星的8nm（由10nm派生而来），GeForce RTX 3080/3090（GA102）拥有280亿个晶体管，数量为消费级GPU中最多的。但是和安培架构中计算向NVIDIA A100（GA100）的540亿相比还是小巫见大巫了。A100（GA100）是由高成本的7nm工艺制造的，显存也是采用的需要硅中介层（interposer）的HBM2显存。反观GeForce RTX 3080/3090（GA102）是由成本较低的8nm制造，显存也是采用可以直接在基板上集成的GDDR6X。同样是安培架构，根据市场的不同芯片的制造方法也有着显著的不同。

三星在2019年ARM Techcon上发表的制程工艺技术路线图同样的，内部构架上两种GPU也有巨大的区别。虽然开发代号同为安培，但计算向的GA100主要着重于提升矩阵运算能力（甚至连名称都改为了Tensor core GPU），而图形向的GA102则是以提升向量运算为重点。一个是以加速深度学习算法为中心的强化矩阵计算的策略，而另外一个则是以图形运算为中心的强化向量计算的策略，可以说两者的发展路线分的很清楚。同时，GA102上搭载了光线追踪加速器RT Core单元，更加明确了GA102为图形计算特别优化的方针路线。这样设计选择的结果就是GeForce RTX 30系列在图像性能上有了长足的进步。在699美元这个档上，“实惠的高端卡”RTX 3080的性能和上一代Turing架构相同价位产品RTX 2080 SUPER的两倍。向量运算的浮点性能接近3倍，光追性能1.7倍，深度学习推理性能2倍以上！

各种GPU的die size与晶体管数量，其中die size有一部分是推测的

浮点运算性能达到两倍的新型SM设计

NVIDIA的GPU核心是由一个个计算单元聚集成小簇（Streaming Multiprocessor）作为基本单元构成的。在安培构架中，每个SM中由4个执行块（Processing Block）组成。这四个执行块共享贴图单元（TMU）、光线追踪加速器（RT Core）与L1缓存。每个SM内部都有4个执行块，每个执行块里都有一个命令单元，该单元可以通过SIMT（单指令多线程）的方式将32个线程打包成为一个批次（Warp）交付执行单元进行执行。命令单元在Warp执行的过程中可以进行动态调整，通过交替切换Warp来隐藏执行的延迟。

GA102构架的SM的构成图

GA102构架的SM的概要设计在执行管线中，可以执行FP32乘积与累加单元（FMA）即CUDA核心由两组16路的SIMT单元与4个SFU组成。FP64单元虽然并不存在于幻灯片中，但理论上应该多少会有一点，当然因为是图形向的产品，就算有也会相当程度的被压制规模。除此之外，当然还有Tensor core和load/store相关的单元。 GA102的构成基本上与前代的图灵类似。只不过，图灵的计算单元是16路的FP32和16路的32bit整数单元（INT32）各一个的构成形式。而在GA102上面，16路的32bit整数单元不仅可以做整型计算，同样也可以执行FP32的乘积与累加运算。因此SM内部的向量浮点运算单元翻倍了，同时向量运算的性能也翻倍了（NVIDIA只将可以进行FP32 FMA的单元算为cuda core）。顺便说下，想要同时向两个16路的单精度浮点SIMT单元发射指令，并不需要强行在一个warp中让两者同时进行计算。因为一个warp是32线程的所以将32个线程的SIMT指令发射给一个16路SIMT单元的时候，该单元需要2个周期才能完成一个步骤。所以向两个16路单元交替的发射（32线程的warp指令）的话，计算单元就可以满负荷运行。（这段有点绕，我贴下原文，并自己画了个简易的图大家看看。）ちなみに、GA102での2ユニットの16-way FP32 SIMTユニットへの命令発行は、1つのWarpから並列化できる命令を発行する必要はない。Warpは32スレッドであるため、16-wayのSIMTユニットでは1ステップに2サイクルかかる。そのため、2個の16-wayユニットでインターリーブして命令を発行することで、演算ユニットをフルに稼働させることができる。

1.png (89.22 KB, 下载次数: 0)

2020-9-9 21:18 上传

架构改良的RT Core
SM中4个执行块所共享的资源包含贴图单元和RT Core。这种结构是近期发布的高端GPU比较常见的构成。下图是微软的新游戏机XSX的CU构成图。XSX就是基于AMD的RDNA构架然后添加了光线追踪单元而成的。其中也是有多个指令发射单元，以及位于指令发射单元下方的计算单元组，同时贴图单元与光线追踪单位为共享资源。为了解决因为内存访问导致的延迟变化问题，这种调度分离的设计思想是共通的。

XSX的CU构成图 NVIDIA在前代图灵构架中开始添加光线追踪加速器RT Core。GA102属于第二代光线追踪GPU构架了。所谓的光线追踪技术一般是从假想的视角出发反过来推出光线路径的过程（Ray Generation）。首先通过画面上的像素点发生初始光线，然后让光线在3D空间里面往深处延伸（Traversal），并判断光线是否与3D空间中的物体是否发生了交叉碰撞（Intersection Test）。

3D空间中的物体使用基于树结构的BVH进行组织管理。首先判断是否与树中的包围盒（Bounding box）是否发生交叉，如果发生交叉，再将发生交叉的三角形找出来。

当判定发生交叉后，根据物体的不同接下来将分为生产反射光线或生成折射光线的两种情况，并启动相应的shader进行计算。同时，漫反射发生的时候会继续生成多个光线路径。多次反射的时候也是同样的。在NVIDIA的RT Core的光线追踪流程中，在BVH中延伸光线并判断是否交错的过程是由硬件执行的。在GA102中，新追加了名为Interpolate tri position的硬件单元。该单元的作用是将一般用于提升运动表现的动作模糊特效也通过硬件光线追踪单元完成。

现在的GPU不仅追加了通用计算的资源，也开始实装各种各类进行专用处理的高速专用硬件。为了提高每瓦性能，提高针对特定领域的专用硬件比率是势在必行的。所谓无论是NVIDIA，还是AMD，甚至是intel在光线追踪这块都是采用硬件单元进行支持的原因就在这里。
同样是安培，但是却大有不同的tensor core GA102同样也搭载了面向深度学习的矩阵运算单元，即tensor core。该单元自伏打架构引进，在图灵中也被采用，同时安培构架中进行了进一步的强化。不过在安培中，计算向的GA100与图形向的GA102，对tensor core的改进方向是不同的。伏打架构与图灵架构中，每个执行块配备了2个tensor core单元。Tensor core可以执行4x4矩阵与4x4矩阵的半精度浮点内积运算，该计算性能与64个半精度FMA单元相当。所以拥有两个tensor core单元等于每个执行块拥有等效的128个半精度FMA单元，而整个SM就等效于包含了512个半精度FMA单元。有趣的是，GA102构架中，各执行块中却只有一个tensor core了。目前还没有作出详细说明，但是该tensor core却可以执行8x4与4x4矩阵的半精度内积运算，等效于128个半精度FMA单元。因为只有一个tensor core的缘故，所以单个执行块仍然等效于拥有128个半精度FMA单元，SM整体还是等效512个，没有变化。

安培的tensor core构架推测图。可以进行8x4与4x4的内积运算。

volta/turing的tensor core构架。只能进行4x4矩阵之间的运算，不过一个SM拥有两个该单元。虽然等效单元数没有变化，但安培构架还是对tensor core进行了其他的改进。从现在公开的资料里面可知，新型tensor core实装了通过剪枝（Pruning）处理对稀疏神经网络的运算进行了加速。所谓的枝剪处理就是对神经网络中重要度比较低的参数进行删除（归零）的技术。该技术是在推理阶段提高性能，降低内存消耗的常用手法。NVIDIA通过硬件的方式实现了枝剪处理，可以消减1/2的数据存储与计算的消耗。因此，在稀疏化后的神经网络上进行推理的话，可以达到以往的两倍性能。

特别针对稀疏神经网络进行优化的新型tensor core

Tensor core的核心也大有不同同样是安培核心的GA100中tensor core也进行了不同方向的扩展。这边则是翻倍了tensor core中计算单元的数量：GA100的tensor core可以进行8x8矩阵与8x4矩阵之间的内积运算。GA100中在tensor core中投入了相当多的晶体管，这种设计十分重视深度学习（训练）的性能。在这一点上与图形向且注重提升向量运算的GA100是大有不同的。

GA100的tensor core构架图。可以进行8x8与8x4的矩阵内积运算。 GPU全体的cluster构成继承于前代如下图是GA102整体架构的推测构架图。GA102全体由6个GPC组成。GPC是一种包含渲染后端的组件以及图形计算核心等等功能的集合体，也可以说是一个小型GPU了。GPC中包含由几何转换为像素的光栅化单元，该单元由GPC内部的多组SM所共享。另外还有两个用于处理几何管线的固定功能单元，也是由SM所共享的。

GA102构架全体推测图
GA102核心的6个GPC中，每个GPC推测都含有14个或更多的SM单元。所以，在物理层面上包含的SM总数量为84个。这次发表的GPU中最大配置的GeForce RTX 3090的SM数量为82个，所以这6个GPC中的某一个单元实际上只有12个SM单元。为了提高良品率应用冗余设计的话，在物理层面可能有着更多被屏蔽的SM被集成在核心中。通过冗余设计，将有缺陷的SM屏蔽的话，可以确实的提高良品率。例如说图灵架构的TU102中实际装载了72个SM，但在2080TI中仅有68个SM被启用了。那些可以同时开启72个SM的SSR核心则被特别挑选出来做成TITAN RTX卖给你。

图灵的构架图

RTX 3080的构架图

RTX 2080 SUPER的构架图
如前文所述，GA102构架中每个SM所搭载的FP32 FMA单元数量为128个。因此在RTX 3090上FP32 FMA单元总数量为10496个。和图灵构架相比，不仅SM数量增加了，而且SM中的FP32 FMA单元数也翻倍了，所以FP32的性能被大幅度的增强，其中RTX 3090的峰值性能达到了36 TFLOPS。如果再算上价格的话，那么差距就更明显了。虽然GA102的3080被阉割到只有68个SM，但是因为SM架构本身的剧变，FP32单元的数量整体上却变成了8704个。和3080相同价格区间的图灵架构RTX 2080 SUPER却只有3072个单元，3080几乎是他的2.8倍。结果就是相同价格区间里面，向量性能却有着3倍的提升。

GA102派生（阉割）而来的RTX3080
采用带宽高达19Gbps的GDDR6X显存另一方面，G102的深度学习向矩阵运算性能每SM中包含了等效于512个单元的tensor core计算能力，和前代相同，所以理论性能的提升是和SM数量紧密相关的（仅指半精度计算性能）。GA102将晶体管用在了向量单元上，从而抑制了矩阵单元规模的提升。所以（在SM数量也没有大变化的情况下）tensor core的半精度性能在RTX 3090上是142T，在RTX 3080上是118T，和TITAN RTX基本上没什么太大差距。只不过GA102的tensor core添加了稀疏神经网络的硬件自动剪枝的能力。因此针对稀疏化后的神经网络而言，实际推理性能达到了2倍以上。例如RTX 3090的推理性能相当于285 T，是图灵的两倍。光线追踪性能也受益于硬件的强化，虽然数量上还是一个SM一个单元，但性能已经今非昔比了。比如3080的光追性能是34 RT TFLOPS，是2080 SUPER的34T的1.7倍。 GA102上搭载了12个内存/显存控制器。内存界面位宽仍然是384bit。支持的显存颗粒为GDDR6X，GA102是地球上第一支持的。GDDR6X是一种采用PAM4提升传输率的新型DRAM。所以在RTX 3080/RTX 3090上达到了19Gbps的传输率，比起GDDR6的15Gbps有35%的提升，内存带宽终于开始摸到1 TB/sec的大门了。

PAM-4
在RTX 3090中，12个内存界面同时启用可以达到384bit，内存带宽为912 GB/sec。只启用10个的时候内存带宽为320bit，例如RTX 3080，其内存带宽为760GB/s。而在GDDR6时代，12个内存界面同时激活也只有496GB/s的2080 super是无法匹敌的。在IO方面还实装了最新的PCIE 4.0界面。另外GPU间通讯技术NVLINK这次只有最高端的产品才有。以上，就是NVIDIA最新投入市场的图形向GPU，GeForce RTX 30系列。NVIDIA在计算向GPU A100上强化了面向深度学习的矩阵运算性能。而在GeForce RTX 30系上，却以提高图形计算性能为目的。NVIDIA现在通过不同的配置将GPU设计进行区分开来，在最大限度保留构架共通部分的前提下，再根据偏好不同设计不同的芯片。在安培这一代上，该战略显得越来越明确。

评论
日文机翻也就看看这种技术文还好，注音基本就是一种外来语，文法也还好
日常自然言语真是毁灭性的

评论
那么……在Turing之前的所有GPU（当然，NV40之后），游戏中的INT32指令是怎么执行的？

评论

fp32单元

评论
更新RT Core的内容。

评论
话说问个问题，AMD GPU的int32是靠什么单元运行的，貌似int32比int24慢很多

评论
看了下原文，他好像认为ga102是6gpc？

评论

那不就是了，，如果FP32单元本来就能执行INT32指令，那现在就是两个FP32单元，为啥还搞得不太一样，一个纯FP32和一个FP32+INT32？
或者说执行效率有差？

评论
树导你这课程越来越高深快看不懂了

评论

fp32单元在执行int32指令的时候整个管线都会停下来等待，所以现在是分割为两个部分，一个fp32单元不停歇，一个fp32/int32交替执行，这样效率就提高了

评论
话说老黄这个32个线程打包成warp的行为是不是从G80开始一直没变？

评论

这样理解的话也就是增加一组执行单元（并且需将INT32只往这里送）来保证另一组执行单元和发射单元持续满载？

评论
更新完了。内容好多，有错误可以指出。另外内容是作者推测，最终结果以白皮书为准。

评论

他说的情况应该是volta/turing之前

volta/turing引入了和fp32单元1：1的int32单元，问题是实际中int32指令量远低于fp32，造成发射单元长期闲置一半（32线程分16 fp32+16 int32）

而这代的初衷是让发射单元尽量不空载，所以把fp32：int32=1：1改成了fp32：(int32+fp32)=1：1，有int32指令的时候还是16 fp32+16 int32，没有int32指令时才是32 fp32

评论
老黄还是没忘本
游戏还是要FP32

评论
SSR核心则被特别挑选出来做成TITAN RTX卖给你

评论

反正他认为ga102是图灵的小改款。

评论
FP32：INT32的比例是一部分问题，
另一部分是Shader性能与纹理性能，几何形能，像素填充率的比例问题。

想当年G80/G92/GT200凭借超高的纹理填充率（差不多1.7倍到4.7倍）把AMD的几代卡打的满地找牙，然后强行污蔑说是因为当时VLIW的架构效率低，我们Nvidia牌标量（伪）架构效率高来体现自己的先进性。
这次怕是Nvidia要自吞苦果了。

评论

当时媒体疯狂炒作G80架构是”MIMD“
整整误导了一代人。。。。。

评论

后藤老贼再次脑壳卡

7GPC都在官方图上了他还六个哈哈

评论

官方给的rtx 3080图确实是6gpc。。。你可以看那个图右下角有nvidia的标志，是来自GeForce RTX 30-Series Tech Sessions的图。

你说的7GPC是die shot，那个迷惑性太大了，因为包含了冗余设计的部分，根本看不懂。

评论

官方3080当然是啊，因为阉割了一组，你看他MC也是320bit，这明显不是完整的核心图

但是后藤写的是GA102，而且他自己画的3080阉割图和官方图的阉割也对不上

后藤再次犯错罢了，还记得skylake吗？

评论

112rop

评论

从ga102完整版割到3080来有两种，一个是完整割掉一个gpc，一个是每个gpc再割下2组sm。

评论

你再算算。

你的说法和NV的图就对不上。

评论
确实对不上，应该是每组12，有两组只有10个 = ga100-3080。ga102−3090应该也是6gpc不是完整的，每组14，有一组12。

完整的ga102为止，按照die shot，就是7gpc。

评论

原本的CUDA CORE里头分为FP跟INT

20180525113627598.png (29.54 KB, 下载次数: 0)

2020-9-10 16:54 上传

现在分出来做了
老黄的架构图画的并不详细
用sub core来表示才能看的出来
现在的CUDA CORE的意思已经变了，以前是图上所指，现在FP32 ALU也配叫CUDA CORE。

评论

但是按照7gpc算3090感觉也很合理：12x7 - 2 = 82。ROP数量现在和gpc绑定：2x8x7=112。这样满状态应该是14x7=98组sm，有点夸张，泰坦王。如果按12x7的话，这就是史上和次旗舰区别最小的旗舰，图灵好歹差了4组sm。可能真没安培titan了。

评论

而且他那个图应该是早就画好的，rop按照新的说法应该在gpc里面了

评论
今天刚听了nv的人介绍A100，根据他说的a100能独立的切成7个虚拟GPU来看的话，GA100应该是7GPC？然后看了一眼白皮书GA102确实是7个GPC

评论
粗略看了一下，意思是说30系还有巨大潜能？等新技术推广和游戏的跟进优化？

评论

潜能是挺大的，不过跟游戏关系不大了。

评论

游戏卡肯定关注游戏，3090那种另算。

评论

A100我已经测试过了，不过只跑了计算方面的，没跑这个拆分。

评论

我觉得对于机器学习来说A100是优于RTX A6000的，但是对于高性能计算来说还是A6000更强一些，并且不知道TF32相对于FP32精确度会对模型影响有多大

评论

A100有8个gpc，但好像现在的只开放了7个

评论

是的，看到白皮书写的八个gpc但是开了7个

评论

volta到生命末期才开到84sm，而且对于普通人来说只能算纸上发布。

评论

主要还是看能否用到tensor core。

然后A100是hpc卡，要求不能挑精度。

评论

v100从头到尾都是5120sp和4块hbm。每个阶段的旗舰都切的不多，最后也没出完整版。
a100上来切了1/8的gpc和额外的sm以及一块hbm。算是大刀了。

评论

出了v100s。电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻唐田绘里香为新剧《极恶女王》剃光头展现演员决心
·日本中文新闻真子小室夫妇新居引发隐私担忧
·日本中文新闻前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校｛日本国际学校｝梅田インターナショナルスクール
·日本学校 LINE：sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活出售平成22年走行48000km 代步小车
·日本华人网络交流円相場　一時1ドル＝140円台まで上昇？
·日本华人网络交流问日本华人一个问题
·日本旅游代购富山接机
·生活百科英国转澳大利亚转换插头
·汽车【求助】修车遇到困难怎么办？

维修经验

日本电子维修技术显卡<後藤弘茂>NVIDIA全新构架GPU Geforce RTX

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 显卡&lt;後藤 弘茂&gt;NVIDIA全新构架GPU Geforce RTX

相关推荐

日本电子维修技术显卡<後藤弘茂>NVIDIA全新构架GPU Geforce RTX