日本电子维修技术显卡RTX3080/RTX3090炼丹性能堪忧

日期：2021-09-30 栏目：维修经验

RTX3080/RTX3090刚发布的时候看着那暴涨的FP32性能一阵高兴，还以为穷人的炼丹性能又可以往前迈出一大步，或许可以上个四卡跑跑大一点的模型。
结果最初的RTX3080炼丹评测来了当头一棒，
FP32的训练速度确实提升明显，大多数模型相对Titan RTX提升接近50%，
FP16的训练速度却没多少提升，甚至某些模型还下降了。
最初以为是RTX3080显存不够导致Batch Size太小没喂饱的锅，
结果不死心等到了RTX3090的测试……结果依然差不多

CNN_BENCH.png (421.45 KB, 下载次数: 0)

2020-10-18 08:55 上传

（测试链接）
按理说GA102又是FP32单元暴涨又是新一代TensorCore的，显存带宽也提高了，
结果就这点提升实在是坑爹。
而且RTX3080削减的那1GB显存多少有一点争对炼丹的味道，之前两代11GB显存使得很多实验室模型都卡着这个上限，
1GB显存对游戏来说影响大，对炼丹来说就是会不会OOM的区别。

FP32性能翻倍FP16却没有

最早的时候安培架构的白皮书只有GA100的版本，看上去各种高大上，后来NVIDIA终于更新了GA102的版本，可以对具体情况一窥究竟。
相对Turing架构，用于游戏卡的Ampera架构在宏观上改变并不大，依然是GPC-TPC-SMs的设计，每组SM（Streaming Multiprocessor）
包含128个CUDA Core和4个Tensor Core。

GA10XSM.png (164.34 KB, 下载次数: 0)

2020-10-18 09:09 上传

GA10X SM

TU10XSM.png (126.42 KB, 下载次数: 0)

2020-10-18 09:09 上传

TU10X SM
最大的变化来自SM内部，TU10X中包含两个数据路径：FP32和INT32，而到了GA10X，原先单独的INT32那一部分，同时也支持FP32。
乍一看利用率提升了很多似乎提升很大，FP32性能确实翻倍了，但是FP16却没有？
TU10X中，FP32那一部分同时支持双倍的FP16操作，可是到了GA10X中，混合的那一部分并没有这个特性。

TensorCore是阉割重点

Volta架构中引入的Tensor Core为符合特定要求下的运算带来了显著的性能提升，Turing架构首次在游戏卡上引入了Tensor Core。
Ampera架构中Tensor Core升级到了最新3.0版本，GA10X使用的是GA100的阉版，相比TU10X，每个SM拥有的TensorCore数量从8个减少到四个，
但是性能翻倍（只有GA100的一半），最终每个SM支持的FMA操作数量依然是512，另外还支持性能翻倍的稀疏矩阵FMA操作和新的数据格式：TF32、BF16。
由于Tensor Core被严重地阉割了一刀，实际上对于非稀疏矩阵的TensorCore运算性能，GA100相对TU102并没有多少提升，再加上GA102的FP16性能提升也非常有限，
最终表现符合测试结果。

GPUCMP.png (37.36 KB, 下载次数: 0)

2020-10-18 09:57 上传

性能对比……老黄真是坏啦坏啦的

评论
原来这一刀砍的是专业计算性能？

评论
不是后续也有大显存版么

评论
准备业余搞搞AI, 那就等3080S 20G了？

评论
3080跟3090就是给臭打游戏的准备的，这是好事。

评论

fp16没啥人用，关键是tf32/bf16。有人知道3080 tensor到底支不支持tf32？tf32对fp32/bf16加速比多少？

评论
FP32提升50%够了，我个人搞的研究全部都是FP32

评论

根本不是。对2080ti提升第一矿工70%提升，第二炼金50%提升，游戏提升才20%。所以游戏玩家别做梦了，等3070和a卡发力吧

评论

3090刀在专业性能上，驱动并不开放，泰坦不出只有quadro了，或者是rtx titan

评论
炼丹都要上v100，a100了吧。DGX已经是大公司必备了

评论

fp16在bert里面还是必备的。主要是没有tpu，现有的v100只能用fp16。
不行就只能A100了。

评论

买得起dgx的公司都自己搞芯片了吧，我没见有人用。p100和v100 pcie，titan和quadro偶有见到。

评论

我们(MSFT)就用，新的A100的DGX也买了，但还没用到。FB也是一堆DGX。老黄搞这个肯定是有市场的。

评论

tpu是bf16，fp16会指数溢出，要加很复杂的操作吧

评论

tpu的bf16稳定不少。fp16只能用混合精度，需要做scaling （nvidia的apex基本弄好了，无脑用），但训练的时候也容易炸掉。

评论
跑个bert试试。

评论
fp32翻倍但未必会用，所以要有人来测下首选sp和首选tensor core下的性能对比。sp和tensor core是没法并行，只能二选一。

评论

CUDA out of memory

评论

财大器粗我记得前几年还是一堆老掉牙的K40，现在直接上最新的了

评论

自从有了bert后，那些都不能用了，最低也要v100，慢慢就更新了

评论

对2080Ti游戏提升20%？

评论

3080对2080提升大概是70%,2080到2080ti有差不多35%,那么3080差不多等于126%左右的2080ti

评论

所以说 3090 不叫泰坦也是有原因的不然为啥要降价？
不光没有半专业驱动加持
这次30系得这个新CUDA绝对是个大坑点，，，

评论
前几天在折腾3090的pytorch和tensorflow环境，才发现支持30系游戏卡的CUDA11.1，两家都没正式支持，nightly版本也没支持，真正能加速30系游戏卡的cudnn更是还没有更新出来，所以等这些软件支持都做起来后再测测看如何，反正我看github上说好像目前3090就只能有2080ti的效果

评论

https://developer.nvidia.com/rdp/cudnn-download

支持从10.1到11.1都有

评论

我知道，主要是最新的cudnn8.0.4还只是对A100的训练做优化，30系游戏卡的还没加进去

评论
和楼主同样的结果，倒腾了好久终于在docker里面跑起了cuda11.1的tf1.15，发现fp32性能提升确实不错，fp16基本没提升。不过吧，自己其实很少用混合精度训练，因为盖起来比较麻烦，有时候想用迁移学习更麻烦，最后保存的模型也要转换。所以大多数时候还是fp32

评论

看了一下8.0.4，9月28号发行的，好像开始优化ga102了。
https://docs.nvidia.com/deeplear ... /rel_8.html#rel-804

看来像你说的那样，真正优化可能要等到8.1

https://docs.nvidia.com/deeplearning/cudnn/release-notes/rel_8.html#rel-804

评论

quadro不是也没有了吗？

评论

只是这个品牌暂时雪藏了，产品线还在
auto mixed precision 流行了很久了……

评论

只是换名字了吧

评论

和Tesla一样，暂时不用这个子品牌了

评论

Quadro取消后谁来接替？

评论

命名其实不重要。

quadro就是ecc + 大显存，其他配置与游戏卡类似，现在命名A系列。

tesla就是有额外双精度单元 + 特殊强化tensor core，去除图形处理和视频输出的固定单元。

tesla现在也不用在训练用GPU上了，A100已经改名为tensor core GPU，可见未来发展路线。

tesla这品牌可能还会用在推理系GPU上，推理系GPU一般是没有双精度和强化tensor core的，但会加强低精度性能。

评论

Anand的猜想和NV的回应，有些东西一样的出两遍已经不如合并了

评论

QQ截图20201018184523.jpg (237.2 KB, 下载次数: 0)

2020-10-18 18:45 上传

QQ截图20201018184436.jpg (150.39 KB, 下载次数: 0)

2020-10-18 18:45 上传

评论

TF32和FP32一样算力，两个又不能同时跑，基本没啥意义，直接拿FP32跑就行了
斜杆后面那个翻倍的数字是NV的什么稀疏化处理后才有算力，只能推理用，训练用不上好像是

评论

TF32是走Tensor Core的，再加上FP32到TF32转换的损耗，实际上性能会更低一些

评论

太惨烈了，只有bf16有2倍fp32速度，大体来讲是a100的四分之一。难怪没人测tensor，因为tensor也没比fp32跑得快。想要老黄降价，只能等the king堆fp32来打脸了

评论

GA100开始训练用GPU彻底分化了，NVENC都去掉了
之前GV100/GP100还能做普通的显卡用

评论
我就是个臭打游戏的，这部分阉割对我来说无所谓，反倒少了炼丹的土豪们扫卡，但是依然耍猴，这就不厚道了。

评论

炼丹的一般是不会和打游戏的抢显卡的
Geforce Titan X和GTX980TI，打游戏的觉得Titan X贵了接近一倍坑爹
炼丹的觉得12G显存真香
Titan RTX要是出非公OTES版本估计得被炼丹的抢光

评论

不过总的来说，3090炼丹还是比TitanRTX香。目前的问题就是各种环境没适配SM8.6，主流版本的框架只有用NGC上的镜像。。像我这种死守TF1.15+Keras的便是如此

评论

为何是TF1.15+Keras
一般来说留守老版本的大部分是为了维持slim之类的老代码
用不到24GB显存的情况下3090似乎没比3080强多少，四卡的时候还得多装个电源

评论

因为有几个老项目，懒得迁移代码了，有几个网络是用TF1写的，也有用Keras写的，大多数情况下客户只需要更新模型，数据集改改就直接训练了。。电路电子维修我现在把定影部分拆出来了。想换下滚，因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗？评论认真看，认真瞧。果然有收电路电子维修求创维42c08RD电路图评论电视的图纸很少见评论电视的图纸很少见评论创维的图纸你要说版号，不然无能为力评论板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻唐田绘里香为新剧《极恶女王》剃光头展现演员决心
·日本中文新闻真子小室夫妇新居引发隐私担忧
·日本中文新闻前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校｛日本国际学校｝梅田インターナショナルスクール
·日本学校 LINE：sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活出售平成22年走行48000km 代步小车
·日本华人网络交流円相場　一時1ドル＝140円台まで上昇？
·日本华人网络交流问日本华人一个问题
·日本旅游代购富山接机
·生活百科英国转澳大利亚转换插头
·汽车【求助】修车遇到困难怎么办？

维修经验

日本电子维修技术显卡RTX3080/RTX3090炼丹性能堪忧

CPUcpu-z 1.77版低调发布

CPU这几天经常开机黑屏，热重启后又正常

CPU超频求助！关于华擎H170和6700K

CPU液态金属会侵蚀cpu核心吗？

CPUAMD Zen处理器、AM4接口实物曝光：1331个针脚

CPUm6i究竟支不支持e3 1231v3

CPU华擎 HYPER 妖板正确玩法

CPUE5 2686 V3和i7 6800K如何选择

CPUHD530硬解4K能力还是有点弱呀！

CPU在组一个小机箱，关于i5 6600和i7 6700的选择

CPUwin10超频稳定，但是睡眠唤醒不了，pll电压di

CPU6900k 1.25V到4.2体质怎么样

CPUI3 6100 华擎B150M pro4超4.5g测试。

CPU系统稳定性测试，我发现prime95半个小时内问题

CPU7系u会兼容100系主板吗？

CPU请教各位：J3710和G1840，哪个性能稍好些？

CPU昨日遇到土豪朋友，又被吓到了，有朋友比这

CPU有心入5820k了，求教下温度问题

CPU6600&6600K才100的差价

CPU打算组双路E5 2670，大家有什么好的建议吗？

日本电子维修技术 显卡RTX3080/RTX3090炼丹性能堪忧

相关推荐

日本电子维修技术显卡RTX3080/RTX3090炼丹性能堪忧