日本电子维修技术 显卡RTX3080/RTX3090炼丹性能堪忧



RTX3080/RTX3090刚发布的时候看着那暴涨的FP32性能一阵高兴,还以为穷人的炼丹性能又可以往前迈出一大步,或许可以上个四卡跑跑大一点的模型。
结果最初的RTX3080炼丹评测来了当头一棒,
FP32的训练速度确实提升明显,大多数模型相对Titan RTX提升接近50%,
FP16的训练速度却没多少提升,甚至某些模型还下降了。
最初以为是RTX3080显存不够导致Batch Size太小没喂饱的锅,
结果不死心等到了RTX3090的测试……结果依然差不多

CNN_BENCH.png (421.45 KB, 下载次数: 0)

2020-10-18 08:55 上传


(测试链接)
按理说GA102又是FP32单元暴涨又是新一代TensorCore的,显存带宽也提高了,
结果就这点提升实在是坑爹。
而且RTX3080削减的那1GB显存多少有一点争对炼丹的味道,之前两代11GB显存使得很多实验室模型都卡着这个上限,
1GB显存对游戏来说影响大,对炼丹来说就是会不会OOM的区别。

FP32性能翻倍FP16却没有

最早的时候安培架构的白皮书只有GA100的版本,看上去各种高大上,后来NVIDIA终于更新了GA102的版本,可以对具体情况一窥究竟。
相对Turing架构,用于游戏卡的Ampera架构在宏观上改变并不大,依然是GPC-TPC-SMs的设计,每组SM(Streaming Multiprocessor)
包含128个CUDA Core和4个Tensor Core。

GA10XSM.png (164.34 KB, 下载次数: 0)

2020-10-18 09:09 上传


GA10X SM

TU10XSM.png (126.42 KB, 下载次数: 0)

2020-10-18 09:09 上传


TU10X SM
最大的变化来自SM内部,TU10X中包含两个数据路径:FP32和INT32,而到了GA10X,原先单独的INT32那一部分,同时也支持FP32。
乍一看利用率提升了很多似乎提升很大,FP32性能确实翻倍了,但是FP16却没有?
TU10X中,FP32那一部分同时支持双倍的FP16操作,可是到了GA10X中,混合的那一部分并没有这个特性。

TensorCore是阉割重点

Volta架构中引入的Tensor Core为符合特定要求下的运算带来了显著的性能提升,Turing架构首次在游戏卡上引入了Tensor Core。
Ampera架构中Tensor Core升级到了最新3.0版本,GA10X使用的是GA100的阉版,相比TU10X,每个SM拥有的TensorCore数量从8个减少到四个,
但是性能翻倍(只有GA100的一半),最终每个SM支持的FMA操作数量依然是512,另外还支持性能翻倍的稀疏矩阵FMA操作和新的数据格式:TF32、BF16。
由于Tensor Core被严重地阉割了一刀,实际上对于非稀疏矩阵的TensorCore运算性能,GA100相对TU102并没有多少提升,再加上GA102的FP16性能提升也非常有限,
最终表现符合测试结果。

GPUCMP.png (37.36 KB, 下载次数: 0)

2020-10-18 09:57 上传


性能对比……老黄真是坏啦坏啦的







评论
原来这一刀砍的是专业计算性能?

评论
不是后续也有大显存版么

评论
准备业余搞搞AI, 那就等3080S 20G了?

评论
3080跟3090就是给臭打游戏的准备的,这是好事。

评论

fp16没啥人用,关键是tf32/bf16。有人知道3080 tensor到底支不支持tf32?tf32对fp32/bf16加速比多少?

评论
FP32提升50%够了,我个人搞的研究全部都是FP32

评论


根本不是。对2080ti提升第一矿工70%提升,第二炼金50%提升,游戏提升才20%。所以游戏玩家别做梦了,等3070和a卡发力吧

评论

3090刀在专业性能上,驱动并不开放,泰坦不出只有quadro了,或者是rtx titan

评论
炼丹都要上v100,a100了吧。DGX已经是大公司必备了

评论

fp16在bert里面还是必备的。主要是没有tpu,现有的v100只能用fp16。
不行就只能A100了。

评论

买得起dgx的公司都自己搞芯片了吧,我没见有人用。p100和v100 pcie,titan和quadro偶有见到。

评论

我们(MSFT)就用,新的A100的DGX也买了,但还没用到。FB也是一堆DGX。老黄搞这个肯定是有市场的。

评论

tpu是bf16,fp16会指数溢出,要加很复杂的操作吧

评论

tpu的bf16稳定不少。fp16只能用混合精度,需要做scaling (nvidia的apex基本弄好了,无脑用),但训练的时候也容易炸掉。

评论
跑个bert试试。

评论
fp32翻倍但未必会用,所以要有人来测下首选sp和首选tensor core下的性能对比。sp和tensor core是没法并行,只能二选一。

评论

CUDA out of memory

评论

财大器粗我记得前几年还是一堆老掉牙的K40,现在直接上最新的了

评论

自从有了bert后,那些都不能用了,最低也要v100,慢慢就更新了

评论

对2080Ti游戏提升20%?

评论

3080对2080提升大概是70%,2080到2080ti有差不多35%,那么3080差不多等于126%左右的2080ti

评论

所以说  3090 不叫泰坦也是有原因的   不然为啥要降价?  
不光没有半专业驱动加持   
这次30系得  这个 新CUDA绝对是个大坑点    ,,,

评论
前几天在折腾3090的pytorch和tensorflow环境,才发现支持30系游戏卡的CUDA11.1,两家都没正式支持,nightly版本也没支持,真正能加速30系游戏卡的cudnn更是还没有更新出来,所以等这些软件支持都做起来后再测测看如何,反正我看github上说好像目前3090就只能有2080ti的效果

评论

https://developer.nvidia.com/rdp/cudnn-download

支持从10.1到11.1都有

评论

我知道,主要是最新的cudnn8.0.4还只是对A100的训练做优化,30系游戏卡的还没加进去

评论
和楼主同样的结果,倒腾了好久终于在docker里面跑起了cuda11.1的tf1.15,发现fp32性能提升确实不错,fp16基本没提升。不过吧,自己其实很少用混合精度训练,因为盖起来比较麻烦,有时候想用迁移学习更麻烦,最后保存的模型也要转换。所以大多数时候还是fp32

评论

看了一下8.0.4,9月28号发行的,好像开始优化ga102了。
https://docs.nvidia.com/deeplear ... /rel_8.html#rel-804


看来像你说的那样,真正优化可能要等到8.1

https://docs.nvidia.com/deeplearning/cudnn/release-notes/rel_8.html#rel-804


评论

quadro不是也没有了吗?

评论

只是这个品牌暂时雪藏了,产品线还在
auto mixed precision 流行了很久了……

评论

只是换名字了吧

评论

和Tesla一样,暂时不用这个子品牌了

评论

Quadro取消后谁来接替?

评论

命名其实不重要。

quadro就是ecc + 大显存,其他配置与游戏卡类似,现在命名A系列。

tesla就是有额外双精度单元 + 特殊强化tensor core,去除图形处理和视频输出的固定单元。

tesla现在也不用在训练用GPU上了,A100已经改名为tensor core GPU,可见未来发展路线。

tesla这品牌可能还会用在推理系GPU上,推理系GPU一般是没有双精度和强化tensor core的,但会加强低精度性能。

评论


Anand的猜想和NV的回应,有些东西一样的出两遍已经不如合并了

评论

QQ截图20201018184523.jpg (237.2 KB, 下载次数: 0)

2020-10-18 18:45 上传



QQ截图20201018184436.jpg (150.39 KB, 下载次数: 0)

2020-10-18 18:45 上传




评论

TF32和FP32一样算力,两个又不能同时跑,基本没啥意义,直接拿FP32跑就行了
斜杆后面那个翻倍的数字是NV的什么稀疏化处理后才有算力,只能推理用,训练用不上好像是

评论

TF32是走Tensor Core的,再加上FP32到TF32转换的损耗,实际上性能会更低一些

评论

太惨烈了,只有bf16有2倍fp32速度,大体来讲是a100的四分之一。难怪没人测tensor,因为tensor也没比fp32跑得快。想要老黄降价,只能等the king堆fp32来打脸了

评论

GA100开始训练用GPU彻底分化了,NVENC都去掉了
之前GV100/GP100还能做普通的显卡用

评论
我就是个臭打游戏的,这部分阉割对我来说无所谓,反倒少了炼丹的土豪们扫卡,但是依然耍猴,这就不厚道了。

评论

炼丹的一般是不会和打游戏的抢显卡的
Geforce Titan X和GTX980TI,打游戏的觉得Titan X贵了接近一倍坑爹
炼丹的觉得12G显存真香
Titan RTX要是出非公OTES版本估计得被炼丹的抢光

评论

不过总的来说,3090炼丹还是比TitanRTX香。目前的问题就是各种环境没适配SM8.6,主流版本的框架只有用NGC上的镜像。。像我这种死守TF1.15+Keras的便是如此

评论

为何是TF1.15+Keras
一般来说留守老版本的大部分是为了维持slim之类的老代码
用不到24GB显存的情况下3090似乎没比3080强多少,四卡的时候还得多装个电源

评论

因为有几个老项目,懒得迁移代码了,有几个网络是用TF1写的,也有用Keras写的,大多数情况下客户只需要更新模型,数据集改改就直接训练了。。 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
 ·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
 ·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?

维修经验

CPUcpu-z 1.77版低调发布

日本维修技术更新: New benchmark “submit and compare” feature New clocks dialog reporting all system’s clock speeds in real-time Preliminary support for Intel Kaby Lake AMD Bristol Ridge processors 主要是增加了支持I、A两个新架构的 ...

维修经验

CPU这几天经常开机黑屏,热重启后又正常

日本维修技术这几天经常开机黑屏,热重启后又正常,今天热重启也不管用了。折腾半天总算点亮,显示超频失败,以前出这个画面我是不理它的,直接重启就能正常进系统了,今天不敢托大,因为 ...

维修经验

CPU超频求助!关于华擎H170和6700K

日本维修技术问题见楼主的show贴 https://www.chiphell.com/thread-1634895-1-1.html 这次华擎的H170 Hyper最大的特色应该是自带时钟发生器可以自由超外频 可是楼主好久没有折腾超频了。。。 两图中除了CPU外频 以 ...

维修经验

CPU液态金属会侵蚀cpu核心吗?

日本维修技术前阵子看到有人说,液态金属时间长了会侵蚀cpu铜盖,那么问题来了,这货会不会侵蚀核心呢? 评论 这玩意儿好像只对铝起反应 评论 不是说,cpu的盖子是铜的吗。。。 评论 不会,核 ...

维修经验

CPUm6i究竟支不支持e3 1231v3

日本维修技术官网上看支持列表没写有e3 1231v3,装机帖又有人晒,百度也没个明确答案,那究竟能不能点亮?有在用的chher说一下么 评论 升级最新bios肯定可以支持 评论 我的p67evo官网上也没说支持12 ...

维修经验

CPU华擎 HYPER 妖板 正确玩法

日本维修技术600元的 B150,10相供电,释放洪荒之力 注意必须官网 Beta 区的 BIOS 有 AVX 的 CPU 可能会掉缓存 启动时按 X 键激活 SKY OC,重启后进入 BIOS 160924164727.jpg (95.63 KB, 下载次数: 1) 2016-9-24 17:47 上传 ...

维修经验

CPUE5 2686 V3和i7 6800K如何选择

日本维修技术默认用,不超频,两者功耗是一模一样的 E5 2686 V3:2.0主频,3.5睿频, 18核心36线程 ,45M L3 咸鱼大约2500~3000元 i7 6800K : 3.5主频,3.8睿频 ,6核心12线程 ,盒装3000元 评论 性能应该是26 ...

维修经验

CPUHD530硬解4K能力还是有点弱呀!

日本维修技术播放器用PotPlay 64bit,各种优化后,跑4K @120Hz视频只能到70帧左右的速度,勉强能用! 显示器用的4K的优派VP2780 未标题-1.jpg (211.97 KB, 下载次数: 0) 2016-9-26 21:29 上传 评论 这个估计你没优化 ...

维修经验

CPU6900k 1.25V到4.2体质怎么样

日本维修技术如图,体质怎么样,ring是35,没敢试了,都说ring高了毁硬件 评论 不错的U,但不算雕,上4.4就大雕了,这电压上4.5的目前没见有人发图 评论 谢谢前辈告知 评论 我这个用1.2V超的4.2,R ...

维修经验

CPUI3 6100 华擎B150M pro4超4.5g测试。

日本维修技术看看论坛没多少i3 6100的帖子,就转下自己发的show贴里面的数据,给大家参考下。家里还有当年的神U i3 540 oc 4.5G在给老妈用。 不知道数据上正常吗?有6100的朋友可以告诉下,另外是不有 ...

维修经验

CPU7系u会兼容100系主板吗?

日本维修技术RT,听说要推200系板,100系还能用吗以后。。 评论 兼容的 评论 感谢!以后换u就行了,目前消息200系板会有新的特性吗? 评论 24条PCI-E 3.0通道、支持Intel Optane混合存储技术、十个USB 3 ...

维修经验

CPU有心入5820k了,求教下温度问题

日本维修技术一直徘徊在6700k和5820k之间,6700k现在这德行直接把我推向了5820k啊,从2600k升级上来,三大件都要换,现在唯一疑惑的是IB-E ex这种顶级风冷能不能压住4.5g的5820呢?毕竟刚刚买一个多月。 ...

维修经验

CPU6600&6600K才100的差价

日本维修技术太少了吧。。。 6600.JPG (106.91 KB, 下载次数: 0) 2016-10-1 10:30 上传 评论 毕竟只是i5而已…… 评论 上z170 6600也能超,等于没区别,差价能有100已经不错了 评论 然后又见不超频人士推荐超频 ...