RTX3080/RTX3090刚发布的时候看着那暴涨的FP32性能一阵高兴,还以为穷人的炼丹性能又可以往前迈出一大步,或许可以上个四卡跑跑大一点的模型。
结果最初的RTX3080炼丹评测来了当头一棒,
FP32的训练速度确实提升明显,大多数模型相对Titan RTX提升接近50%,
FP16的训练速度却没多少提升,甚至某些模型还下降了。
最初以为是RTX3080显存不够导致Batch Size太小没喂饱的锅,
结果不死心等到了RTX3090的测试……结果依然差不多
CNN_BENCH.png (421.45 KB, 下载次数: 0)
(测试链接)
按理说GA102又是FP32单元暴涨又是新一代TensorCore的,显存带宽也提高了,
结果就这点提升实在是坑爹。
而且RTX3080削减的那1GB显存多少有一点争对炼丹的味道,之前两代11GB显存使得很多实验室模型都卡着这个上限,
1GB显存对游戏来说影响大,对炼丹来说就是会不会OOM的区别。
FP32性能翻倍FP16却没有
最早的时候安培架构的白皮书只有GA100的版本,看上去各种高大上,后来NVIDIA终于更新了GA102的版本,可以对具体情况一窥究竟。
相对Turing架构,用于游戏卡的Ampera架构在宏观上改变并不大,依然是GPC-TPC-SMs的设计,每组SM(Streaming Multiprocessor)
包含128个CUDA Core和4个Tensor Core。
GA10XSM.png (164.34 KB, 下载次数: 0)
GA10X SM
TU10XSM.png (126.42 KB, 下载次数: 0)
TU10X SM
最大的变化来自SM内部,TU10X中包含两个数据路径:FP32和INT32,而到了GA10X,原先单独的INT32那一部分,同时也支持FP32。
乍一看利用率提升了很多似乎提升很大,FP32性能确实翻倍了,但是FP16却没有?
TU10X中,FP32那一部分同时支持双倍的FP16操作,可是到了GA10X中,混合的那一部分并没有这个特性。
TensorCore是阉割重点
Volta架构中引入的Tensor Core为符合特定要求下的运算带来了显著的性能提升,Turing架构首次在游戏卡上引入了Tensor Core。
Ampera架构中Tensor Core升级到了最新3.0版本,GA10X使用的是GA100的阉版,相比TU10X,每个SM拥有的TensorCore数量从8个减少到四个,
但是性能翻倍(只有GA100的一半),最终每个SM支持的FMA操作数量依然是512,另外还支持性能翻倍的稀疏矩阵FMA操作和新的数据格式:TF32、BF16。
由于Tensor Core被严重地阉割了一刀,实际上对于非稀疏矩阵的TensorCore运算性能,GA100相对TU102并没有多少提升,再加上GA102的FP16性能提升也非常有限,
最终表现符合测试结果。
GPUCMP.png (37.36 KB, 下载次数: 0)
性能对比……老黄真是坏啦坏啦的
评论
原来这一刀砍的是专业计算性能?
评论
不是后续也有大显存版么
评论
准备业余搞搞AI, 那就等3080S 20G了?
评论
3080跟3090就是给臭打游戏的准备的,这是好事。
评论
fp16没啥人用,关键是tf32/bf16。有人知道3080 tensor到底支不支持tf32?tf32对fp32/bf16加速比多少?
评论
FP32提升50%够了,我个人搞的研究全部都是FP32
评论
根本不是。对2080ti提升第一矿工70%提升,第二炼金50%提升,游戏提升才20%。所以游戏玩家别做梦了,等3070和a卡发力吧
评论
3090刀在专业性能上,驱动并不开放,泰坦不出只有quadro了,或者是rtx titan
评论
炼丹都要上v100,a100了吧。DGX已经是大公司必备了
评论
fp16在bert里面还是必备的。主要是没有tpu,现有的v100只能用fp16。
不行就只能A100了。
评论
买得起dgx的公司都自己搞芯片了吧,我没见有人用。p100和v100 pcie,titan和quadro偶有见到。
评论
我们(MSFT)就用,新的A100的DGX也买了,但还没用到。FB也是一堆DGX。老黄搞这个肯定是有市场的。
评论
tpu是bf16,fp16会指数溢出,要加很复杂的操作吧
评论
tpu的bf16稳定不少。fp16只能用混合精度,需要做scaling (nvidia的apex基本弄好了,无脑用),但训练的时候也容易炸掉。
评论
跑个bert试试。
评论
fp32翻倍但未必会用,所以要有人来测下首选sp和首选tensor core下的性能对比。sp和tensor core是没法并行,只能二选一。
评论
CUDA out of memory
评论
财大器粗我记得前几年还是一堆老掉牙的K40,现在直接上最新的了
评论
自从有了bert后,那些都不能用了,最低也要v100,慢慢就更新了
评论
对2080Ti游戏提升20%?
评论
3080对2080提升大概是70%,2080到2080ti有差不多35%,那么3080差不多等于126%左右的2080ti
评论
所以说 3090 不叫泰坦也是有原因的 不然为啥要降价?
不光没有半专业驱动加持
这次30系得 这个 新CUDA绝对是个大坑点 ,,,
评论
前几天在折腾3090的pytorch和tensorflow环境,才发现支持30系游戏卡的CUDA11.1,两家都没正式支持,nightly版本也没支持,真正能加速30系游戏卡的cudnn更是还没有更新出来,所以等这些软件支持都做起来后再测测看如何,反正我看github上说好像目前3090就只能有2080ti的效果
评论
https://developer.nvidia.com/rdp/cudnn-download
支持从10.1到11.1都有
评论
我知道,主要是最新的cudnn8.0.4还只是对A100的训练做优化,30系游戏卡的还没加进去
评论
和楼主同样的结果,倒腾了好久终于在docker里面跑起了cuda11.1的tf1.15,发现fp32性能提升确实不错,fp16基本没提升。不过吧,自己其实很少用混合精度训练,因为盖起来比较麻烦,有时候想用迁移学习更麻烦,最后保存的模型也要转换。所以大多数时候还是fp32
评论
看了一下8.0.4,9月28号发行的,好像开始优化ga102了。
https://docs.nvidia.com/deeplear ... /rel_8.html#rel-804
看来像你说的那样,真正优化可能要等到8.1
https://docs.nvidia.com/deeplearning/cudnn/release-notes/rel_8.html#rel-804
评论
quadro不是也没有了吗?
评论
只是这个品牌暂时雪藏了,产品线还在
auto mixed precision 流行了很久了……
评论
只是换名字了吧
评论
和Tesla一样,暂时不用这个子品牌了
评论
Quadro取消后谁来接替?
评论
命名其实不重要。
quadro就是ecc + 大显存,其他配置与游戏卡类似,现在命名A系列。
tesla就是有额外双精度单元 + 特殊强化tensor core,去除图形处理和视频输出的固定单元。
tesla现在也不用在训练用GPU上了,A100已经改名为tensor core GPU,可见未来发展路线。
tesla这品牌可能还会用在推理系GPU上,推理系GPU一般是没有双精度和强化tensor core的,但会加强低精度性能。
评论
Anand的猜想和NV的回应,有些东西一样的出两遍已经不如合并了
评论
QQ截图20201018184523.jpg (237.2 KB, 下载次数: 0)
QQ截图20201018184436.jpg (150.39 KB, 下载次数: 0)
评论
TF32和FP32一样算力,两个又不能同时跑,基本没啥意义,直接拿FP32跑就行了
斜杆后面那个翻倍的数字是NV的什么稀疏化处理后才有算力,只能推理用,训练用不上好像是
评论
TF32是走Tensor Core的,再加上FP32到TF32转换的损耗,实际上性能会更低一些
评论
太惨烈了,只有bf16有2倍fp32速度,大体来讲是a100的四分之一。难怪没人测tensor,因为tensor也没比fp32跑得快。想要老黄降价,只能等the king堆fp32来打脸了
评论
GA100开始训练用GPU彻底分化了,NVENC都去掉了
之前GV100/GP100还能做普通的显卡用
评论
我就是个臭打游戏的,这部分阉割对我来说无所谓,反倒少了炼丹的土豪们扫卡,但是依然耍猴,这就不厚道了。
评论
炼丹的一般是不会和打游戏的抢显卡的
Geforce Titan X和GTX980TI,打游戏的觉得Titan X贵了接近一倍坑爹
炼丹的觉得12G显存真香
Titan RTX要是出非公OTES版本估计得被炼丹的抢光
评论
不过总的来说,3090炼丹还是比TitanRTX香。目前的问题就是各种环境没适配SM8.6,主流版本的框架只有用NGC上的镜像。。像我这种死守TF1.15+Keras的便是如此
评论
为何是TF1.15+Keras
一般来说留守老版本的大部分是为了维持slim之类的老代码
用不到24GB显存的情况下3090似乎没比3080强多少,四卡的时候还得多装个电源
评论
因为有几个老项目,懒得迁移代码了,有几个网络是用TF1写的,也有用Keras写的,大多数情况下客户只需要更新模型,数据集改改就直接训练了。。 电路 电子 维修 我现在把定影部分拆出来了。想换下滚,因为卡纸。但是我发现灯管挡住了。拆不了。不会拆。论坛里的高手拆解过吗? 评论 认真看,认真瞧。果然有收 电路 电子 维修 求创维42c08RD电路图 评论 电视的图纸很少见 评论 电视的图纸很少见 评论 创维的图纸你要说 版号,不然无能为力 评论 板号5800-p42ALM-0050 168P-P42CLM-01
·日本中文新闻 唐田绘里香为新剧《极恶女王》剃光头 展现演员决心
·日本中文新闻 真子小室夫妇新居引发隐私担忧
·日本中文新闻 前AKB48成员柏木由纪与搞笑艺人交往曝光
·日本学校 {日本国际学校}梅田インターナショナルスクール
·日本学校 LINE:sm287 陳雨菲、20歳、台湾からの留学生、東京に来たばかり
·日本留学生活 出售平成22年走行48000km 代步小车
·日本华人网络交流 円相場 一時1ドル=140円台まで上昇?
·日本华人网络交流 问日本华人一个问题
·日本旅游代购 富山接机
·生活百科 英国转澳大利亚转换插头
·汽车 【求助】修车遇到困难怎么办?